このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240607となっている論文です。

PDF登録状況(公開日: 20240607)

TitleAuthorsAbstract論文公表日・翻訳日
# 包括的AIアセスメントフレームワーク:倫理的AI統合による教育評価の強化

Comprehensive AI Assessment Framework: Enhancing Educational Evaluation with Ethical AI Integration ( http://arxiv.org/abs/2407.16887v1 )

ライセンス: Link先を確認
Selçuk Kılınç, (参考訳) 生成人工知能(GenAI)ツールの教育への統合は、教育と評価の実践のためのゲームチェンジャーであり、新たな機会をもたらすだけでなく、対処すべき新しい課題でもある。 本稿では、Perkins、Furze、Roe、MacVaughによるAIアセスメント尺度(AIAS)の進化版である包括的AIアセスメントフレームワーク(CAIAF)について述べる。 CAIAFは厳格な倫理ガイドラインを取り入れており、教育レベルに基づく明確な区別と、リアルタイムインタラクションとパーソナライズされた支援の高度なAI能力を備えている。 ここで開発されたフレームワークは非常に直感的であり、主にフレームワークのユーザフレンドリ性を高めるカラー勾配を使用する。 方法論的には、このフレームワークは、詳細な文献レビューと、そのトピックに関する実践的な洞察の巨大なサポートを通じて開発され、異なる教育環境に使用するための動的ツールとなっている。 このフレームワークは、より優れた学習成果を保証し、学術的完全性を維持し、AIの責任ある使用を促進する。

The integration of generative artificial intelligence (GenAI) tools into education has been a game-changer for teaching and assessment practices, bringing new opportunities, but also novel challenges which need to be dealt with. This paper presents the Comprehensive AI Assessment Framework (CAIAF), an evolved version of the AI Assessment Scale (AIAS) by Perkins, Furze, Roe, and MacVaugh, targeted toward the ethical integration of AI into educational assessments. This is where the CAIAF differs, as it incorporates stringent ethical guidelines, with clear distinctions based on educational levels, and advanced AI capabilities of real-time interactions and personalized assistance. The framework developed herein has a very intuitive use, mainly through the use of a color gradient that enhances the user-friendliness of the framework. Methodologically, the framework has been developed through the huge support of a thorough literature review and practical insight into the topic, becoming a dynamic tool to be used in different educational settings. The framework will ensure better learning outcomes, uphold academic integrity, and promote responsible use of AI, hence the need for this framework in modern educational practice.
翻訳日:2024-08-05 01:45:45 公開日:2024-06-07
# Jacobi Set Simplification for Tracking Topological Features in Time-Varying Scalar Fields

Jacobi Set Simplification for Tracking Topological Features in Time-Varying Scalar Fields ( http://arxiv.org/abs/2407.03348v1 )

ライセンス: Link先を確認
Dhruv Meduri, Mohit Sharma, Vijay Natarajan, (参考訳) 双変数スカラー場のヤコビ集合は、2つの成分スカラー場の勾配が互いに整合する点の集合である。 二変量体におけるトポロジカルな変化の領域を捉えている。 ヤコビ集合は臨界点の2変数の類似であり、興味のある特徴に対応することができる。 時間変化体とスカラー場の1つが時間である場合、ジャコビ集合は臨界点の時間トラックに対応し、特徴追跡グラフとして機能する。 双変数体や時変スカラー場のヤコビ集合は複雑であり、解析しにくい散らばった視覚化をもたらす。 本稿ではジャコビ集合単純化の問題に対処する。 具体的には、時間変化スカラーフィールドのシナリオを用いて、削減されたヤコビ集合を計算する方法を導入する。 この手法は、もともとベクトル場のために開発されたロバストネスと呼ばれる安定性尺度に基づいており、臨界点の構造安定性を捉えるのに役立つ。 また、本手法の数学的解析を行い、2次元時間変動スカラー場の実装について述べる。 合成データセットと実世界のデータセットの両方への応用は、特徴追跡のための手法の有効性を実証する。

The Jacobi set of a bivariate scalar field is the set of points where the gradients of the two constituent scalar fields align with each other. It captures the regions of topological changes in the bivariate field. The Jacobi set is a bivariate analog of critical points, and may correspond to features of interest. In the specific case of time-varying fields and when one of the scalar fields is time, the Jacobi set corresponds to temporal tracks of critical points, and serves as a feature-tracking graph. The Jacobi set of a bivariate field or a time-varying scalar field is complex, resulting in cluttered visualizations that are difficult to analyze. This paper addresses the problem of Jacobi set simplification. Specifically, we use the time-varying scalar field scenario to introduce a method that computes a reduced Jacobi set. The method is based on a stability measure called robustness that was originally developed for vector fields and helps capture the structural stability of critical points. We also present a mathematical analysis for the method, and describe an implementation for 2D time-varying scalar fields. Applications to both synthetic and real-world datasets demonstrate the effectiveness of the method for tracking features.
翻訳日:2024-07-22 22:09:04 公開日:2024-06-07
# クラス不均衡画像分割のための輪郭重み付き損失

Contour-weighted loss for class-imbalanced image segmentation ( http://arxiv.org/abs/2407.06176v1 )

ライセンス: Link先を確認
Zhhengyong Huang, Yao Sui, (参考訳) 画像のセグメンテーションは、ほとんど全ての医療画像解析において、自動解釈と処理において極めて重要である。 しかし、クラス内とクラス間のデータ不均衡のため、画像のセグメンテーションを実行することはしばしば困難であり、結果としてオーバーセグメンテーションやアンダーセグメンテーションが発生する。 そこで本稿では,コンパクトで効果的な輪郭重み付き損失関数を用いた新しい手法を提案する。 新たな損失関数には,輪郭重み付きクロスエントロピー損失と分離可能なサイコロ損失が組み込まれている。 前者の損失は、形態的侵食により対象領域の輪郭を抽出し、クロスエントロピー基準のための重みマップを生成する一方、後者は、抽出された輪郭マップを介して対象領域を輪郭成分と非輪郭成分に分割し、個別にダイス損失を計算し、それらを結合してネットワークを更新する。 腹部臓器の分節と脳腫瘍の分節を2つの公開データセットで行った。 実験の結果,提案手法はいくつかの最先端手法と比較して,より優れたセグメンテーションを実現する一方で,新たなロス関数により,これらの人気深層モデルのロバスト性を並列に改善することを示した。 コードはhttps://github.com/huangzyong/Contour-weighted-Loss-Segで公開されている。

Image segmentation is critically important in almost all medical image analysis for automatic interpretations and processing. However, it is often challenging to perform image segmentation due to data imbalance between intra- and inter-class, resulting in over- or under-segmentation. Consequently, we proposed a new methodology to address the above issue, with a compact yet effective contour-weighted loss function. Our new loss function incorporates a contour-weighted cross-entropy loss and separable dice loss. The former loss extracts the contour of target regions via morphological erosion and generates a weight map for the cross-entropy criterion, whereas the latter divides the target regions into contour and non-contour components through the extracted contour map, calculates dice loss separately, and combines them to update the network. We carried out abdominal organ segmentation and brain tumor segmentation on two public datasets to assess our approach. Experimental results demonstrated that our approach offered superior segmentation, as compared to several state-of-the-art methods, while in parallel improving the robustness of those popular state-of-the-art deep models through our new loss function. The code is available at https://github.com/huangzyong/Contour-weighted-Loss-Seg.
翻訳日:2024-07-22 14:07:46 公開日:2024-06-07
# 大規模テレメトリデータを用いたシステム故障検出のためのアンサンブル法

Ensemble Method for System Failure Detection Using Large-Scale Telemetry Data ( http://arxiv.org/abs/2407.00048v1 )

ライセンス: Link先を確認
Priyanka Mudgal, Rita H. Wouhaybi, (参考訳) コンピュータシステム、特にパーソナルコンピュータ(PC)への依存度が高まっているため、ユーザの満足度を維持するために信頼性を高める必要がある。 本研究では,システム故障検出のためのアンサンブル手法を提案する。 提案手法では,CPU利用,メモリ利用,ディスク活動,CPU温度,システム年齢,使用パターン,コア数,プロセッサタイプといった関連するシステムメタデータを含む,システムメトリクスのさまざまなパラメータを精査する。 提案手法は,Long Short-Term Memory(LSTM)ネットワーク,分離林,一級サポートベクターマシン(OCSVM),局所異常要因(LOF)など,多様なアルゴリズムを統合し,システム障害を効果的に識別する。 具体的には、他の機械学習技術を備えたLSTMネットワークは、通常のシステムパターンと失敗したシステムパターンを区別するために、Intel Computing Improvement Program (ICIP)テレメトリソフトウェアデータに基づいて訓練される。 実験により,本モデルの顕著な有効性を示し,システム障害の同定に顕著な検出率を達成した。 本研究は,システムの信頼性向上に寄与し,コンピューティング環境におけるユーザエクスペリエンス向上のための実践的な洞察を提供する。

The growing reliance on computer systems, particularly personal computers (PCs), necessitates heightened reliability to uphold user satisfaction. This research paper presents an in-depth analysis of extensive system telemetry data, proposing an ensemble methodology for detecting system failures. Our approach entails scrutinizing various parameters of system metrics, encompassing CPU utilization, memory utilization, disk activity, CPU temperature, and pertinent system metadata such as system age, usage patterns, core count, and processor type. The proposed ensemble technique integrates a diverse set of algorithms, including Long Short-Term Memory (LSTM) networks, isolation forests, one-class support vector machines (OCSVM), and local outlier factors (LOF), to effectively discern system failures. Specifically, the LSTM network with other machine learning techniques is trained on Intel Computing Improvement Program (ICIP) telemetry software data to distinguish between normal and failed system patterns. Experimental evaluations demonstrate the remarkable efficacy of our models, achieving a notable detection rate in identifying system failures. Our research contributes to advancing the field of system reliability and offers practical insights for enhancing user experience in computing environments.
翻訳日:2024-07-07 13:43:41 公開日:2024-06-07
# L-SFAN:痛み行動検出のための軽量空間集中型注意ネットワーク

L-SFAN: Lightweight Spatially-focused Attention Network for Pain Behavior Detection ( http://arxiv.org/abs/2406.16913v1 )

ライセンス: Link先を確認
Jorge Ortigoso-Narro, Fernando Diaz-de-Maria, Mohammad Mahdi Dehshibi, Ana Tajadura-Jiménez, (参考訳) 慢性的な腰痛 (CLBP) は世界中の何百万もの患者を悩ませており、個人の健康や医療システムに対する経済的負担に大きな影響を及ぼす。 人工知能(AI)とディープラーニングは、リハビリ戦略を改善するために痛みに関連する行動を分析するための有望な道を提供するが、畳み込みニューラルネットワーク(CNN)やリカレントニューラルネットワーク、グラフベースのニューラルネットワークなど、現在のモデルには制限がある。 これらのアプローチはしばしば、時間次元に特異に集中するか、多変量時系列データ内の空間的相互関係を利用するために複雑なアーキテクチャを必要とする。 これらの制約に対処するために,モーションキャプチャと表面筋電図センサからデータを空間的・時間的に捉える2Dフィルタを組み込んだ軽量CNNアーキテクチャである \hbox{L-SFAN} を導入する。 提案手法は,指向性大域プール層と多頭部自己保持機構によって拡張され,CLBPをよりよく理解し,競合する分類精度を実現するために重要な特徴を優先する。 EmoPainデータベース上での実験結果から,本手法はパラメータが著しく少ない性能指標を向上するだけでなく,モデル解釈可能性も向上し,臨床医がCLBPの管理に有用であることを示す。 この進歩は、CLBPのような慢性疾患の医療実践を変革するAIの可能性を強調し、複雑なバイオメディカルデータの微妙な分析のための洗練されたフレームワークを提供する。

Chronic Low Back Pain (CLBP) afflicts millions globally, significantly impacting individuals' well-being and imposing economic burdens on healthcare systems. While artificial intelligence (AI) and deep learning offer promising avenues for analyzing pain-related behaviors to improve rehabilitation strategies, current models, including convolutional neural networks (CNNs), recurrent neural networks, and graph-based neural networks, have limitations. These approaches often focus singularly on the temporal dimension or require complex architectures to exploit spatial interrelationships within multivariate time series data. To address these limitations, we introduce \hbox{L-SFAN}, a lightweight CNN architecture incorporating 2D filters designed to meticulously capture the spatial-temporal interplay of data from motion capture and surface electromyography sensors. Our proposed model, enhanced with an oriented global pooling layer and multi-head self-attention mechanism, prioritizes critical features to better understand CLBP and achieves competitive classification accuracy. Experimental results on the EmoPain database demonstrate that our approach not only enhances performance metrics with significantly fewer parameters but also promotes model interpretability, offering valuable insights for clinicians in managing CLBP. This advancement underscores the potential of AI in transforming healthcare practices for chronic conditions like CLBP, providing a sophisticated framework for the nuanced analysis of complex biomedical data.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-07
# アンロックテレメトリの可能性:連続心電図モニタリングのための自己監督型学習

Unlocking Telemetry Potential: Self-Supervised Learning for Continuous Clinical Electrocardiogram Monitoring ( http://arxiv.org/abs/2406.16915v1 )

ライセンス: Link先を確認
Thomas Kite, Uzair Tahamid Siam, Brian Ayers, Nicholas Houstis, Aaron D Aguirre, (参考訳) 集中治療室(ICU)内での定期的な患者のモニタリングに機械学習(ML)を適用すると、臨床医に患者の健康や介入に対する期待された反応に対する新たな洞察を提供することで、ケアを改善する可能性がある。 本論文は, 病院における連続的患者モニタリングに広く用いられている未ラベル心電図(ECG)テレメトリ信号の多量化に深層学習を適用した。 我々は,約147,000時間の心電図テレメトリデータに基づいて,深層ネットワークのスペクトルを事前学習するために,自己教師学習を適用した。 提案手法では,このデータセットを用いて,ラベル付きデータを用いた直接教師付き学習と比較して,4つの異なる下流タスクのパフォーマンスを著しく向上させるモデルを訓練する。 これらの事前訓練されたモデルは、ラベルの不足によって制限される小さな患者コホートにおいて、医学的に有用な予測と推定を可能にする。 特に、トレーニング済みのネットワークが連続的にECGテレメトリ信号をアノテートできることを示し、専門的な専門知識や時間を要する専門的アノテーションが要求されるため、しばしば利用できないモニタリング機能を提供する。

Machine learning (ML) applied to routine patient monitoring within intensive care units (ICUs) has the potential to improve care by providing clinicians with novel insights into each patient's health and expected response to interventions. This paper applies deep learning to a large volume of unlabeled electrocardiogram (ECG) telemetry signals, which are commonly used for continuous patient monitoring in hospitals but have important differences from the standard, single time-point 12-lead ECG used in many prior machine learning studies. We applied self-supervised learning to pretrain a spectrum of deep networks on approximately 147,000 hours of ECG telemetry data. Our approach leverages this dataset to train models that significantly improve performance on four distinct downstream tasks compared with direct supervised learning using labeled data. These pretrained models enable medically useful predictions and estimates in smaller patient cohorts that are typically limited by the scarcity of labels. Notably, we demonstrate that our pretrained networks can continuously annotate ECG telemetry signals, thereby providing monitoring capabilities that are often unavailable due to the requirement for specialized expertise and time-consuming professional annotations.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-07
# 拡散におけるバリアリング多様体:時変測地から視覚塩分率へ

Varying Manifolds in Diffusion: From Time-varying Geometries to Visual Saliency ( http://arxiv.org/abs/2406.18588v1 )

ライセンス: Link先を確認
Junhao Chen, Manyi Li, Zherong Pan, Xifeng Gao, Changhe Tu, (参考訳) 深部生成モデルは低次元多様体に集中したデータ分布を学習する。 分布変換の幾何学的解析は、データ構造をよりよく理解し、様々な応用を可能にする。 本稿では,前方拡散過程と逆生成過程が時間とともに変化する多様体上の一連の分布を構成する拡散モデルの幾何学的性質について検討する。 我々の重要な貢献は生成率の導入であり、これは画像成分の周りの時間とともに多様体の局所的な変形に対応する。 生成速度は画像成分の視覚的明瞭度などの直感的な視覚特性と高い相関性を示す。 さらに,画像成分の生成速度を時間とともに推定し,生成曲線を導出する,効率的かつ微分可能な手法を提案する。 このスキームの微分可能な性質により、最適化により生成曲線の形状を制御できる。 我々の生成曲線マッチングアルゴリズムは、異なる損失関数を用いて、セマンティックトランスファー、オブジェクト削除、サリエンシ操作、画像ブレンディングなどを含む、さまざまな画像操作タスクのための統一されたフレームワークを提供する。 本研究は,本研究の成果を支える総合的な分析評価を行い,様々な操作課題における枠組みの評価を行う。 その結果,本手法は最近のベースラインに比べて操作性の向上につながることがわかった。

Deep generative models learn the data distribution, which is concentrated on a low-dimensional manifold. The geometric analysis of distribution transformation provides a better understanding of data structure and enables a variety of applications. In this paper, we study the geometric properties of the diffusion model, whose forward diffusion process and reverse generation process construct a series of distributions on manifolds which vary over time. Our key contribution is the introduction of generation rate, which corresponds to the local deformation of manifold over time around an image component. We show that the generation rate is highly correlated with intuitive visual properties, such as visual saliency, of the image component. Further, we propose an efficient and differentiable scheme to estimate the generation rate for a given image component over time, giving rise to a generation curve. The differentiable nature of our scheme allows us to control the shape of the generation curve via optimization. Using different loss functions, our generation curve matching algorithm provides a unified framework for a range of image manipulation tasks, including semantic transfer, object removal, saliency manipulation, image blending, etc. We conduct comprehensive analytical evaluations to support our findings and evaluate our framework on various manipulation tasks. The results show that our method consistently leads to better manipulation results, compared to recent baselines.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-07
# テキストガイドによる代替画像クラスタリング

Text-Guided Alternative Image Clustering ( http://arxiv.org/abs/2406.18589v1 )

ライセンス: Link先を確認
Andreas Stephan, Lukas Miklautz, Collin Leiber, Pedro Henrique Luz de Araujo, Dominik Répás, Claudia Plant, Benjamin Roth, (参考訳) 従来の画像クラスタリング技術は、視覚データの中で単一のグループ化しか見つからない。 特に、複数のタイプのクラスタリングを明示的に定義する可能性は提供されていない。 この研究は、代替画像クラスタリングを容易にするために、大きな視覚言語モデルの可能性を探るものである。 我々は,多様なクラスタリングの発見を導くためのプロンプトを通じて,ユーザ指定の興味を生かした,テキストガイド型代替イメージコンセンサスクラスタリング(TGAICC)を提案する。 これを実現するために、各プロンプトのクラスタリングを生成し、階層的なクラスタリングを使用してグループ化し、コンセンサスクラスタリングを使用してそれらを集約する。 TGAICCは、4つの代替イメージクラスタリングベンチマークデータセットで画像とテキストベースのベースラインを上回っている。 さらに、カウントベースの単語統計を用いて、代替クラスタリングのテキストベースの説明を得ることができる。 結論として,現代の大規模視覚言語モデルが説明的データ分析を変換し,洞察に富んだ,カスタマイズ可能な,多様な画像クラスタリングの生成を可能にする方法について述べる。

Traditional image clustering techniques only find a single grouping within visual data. In particular, they do not provide a possibility to explicitly define multiple types of clustering. This work explores the potential of large vision-language models to facilitate alternative image clustering. We propose Text-Guided Alternative Image Consensus Clustering (TGAICC), a novel approach that leverages user-specified interests via prompts to guide the discovery of diverse clusterings. To achieve this, it generates a clustering for each prompt, groups them using hierarchical clustering, and then aggregates them using consensus clustering. TGAICC outperforms image- and text-based baselines on four alternative image clustering benchmark datasets. Furthermore, using count-based word statistics, we are able to obtain text-based explanations of the alternative clusterings. In conclusion, our research illustrates how contemporary large vision-language models can transform explanatory data analysis, enabling the generation of insightful, customizable, and diverse image clusterings.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-07
# セグメンテーションと深さモデルによる構成視覚言語理解

Composition Vision-Language Understanding via Segment and Depth Anything Model ( http://arxiv.org/abs/2406.18591v1 )

ライセンス: Link先を確認
Mingxiao Huo, Pengliang Ji, Haotian Lin, Junchen Liu, Yixiao Wang, Yijun Chen, (参考訳) 言語ビジョンモデルゼロショット理解における神経理解を増強するために、奥行きを生かし、あらゆるモデルをセグメント化する、先駆的な統一ライブラリを導入する。 このライブラリは、DAM(Depth Anything Model)、SAM(Segment Anything Model)、GPT-4V(GPT-4V)の機能を相乗化し、視覚質問応答(VQA)や合成推論などのマルチモーダルタスクを強化する。 シンボリック・インスタンスレベルでのセグメンテーションと深度解析の融合により、我々のライブラリは言語モデルに対するニュアンスな入力を提供し、画像解釈を大幅に進歩させる。 この結果から, 視覚言語モデルにおけるニューラル・シンボリック・インテグレーションの進歩が示唆された。 このアプローチは、前例のない方法で視覚と言語の分析を融合させる。 我々のライブラリは、先進的なマルチモーダル技術を通じて現実世界の複雑さを復号化することを目的とした将来の研究の新たな方向性をオープンしており、コードは現在、 \url{https://github.com/AnthonyHuo/SAM-DAM-for-Compositional-Reasoning} で公開されている。

We introduce a pioneering unified library that leverages depth anything, segment anything models to augment neural comprehension in language-vision model zero-shot understanding. This library synergizes the capabilities of the Depth Anything Model (DAM), Segment Anything Model (SAM), and GPT-4V, enhancing multimodal tasks such as vision-question-answering (VQA) and composition reasoning. Through the fusion of segmentation and depth analysis at the symbolic instance level, our library provides nuanced inputs for language models, significantly advancing image interpretation. Validated across a spectrum of in-the-wild real-world images, our findings showcase progress in vision-language models through neural-symbolic integration. This novel approach melds visual and language analysis in an unprecedented manner. Overall, our library opens new directions for future research aimed at decoding the complexities of the real world through advanced multimodal technologies and our code is available at \url{https://github.com/AnthonyHuo/SAM-DAM-for-Compositional-Reasoning}.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-07
# Kibble-Zurekのメカニズムとその先:ホログラフィック超流動ディスクからの教訓

Kibble-Zurek Mechanism and Beyond: Lessons from a Holographic Superfluid Disk ( http://arxiv.org/abs/2406.09433v1 )

ライセンス: Link先を確認
Chuan-Yin Xia, Hua-Bi Zeng, András Grabarits, Adolfo del Campo, (参考訳) 超流動相転移ダイナミクスとディスク幾何学における臨界温度の交差に伴う自発渦形成は、アインシュタイン・アベリア・ヒッグス模型を$AdS_4$ブラックホールで解くことにより、$AdS/CFT$対応の枠組みで研究される。 遅いクエンチでは、渦密度はキブル・ズレック機構(KZM)によって予測される冷却速度の普遍的なスケーリング則を認め、高速クエンチでは、KZM予測を超える最終温度の関数として普遍的なスケーリング挙動を示す。 パワーローと飽和状態の両方における渦数分布は、正規分布によって近似することができる。 しかし、累積体の普遍的スケーリングの研究は、非正規の特徴を明らかにし、新生超流体の渦統計は、以前にKZM体制で予測されたポアソン二項分布(Phys. Rev. Lett. 124, 240602 (2020)))によって最もよく説明されることを示す。 これは、クエンチ時間とクエンチ深さの関数として累積スケーリングを研究することによって確認される。 我々の研究は、KZMスケーリングに対応する普遍的欠陥数分布の存在、高速クエンチでの分解、および制御パラメータの最終値の関数として追加の普遍的スケーリング法則の存在を支持する。

The superfluid phase transition dynamics and associated spontaneous vortex formation with the crossing of the critical temperature in a disk geometry is studied in the framework of the $AdS/CFT$ correspondence by solving the Einstein-Abelian-Higgs model in an $AdS_4$ black hole. For a slow quench, the vortex density admits a universal scaling law with the cooling rate as predicted by the Kibble-Zurek mechanism (KZM), while for fast quenches, the density shows a universal scaling behavior as a function of the final temperature, that lies beyond the KZM prediction. The vortex number distribution in both the power-law and saturation regimes can be approximated by a normal distribution. However, the study of the universal scaling of the cumulants reveals non-normal features and indicates that vortex statistics in the newborn superfluid is best described by the Poisson binomial distribution, previously predicted in the KZM regime [Phys. Rev. Lett. 124, 240602 (2020)]. This is confirmed by studying the cumulant scalings as a function of the quench time and the quench depth. Our work supports the existence of a universal defect number distribution that accommodates the KZM scaling, its breakdown at fast quenches, and the additional universal scaling laws as a function of the final value of the control parameter.
翻訳日:2024-06-23 13:45:35 公開日:2024-06-07
# eラーニングにおける学習経路推薦システムの概念化と概要

On conceptualisation and an overview of learning path recommender systems in e-learning ( http://arxiv.org/abs/2406.10245v1 )

ライセンス: Link先を確認
A. Fuster-López, J. M. Cruz, P. Guerrero-García, E. M. T. Hendrix, A. Košir, I. Nowak, L. Oneto, S. Sirmakessis, M. F. Pacheco, F. P. Fernandes, A. I. Pereira, (参考訳) eラーニングシステムの利用には長い伝統があり、学生はシステムの助けを借りてオンラインで学習することができる。 この文脈では、リコメンダシステムの使用は比較的新しい。 本研究では,レコメンデーションシステムの構築方法について検討した。 彼らはすべて、学生の学習と理解を促進することを目的としています。 学習経路とその学習指標の共通概念を提示し、この文脈に5つの異なる推奨事項を埋め込む。

The use of e-learning systems has a long tradition, where students can study online helped by a system. In this context, the use of recommender systems is relatively new. In our research project, we investigated various ways to create a recommender system. They all aim at facilitating the learning and understanding of a student. We present a common concept of the learning path and its learning indicators and embed 5 different recommenders in this context.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-07
# セマンティック強化されたリレーショナルメトリックラーニングによるレコメンダシステム

Semantic-Enhanced Relational Metric Learning for Recommender Systems ( http://arxiv.org/abs/2406.10246v1 )

ライセンス: Link先を確認
Mingming Li, Fuqing Zhu, Feng Yuan, Songlin Hu, (参考訳) 近年,知識グラフの翻訳機構に触発されたリレーショナルメトリック学習手法が,推薦コミュニティで注目されている。 前もってエンティティとエンティティの関係が与えられる知識グラフとは異なり、歴史的相互作用はレコメンデーションシステムにおけるユーザとアイテム間の明確な関係を欠いている。 現在、多くの研究者がこの問題を省くために暗黙の関係を構築することに成功している。 しかし、従来の研究では、帰納関数の学習プロセスは、教師付き方法で単一のデータソース(すなわち、ユーザとイテムの相互作用)にのみ依存しており、結果として、どんな意味情報も含まない共起関係となる。 本稿では,この課題をレコメンデータシステムで解決するために,意味情報を組み込んだSERML(Semantic-Enhanced Relational Metric Learning)フレームワークを提案する。 具体的には、まず、豊富な項目の特徴とパーソナライズされたユーザの好みを含む対象レビューから意味信号を抽出する。 次に、抽出した意味信号を利用して、新しい回帰モデルを設計し、元の関係に基づくトレーニングプロセスの識別能力を向上させる。 広く使われている4つの公開データセットにおいて、SERMLはレコメンデータシステムにおけるいくつかの最先端手法と比較して、競争力のある性能を示す実験結果が得られた。

Recently, relational metric learning methods have been received great attention in recommendation community, which is inspired by the translation mechanism in knowledge graph. Different from the knowledge graph where the entity-to-entity relations are given in advance, historical interactions lack explicit relations between users and items in recommender systems. Currently, many researchers have succeeded in constructing the implicit relations to remit this issue. However, in previous work, the learning process of the induction function only depends on a single source of data (i.e., user-item interaction) in a supervised manner, resulting in the co-occurrence relation that is free of any semantic information. In this paper, to tackle the above problem in recommender systems, we propose a joint Semantic-Enhanced Relational Metric Learning (SERML) framework that incorporates the semantic information. Specifically, the semantic signal is first extracted from the target reviews containing abundant item features and personalized user preferences. A novel regression model is then designed via leveraging the extracted semantic signal to improve the discriminative ability of original relation-based training process. On four widely-used public datasets, experimental results demonstrate that SERML produces a competitive performance compared with several state-of-the-art methods in recommender systems.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-07
# ChatPCG: 手続き型コンテンツ生成のための大規模言語モデル駆動リワード設計

ChatPCG: Large Language Model-Driven Reward Design for Procedural Content Generation ( http://arxiv.org/abs/2406.11875v1 )

ライセンス: Link先を確認
In-Chang Baek, Tae-Hwa Park, Jin-Ha Noh, Cheong-Mok Bae, Kyung-Joong Kim, (参考訳) 機械学習の急速な成長によって、近年のゲーム人工知能(AI)の進歩は、様々なゲームジャンルの生産性に大きな影響を与えている。 リワードデザインは、研究者が特定の報酬関数の概念を実装するゲームAIモデルのトレーニングにおいて重要な役割を果たす。 しかし、AIの存在にもかかわらず、報酬設計プロセスは、主に人間の専門家の領域に留まり、創造性とエンジニアリングスキルに大きく依存している。 そこで本稿では,大規模言語モデル(LLM)による報酬設計フレームワークであるChatPCGを提案する。 さらに、ChatPCGは深層強化学習と統合されており、マルチプレイヤーゲームコンテンツ生成タスクの可能性を示している。 提案手法は,ゲームメカニクスとコンテンツ生成タスクの理解能力を示し,特定のゲームに適したコンテンツ生成を可能にすることを示唆している。 この研究は、コンテンツ生成におけるアクセシビリティ向上の可能性だけでなく、ゲームAI開発プロセスの合理化も目指している。

Driven by the rapid growth of machine learning, recent advances in game artificial intelligence (AI) have significantly impacted productivity across various gaming genres. Reward design plays a pivotal role in training game AI models, wherein researchers implement concepts of specific reward functions. However, despite the presence of AI, the reward design process predominantly remains in the domain of human experts, as it is heavily reliant on their creativity and engineering skills. Therefore, this paper proposes ChatPCG, a large language model (LLM)-driven reward design framework.It leverages human-level insights, coupled with game expertise, to generate rewards tailored to specific game features automatically. Moreover, ChatPCG is integrated with deep reinforcement learning, demonstrating its potential for multiplayer game content generation tasks. The results suggest that the proposed LLM exhibits the capability to comprehend game mechanics and content generation tasks, enabling tailored content generation for a specified game. This study not only highlights the potential for improving accessibility in content generation but also aims to streamline the game AI development process.
翻訳日:2024-06-23 13:24:48 公開日:2024-06-07
# グラフベース推論可能な知識トレースによる学習過程の理解のための教育理論の活用

Leveraging Pedagogical Theories to Understand Student Learning Process with Graph-based Reasonable Knowledge Tracing ( http://arxiv.org/abs/2406.12896v1 )

ライセンス: Link先を確認
Jiajun Cui, Hong Qian, Bo Jiang, Wei Zhang, (参考訳) 知識追跡(KT)は知的教育において重要な課題であり、生徒が与えられた質問に対するパフォーマンスを予測し、進化する知識を辿ることに焦点を当てている。 この分野でのディープラーニングの進歩は、高い予測精度を優先するディープラーニング知識追跡(DLKT)モデルにつながった。 しかし、既存のDLKTメソッドの多くは、学生のダイナミックな知識習得を追跡するという基本的な目標を見落としている。 これらのモデルは、知識の熟達トレースプロセスを明示的にモデル化したり、教育者が実際の教育シナリオで理解し、適用することの難しさを判断する不合理な結果を与えたりしない。 これに対し,本研究では,このような不合理さを強調説明するために,主流KTアプローチの予備分析を行った。 本稿では,これらの問題に対処するためのグラフベースの合理的知識追跡手法GRKTを紹介する。 グラフニューラルネットワークを活用することで、我々のアプローチは知識概念の相互影響を深く理解し、学習過程を通して知識の熟達がどのように進化するかをより正確に表現する。 さらに,より合理的な知識追跡プロセスを実現するために,知識検索,記憶強化,知識学習・鍛造の3段階モデリングプロセスを提案する。 総合的な実験によると、GRKTは3つのデータセットで11のベースラインを上回り、予測精度を向上するだけでなく、より合理的な知識追跡結果を生成する。 これにより、我々のモデルは、教育環境における実践的な実装のための有望な進歩をもたらす。 ソースコードはhttps://github.com/JJCui96/GRKTで入手できる。

Knowledge tracing (KT) is a crucial task in intelligent education, focusing on predicting students' performance on given questions to trace their evolving knowledge. The advancement of deep learning in this field has led to deep-learning knowledge tracing (DLKT) models that prioritize high predictive accuracy. However, many existing DLKT methods overlook the fundamental goal of tracking students' dynamical knowledge mastery. These models do not explicitly model knowledge mastery tracing processes or yield unreasonable results that educators find difficulty to comprehend and apply in real teaching scenarios. In response, our research conducts a preliminary analysis of mainstream KT approaches to highlight and explain such unreasonableness. We introduce GRKT, a graph-based reasonable knowledge tracing method to address these issues. By leveraging graph neural networks, our approach delves into the mutual influences of knowledge concepts, offering a more accurate representation of how the knowledge mastery evolves throughout the learning process. Additionally, we propose a fine-grained and psychological three-stage modeling process as knowledge retrieval, memory strengthening, and knowledge learning/forgetting, to conduct a more reasonable knowledge tracing process. Comprehensive experiments demonstrate that GRKT outperforms eleven baselines across three datasets, not only enhancing predictive accuracy but also generating more reasonable knowledge tracing results. This makes our model a promising advancement for practical implementation in educational settings. The source code is available at https://github.com/JJCui96/GRKT.
翻訳日:2024-06-23 13:24:48 公開日:2024-06-07
# 病理組織学的乳がん診断の進歩 : マルチモダリティと説明可能性に着目して

Advancing Histopathology-Based Breast Cancer Diagnosis: Insights into Multi-Modality and Explainability ( http://arxiv.org/abs/2406.12897v1 )

ライセンス: Link先を確認
Faseela Abdullakutty, Younes Akbari, Somaya Al-Maadeed, Ahmed Bouridane, Rifat Hamoudi, (参考訳) 乳癌は、患者の予後を改善するために、正確に、かつ、タイムリーに検出されることが必須である。 診断手法は伝統的に一過性のアプローチに依存してきたが、医療データ分析は従来のイメージング以上の多様なデータソースを統合している。 マルチモーダル技術を用いて、画像データと非画像データを統合することで、乳癌の診断における変革的な進歩を示す。 本研究の目的は, マルチモーダル技術, 特に病理像と非画像データとの融合の急成長分野を探ることである。 さらに、説明可能なAI(XAI)を使用して、複雑なアルゴリズムの意思決定プロセスを解明し、診断プロセスにおける説明可能性の必要性を強調する。 本稿では, マルチモーダルデータを用いて診断精度, 臨床医の信頼性, 患者のエンゲージメントを高めるための説明可能性を強調し, 最終的には乳がんに対するよりパーソナライズされた治療戦略を育成するとともに, マルチモーダルと説明可能性における研究ギャップを特定し, 今後の研究を導くとともに, 分野の戦略的方向性に寄与する。

It is imperative that breast cancer is detected precisely and timely to improve patient outcomes. Diagnostic methodologies have traditionally relied on unimodal approaches; however, medical data analytics is integrating diverse data sources beyond conventional imaging. Using multi-modal techniques, integrating both image and non-image data, marks a transformative advancement in breast cancer diagnosis. The purpose of this review is to explore the burgeoning field of multimodal techniques, particularly the fusion of histopathology images with non-image data. Further, Explainable AI (XAI) will be used to elucidate the decision-making processes of complex algorithms, emphasizing the necessity of explainability in diagnostic processes. This review utilizes multi-modal data and emphasizes explainability to enhance diagnostic accuracy, clinician confidence, and patient engagement, ultimately fostering more personalized treatment strategies for breast cancer, while also identifying research gaps in multi-modality and explainability, guiding future studies, and contributing to the strategic direction of the field.
翻訳日:2024-06-23 13:24:48 公開日:2024-06-07
# 積層ハイブリッド畳み込みニューラルネットワークを用いた半導体製造のための新しい視覚的故障検出・分類システム

A Novel Visual Fault Detection and Classification System for Semiconductor Manufacturing Using Stacked Hybrid Convolutional Neural Networks ( http://arxiv.org/abs/1911.11250v6 )

ライセンス: Link先を確認
Tobias Schlosser, Frederik Beuth, Michael Friedrich, Danny Kowerko, (参考訳) 半導体産業における自動視覚検査は、現代の画像処理技術を用いて製造欠陥を検出し分類することを目的としている。 欠陥パターンを早期に検出することは、製造チェーンの品質管理と自動化を可能にするが、製造業者は収量の増加と製造コストの削減から恩恵を受ける。 従来の画像処理システムは、新しい欠陥パターンを検出する能力に制限があるため、機械学習アプローチは、しばしば膨大な計算労力を必要とするため、この貢献により、新しいディープニューラルネットワークベースのハイブリッドアプローチが導入される。 古典的なディープニューラルネットワークとは異なり、マルチステージシステムは高解像度画像内のピクセルサイズの最も優れた構造を検出し、分類することができる。 階層化されたハイブリッド畳み込みニューラルネットワーク(SH-CNN)を構成し、視覚的注意の現在のアプローチにインスパイアされたこのシステムは、その構造からよりタスク関連のある領域への詳細レベルに焦点をあてる。 テスト環境の結果,SH-CNNは学習に基づく視覚自動検査の現在の手法よりも優れており,細部による違いは製造工程の初期段階における欠陥パターンの除去を可能としている。

Automated visual inspection in the semiconductor industry aims to detect and classify manufacturing defects utilizing modern image processing techniques. While an earliest possible detection of defect patterns allows quality control and automation of manufacturing chains, manufacturers benefit from an increased yield and reduced manufacturing costs. Since classical image processing systems are limited in their ability to detect novel defect patterns, and machine learning approaches often involve a tremendous amount of computational effort, this contribution introduces a novel deep neural network based hybrid approach. Unlike classical deep neural networks, a multi-stage system allows the detection and classification of the finest structures in pixel size within high-resolution imagery. Consisting of stacked hybrid convolutional neural networks (SH-CNN) and inspired by current approaches of visual attention, the realized system draws the focus over the level of detail from its structures to more task-relevant areas of interest. The results of our test environment show that the SH-CNN outperforms current approaches of learning-based automated visual inspection, whereas a distinction depending on the level of detail enables the elimination of defect patterns in earlier stages of the manufacturing process.
翻訳日:2024-06-17 00:11:14 公開日:2024-06-07
# 機械学習の文脈における六角形画像処理:生物学的に着想を得た六角形深層学習フレームワークの概念

Hexagonal Image Processing in the Context of Machine Learning: Conception of a Biologically Inspired Hexagonal Deep Learning Framework ( http://arxiv.org/abs/1911.11251v8 )

ライセンス: Link先を確認
Tobias Schlosser, Michael Friedrich, Danny Kowerko, (参考訳) 人間の視覚知覚システムにインスパイアされた、機械学習の文脈における六角形画像処理は、生物学的モデルに基づく進化的動機付け構造の利点を組み合わせた画像処理システムの開発を扱う。 記録出力装置の従来の最先端画像処理システムは、ほぼ四角い配置の手法を使っているが、その六角形は、研究者とユーザの両方にとって有益である多くの重要な利点を提供する。 この貢献は、ヘキサゴナル画像変換の処理ステップ、従って設計されたヘキサゴナル画像処理フレームワークであるヘキサゴナル画像変換の合成、および依存メソッドの一般的なアプリケーション指向のアプローチとして機能する。 生成したテスト環境の結果から,実現されたフレームワークは六角形画像処理システムの現在のアプローチを超越し,六角形ニューラルネットワークは実装された六角形アーキテクチャの恩恵を受けることが示された。 H-DNNとも呼ばれるヘキサゴナル格子形式に基づくディープニューラルネットワークは、古典的な正方形格子ベースのデータセットを六角形表現に変換することで、正方形ニューラルネットワークと比較することができるため、トレーニング可能なパラメータの削減や、トレーニングやテスト率の向上も実現している。

Inspired by the human visual perception system, hexagonal image processing in the context of machine learning deals with the development of image processing systems that combine the advantages of evolutionary motivated structures based on biological models. While conventional state-of-the-art image processing systems of recording and output devices almost exclusively utilize square arranged methods, their hexagonal counterparts offer a number of key advantages that can benefit both researchers and users. This contribution serves as a general application-oriented approach the synthesis of the therefore designed hexagonal image processing framework, called Hexnet, the processing steps of hexagonal image transformation, and dependent methods. The results of our created test environment show that the realized framework surpasses current approaches of hexagonal image processing systems, while hexagonal artificial neural networks can benefit from the implemented hexagonal architecture. As hexagonal lattice format based deep neural networks, also called H-DNN, can be compared to their square counterparts by transforming classical square lattice based data sets into their hexagonal representation, they can also result in a reduction of trainable parameters as well as result in increased training and test rates.
翻訳日:2024-06-17 00:11:14 公開日:2024-06-07
# $\textit{De Novo}$ドラッグデザインにおける拡散モデル

Diffusion Models in $\textit{De Novo}$ Drug Design ( http://arxiv.org/abs/2406.08511v1 )

ライセンス: Link先を確認
Amira Alakhdar, Barnabas Poczos, Newell Washburn, (参考訳) 拡散モデルは、特に3次元分子構造の文脈において、分子生成の強力なツールとして登場した。 非平衡統計物理学にインスパイアされたこれらのモデルは、特定の性質または薬物発見に不可欠な要件を持つ3次元分子構造を生成することができる。 拡散モデルは、前方および逆拡散過程を通じて3次元分子の複雑な確率分布と対応する化学的および物理的性質を学習することに成功した。 本稿では,3次元分子生成に適した拡散モデルの技術的実装について述べる。 分子生成タスクに使用される様々な拡散モデルの性能、評価方法、実装の詳細を比較する。 本稿では, 原子と結合の表現戦略, 逆拡散デノナイジングネットワークのアーキテクチャ, 安定な3次元分子構造の生成に関わる課題について述べる。 このレビューでは、ターゲット特異的な分子生成、分子ドッキング、タンパク質-リガンド複合体の分子動力学を含む構造に基づく薬物設計などの計算化学の分野における、$\textit{de novo}$の拡散モデルの適用についても検討する。 また, 物理特性, コンフォメーション生成, フラグメントに基づく薬物設計に関する条件生成についても取り上げる。 3D分子生成のための最先端の拡散モデルを要約することにより、このレビューは、薬物発見の進展と現在の限界における彼らの役割に光を当てる。

Diffusion models have emerged as powerful tools for molecular generation, particularly in the context of 3D molecular structures. Inspired by non-equilibrium statistical physics, these models can generate 3D molecular structures with specific properties or requirements crucial to drug discovery. Diffusion models were particularly successful at learning 3D molecular geometries' complex probability distributions and their corresponding chemical and physical properties through forward and reverse diffusion processes. This review focuses on the technical implementation of diffusion models tailored for 3D molecular generation. It compares the performance, evaluation methods, and implementation details of various diffusion models used for molecular generation tasks. We cover strategies for atom and bond representation, architectures of reverse diffusion denoising networks, and challenges associated with generating stable 3D molecular structures. This review also explores the applications of diffusion models in $\textit{de novo}$ drug design and related areas of computational chemistry, such as structure-based drug design, including target-specific molecular generation, molecular docking, and molecular dynamics of protein-ligand complexes. We also cover conditional generation on physical properties, conformation generation, and fragment-based drug design. By summarizing the state-of-the-art diffusion models for 3D molecular generation, this review sheds light on their role in advancing drug discovery as well as their current limitations.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-07
# 多モード変分オートエンコーダを用いたベイズ構造モデルの更新

Bayesian Structural Model Updating with Multimodal Variational Autoencoder ( http://arxiv.org/abs/2406.09051v1 )

ライセンス: Link先を確認
Tatsuya Itoi, Kazuho Amishiki, Sangwon Lee, Taro Yaoyama, (参考訳) 本稿では,ベイズ構造モデル更新のための新しいフレームワークを提案し,マルチモーダル変分オートエンコーダのサロゲートアンモダルエンコーダを利用する手法を提案する。 この方法は、観測データを記述する可能性の効率的な非パラメトリック推定を容易にする。 様々な動的解析モデルに適用可能な高次元相関同時観測に特に適している。 提案手法は,アクセラレーションと動的ひずみ測定を併用した単層フレームビルディングの数値モデルを用いてベンチマークを行った。

This paper presents a novel framework for Bayesian structural model updating and proposes a method that utilizes the surrogate unimodal encoders of a multimodal variational autoencoder. This method facilitates an efficient nonparametric estimation of the likelihood describing the observed data. It is particularly suitable for high-dimensional correlated simultaneous observations applicable to various dynamic analysis models. The proposed approach is benchmarked using a numerical model of a single-story frame building with acceleration and dynamic strain measurements.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-07
# 不均衡データに基づくクラスインクリメンタル学習のためのデータフリー生成リプレイ

Data-Free Generative Replay for Class-Incremental Learning on Imbalanced Data ( http://arxiv.org/abs/2406.09052v1 )

ライセンス: Link先を確認
Sohaib Younis, Bernhard Seeger, (参考訳) 連続的な学習は、特に不均衡なデータセットを持つ画像分類タスクにおいて、機械学習において難しい問題である。 新しいクラスを漸進的に学ぶことで、さらに難しくなります。 データセットの不均衡に対処するインクリメンタルなクラス学習の1つの方法は、予め格納されたデータを使ってリハーサルを行うことである。 リハーサルベースの手法では、分類器またはジェネレータのトレーニングには、以前のデータへのアクセスが必要であるが、ストレージ、合法またはデータアクセス制限のため、実現不可能である可能性がある。 パラメータや損失正規化、知識蒸留、動的アーキテクチャといった、クラスインクリメンタルな学習のためのリハーサルのない代替手段は数多く存在するが、特に不均衡なデータでは、良い結果が得られない。 本稿では,実データにアクセスせずにジェネレータを訓練するクラスインクリメンタル学習のためのData-Free Generative Replay (DFGR) という新しい手法を提案する。 さらに、DFGRは画像分類器の連続学習におけるデータセットの不均衡にも対処する。 DFGRは、トレーニングデータを使用する代わりに、バッチノルムの平均と分散統計と、事前訓練された分類モデルから派生した特徴写像を用いてジェネレータを訓練する。 実験の結果,DFGRは他のデータフリー手法よりも優れた性能を示し,パラメータ設定の性能への影響を明らかにした。 DFGRはMNISTデータセットとFashionMNISTデータセットでそれぞれ88.5%と46.6%の精度を達成している。 私たちのコードはhttps://github.com/2younis/DFGRで公開されています。

Continual learning is a challenging problem in machine learning, especially for image classification tasks with imbalanced datasets. It becomes even more challenging when it involves learning new classes incrementally. One method for incremental class learning, addressing dataset imbalance, is rehearsal using previously stored data. In rehearsal-based methods, access to previous data is required for either training the classifier or the generator, but it may not be feasible due to storage, legal, or data access constraints. Although there are many rehearsal-free alternatives for class incremental learning, such as parameter or loss regularization, knowledge distillation, and dynamic architectures, they do not consistently achieve good results, especially on imbalanced data. This paper proposes a new approach called Data-Free Generative Replay (DFGR) for class incremental learning, where the generator is trained without access to real data. In addition, DFGR also addresses dataset imbalance in continual learning of an image classifier. Instead of using training data, DFGR trains a generator using mean and variance statistics of batch-norm and feature maps derived from a pre-trained classification model. The results of our experiments demonstrate that DFGR performs significantly better than other data-free methods and reveal the performance impact of specific parameter settings. DFGR achieves up to 88.5% and 46.6% accuracy on MNIST and FashionMNIST datasets, respectively. Our code is available at https://github.com/2younis/DFGR
翻訳日:2024-06-14 18:05:18 公開日:2024-06-07
# FlamePINN-1D:物理インフォームドニューラルネットワークによる1次元ラミナ火炎の前・逆問題の解法

FlamePINN-1D: Physics-informed neural networks to solve forward and inverse problems of 1D laminar flames ( http://arxiv.org/abs/2406.09071v1 )

ライセンス: Link先を確認
Jiahao Wu, Su Zhang, Yuxin Wu, Guihua Zhang, Xin Li, Hai Zhang, (参考訳) 異なる解法を必要とする燃焼研究や応用における様々な前方および逆問題の存在を考えると、それらを統一的に解くための枠組みが不可欠である。 有望なアプローチは、純粋にデータ駆動の手法と比較して、汎用性と少ショットの学習能力に優れた機械学習手法と燃焼システムの方程式を統合することである。 本研究では,物理インフォームドニューラルネットワークに基づく1次元層火炎の前方および逆問題を解決するためにFlamePINN-1Dフレームワークを提案する。 ケース1は簡易な物理モデルで,ケース2とケース3はFPP,カウンタフロー予混合(CFP)は詳細なモデルで,ケース1は自由伝搬予混合(FPP)火炎である。 前方問題として、FlamePINN-1Dは火炎場を解くことを目的としており、支配方程式と境界条件の制約の下で未知の固有値(層火炎速度など)を推論することを目的としている。 逆問題に対して、FlamePINN-1Dは連続体を再構成し、未知のパラメータ(輸送パラメータや化学動力学パラメータなど)をノイズの多いスパース観測から推測することを目的としている。 その結果,FlamePINN-1Dの様々な火炎および作業条件における性能を強く検証した。 従来の手法と比較して、FlamePINN-1Dは微分可能でメッシュフリーであり、離散化エラーがなく、逆問題に対して実装が容易である。 また, 逆問題の結果から, 実験室1次元火炎測定による化学機構の最適化の可能性も示唆された。 さらに、FlamePINN-1Dの堅牢な学習には、ハード制約や薄層正規化といったいくつかの戦略が不可欠であることが証明されている。 本論文のコードはhttps://github.com/CAME-THU/FlamePINN-1Dで部分的に公開されている。

Given the existence of various forward and inverse problems in combustion studies and applications that necessitate distinct methods for resolution, a framework to solve them in a unified way is critically needed. A promising approach is the integration of machine learning methods with governing equations of combustion systems, which exhibits superior generality and few-shot learning ability compared to purely data-driven methods. In this work, the FlamePINN-1D framework is proposed to solve the forward and inverse problems of 1D laminar flames based on physics-informed neural networks. Three cases with increasing complexity have been tested: Case 1 are freely-propagating premixed (FPP) flames with simplified physical models, while Case 2 and Case 3 are FPP and counterflow premixed (CFP) flames with detailed models, respectively. For forward problems, FlamePINN-1D aims to solve the flame fields and infer the unknown eigenvalues (such as laminar flame speeds) under the constraints of governing equations and boundary conditions. For inverse problems, FlamePINN-1D aims to reconstruct the continuous fields and infer the unknown parameters (such as transport and chemical kinetics parameters) from noisy sparse observations of the flame. Our results strongly validate these capabilities of FlamePINN-1D across various flames and working conditions. Compared to traditional methods, FlamePINN-1D is differentiable and mesh-free, exhibits no discretization errors, and is easier to implement for inverse problems. The inverse problem results also indicate the possibility of optimizing chemical mechanisms from measurements of laboratory 1D flames. Furthermore, some proposed strategies, such as hard constraints and thin-layer normalization, are proven to be essential for the robust learning of FlamePINN-1D. The code for this paper is partially available at https://github.com/CAME-THU/FlamePINN-1D.
翻訳日:2024-06-14 18:05:18 公開日:2024-06-07
# 客観的・解釈可能な言語障害評価に向けて--CNNとトランスフォーマーモデルの比較分析

Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models ( http://arxiv.org/abs/2406.07576v1 )

ライセンス: Link先を確認
Malo Maisonneuve, Corinne Fredouille, Muriel Lalain, Alain Ghio, Virginie Woisard, (参考訳) 頭頸部癌(HNC)は、患者の発話能力に大きな影響を与え、生活の質に影響を及ぼす。 病的音声を評価するのによく使われる指標は主観的であり、自動的かつ偏見のない評価方法の必要性を喚起する。 本研究では,HNC患者を対象とした音声分類のための自己教師型Wav2Vec2モデルを提案する。 事前トレーニングデータセット、モデルサイズ、微調整データセットとパラメータの影響について検討する。 多様なコーパスの評価は、以前の研究で使われたCNNベースのアプローチよりも優れている、Wav2Vec2アーキテクチャの有効性を明らかにする。 知覚的尺度との相関は、障害音声分析におけるモデル関連性も確認する。 本研究は, 複雑な自己学習型音声表現を活用することによって, 臨床医に対する解釈可能なアプローチで, 病的音声の理解を深める道を開くものである。

Head and Neck Cancers (HNC) significantly impact patients' ability to speak, affecting their quality of life. Commonly used metrics for assessing pathological speech are subjective, prompting the need for automated and unbiased evaluation methods. This study proposes a self-supervised Wav2Vec2-based model for phone classification with HNC patients, to enhance accuracy and improve the discrimination of phonetic features for subsequent interpretability purpose. The impact of pre-training datasets, model size, and fine-tuning datasets and parameters are explored. Evaluation on diverse corpora reveals the effectiveness of the Wav2Vec2 architecture, outperforming a CNN-based approach, used in previous work. Correlation with perceptual measures also affirms the model relevance for impaired speech analysis. This work paves the way for better understanding of pathological speech with interpretable approaches for clinicians, by leveraging complex self-learnt speech representations.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-07
# 構造的アクティブ推論(拡張抽象)

Structured Active Inference (Extended Abstract) ( http://arxiv.org/abs/2406.07577v1 )

ライセンス: Link先を確認
Toby St Clere Smithe, (参考訳) 分類システム理論のツールを用いて、構造化された能動推論、大規模一般化および能動推論の形式化を導入する。 我々は、生成モデルを「インターフェイス上で」システムとして正式にキャストし、後者はマルコフ毛布の通常の概念の合成的抽象化であり、エージェントは生成モデルに対して「制御者」であり、形式的にはそれらと双対である。 例えば、構造化インターフェイスを持つエージェント(例えば、"mode-dependence"や、コンピュータAPIと相互作用するエージェント)、他のエージェントを管理するエージェント、アクティブ推論を使用して(内部または外部)構造を変更する'meta-agents'である。 構造化インタフェースでは、構造化された('typed')ポリシーも得られるが、これは、安全な人工エージェントへの重要なステップである形式的検証に適している。 さらに、エージェントの目標を形式的な述語として記述するために分類論理を用いることができ、その満足度は相互作用の文脈に依存する可能性がある。 これは、エージェントの自己組織化アンサンブルを拘束し、制御する強力な構成ツールを指している。

We introduce structured active inference, a large generalization and formalization of active inference using the tools of categorical systems theory. We cast generative models formally as systems "on an interface", with the latter being a compositional abstraction of the usual notion of Markov blanket; agents are then 'controllers' for their generative models, formally dual to them. This opens the active inference landscape to new horizons, such as: agents with structured interfaces (e.g. with 'mode-dependence', or that interact with computer APIs); agents that can manage other agents; and 'meta-agents', that use active inference to change their (internal or external) structure. With structured interfaces, we also gain structured ('typed') policies, which are amenable to formal verification, an important step towards safe artificial agents. Moreover, we can make use of categorical logic to describe express agents' goals as formal predicates, whose satisfaction may be dependent on the interaction context. This points towards powerful compositional tools to constrain and control self-organizing ensembles of agents.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-07
# MLによる侵入検出における個々のパケットの特徴はモデル一般化のリスクである

Individual Packet Features are a Risk to Model Generalisation in ML-Based Intrusion Detection ( http://arxiv.org/abs/2406.07578v1 )

ライセンス: Link先を確認
Kahraman Kostas, Mike Just, Michael A. Lones, (参考訳) マシンラーニングはIoTネットワークの侵入検出にますます利用されている。 本稿では,1つのネットワークパケットから抽出した属性であるIPF(Single packet Feature)の有効性について検討する。 文献のレビューや実験を通じて、IPFの限界を特定し、誤って高い検出率が得られることを示す。 本研究は,堅牢な侵入検知のためのパケット相互作用を考慮したアプローチの必要性を強調した。 さらに、IPFに基づくモデルがデータセットをまたいだ一般化に失敗し、さまざまなIoT環境における信頼性を損なうことも示しています。

Machine learning is increasingly used for intrusion detection in IoT networks. This paper explores the effectiveness of using individual packet features (IPF), which are attributes extracted from a single network packet, such as timing, size, and source-destination information. Through literature review and experiments, we identify the limitations of IPF, showing they can produce misleadingly high detection rates. Our findings emphasize the need for approaches that consider packet interactions for robust intrusion detection. Additionally, we demonstrate that models based on IPF often fail to generalize across datasets, compromising their reliability in diverse IoT environments.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-07
# 機械学習に基づくマルチステージシステムを用いた実生活患者の視力予測

Visual Acuity Prediction on Real-Life Patient Data Using a Machine Learning Based Multistage System ( http://arxiv.org/abs/2204.11970v4 )

ライセンス: Link先を確認
Tobias Schlosser, Frederik Beuth, Trixy Meyer, Arunodhayan Sampath Kumar, Gabriel Stolze, Olga Furashova, Katrin Engelmann, Danny Kowerko, (参考訳) 眼科領域では、硝子体手術療法(IVOM)は、加齢に伴う黄斑変性(AMD)、糖尿病性黄斑浮腫(DME)、網膜静脈閉塞(RVO)に関連する疾患に対して広く用いられる治療法である。 しかし, 実生活環境下での視力低下の予測は, 不均一データや不完全データにより困難であるのに対し, 実生活環境下での視力低下の予測は困難である。 本稿では,ドイツの最大医療病院の眼科領域の異なるITシステムを融合した研究対応型データコーパスを開発するためのワークフローを提案する。 広範データコーパスは、3つの疾患のそれぞれにおいて、患者とそのVAが予想される進行の予測文を可能にする。 AMDでは経時的に視力低下がみられた。 提案する多段階システムでは,VA進行を治療群「勝者」,「安定化者」,「損失者」の3つに分類した。 深層ニューラルネットワークのアンサンブルを用いたOCTバイオマーカー分類により,98%以上の分類精度(F1スコア)が得られる。 VA予測では,同時期のVA検査とOCTバイオマーカーを併用して,予測時間枠内でのVA進行を予測し,現在IVOM/no療法に制限されている。 マクロ平均F1スコアの最終的な予測精度は、57.8と50 +-10.7%の眼科医と同じ範囲でありながら、69 %のマクロ平均F1スコアが得られる。

In ophthalmology, intravitreal operative medication therapy (IVOM) is a widespread treatment for diseases related to the age-related macular degeneration (AMD), the diabetic macular edema (DME), as well as the retinal vein occlusion (RVO). However, in real-world settings, patients often suffer from loss of vision on time scales of years despite therapy, whereas the prediction of the visual acuity (VA) and the earliest possible detection of deterioration under real-life conditions is challenging due to heterogeneous and incomplete data. In this contribution, we present a workflow for the development of a research-compatible data corpus fusing different IT systems of the department of ophthalmology of a German maximum care hospital. The extensive data corpus allows predictive statements of the expected progression of a patient and his or her VA in each of the three diseases. For the disease AMD, we found out a significant deterioration of the visual acuity over time. Within our proposed multistage system, we subsequently classify the VA progression into the three groups of therapy "winners", "stabilizers", and "losers" (WSL classification scheme). Our OCT biomarker classification using an ensemble of deep neural networks results in a classification accuracy (F1-score) of over 98 %, enabling us to complete incomplete OCT documentations while allowing us to exploit them for a more precise VA modeling process. Our VA prediction requires at least four VA examinations and optionally OCT biomarkers from the same time period to predict the VA progression within a forecasted time frame, whereas our prediction is currently restricted to IVOM / no therapy. We achieve a final prediction accuracy of 69 % in macro average F1-score, while being in the same range as the ophthalmologists with 57.8 and 50 +- 10.7 % F1-score.
翻訳日:2024-06-13 01:45:51 公開日:2024-06-07
# Vision+X: データの光におけるマルチモーダル学習に関する調査

Vision+X: A Survey on Multimodal Learning in the Light of Data ( http://arxiv.org/abs/2210.02884v2 )

ライセンス: Link先を確認
Ye Zhu, Yu Wu, Nicu Sebe, Yan Yan, (参考訳) 我々は、異なる情報ソースが高度に処理され、人間の脳の別々の部分によって解釈され、複雑で調和し、統一された知覚システムを構成する多感覚的な方法で世界と認識し、コミュニケーションしている。 機械に真の知性を授けるため、様々な情報源からのデータを含むマルチモーダル機械学習は近年、技術進歩とともに研究分野として人気が高まっている。 本稿では、純粋に技術的な側面だけでなく、異なるデータモダリティの本質的な性質も考慮して、新しい視点からマルチモーダル機械学習に関する調査を行う。 視覚,音声,テキスト,動きなど,各データ形式の共通点と特異点を分析し,視覚データにわずかに強調したビジョン+テキストなどのデータモダリティの組み合わせによって分類された方法論的進歩を提示する。 本稿では、表現学習と下流アプリケーションレベルの両方からのマルチモーダル学習に関する既存の文献について検討し、画像オブジェクトとテキスト記述のセマンティック一貫性、ビデオダンスの動きと音楽ビートとのリズム対応など、それらのデータ特性との技術的関連性について追加比較する。 我々は、アライメントの活用と、データモダリティの本質的な性質と技術設計の既存のギャップが、具体的なマルチモーダルタスクに関連する特定の課題により深く取り組むために、将来の研究に役立ち、実際の人間知能システムに近い統一されたマルチモーダル機械学習フレームワークを創り出すことを期待している。

We are perceiving and communicating with the world in a multisensory manner, where different information sources are sophisticatedly processed and interpreted by separate parts of the human brain to constitute a complex, yet harmonious and unified sensing system. To endow the machines with true intelligence, multimodal machine learning that incorporates data from various sources has become an increasingly popular research area with emerging technical advances in recent years. In this paper, we present a survey on multimodal machine learning from a novel perspective considering not only the purely technical aspects but also the intrinsic nature of different data modalities. We analyze the commonness and uniqueness of each data format mainly ranging from vision, audio, text, and motions, and then present the methodological advancements categorized by the combination of data modalities, such as Vision+Text, with slightly inclined emphasis on the visual data. We investigate the existing literature on multimodal learning from both the representation learning and downstream application levels, and provide an additional comparison in the light of their technical connections with the data nature, e.g., the semantic consistency between image objects and textual descriptions, and the rhythm correspondence between video dance moves and musical beats. We hope that the exploitation of the alignment as well as the existing gap between the intrinsic nature of data modality and the technical designs, will benefit future research studies to better address a specific challenge related to the concrete multimodal task, prompting a unified multimodal machine learning framework closer to a real human intelligence system.
翻訳日:2024-06-13 01:37:54 公開日:2024-06-07
# GameBench: LLMエージェントの戦略推論能力の評価

GameBench: Evaluating Strategic Reasoning Abilities of LLM Agents ( http://arxiv.org/abs/2406.06613v1 )

ライセンス: Link先を確認
Anthony Costarelli, Mat Allen, Roman Hauksson, Grace Sodunke, Suhas Hariharan, Carlson Cheng, Wenjie Li, Arjun Yadav, (参考訳) 大規模言語モデルは、多くの自然言語理解タスクにおいて顕著な数ショットのパフォーマンスを示してきた。 複雑で戦略的なシナリオで大規模言語モデルを使用することの実証はいくつかあるが、ゲームで見られる様々なタイプの推論でエージェントのパフォーマンスを評価するための包括的なフレームワークが欠如している。 このギャップに対処するために,LLMエージェントの戦略的推論能力を評価するクロスドメインベンチマークであるGameBenchを紹介する。 我々は,戦略ゲームで特定されるキー推論スキルの少なくとも1軸をカバーする9つの異なるゲーム環境に注目し,戦略説明がモデルの事前学習コーパスのかなりの部分を形成する可能性が低いゲームを選択する。 本評価では,GPT-3 と GPT-4 をベースとして,戦略的推論能力を高めるための2つの足場フレームワーク,すなわち Chain-of-Thought (CoT) のプロンプトと推論ヴァイアプランニング (RAP) を用いた。 以上の結果から,試験対象モデルと人体性能は一致せず,GPT-4は無作為な動作よりも悪い結果が得られた。 CoTとRAPはどちらもスコアを改善するが、人間レベルには匹敵しない。

Large language models have demonstrated remarkable few-shot performance on many natural language understanding tasks. Despite several demonstrations of using large language models in complex, strategic scenarios, there lacks a comprehensive framework for evaluating agents' performance across various types of reasoning found in games. To address this gap, we introduce GameBench, a cross-domain benchmark for evaluating strategic reasoning abilities of LLM agents. We focus on 9 different game environments, where each covers at least one axis of key reasoning skill identified in strategy games, and select games for which strategy explanations are unlikely to form a significant portion of models' pretraining corpuses. Our evaluations use GPT-3 and GPT-4 in their base form along with two scaffolding frameworks designed to enhance strategic reasoning ability: Chain-of-Thought (CoT) prompting and Reasoning Via Planning (RAP). Our results show that none of the tested models match human performance, and at worse GPT-4 performs worse than random action. CoT and RAP both improve scores but not comparable to human levels.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-07
# 言語ガイドによるスキル発見

Language Guided Skill Discovery ( http://arxiv.org/abs/2406.06615v1 )

ライセンス: Link先を確認
Seungeun Rho, Laura Smith, Tianyu Li, Sergey Levine, Xue Bin Peng, Sehoon Ha, (参考訳) スキル発見手法により、エージェントは明確な報酬なしに多様な創発的行動を学ぶことができる。 未知の下流作業に役立てるためには、意味的に多様なスキルのレパートリーを得ることが不可欠である。 一部のアプローチでは、スキルを区別する差別装置を導入し、他のアプローチでは、国家のカバレッジを高めることを目的としているが、既存の作業では、スキルの「セマンティックな多様性」に直接対処していない。 大規模言語モデル(LLM)のセマンティックな知識を活用することで、結果の振る舞いのセマンティックな多様性を改善することができると仮定する。 この意味では、スキル間のセマンティックな多様性を直接最大化することを目的とした、スキル発見フレームワークであるLanguage Guided Skill Discovery (LGSD)を紹介する。 LGSDはユーザープロンプトを入力として取り、セマンティックなスキルのセットを出力する。 プロンプトは、サーチスペースを意味的に望ましいサブスペースに制約する手段として機能し、生成されたLCM出力は、サブスペース内の意味的に多様な状態にアクセスするようにエージェントを誘導する。 本研究は,LGSDにより,単にプロンプトを変更するだけで,手足のロボットが平面上の異なるユーザ意図のエリアを訪問できることを実証する。 さらに,ロボットアーム操作環境において,既存の5つのスキル発見手法と比較して,言語指導がより多様なスキルを発見するのに役立つことを示す。 最後に、LGSDは学習したスキルを自然言語で簡単に活用する方法を提供する。

Skill discovery methods enable agents to learn diverse emergent behaviors without explicit rewards. To make learned skills useful for unknown downstream tasks, obtaining a semantically diverse repertoire of skills is essential. While some approaches introduce a discriminator to distinguish skills and others aim to increase state coverage, no existing work directly addresses the "semantic diversity" of skills. We hypothesize that leveraging the semantic knowledge of large language models (LLMs) can lead us to improve semantic diversity of resulting behaviors. In this sense, we introduce Language Guided Skill Discovery (LGSD), a skill discovery framework that aims to directly maximize the semantic diversity between skills. LGSD takes user prompts as input and outputs a set of semantically distinctive skills. The prompts serve as a means to constrain the search space into a semantically desired subspace, and the generated LLM outputs guide the agent to visit semantically diverse states within the subspace. We demonstrate that LGSD enables legged robots to visit different user-intended areas on a plane by simply changing the prompt. Furthermore, we show that language guidance aids in discovering more diverse skills compared to five existing skill discovery methods in robot-arm manipulation environments. Lastly, LGSD provides a simple way of utilizing learned skills via natural language.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-07
# 人工知能を用いた歯科診断の変換:ChatGPTと大規模言語モデルの高度な統合

Transforming Dental Diagnostics with Artificial Intelligence: Advanced Integration of ChatGPT and Large Language Models for Patient Care ( http://arxiv.org/abs/2406.06616v1 )

ライセンス: Link先を確認
Masoumeh Farhadi Nia, Mohsen Ahmadi, Elyas Irankhah, (参考訳) AIアルゴリズムとLarge Language Models(LLMs)の進歩は、ChatGPTのような自然言語処理(NLP)システムを備えている。 この研究は、最先端のLDM(特にOpenAIのChatGPT)が医学的診断に与える影響を考察し、歯科領域に重点を置いている。 一般にアクセス可能なデータセットを活用することで、これらのモデルは医療専門家の診断能力を高め、患者と医療提供者間のコミュニケーションを効率化し、臨床手順の効率を高める。 ChatGPT-4の出現は、特に口腔外科の領域において、歯科診療にかなりの進展をもたらす可能性がある。 本稿は,LLMの急成長する分野における今後の研究の方向性を探究し,実践者,開発者双方に貴重な洞察を提供する。 さらに、学術や医療など、さまざまな分野における幅広い意味と課題を批判的に評価し、患者医療の強化のために歯科診断を変換する上でAIが果たす役割を概観する。

Artificial intelligence has dramatically reshaped our interaction with digital technologies, ushering in an era where advancements in AI algorithms and Large Language Models (LLMs) have natural language processing (NLP) systems like ChatGPT. This study delves into the impact of cutting-edge LLMs, notably OpenAI's ChatGPT, on medical diagnostics, with a keen focus on the dental sector. Leveraging publicly accessible datasets, these models augment the diagnostic capabilities of medical professionals, streamline communication between patients and healthcare providers, and enhance the efficiency of clinical procedures. The advent of ChatGPT-4 is poised to make substantial inroads into dental practices, especially in the realm of oral surgery. This paper sheds light on the current landscape and explores potential future research directions in the burgeoning field of LLMs, offering valuable insights for both practitioners and developers. Furthermore, it critically assesses the broad implications and challenges within various sectors, including academia and healthcare, thus mapping out an overview of AI's role in transforming dental diagnostics for enhanced patient care.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-07
# コラボレーションチーム認識: Core Plus拡張構造

Collaborative Team Recognition: A Core Plus Extension Structure ( http://arxiv.org/abs/2406.06617v1 )

ライセンス: Link先を確認
Shuo Yu, Fayez Alqahtani, Amr Tolba, Ivan Lee, Tao Jia, Feng Xia, (参考訳) 科学的コラボレーションは、知識創造とアイデア交換において重要な行動である。 大規模で複雑な研究課題に取り組むために、ここ数十年でチーム形成の傾向が観察されている。 本研究では,学術的なグラフデータを用いて協調的なチーム認識と内部パターンの探索に焦点をあてる。 大規模ネットワークにおける協調チーム認識のための「コア+拡張」チーム構造を用いた協調チーム認識(CORE)モデルを提案する。 COREでは、コラボレーションインテンシティ指数と呼ばれる効果的な評価指標と一連の構造的特徴を組み合わせることで、メンバーが緊密なコラボレーション関係にある協力チームを認識する。 次に、COREはコアチームメンバーをその拡張メンバーに導くのに使われます。 COREはチームベースの研究の基盤としても機能する。 シミュレーションの結果から,COREは科学的コラボレーションの内在するパターンを明らかにすることが示唆された。 実験の結果,COREは最先端手法と比較して有望であることがわかった。

Scientific collaboration is a significant behavior in knowledge creation and idea exchange. To tackle large and complex research questions, a trend of team formation has been observed in recent decades. In this study, we focus on recognizing collaborative teams and exploring inner patterns using scholarly big graph data. We propose a collaborative team recognition (CORE) model with a "core + extension" team structure to recognize collaborative teams in large academic networks. In CORE, we combine an effective evaluation index called the collaboration intensity index with a series of structural features to recognize collaborative teams in which members are in close collaboration relationships. Then, CORE is used to guide the core team members to their extension members. CORE can also serve as the foundation for team-based research. The simulation results indicate that CORE reveals inner patterns of scientific collaboration: senior scholars have broad collaborative relationships and fixed collaboration patterns, which are the underlying mechanisms of team assembly. The experimental results demonstrate that CORE is promising compared with state-of-the-art methods.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-07
# 深層グラフ学習による新型コロナウイルス感染リスク予測

PANDORA: Deep graph learning based COVID-19 infection risk level forecasting ( http://arxiv.org/abs/2406.06618v1 )

ライセンス: Link先を確認
Shuo Yu, Feng Xia, Yueru Wang, Shihao Li, Falih Febrinanto, Madhu Chetty, (参考訳) 世界的パンデミックとしての新型コロナウイルスは、社会の安定に大きな混乱をもたらし、人命と経済を脅かす。 新型コロナウイルスの影響を最小限に抑えるため、政策立案者や社会のあらゆる要素は、パンデミックの深刻度に基づく計測可能な措置を講ずる必要がある。 新型コロナウイルスの感染リスクを早期に知らせるためには、適切な予測システムが不可欠であり、当局が国民を最悪の事態から守る準備が整っている。 しかし、各都市や地域における感染リスク予測モデルの構築は、手動で特定が難しい要因が多数あるため、容易な作業ではない。 現状の限界に対処するため,すべての重要な要因を考慮し,地理的ネットワークに組み込むことにより,COVID-19の感染リスクを予測するための深層グラフ学習モデルPANDORAを提案する。 このフレームワークは、高階ネットワーク構造(ネットワークモチーフ)によって構成された高階構造特性として、地理的位置関係と輸送周波数を使用する。 さらに、4つの重要なノード特性(気候、医療状況、経済、人体移動など)も考慮されている。 本稿では,ノード属性と構造的特徴,すなわちHadamard,Summation,Connectionをよりよく集約する3つの異なるアグリゲータを提案する。 実データに対する実験結果から, PANDORAはアグリゲータの選択に拘わらず, 精度が高く, 収束速度も速い。 我々は、深層グラフ学習を用いたPANDORAが、感染リスクレベルの予測において優れたパフォーマンスを得るための有望なアプローチを提供し、人が新型コロナウイルス危機と戦うのを助けると信じている。

COVID-19 as a global pandemic causes a massive disruption to social stability that threatens human life and the economy. Policymakers and all elements of society must deliver measurable actions based on the pandemic's severity to minimize the detrimental impact of COVID-19. A proper forecasting system is arguably important to provide an early signal of the risk of COVID-19 infection so that the authorities are ready to protect the people from the worst. However, making a good forecasting model for infection risks in different cities or regions is not an easy task, because it has a lot of influential factors that are difficult to be identified manually. To address the current limitations, we propose a deep graph learning model, called PANDORA, to predict the infection risks of COVID-19, by considering all essential factors and integrating them into a geographical network. The framework uses geographical position relations and transportation frequency as higher-order structural properties formulated by higher-order network structures (i.e., network motifs). Moreover, four significant node attributes (i.e., multiple features of a particular area, including climate, medical condition, economy, and human mobility) are also considered. We propose three different aggregators to better aggregate node attributes and structural features, namely, Hadamard, Summation, and Connection. Experimental results over real data show that PANDORA outperforms the baseline method with higher accuracy and faster convergence speed, no matter which aggregator is chosen. We believe that PANDORA using deep graph learning provides a promising approach to get superior performance in infection risk level forecasting and help humans battle the COVID-19 crisis.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-07
# LoRA-Whisper:パラメータ効率の良い拡張可能な多言語ASR

LoRA-Whisper: Parameter-Efficient and Extensible Multilingual ASR ( http://arxiv.org/abs/2406.06619v1 )

ライセンス: Link先を確認
Zheshu Song, Jianheng Zhuo, Yifan Yang, Ziyang Ma, Shixiong Zhang, Xie Chen, (参考訳) 近年、エンドツーエンド(E2E)モデルの出現と多言語データセットのスケーリングにより、多言語自動音声認識(ASR)の進歩が見られた。 それにもかかわらず、言語干渉と、既存の言語の性能を劣化させることなく、新しい言語を取り入れることという2つの大きな課題が、多言語ASRで続いている。 本稿では,多言語ASRのためのWhisperにLoRA行列を組み込んだLoRA-Whisperを提案する。 さらに、LoRAと言語間の類似性を活用して、元の言語で一貫したパフォーマンスを維持しながら、新しい言語でのより良いパフォーマンスを達成することができる。 8言語にまたがる実世界のタスクの実験により,提案したLoRA-Whisperは,多言語ASRおよび言語拡張のためのベースラインシステムに対して,それぞれ18.5%と23.0%の相対的な利得が得られることが示された。

Recent years have witnessed significant progress in multilingual automatic speech recognition (ASR), driven by the emergence of end-to-end (E2E) models and the scaling of multilingual datasets. Despite that, two main challenges persist in multilingual ASR: language interference and the incorporation of new languages without degrading the performance of the existing ones. This paper proposes LoRA-Whisper, which incorporates LoRA matrix into Whisper for multilingual ASR, effectively mitigating language interference. Furthermore, by leveraging LoRA and the similarities between languages, we can achieve better performance on new languages while upholding consistent performance on original ones. Experiments on a real-world task across eight languages demonstrate that our proposed LoRA-Whisper yields a relative gain of 18.5% and 23.0% over the baseline system for multilingual ASR and language expansion respectively.
翻訳日:2024-06-12 21:04:26 公開日:2024-06-07
# DualTime: 時系列表現のためのデュアル適応型マルチモーダル言語モデル

DualTime: A Dual-Adapter Multimodal Language Model for Time Series Representation ( http://arxiv.org/abs/2406.06620v1 )

ライセンス: Link先を確認
Weiqi Zhang, Jiexia Ye, Ziyue Li, Jia Li, Fugee Tsung, (参考訳) 近年の言語モデル(LM)の急速な発展は、マルチモーダル時系列モデリングを含む時系列の分野において注目を集めている。 しかし、現在の時系列マルチモーダル法は偏りがあり、しばしば1つのモダリティに主役を割り当て、他方が二次役を仮定する。 彼らは異なるモダリティの相互利益と相補性を見落としている。 例えば、発作診断においては、テキストの臨床報告のみに頼って疾患の部位やタイプを特定することは困難であるが、脳電図(EEG)だけでは症状を考慮せずに正確な診断を行うことはできない。 本研究では,時系列マルチモーダルデータの補完的情報マイニングに基づく時系列表現のためのデュアル適応型マルチモーダル言語モデルであるDualTimeを提案する。 軽量適応トークンを注入することにより、デュアルアダプタで共有されるLMパイプラインは、埋め込みアライメントを促進し、効率的な微調整を実現する。 提案手法は,教師付き設定と教師なし設定の両方において最先端モデルよりも優れており,異なるモダリティの相補的利点が顕著である。 さらに,提案したDualTimeの転送性や表現性を検証した,数発のラベル転送実験を行った。

The recent rapid development of language models (LMs) has attracted attention in the field of time series, including multimodal time series modeling. However, we note that current time series multimodal methods are biased, often assigning a primary role to one modality while the other assumes a secondary role. They overlook the mutual benefits and complementary of different modalities. For example, in seizure diagnosis, relying solely on textual clinical reports makes it difficult to pinpoint the area and type of the disease, while electroencephalograms (EEGs) alone cannot provide an accurate diagnosis without considering the symptoms. In this study, based on the complementary information mining of time series multimodal data, we propose DualTime, a Dual-adapter multimodal language model for Time series representation implementing temporal-primary and textual-primary modeling simultaneously. By injecting lightweight adaption tokens, the LM pipeline shared by dual adapters encourages embedding alignment and achieves efficient fine-tuning. Empirically, our method outperforms state-of-the-art models in both supervised and unsupervised settings, highlighting the complementary benefits of different modalities. In addition, we conduct few-shot label transfer experiments, which further verifies the transferability and expressiveness of our proposed DualTime.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-07
# LinkQ:知識グラフ質問応答のためのLLM支援ビジュアルインタフェース

LinkQ: An LLM-Assisted Visual Interface for Knowledge Graph Question-Answering ( http://arxiv.org/abs/2406.06621v1 )

ライセンス: Link先を確認
Harry Li, Gabriel Appleby, Ashley Suh, (参考訳) 本稿では,大規模言語モデル(LLM)を活用して,自然言語質問応答による知識グラフ(KG)クエリ構築を容易にするシステムであるLinkQを提案する。 従来のアプローチでは、複雑なグラフクエリ言語に関する詳細な知識を必要とし、KGデータから貴重な洞察を得るために、ユーザ(専門家でさえ)の能力を制限することが多かった。 LinkQはこのプロセスを単純化し、まずユーザーの質問を解釈し、それから十分に整ったKGクエリに変換する。 LLMを使用してユーザーの質問に直接答える代わりにクエリを構築することで、LinkQはLLMの幻覚や誤った情報の生成を防ぎます。 LLMをLinkQに統合することで、ユーザーは探索的データ分析と確認的データ分析の両方を実行できる。 LinkQの有効性を実証するため、5人のKG実践者と質的研究を行い、フィードバックを蒸留した。 以上の結果から,実践者はKG質問応答にLinkQを有効とみなし,今後のグラフデータベース探索のためのLCM支援システムを欲しがる。

We present LinkQ, a system that leverages a large language model (LLM) to facilitate knowledge graph (KG) query construction through natural language question-answering. Traditional approaches often require detailed knowledge of complex graph querying languages, limiting the ability for users -- even experts -- to acquire valuable insights from KG data. LinkQ simplifies this process by first interpreting a user's question, then converting it into a well-formed KG query. By using the LLM to construct a query instead of directly answering the user's question, LinkQ guards against the LLM hallucinating or generating false, erroneous information. By integrating an LLM into LinkQ, users are able to conduct both exploratory and confirmatory data analysis, with the LLM helping to iteratively refine open-ended questions into precise ones. To demonstrate the efficacy of LinkQ, we conducted a qualitative study with five KG practitioners and distill their feedback. Our results indicate that practitioners find LinkQ effective for KG question-answering, and desire future LLM-assisted systems for the exploratory analysis of graph databases.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-07
# 敵対的なチューニング: LLMの脱獄攻撃を防御する

Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs ( http://arxiv.org/abs/2406.06622v1 )

ライセンス: Link先を確認
Fan Liu, Zhao Xu, Hao Liu, (参考訳) 安全に拡張されたLarge Language Models (LLM) は、ゼロショットで様々な複雑なタスクに対処することに成功したが、Jailbreak攻撃、特に未知のJailbreak攻撃の影響を受けないままである。 LLMの汎用防衛能力を高めるために,対の対数プロンプトと安全な応答を含むデータセットを最適化することにより,最悪のシナリオを探索する2段階の対数チューニングフレームワークを提案する。 第1段階では,階層型メタユニバーサル逆数学習を導入し,トークンレベルの逆数処理を効率的に効果的に生成する。 第2段階では,LLMの防御能力を向上し,意味レベルを反復的に洗練する自動対位プロンプト学習を提案する。 我々は,広く使用されている3つのjailbreakデータセットの総合的な実験を行い,このフレームワークを5つの代表的な攻撃シナリオ下で6つの防御ベースラインと比較した。 この結果は,提案手法の優位性を裏付けるものである。 さらに,我々の対戦型チューニングフレームワークは,様々な攻撃戦略と目標LSMをまたいだ経験的一般化性を示し,移動可能な防御機構としての可能性を強調した。

Although safely enhanced Large Language Models (LLMs) have achieved remarkable success in tackling various complex tasks in a zero-shot manner, they remain susceptible to jailbreak attacks, particularly the unknown jailbreak attack. To enhance LLMs' generalized defense capabilities, we propose a two-stage adversarial tuning framework, which generates adversarial prompts to explore worst-case scenarios by optimizing datasets containing pairs of adversarial prompts and their safe responses. In the first stage, we introduce the hierarchical meta-universal adversarial prompt learning to efficiently and effectively generate token-level adversarial prompts. In the second stage, we propose the automatic adversarial prompt learning to iteratively refine semantic-level adversarial prompts, further enhancing LLM's defense capabilities. We conducted comprehensive experiments on three widely used jailbreak datasets, comparing our framework with six defense baselines under five representative attack scenarios. The results underscore the superiority of our proposed methods. Furthermore, our adversarial tuning framework exhibits empirical generalizability across various attack strategies and target LLMs, highlighting its potential as a transferable defense mechanism.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-07
# スペクトル:信号と雑音の比に関する目標訓練

Spectrum: Targeted Training on Signal to Noise Ratio ( http://arxiv.org/abs/2406.06623v1 )

ライセンス: Link先を確認
Eric Hartford, Lucas Atkins, Fernando Fernandes Neto, David Golchinfar, (参考訳) 大規模言語モデルの効率的な訓練は、膨大な計算資源を必要とするため、依然として難しい課題である。 本稿では、SNR(Signal-to-Noise ratio)に基づいて層モジュールを選択的にターゲットし、残りのモジュールを凍結することにより、LCMトレーニングを高速化する手法であるSpectrumを提案する。 トレーニング前のモジュールSNRの計算にアルゴリズムを用いる本手法では,GPUメモリ使用量を削減するとともに,フル微調整の性能を効果的に向上することを示した。 QLoRAのような既存の手法とSpectrumを比較した実験は、分散環境でのモデル品質とVRAM効率の観点から、その効果を実証している。

Efficiently post-training large language models remains a challenging task due to the vast computational resources required. We present Spectrum, a method that accelerates LLM training by selectively targeting layer modules based on their signal-to-noise ratio (SNR), and freezing the remaining modules. Our approach, which utilizes an algorithm to compute module SNRs prior to training, has shown to effectively match the performance of full fine-tuning while reducing GPU memory usage. Experiments comparing Spectrum to existing methods such as QLoRA demonstrate its effectiveness in terms of model quality and VRAM efficiency in distributed environments.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-07
# AutoMLアプローチによる歩行者衝突重症度の決定要因の探索

Exploring the Determinants of Pedestrian Crash Severity Using an AutoML Approach ( http://arxiv.org/abs/2406.06624v1 )

ライセンス: Link先を確認
Amir Rafe, Patrick A. Singleton, (参考訳) 本研究では,自動機械学習(Automated Machine Learning, AutoML)による歩行者事故の重大度調査を行い,重要な要因を分析するための合理化・アクセス可能な方法を提案する。 2010-2021年のユタ州の詳細なデータセットを利用して、さまざまな説明変数がクラッシュ結果に与える影響を評価するためにAutoMLを使用している。 この研究は、SHAP(SHapley Additive exPlanations)を取り入れ、予測モデルにおける個々の特徴の寄与を解釈し、照明条件、道路タイプ、歩行者の衝突重大度に対する天候などの影響要因の理解を深める。 本稿では,データ駆動手法の効率性と民主化を重視し,交通安全解析におけるAutoMLの利点について論じる。 このAutoMLとSHAP分析の統合は、予測精度を高めるだけでなく、解釈可能性も向上し、効果的な歩行者安全対策に関する重要な洞察を提供する。 本研究は,歩行者事故の重症度分析を進める上でのこのアプローチの可能性を明らかにするものである。

This study investigates pedestrian crash severity through Automated Machine Learning (AutoML), offering a streamlined and accessible method for analyzing critical factors. Utilizing a detailed dataset from Utah spanning 2010-2021, the research employs AutoML to assess the effects of various explanatory variables on crash outcomes. The study incorporates SHAP (SHapley Additive exPlanations) to interpret the contributions of individual features in the predictive model, enhancing the understanding of influential factors such as lighting conditions, road type, and weather on pedestrian crash severity. Emphasizing the efficiency and democratization of data-driven methodologies, the paper discusses the benefits of using AutoML in traffic safety analysis. This integration of AutoML with SHAP analysis not only bolsters predictive accuracy but also improves interpretability, offering critical insights into effective pedestrian safety measures. The findings highlight the potential of this approach in advancing the analysis of pedestrian crash severity.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-07
# ロスアラモス国立研究所における量子コンピューティングの可能性

Potential Applications of Quantum Computing at Los Alamos National Laboratory ( http://arxiv.org/abs/2406.06625v1 )

ライセンス: Link先を確認
Andreas Bärtschi, Francesco Caravelli, Carleton Coffrin, Jonhas Colina, Stephan Eidenbenz, Abhijith Jayakumar, Scott Lawrence, Minseong Lee, Andrey Y. Lokhov, Avanish Mishra, Sidhant Misra, Zachary Morrell, Zain Mughal, Duff Neill, Andrei Piryatinski, Allen Scheie, Marc Vuffray, Yu Zhang, (参考訳) 過去10年間の量子コンピューティング技術の出現は、量子力学システムの研究における変革的な影響の可能性を示している。 このような計算技術は、米国国立研究所のような大規模科学機関にとって価値があると仮定するのは当然である。 しかし、これらの機関がこれらのコンピュータをどう利用したいかについての詳細な記述は限られている。 本報告では, 量子磁気材料, 高温超伝導, 核天体物理学シミュレーションを含む, ロスアラモス国立研究所における様々な量子物理学研究活動を強化するために, 量子コンピューティング技術をどのように活用するかの詳細な利用事例について述べる。 この論文では、現在の高性能コンピュータが科学的な発見にどのように使われているのかを論じ、ロスアラモス国立研究所の科学者が、もし十分な計算技術が利用可能になったら、実行したいと思っている量子物理学シミュレーションのタイプについて詳細に記述している。 この調査では、ロスアラモス国立研究所(Los Alamos National Laboratory)にもっと多くのユースケースが存在することが示されており、同様の詳細を十分な時間と労力で文書化することができる。

The emergence of quantum computing technology over the last decade indicates the potential for a transformational impact in the study of quantum mechanical systems. It is natural to presume that such computing technologies would be valuable to large scientific institutions, such as United States national laboratories. However, detailed descriptions of what these institutions would like to use these computers for are limited. To help provide some initial insights into this topic, this report develops detailed use cases of how quantum computing technology could be utilized to enhance a variety of quantum physics research activities at Los Alamos National Laboratory, including quantum magnetic materials, high-temperature superconductivity and nuclear astrophysics simulations. The report discusses how current high-performance computers are used for scientific discovery today and develops detailed descriptions of the types of quantum physics simulations that Los Alamos National Laboratory scientists would like to conduct, if a sufficient computing technology became available. While the report strives to highlight the breadth of potential application areas for quantum computation, this investigation has also indicated that many more use cases exist at Los Alamos National Laboratory, which could be documented in similar detail with sufficient time and effort.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-07
# 一貫性のない優先知識ベースを問合せし, 修復する: 複雑度解析と抽象的論証とのリンク

Querying and Repairing Inconsistent Prioritized Knowledge Bases: Complexity Analysis and Links with Abstract Argumentation ( http://arxiv.org/abs/2003.05746v3 )

ライセンス: Link先を確認
Meghyn Bienvenu, Camille Bourgaux, (参考訳) 本稿では、オントロジー、事実の集合、矛盾する事実の優先順位関係からなる優先知識ベース(KB)に対する不整合処理の問題について考察する。 データベース設定において、密接に関連するシナリオが研究され、優先順位付けされた一貫性のないデータベースの最適修復(グロバル、パレート、完了)の3つの異なる概念が定義された。 グローバル, パレート, コンプリート, 最適修理の概念を我々の設定に移行した後, 最適修理に基づく一貫性のないセマンティクスに基づくクエリエンテーメント, ユニークな最適修理の存在, および全ての最適修理の列挙について, コア推論タスクのデータ複雑性について検討した。 以上の結果から,共通DL-Lite方言で定式化されたオントロジーにおいて,これらのタスクのデータ複雑性のほぼ完全な図式が得られた。 私たちの研究の第2の貢献は、最適修復と(セットベースの)議論フレームワークの拡張の異なる概念との関係を明らかにすることです。 この結果から, 安定な拡張(しばしば好まれる拡張)とパレート最適修復が一致することを示すとともに, 接地された拡張にインスパイアされ, 好適な計算特性を享受できる, 優先順位付けKBのセマンティクスを提案する。 本研究は、嗜好に基づく議論フレームワークに関する独立した関心の結果ももたらした。

In this paper, we explore the issue of inconsistency handling over prioritized knowledge bases (KBs), which consist of an ontology, a set of facts, and a priority relation between conflicting facts. In the database setting, a closely related scenario has been studied and led to the definition of three different notions of optimal repairs (global, Pareto, and completion) of a prioritized inconsistent database. After transferring the notions of globally-, Pareto- and completion-optimal repairs to our setting, we study the data complexity of the core reasoning tasks: query entailment under inconsistency-tolerant semantics based upon optimal repairs, existence of a unique optimal repair, and enumeration of all optimal repairs. Our results provide a nearly complete picture of the data complexity of these tasks for ontologies formulated in common DL-Lite dialects. The second contribution of our work is to clarify the relationship between optimal repairs and different notions of extensions for (set-based) argumentation frameworks. Among our results, we show that Pareto-optimal repairs correspond precisely to stable extensions (and often also to preferred extensions), and we propose a novel semantics for prioritized KBs which is inspired by grounded extensions and enjoys favourable computational properties. Our study also yields some results of independent interest concerning preference-based argumentation frameworks.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-07
# バイオインスパイアされた六角形画像生成のための六角形深層学習

Biologically Inspired Hexagonal Deep Learning for Hexagonal Image Generation ( http://arxiv.org/abs/2101.00337v3 )

ライセンス: Link先を確認
Tobias Schlosser, Frederik Beuth, Danny Kowerko, (参考訳) 記録出力装置の従来の最先端画像処理システムでは、ほぼ正方形配置の手法しか利用していないが、生物モデルでは、代替の進化的構造が提案されている。 人間の視覚知覚システムにインスパイアされた機械学習のコンテキストにおける六角形画像処理は、研究者とユーザの両方にとって、多くの重要な利点を提供する。 ヘキサゴナルディープラーニングフレームワークであるHexnetは、ヘキサゴナルディープニューラルネットワーク(H-DNN)を利用してヘキサゴナルイメージを生成する。 生成したテスト環境の結果から,提案したモデルが従来の画像生成のアプローチを超越する可能性が示唆された。 その結果、トレーニング可能なパラメータの形でモデルの複雑さが減少する一方で、正方形のパラメータと比較してテストレートが増加することがより許される。

Whereas conventional state-of-the-art image processing systems of recording and output devices almost exclusively utilize square arranged methods, biological models, however, suggest an alternative, evolutionarily-based structure. Inspired by the human visual perception system, hexagonal image processing in the context of machine learning offers a number of key advantages that can benefit both researchers and users alike. The hexagonal deep learning framework Hexnet leveraged in this contribution serves therefore the generation of hexagonal images by utilizing hexagonal deep neural networks (H-DNN). As the results of our created test environment show, the proposed models can surpass current approaches of conventional image generation. While resulting in a reduction of the models' complexity in the form of trainable parameters, they furthermore allow an increase of test rates in comparison to their square counterparts.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-07
# ACDC:ロバストなセマンティック・ドライビング・シーンの知覚に対応する逆条件データセット

ACDC: The Adverse Conditions Dataset with Correspondences for Robust Semantic Driving Scene Perception ( http://arxiv.org/abs/2104.13395v4 )

ライセンス: Link先を確認
Christos Sakaridis, Haoran Wang, Ke Li, René Zurbrügg, Arpit Jadon, Wim Abbeloos, Daniel Olmeda Reino, Luc Van Gool, Dengxin Dai, (参考訳) レベル5の運転自動化には、任意の条件下で入力画像を解析できる堅牢な視覚認識システムが必要である。 しかし、密接な意味知覚のための既存の駆動データセットは、通常条件下で撮影された画像に支配されているか、規模が小さいかのいずれかである。 そこで本稿では,視覚障害に対する多種多様な意味認識タスクの訓練・試験方法として,ACDC(Adverse Conditions Dataset with Cor correspondingences)を導入する。 ACDCは8012枚の画像で構成され、その半数(4006枚)は霧、夜間、雨、雪の4つの一般的な悪条件に均等に分散している。 各悪条件画像には、高品質の画素レベルのパノプティアノテーション、正常な条件下での同一シーンの対応する画像、明瞭で不確実なセマンティックな内容のイメージ内領域を区別するバイナリマスクが付属する。 対応する正常条件画像の1503は、汎視アノテーションを特徴とし、全注釈画像は5509まで上昇した。 ACDCは、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション、そして新たに導入された不確実性認識セグメンテーションの標準タスクをサポートしている。 詳細な実証研究により、ACDCの有害ドメインが最先端の教師なしアプローチや教師なしアプローチにもたらす課題が示され、この分野における今後の進歩を推し進める上で、我々のデータセットの価値が示される。 私たちのデータセットとベンチマークはhttps://acdc.vision.ee.ethz.chで公開されています。

Level-5 driving automation requires a robust visual perception system that can parse input images under any condition. However, existing driving datasets for dense semantic perception are either dominated by images captured under normal conditions or are small in scale. To address this, we introduce ACDC, the Adverse Conditions Dataset with Correspondences for training and testing methods for diverse semantic perception tasks on adverse visual conditions. ACDC consists of a large set of 8012 images, half of which (4006) are equally distributed between four common adverse conditions: fog, nighttime, rain, and snow. Each adverse-condition image comes with a high-quality pixel-level panoptic annotation, a corresponding image of the same scene under normal conditions, and a binary mask that distinguishes between intra-image regions of clear and uncertain semantic content. 1503 of the corresponding normal-condition images feature panoptic annotations, raising the total annotated images to 5509. ACDC supports the standard tasks of semantic segmentation, object detection, instance segmentation, and panoptic segmentation, as well as the newly introduced uncertainty-aware semantic segmentation. A detailed empirical study demonstrates the challenges that the adverse domains of ACDC pose to state-of-the-art supervised and unsupervised approaches and indicates the value of our dataset in steering future progress in the field. Our dataset and benchmark are publicly available at https://acdc.vision.ee.ethz.ch
翻訳日:2024-06-12 06:17:55 公開日:2024-06-07
# ISAACS:安全のためのソフト・アドベラル・アクター・クリティカル

ISAACS: Iterative Soft Adversarial Actor-Critic for Safety ( http://arxiv.org/abs/2212.03228v3 )

ライセンス: Link先を確認
Kai-Chieh Hsu, Duy Phuong Nguyen, Jaime Fernández Fisac, (参考訳) 制御されていない環境にロボットを配置するためには、不規則な地形や風環境など、これまで見えなかったシナリオの下でしっかりと動作する必要がある。 残念ながら、ロバストな最適制御理論からの厳密な安全フレームワークは高次元の非線形力学に乏しいが、よりトラクタブルな"ディープ"手法によって計算される制御ポリシーには保証がなく、不確実な動作条件にはほとんど堅牢性を示す傾向にある。 本研究は,ゲーム理論の安全性解析と対向強化学習を組み合わせることで,境界モデリング誤差を考慮したロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを提案する。 ソフトアクター批判スキームの後に、設計者の不確実性によって許容されるモデルエラーとトレーニング・ツー・デプロイの不一致の最悪のケースの実現を誘発することを目的とした、敵対的「混乱」エージェントと、安全を追求するフォールバックポリシーが共同で訓練される。 学習した制御ポリシは本質的に安全性を保証するものではないが、前方到達性ロールアウトに基づく堅牢な安全保証を備えたリアルタイム安全フィルタ(あるいはシールド)を構築するために使用される。 このシールドは、安全に依存しない制御ポリシーと組み合わせて使用することができ、安全を損なう可能性のあるタスク駆動アクションを除外することができる。 5Dレースカーシミュレーターにおける学習に基づく安全性評価を行い、学習した安全性ポリシーを数値的に得られた最適解と比較し、最悪のモデル不一致に対して提案した安全シールドの堅牢な安全性保証を実証的に検証した。

The deployment of robots in uncontrolled environments requires them to operate robustly under previously unseen scenarios, like irregular terrain and wind conditions. Unfortunately, while rigorous safety frameworks from robust optimal control theory scale poorly to high-dimensional nonlinear dynamics, control policies computed by more tractable "deep" methods lack guarantees and tend to exhibit little robustness to uncertain operating conditions. This work introduces a novel approach enabling scalable synthesis of robust safety-preserving controllers for robotic systems with general nonlinear dynamics subject to bounded modeling error by combining game-theoretic safety analysis with adversarial reinforcement learning in simulation. Following a soft actor-critic scheme, a safety-seeking fallback policy is co-trained with an adversarial "disturbance" agent that aims to invoke the worst-case realization of model error and training-to-deployment discrepancy allowed by the designer's uncertainty. While the learned control policy does not intrinsically guarantee safety, it is used to construct a real-time safety filter (or shield) with robust safety guarantees based on forward reachability rollouts. This shield can be used in conjunction with a safety-agnostic control policy, precluding any task-driven actions that could result in loss of safety. We evaluate our learning-based safety approach in a 5D race car simulator, compare the learned safety policy to the numerically obtained optimal solution, and empirically validate the robust safety guarantee of our proposed safety shield against worst-case model discrepancy.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-07
# モンテカルロ樹探索における頭頂部病理

Lookahead Pathology in Monte-Carlo Tree Search ( http://arxiv.org/abs/2212.05208v2 )

ライセンス: Link先を確認
Khoi P. N. Nguyen, Raghuram Ramanujan, (参考訳) Monte-Carlo Tree Search (MCTS) はコンピュータ Go の領域で成功して初めて注目された検索パラダイムである。 初期の理論的研究は、MCTSの最も一般的なインスタンス化である木(UCT)に適用された上部信頼境界の健全性と収束境界を確立した。 本研究は,UCTが対向的な設定でルックアヘッドの病態を示すことができるかどうかという問題を考えることで,このようなギャップに対処するものである。 数学解析に適したまま、リッチなモデリング可能性を提供する新しい種類の合成ゲームを紹介した。 理論および実験結果から,UCTは,本科から引き出されたゲームにおいて,病的行動に感受性があることが示唆された。

Monte-Carlo Tree Search (MCTS) is a search paradigm that first found prominence with its success in the domain of computer Go. Early theoretical work established the soundness and convergence bounds for Upper Confidence bounds applied to Trees (UCT), the most popular instantiation of MCTS; however, there remain notable gaps in our understanding of how UCT behaves in practice. In this work, we address one such gap by considering the question of whether UCT can exhibit lookahead pathology in adversarial settings -- a paradoxical phenomenon first observed in Minimax search where greater search effort leads to worse decision-making. We introduce a novel family of synthetic games that offer rich modeling possibilities while remaining amenable to mathematical analysis. Our theoretical and experimental results suggest that UCT is indeed susceptible to pathological behavior in a range of games drawn from this family.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-07
# 超伝導-超伝導-超伝導トランスモン量子ビットの性能解析

Performance Analysis of Superconductor-constriction-Superconductor Transmon Qubits ( http://arxiv.org/abs/2301.04276v4 )

ライセンス: Link先を確認
Mingzhao Liu, Charles T. Black, (参考訳) 本研究では,超伝導体-絶縁体-超伝導体(SIS)ジョセフソン接合を,共平面超伝導体-超伝導体-超伝導体(ScS)ナノブリッジ接合に置き換えた超伝導トランスモン量子ビット設計の計算解析を行う。 ギンズバーグ・ランダウ理論の範囲内では、ナノブリッジScSトランスモンはSISトランスモンよりも電荷分散が良く、非調和性のトレードオフが小さいことが分かる。 これらの計算は、ギガヘルツ周波数ScSトランスモン演算と互換性のある超伝導材料特性と接合次元を推定するための枠組みを提供する。

This work presents a computational analysis of a superconducting transmon qubit design, in which the superconductor-insulator-superconductor (SIS) Josephson junction is replaced by a co-planar, superconductor-constriction-superconductor (ScS) nanobridge junction. Within the scope of Ginzburg-Landau theory, we find that the nanobridge ScS transmon has an improved charge dispersion compared to the SIS transmon, with a tradeoff of smaller anharmonicity. These calculations provide a framework for estimating the superconductor material properties and junction dimensions compatible with gigahertz frequency ScS transmon operation.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-07
# No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning

The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning ( http://arxiv.org/abs/2304.05366v3 )

ライセンス: Link先を確認
Micah Goldblum, Marc Finzi, Keefer Rowan, Andrew Gordon Wilson, (参考訳) 教師付き学習のための無料ランチ定理は、学習者が全ての問題を解くことができず、学習者が学習上の一様分布に対して平均的に全く同じ精度を達成できないことを述べています。 したがって、これらの定理は、個々の問題は特別に調整された帰納的バイアスを必要とするという概念を支持するためにしばしば言及される。 事実上、全ての一様サンプルデータセットは複雑さが高いが、現実の問題は不均等に低複雑さのデータを生成し、ニューラルネットワークモデルがコルモゴロフ複雑性を用いて形式化された同じ好みを共有していると論じる。 特に、コンピュータビジョンのような特定のドメイン用に設計されたアーキテクチャは、さまざまな無関係な領域でデータセットを圧縮できることを示す。 実験の結果,事前学習およびランダムに初期化される言語モデルでは,低複雑さのシーケンスを生成することが好ましいことがわかった。 フリーランチの定理は個々の問題に特別な学習者が要ることを示すものではないが、ラベル付きデータが乏しい場合や豊富でない場合など、人間の介入を必要とするタスクを1つの学習アルゴリズムに自動化する方法を説明する。 これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。

No free lunch theorems for supervised learning state that no learner can solve all problems or that all learners achieve exactly the same accuracy on average over a uniform distribution on learning problems. Accordingly, these theorems are often referenced in support of the notion that individual problems require specially tailored inductive biases. While virtually all uniformly sampled datasets have high complexity, real-world problems disproportionately generate low-complexity data, and we argue that neural network models share this same preference, formalized using Kolmogorov complexity. Notably, we show that architectures designed for a particular domain, such as computer vision, can compress datasets on a variety of seemingly unrelated domains. Our experiments show that pre-trained and even randomly initialized language models prefer to generate low-complexity sequences. Whereas no free lunch theorems seemingly indicate that individual problems require specialized learners, we explain how tasks that often require human intervention such as picking an appropriately sized model when labeled data is scarce or plentiful can be automated into a single learning algorithm. These observations justify the trend in deep learning of unifying seemingly disparate problems with an increasingly small set of machine learning models.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-07
# 高い周波数のフィルタリングでホワイトボックスの説明が改善

Saliency strikes back: How filtering out high frequencies improves white-box explanations ( http://arxiv.org/abs/2307.09591v4 )

ライセンス: Link先を確認
Sabine Muzellec, Thomas Fel, Victor Boutin, Léo andéol, Rufin VanRullen, Thomas Serre, (参考訳) 属性法は、個々の入力がモデルの意思決定プロセスにどのように貢献するかを評価するための説明可能性法(XAI)のクラスに対応する。 我々は,「ホワイトボックス」と呼ばれる1種類の帰属手法において,有意な制限を明らかにした。これらの手法は高頻度アーティファクトによってしばしば汚染される勾配信号に依存している。この制限を克服するために,この単純な手法は,各モデルアーキテクチャの特徴に合わせた最適なカットオフ周波数を用いて,これらの高頻度アーティファクトを効果的にフィルタリングする。この結果は,既存のホワイトボックスメソッドの性能を継続的に向上し,より正確かつ計算的に要求される「ブラックボックス」メソッドと効果的に競合することを示す。 我々の研究は、よりシンプルで効率的なホワイトボックス法を説明可能性に適用し、忠実性と計算効率のバランスを改善することを期待している。

Attribution methods correspond to a class of explainability methods (XAI) that aim to assess how individual inputs contribute to a model's decision-making process. We have identified a significant limitation in one type of attribution methods, known as ``white-box" methods. Although highly efficient, as we will show, these methods rely on a gradient signal that is often contaminated by high-frequency artifacts. To overcome this limitation, we introduce a new approach called "FORGrad". This simple method effectively filters out these high-frequency artifacts using optimal cut-off frequencies tailored to the unique characteristics of each model architecture. Our findings show that FORGrad consistently enhances the performance of already existing white-box methods, enabling them to compete effectively with more accurate yet computationally demanding "black-box" methods. We anticipate that our research will foster broader adoption of simpler and more efficient white-box methods for explainability, offering a better balance between faithfulness and computational efficiency.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-07
# 正確なチャネル分布生成のための拡散モデル

Diffusion Models for Accurate Channel Distribution Generation ( http://arxiv.org/abs/2309.10505v3 )

ライセンス: Link先を確認
Muah Kim, Rick Fritschek, Rafael F. Schaefer, (参考訳) 強力な生成モデルはチャネル分布を正確に学習することができる。 これにより、チャネルの物理的測定の繰り返しコストを削減できる。 さらに、結果として得られる微分可能なチャネルモデルは、勾配に基づく最適化を可能にすることにより、ニューラルエンコーダのトレーニングをサポートする。 文学における最初のアプローチは、生成的敵ネットワーク(GAN)またはその拡張された変種を利用してチャネル分布を生成する、画像生成の現代的進歩に起因している。 本稿では,このチャネル近似を拡散モデル (DM) で解くことで,画像生成における高品質およびモードカバレッジを示す。 チャネル分布の生成性能の試験に加えて,DMを基盤としたエンド・ツー・エンド(E2E)符号化変調フレームワークを用いて,効率的なトレーニングアルゴリズムを提案する。 各種チャネルモデルを用いたシミュレーションにより、DMは正確にチャネル分布を学習でき、E2Eフレームワークが準最適シンボル誤り率(SER)を達成できることを示す。 さらに,スライスされたワッサースタイン距離(SWD)とE2E SERを用いて,モードカバレッジとサンプリング速度のトレードオフを検討する。 このトレードオフに対するノイズスケジューリングの効果について検討し、パラメータとテクニックを適切に選択することで、SWDとSERのわずかな増加とともにサンプリング時間を著しく短縮できることを示した。 最後に、DMは相関するフェーディングチャネルを生成できるが、強いGAN変種は共分散を学習できないことを示す。 本稿では,チャネル分布の学習にDMを使うことの潜在的な利点を強調し,様々なチャネルや高度なDM技術についてさらに検討する。

Strong generative models can accurately learn channel distributions. This could save recurring costs for physical measurements of the channel. Moreover, the resulting differentiable channel model supports training neural encoders by enabling gradient-based optimization. The initial approach in the literature draws upon the modern advancements in image generation, utilizing generative adversarial networks (GANs) or their enhanced variants to generate channel distributions. In this paper, we address this channel approximation challenge with diffusion models (DMs), which have demonstrated high sample quality and mode coverage in image generation. In addition to testing the generative performance of the channel distributions, we use an end-to-end (E2E) coded-modulation framework underpinned by DMs and propose an efficient training algorithm. Our simulations with various channel models show that a DM can accurately learn channel distributions, enabling an E2E framework to achieve near-optimal symbol error rates (SERs). Furthermore, we examine the trade-off between mode coverage and sampling speed through skipped sampling using sliced Wasserstein distance (SWD) and the E2E SER. We investigate the effect of noise scheduling on this trade-off, demonstrating that with an appropriate choice of parameters and techniques, sampling time can be significantly reduced with a minor increase in SWD and SER. Finally, we show that the DM can generate a correlated fading channel, whereas a strong GAN variant fails to learn the covariance. This paper highlights the potential benefits of using DMs for learning channel distributions, which could be further investigated for various channels and advanced techniques of DMs.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-07
# 学習パターンを明らかにするための説明可能な3次元フレームワーク

An explainable three dimension framework to uncover learning patterns: A unified look in variable sulci recognition ( http://arxiv.org/abs/2309.00903v3 )

ライセンス: Link先を確認
Michail Mamalakis, Heloise de Vareilles, Atheer AI-Manea, Samantha C. Mitchell, Ingrid Arartz, Lynn Egeland Morch-Johnsen, Jane Garrison, Jon Simons, Pietro Lio, John Suckling, Graham Murray, (参考訳) トレーニングと検証データセット全体において、人工知能フレームワークの学習プロセスの重要な特徴を検出することは、"グローバル"な説明として決定できる。 文献の研究では、神経イメージングにおいて重要な3次元のグローバルな説明が正確に、低複雑さ、そして3次元のグローバルな説明が欠如しており、これは2次元の基本的な解釈以上の複雑な表現空間を持つ分野である。 このギャップを埋めるために、我々は、堅牢で忠実で、複雑でないグローバルな説明を提供する、説明可能な人工知能(XAI)の3Dフレームワークを開発した。 そこで本研究では,TOP-OSLOによる596名の被験者を対象に,各種3次元深層学習ネットワークを訓練し,評価し,評価した。 焦点は、精神状態と相関した脳形態学の変動特徴である視索性サルクスの存在と欠如に焦点を当てた。 提案する3Dフレームワークは,グローバルな説明に対する忠実さの観点から,従来のXAI手法よりも優れていた。 その結果、これらの堅牢な説明を用いて、トレーニングプロセスの信頼性と信頼性を高めるだけでなく、有望な新しいバイオマーカーと、非常に関連するサブリージョンを明らかにした。 開発した3Dフレームワークは,グローバルな説明を活用して,この特定の神経科学応用の新たなパターンを発見する方法として,初めて提案されました。 この研究は、AIトレーニングプロセスの信頼性向上に役立ち、神経科学などにおける新たなパターンを明らかにすることによって、私たちの理解の境界を推し進める。

Detecting the significant features of the learning process of an artificial intelligence framework in the entire training and validation dataset can be determined as 'global' explanations. Studies in the literature lack of accurate, low-complexity, and three-dimensional (3D) global explanations which are crucial in neuroimaging, a field with a complex representational space that demands more than basic two-dimensional interpretations. To fill this gap, we developed a novel explainable artificial intelligence (XAI) 3D-Framework that provides robust, faithful, and low-complexity global explanations. We evaluated our framework on various 3D deep learning networks trained, validated, and tested on a well-annotated cohort of 596 subjects from the TOP-OSLO study. The focus was on the presence and absence of the paracingulate sulcus, a variable feature of brain morphology correlated with psychotic conditions. Our proposed 3D-Framework outperforms traditional XAI methods in terms of faithfulness for global explanations. As a result, we were able to use these robust explanations to uncover new patterns that not only enhance the credibility and reliability of the training process but also reveal promising new biomarkers and significantly related sub-regions. For the first time, our developed 3D-Framework proposes a way for the scientific community to utilize global explanations to discover novel patterns in this specific neuroscientific application and beyond. This study can helps improve the trustworthiness of AI training processes and push the boundaries of our understanding by revealing new patterns in neuroscience and beyond.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-07
# 内部ソフトウェアメトリクスは障害発生率と変化発生率と関係があるか?

Do Internal Software Metrics Have Relationship with Fault-proneness and Change-proneness? ( http://arxiv.org/abs/2310.03673v2 )

ライセンス: Link先を確認
Md. Masudur Rahman, Toukir Ahammed, Kazi Sakib, (参考訳) フォールトプロネネス(英: Fault-proneness)は、ソフトウェアシステム内で発生するプログラミングエラーの可能性を示す尺度である。 一方、変更傾向とは、ソフトウェアに修正を加える可能性を指す。 どちらも、サイズ、継承、結合といったソフトウェア内部のメトリクスに影響を与えるため、特にシステムに多くの変更が加えられた場合、ソフトウェアの保守性を示す重要な指標です。 文献では、ほぼ10年前の内部ソフトウェアメトリクスを使用して、変更と欠陥が予測されている。 しかしながら、ソフトウェアシステムの継続的な進化を考えると、これらの関係に対する理解を再考し、更新することが不可欠である。 そこで本研究では,内部ソフトウェアメトリクスと変化傾向,欠陥傾向との関係を再考する実証的研究を行い,現在および関連する知見の提供を目的とした。 本研究では,Apache および Eclipse エコシステムの有名なオープンソースシステムにおいて,変更の頻度と障害の頻度を測定するとともに,25 の社内ソフトウェアメトリクスを特定した。 次に,統計的相関法を用いて,これらの指標間の関係を解析した。 以上の結果から,ほとんどの指標は異常発生率と相関がほとんどないし全くないことが明らかとなった。 しかし、継承、結合、コメントに関連するメトリクスは、変化の傾向と中程度から高い相関を示した。 これらの発見は、開発者が高い相関性を持つソフトウェアメトリクスを最小化し、変更率と欠陥率の点で保守性を高めるのに役立つだろう。 さらに、これらの洞察は、より強い相関関係があることが示されているメトリクスを組み込むことで、変化と失敗を予測する新しいアプローチの開発に研究者を導くことができる。

Fault-proneness is a measure that indicates the possibility of programming errors occurring within a software system. On the other hand, change-proneness refers to the potential for modifications to be made to the software. Both of these measures are crucial indicators of software maintainability, as they influence internal software metrics such as size, inheritance, and coupling, particularly when numerous changes are made to the system. In the literature, research has predicted change- and fault-proneness using internal software metrics that is almost a decade old. However, given the continuous evolution of software systems, it is essential to revisit and update our understanding of these relationships. Therefore, we have conducted an empirical study to revisit the relationship between internal software metrics and change-proneness, and faultproneness, aiming to provide current and relevant insights. In our study, we identified 25 internal software metrics along with the measures of change-proneness and fault-proneness within the wellknown open-source systems from the Apache and Eclipse ecosystems. We then analyzed the relationships between these metrics using statistical correlation methods. Our results revealed that most of the metrics have little to no correlation with fault-proneness. However, metrics related to inheritance, coupling, and comments showed a moderate to high correlation with change-proneness. These findings will assist developers to minimize the higher correlated software metrics to enhance maintainability in terms of change- and fault-proneness. Additionally, these insights can guide researchers in developing new approaches for predicting changes and faults by incorporating the metrics that have been shown to have stronger correlations.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-07
# 実測近傍探索によるコミュニティ検出

Evading Community Detection via Counterfactual Neighborhood Search ( http://arxiv.org/abs/2310.08909v2 )

ライセンス: Link先を確認
Andrea Bernini, Fabrizio Silvestri, Gabriele Tolomei, (参考訳) コミュニティ検出技術は、ソーシャルメディアプラットフォームが共通の関心を共有しているユーザーの密接なグループを見つけるのに有用である。 しかし、この機能は、自分の好みや好みを不注意に明らかにすることで、個人をプライバシー侵害に晒す恐れがあるため、しばしば犠牲にされる。 そのため、プラットフォームを離れることなく、政治的・宗教的な組織との連携など、様々な理由で、匿名性を維持し、コミュニティ検出をオプトアウトしたいと考えるユーザーもいる。 本研究では,ネットワークグラフの構造的特性を戦略的に変更して,与えられたコミュニティ検出アルゴリズムによって1つ以上のノードが識別されるのを防ぐ,コミュニティメンバシップ隠蔽の課題に対処する。 制約付き対実グラフの目的として定式化することでこの問題に対処し、深層強化学習を用いて解決する。 大規模な実験により,提案手法は既存のベースラインよりも優れており,精度とコストのバランスが良好であることが示された。

Community detection techniques are useful for social media platforms to discover tightly connected groups of users who share common interests. However, this functionality often comes at the expense of potentially exposing individuals to privacy breaches by inadvertently revealing their tastes or preferences. Therefore, some users may wish to preserve their anonymity and opt out of community detection for various reasons, such as affiliation with political or religious organizations, without leaving the platform. In this study, we address the challenge of community membership hiding, which involves strategically altering the structural properties of a network graph to prevent one or more nodes from being identified by a given community detection algorithm. We tackle this problem by formulating it as a constrained counterfactual graph objective, and we solve it via deep reinforcement learning. Extensive experiments demonstrate that our method outperforms existing baselines, striking the best balance between accuracy and cost.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-07
# ゴールコンディション型エージェントのオープンエンド学習問題の一定義

A Definition of Open-Ended Learning Problems for Goal-Conditioned Agents ( http://arxiv.org/abs/2311.00344v4 )

ライセンス: Link先を確認
Olivier Sigaud, Gianluca Baldassarre, Cedric Colas, Stephane Doncieux, Richard Duro, Pierre-Yves Oudeyer, Nicolas Perrin-Gilbert, Vieri Giuliano Santucci, (参考訳) 最近の機械学習研究論文の多くは、'オープンエンドラーニング'というタイトルを冠している。 しかし、この用語を使うときに何を意味するかを定義しようとする人はほとんどいない。 さらに悪いことに、より詳しく見てみると、継続的な学習、生涯学習、自己学習といった関連する概念とオープンエンドラーニングを区別するものについて合意が得られていないように思われる。 本稿では,この問題の解決に貢献する。 概念の系譜と、それが本当に何を意味するかについてのより最近の視点を描き出した後、オープンエンドラーニングは、一般的に、様々な性質を含む複合概念として考えられていることを概説する。 従来のアプローチとは対照的に,観測者の視点からは新規と考えられる無限の地平線上で,時間的・時間的(観測,選択肢,報酬関数,目標など)な要素を生成するオープンエンドプロセスの重要な基本特性を分離することを提案する。 そこで我々は,オープンエンド学習の概念を構築し,特にオープンエンド目標条件強化学習問題のサブセットに着目し,エージェントがゴール駆動スキルのレパートリーの増大を学べるようにした。 最後に、私たちの基本的な定義と、発達型AI研究者が念頭に置いているであろうオープンエンドラーニングの概念とのギャップを埋めるために、まだ実行すべき作業を強調します。

A lot of recent machine learning research papers have ``open-ended learning'' in their title. But very few of them attempt to define what they mean when using the term. Even worse, when looking more closely there seems to be no consensus on what distinguishes open-ended learning from related concepts such as continual learning, lifelong learning or autotelic learning. In this paper, we contribute to fixing this situation. After illustrating the genealogy of the concept and more recent perspectives about what it truly means, we outline that open-ended learning is generally conceived as a composite notion encompassing a set of diverse properties. In contrast with previous approaches, we propose to isolate a key elementary property of open-ended processes, which is to produce elements from time to time (e.g., observations, options, reward functions, and goals), over an infinite horizon, that are considered novel from an observer's perspective. From there, we build the notion of open-ended learning problems and focus in particular on the subset of open-ended goal-conditioned reinforcement learning problems in which agents can learn a growing repertoire of goal-driven skills. Finally, we highlight the work that remains to be performed to fill the gap between our elementary definition and the more involved notions of open-ended learning that developmental AI researchers may have in mind.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-07
# 誤りを犯すのは簡単ではない - 大規模な言語モデルがリ推論のプロセスと格闘する

It's Not Easy Being Wrong: Large Language Models Struggle with Process of Elimination Reasoning ( http://arxiv.org/abs/2311.07532v3 )

ライセンス: Link先を確認
Nishant Balepur, Shramay Palta, Rachel Rudinger, (参考訳) 思考の連鎖(COT)は、大きな言語モデル(LLM)が正しい答えを推論するのに役立つが、誤った答えを推論する効果は未解明である。 このCOTを用いた除去(PoE)プロセスは、自己整合性、解釈可能性、および排除の医学的診断のようなタスクを高めることができる。 そこで我々は,COTを用いたPoEを提案する。 GPT-3.5, LLaMA-2, FalconのCOTによるPoE処理能力の評価を行った。 PoEの戦略は常に正しい回答を選択する戦略を過小評価している。 これらの戦略の合意は、それぞれの戦略の自己整合性よりも低い。 これらの問題をさらに研究するため,我々は誤り解析を行い,今後の課題について提案する。

Chain-of-thought (COT) prompting can help large language models (LLMs) reason toward correct answers, but its efficacy in reasoning toward incorrect answers is unexplored. This process of elimination (PoE), when used with COT, can enhance self-consistency, interpretability, and tasks such as medical diagnoses of exclusion. Thus, we propose PoE with COT, where LLMs must reason toward incorrect options on multiple-choice questions. We evaluate the ability of GPT-3.5, LLaMA-2, and Falcon to perform PoE with COT on a total of four commonsense and scientific reasoning datasets. We find that the strategy of PoE always underperforms the strategy of choosing the correct answer. The agreement of these strategies is also lower than the self-consistency of each strategy. To study these issues further, we conduct error analyses and give suggestions for future work.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-07
# 選択型単モード及び二重モード量子制限増幅器

Selective Single and Double-Mode Quantum Limited Amplifier ( http://arxiv.org/abs/2311.11496v2 )

ライセンス: Link先を確認
Abdul Mohamed, Elham Zohari, Jarryd J. Pla, Paul E. Barclay, Shabir Barzanjeh, (参考訳) 量子制限増幅器は、量子力学の原理によって予測される最小限のノイズを導入しながら、弱い信号の増幅を可能にする。 これらの増幅器は量子コンピューティングにおける幅広い応用を提供しており、超伝導量子ビットとスピンの高速かつ正確な読み出し、量子センシングやメトロジーにおける様々な用途がある。 主にジョセフソン接合を用いて開発されたパラメトリック増幅は、量子回路内での高効率マイクロ波測定の先導技術へと発展してきた。 その大きな貢献にもかかわらず、これらの増幅器は、高出力を扱えないこと、寄生磁場に対する感度、特にミリケルビン温度でのみ作動する制限など、基本的な制限に直面している。 これらの課題に対処するために,超伝導速度インダクタンスに基づく新しい量子制限増幅器を実験的に開発し,この非線形結合モード系を記述するための理論モデルを提案する。 この増幅器は、2つの異なるスペクトルモードと、バイアス電流によるチューニング性を持ち、量子ノイズ限界近傍の単モード増幅系と二重モード増幅系の両方で選択的に動作することができる。 運動的インダクタンスを示す非線形薄膜を用いることで, 単モードでは50dB, ダブルモードでは32dB以上のゲインを達成でき, ノイズの入力参照量0.35を加算できる。 重要なことに、この増幅器はジョセフソン接合の必要性を排除し、その結果、ジョセフソンベースの増幅器よりもはるかに高い電力処理能力が得られる。 また、磁場の存在下でのレジリエンスを示し、簡単な設計を提供し、信頼性を高める。

A quantum-limited amplifier enables the amplification of weak signals while introducing minimal noise dictated by the principles of quantum mechanics. These amplifiers serve a broad spectrum of applications in quantum computing, including fast and accurate readout of superconducting qubits and spins, as well as various uses in quantum sensing and metrology. Parametric amplification, primarily developed using Josephson junctions, has evolved into the leading technology for highly effective microwave measurements within quantum circuits. Despite their significant contributions, these amplifiers face fundamental limitations, such as their inability to handle high powers, sensitivity to parasitic magnetic fields, and particularly their limitation to operate only at millikelvin temperatures. To tackle these challenges, here we experimentally develop a novel quantum-limited amplifier based on superconducting kinetic inductance and present an extensive theoretical model to describe this nonlinear coupled-mode system. Our device surpasses the conventional constraints associated with Josephson junction amplifiers by operating at much higher temperatures up to 4.5 K. With two distinct spectral modes and tunability through bias current, this amplifier can operate selectively in both single and double-mode amplification regimes near the quantum noise limit. Utilizing a nonlinear thin film exhibiting kinetic inductance, our device attains gain exceeding 50 dB in a single-mode and 32 dB in a double-mode configuration while adding 0.35 input-referred quanta of noise. Importantly, this amplifier eliminates the need for Josephson junctions, resulting in significantly higher power handling capabilities than Josephson-based amplifiers. It also demonstrates resilience in the presence of magnetic fields, offers a straightforward design, and enhances reliability.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-07
# POND:情報認識型プロンプトチューニングによるマルチソース時系列ドメイン適応

POND: Multi-Source Time Series Domain Adaptation with Information-Aware Prompt Tuning ( http://arxiv.org/abs/2312.12276v3 )

ライセンス: Link先を確認
Junxiang Wang, Guangji Bai, Wei Cheng, Zhengzhang Chen, Liang Zhao, Haifeng Chen, (参考訳) 時系列ドメイン適応は、人間の活動認識、睡眠ステージ分類、機械故障診断など、様々な応用において重要かつ複雑な課題である。 この複雑な問題に対処するために提案された多くのドメイン適応技術にもかかわらず、彼らは主に単一のソースドメインからのドメイン適応に焦点を当てている。 しかし、改善の可能性があるため、複数のドメインからのドメイン適応を調査することがより重要である。 これに対処するには、3つの重要な課題を克服する必要がある。 ドメイン固有の情報を利用したドメイン適応のための探索の欠如。 時間とともに変化するドメイン固有の情報を学ぶのが困難である。 学習したドメイン固有情報を評価するのが困難である。 本稿では,これらの課題を同時に解決するために,POND(PrOmpt-based domaiN Discrimination)を提案する。 特に、チャレンジ1に対処するために、時系列分析への迅速なチューニングのアイデアを拡張し、すべてのソースドメインから共通およびドメイン固有の情報をキャプチャするプロンプトを学習する。 チャレンジ2を扱うために、時系列入力データからプロンプトを生成するために、各ソースドメインに条件付きモジュールを導入する。 チャレンジ3では、適切なプロンプトを選択するための2つの基準を提案し、ドメイン適応に最適なソースドメインを選択するのに使用される。 提案したPONDモデルの有効性とロバスト性は、4つのデータセットを含む50のシナリオにまたがる実験により広く検証される。 実験結果から,提案したPONDモデルは,F1スコア上での最先端比較手法を最大6,6\%向上することがわかった。

Time series domain adaptation stands as a pivotal and intricate challenge with diverse applications, including but not limited to human activity recognition, sleep stage classification, and machine fault diagnosis. Despite the numerous domain adaptation techniques proposed to tackle this complex problem, they primarily focus on domain adaptation from a single source domain. Yet, it is more crucial to investigate domain adaptation from multiple domains due to the potential for greater improvements. To address this, three important challenges need to be overcome: 1). The lack of exploration to utilize domain-specific information for domain adaptation, 2). The difficulty to learn domain-specific information that changes over time, and 3). The difficulty to evaluate learned domain-specific information. In order to tackle these challenges simultaneously, in this paper, we introduce PrOmpt-based domaiN Discrimination (POND), the first framework to utilize prompts for time series domain adaptation. Specifically, to address Challenge 1, we extend the idea of prompt tuning to time series analysis and learn prompts to capture common and domain-specific information from all source domains. To handle Challenge 2, we introduce a conditional module for each source domain to generate prompts from time series input data. For Challenge 3, we propose two criteria to select good prompts, which are used to choose the most suitable source domain for domain adaptation. The efficacy and robustness of our proposed POND model are extensively validated through experiments across 50 scenarios encompassing four datasets. Experimental results demonstrate that our proposed POND model outperforms all state-of-the-art comparison methods by up to $66\%$ on the F1-score.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-07
# アンシラ量子ビットを持たない多対数深さ制御NOTゲート

Polylogarithmic-depth controlled-NOT gates without ancilla qubits ( http://arxiv.org/abs/2312.13206v6 )

ライセンス: Link先を確認
Baptiste Claudon, Julien Zylberman, César Feniou, Fabrice Debbasch, Alberto Peruzzo, Jean-Philip Piquemal, (参考訳) 制御された演算は量子アルゴリズムの基本的な構成要素である。 n$-control-NOT ゲート (C^n(X)$) を任意の単一量子ビットと CNOT ゲートに分解することは、重要だが非自明な作業である。 本研究は、無症候性および非無症候性レジームにおいて、従来の方法よりも優れた$C^n(X)$回路を導入する。 回路深度が$\Theta\left(\log(n)^{3}\right)$、回路深度が$\mathcal O \left(\log(n)^{3}\log(1/\epsilon)\right)$、調整可能な深度回路が$m\leq n$で減少し$O(log(2n/m)^3+log(m/2)$である。 結果として生じる指数的なスピードアップは、量子化学から物理学、ファイナンス、量子機械学習に至るまで、数え切れないほど多くの量子アルゴリズムの複雑さを改善することによって、フォールトトレラントな量子コンピューティングに大きな影響を与える可能性が高い。

Controlled operations are fundamental building blocks of quantum algorithms. Decomposing $n$-control-NOT gates ($C^n(X)$) into arbitrary single-qubit and CNOT gates, is a crucial but non-trivial task. This study introduces $C^n(X)$ circuits outperforming previous methods in the asymptotic and non-asymptotic regimes. Three distinct decompositions are presented: an exact one using one borrowed ancilla with a circuit depth $\Theta\left(\log(n)^{3}\right)$, an approximating one without ancilla qubits with a circuit depth $\mathcal O \left(\log(n)^{3}\log(1/\epsilon)\right)$ and an exact one with an adjustable-depth circuit which decreases with the number $m\leq n$ of ancilla qubits available as $O(log(2n/m)^3+log(m/2))$. The resulting exponential speedup is likely to have a substantial impact on fault-tolerant quantum computing by improving the complexities of countless quantum algorithms with applications ranging from quantum chemistry to physics, finance and quantum machine learning.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-07
# 条件付き確率ゲートを用いた文脈特徴選択

Contextual Feature Selection with Conditional Stochastic Gates ( http://arxiv.org/abs/2312.14254v2 )

ライセンス: Link先を確認
Ram Dyuthi Sristi, Ofir Lindenbaum, Shira Lifshitz, Maria Lavzin, Jackie Schiller, Gal Mishne, Hadas Benisty, (参考訳) 特徴選択は機械学習において重要なツールであり、様々な科学分野に広く適用されている。 伝統的に監督された手法は、一般に全人口の普遍的な情報的特徴の集合を識別する。 しかし、特徴の関連性はしばしばコンテキストによって異なり、コンテキスト自体が結果変数に直接影響しない場合がある。 本稿では,コンテキスト変数の値に対して,選択した特徴のサブセットを条件付けしたコンテキスト的特徴選択のための新しいアーキテクチャを提案する。 我々の新しいアプローチである条件確率ゲート(c-STG)は、文脈変数に基づいてパラメータを予測する条件ベルヌーイ変数を用いた特徴の重要性をモデル化する。 本稿では,コンテキスト変数を特徴選択パラメータにマッピングして,予測モデルとともにコンテキスト依存ゲートを学習するハイパーネットワークを提案する。 さらに,本モデルについて理論的解析を行い,複雑な特徴選択設定において,集団レベルの手法よりも性能と柔軟性を向上できることを示す。 最後に、複数の領域にまたがるシミュレーションおよび実世界のデータセットを用いて広範なベンチマークを行い、予測精度と解釈可能性を高めながら、c-STGが機能選択能力の向上につながることを示す。

Feature selection is a crucial tool in machine learning and is widely applied across various scientific disciplines. Traditional supervised methods generally identify a universal set of informative features for the entire population. However, feature relevance often varies with context, while the context itself may not directly affect the outcome variable. Here, we propose a novel architecture for contextual feature selection where the subset of selected features is conditioned on the value of context variables. Our new approach, Conditional Stochastic Gates (c-STG), models the importance of features using conditional Bernoulli variables whose parameters are predicted based on contextual variables. We introduce a hypernetwork that maps context variables to feature selection parameters to learn the context-dependent gates along with a prediction model. We further present a theoretical analysis of our model, indicating that it can improve performance and flexibility over population-level methods in complex feature selection settings. Finally, we conduct an extensive benchmark using simulated and real-world datasets across multiple domains demonstrating that c-STG can lead to improved feature selection capabilities while enhancing prediction accuracy and interpretability.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-07
# LinguAlchemy: 未知の言語一般化のための言語学的および地理的要素の融合

LinguAlchemy: Fusing Typological and Geographical Elements for Unseen Language Generalization ( http://arxiv.org/abs/2401.06034v4 )

ライセンス: Link先を確認
Muhammad Farid Adilazuarda, Samuel Cahyawijaya, Alham Fikri Aji, Genta Indra Winata, Ayu Purwarianti, (参考訳) 事前学習型言語モデル (PLM) はタスクや言語の一般化に非常に適している。 それでも、見知らぬ言語に直面すると、しばしば失敗する。 本稿では,言語情報に類型的,地理的,系統的特徴を包含する正規化手法であるLinguAlchemyについて述べる。 我々のLinguAlchemyは、意図分類、ニュース分類、セマンティック関連性といった複数の下流タスクにおいて、mBERTとXLM-Rの性能を、完全に微調整されたモデルと比較して大幅に改善し、高いレベルの未確認言語一般化を表示する。 さらに,言語規則化の重み付けを自動的に調整するLinguAlchemyの拡張であるAlchemyScaleとAlchemyTuneを導入し,ハイパーパラメータ検索の必要性を軽減した。

Pretrained language models (PLMs) have become remarkably adept at task and language generalization. Nonetheless, they often fail when faced with unseen languages. In this work, we present LinguAlchemy, a regularization method that incorporates various linguistic information covering typological, geographical, and phylogenetic features to align PLMs representation to the corresponding linguistic information on each language. Our LinguAlchemy significantly improves the performance of mBERT and XLM-R on low-resource languages in multiple downstream tasks such as intent classification, news classification, and semantic relatedness compared to fully finetuned models and displaying a high degree of unseen language generalization. We further introduce AlchemyScale and AlchemyTune, extension of LinguAlchemy which adjusts the linguistic regularization weights automatically, alleviating the need for hyperparameter search.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-07
# 公式Twitter上での「あなたのエビデンス」に関するFalse Consensus : COVID-19の科学に関する議論

"Here's Your Evidence": False Consensus in Public Twitter Discussions of COVID-19 Science ( http://arxiv.org/abs/2401.13248v3 )

ライセンス: Link先を確認
Alexandros Efstratiou, Marina Efstratiou, Satrio Yudhoatmojo, Jeremy Blackburn, Emiliano De Cristofaro, (参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、一般大衆の間で議論されたこの話題に関する異例の科学論文を招いた。 本稿では,新型コロナウイルスの諸問題に関する科学的コンセンサスと公衆の議論が相反するかどうかを検討するため,混合メソドス分析を行った。 我々は,プリプリントサーバからの要約のサンプルに基づいて科学的コンセンサスを推定し,これらの論文に言及したTwitter上での公開討論の量と比較した。 アンチ・コンセンサス・ポストやユーザーは、全体としてはプロ・コンセンサス・ポストよりも少ないが、Twitter上では圧倒的に過剰に表現されているため、誤ったコンセンサス効果が生じる。 これは好意的な論文が不釣り合いに増幅され、新たなアンチ・コンセンサス・ユーザー登録が流入することによるものである。 最後に、我々のコンテンツ分析は、アンチ・コンセンサス利用者が、彼らの主張を裏付ける努力において、科学的発見や科学者の整合性を誤って表現していることを強調している。

The COVID-19 pandemic brought about an extraordinary rate of scientific papers on the topic that were discussed among the general public, although often in biased or misinformed ways. In this paper, we present a mixed-methods analysis aimed at examining whether public discussions were commensurate with the scientific consensus on several COVID-19 issues. We estimate scientific consensus based on samples of abstracts from preprint servers and compare against the volume of public discussions on Twitter mentioning these papers. We find that anti-consensus posts and users, though overall less numerous than pro-consensus ones, are vastly over-represented on Twitter, thus producing a false consensus effect. This transpires with favorable papers being disproportionately amplified, along with an influx of new anti-consensus user sign-ups. Finally, our content analysis highlights that anti-consensus users misrepresent scientific findings or question scientists' integrity in their efforts to substantiate their claims.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-07
# Superfiltering: 高速インストラクションチューニングのための弱ストロングデータフィルタリング

Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning ( http://arxiv.org/abs/2402.00530v2 )

ライセンス: Link先を確認
Ming Li, Yong Zhang, Shwai He, Zhitao Li, Hongyu Zhao, Jianzong Wang, Ning Cheng, Tianyi Zhou, (参考訳) 命令チューニングはLLMを改善するために重要であるが、通常、低品質で冗長なデータに悩まされる。 インストラクションチューニングのためのデータフィルタリングは、チューニングプロセスの効率と性能を改善する上で重要であることが証明された。 しかし、このプロセスにはLCMが関与しているため、コストや計算のコストも高くなる。 より小さく弱いモデルを使って、より大きくより強いモデルを微調整できるだろうか? 弱い言語モデルと強い言語モデルのパフォーマンスの差にもかかわらず、命令の難しさとデータ選択の結果を知覚する非常に一貫性のある能力を見出した。 これにより、より小さく、より効率的なモデルを使用して、より大きな言語モデルをトレーニングするために使用される命令データをフィルタリングすることができる。 主にデータフィルタリングを高速化するだけでなく、フィルタリングされたデータ精細のLLMは、標準ベンチマークでさらにパフォーマンスが向上する。 大規模な実験により、我々のアプローチの有効性と効率が検証された。

Instruction tuning is critical to improve LLMs but usually suffers from low-quality and redundant data. Data filtering for instruction tuning has proved important in improving both the efficiency and performance of the tuning process. But it also leads to extra cost and computation due to the involvement of LLMs in this process. To reduce the filtering cost, we study Superfiltering: Can we use a smaller and weaker model to select data for finetuning a larger and stronger model? Despite the performance gap between weak and strong language models, we find their highly consistent capability to perceive instruction difficulty and data selection results. This enables us to use a much smaller and more efficient model to filter the instruction data used to train a larger language model. Not only does it largely speed up the data filtering, but the filtered-data-finetuned LLM achieves even better performance on standard benchmarks. Extensive experiments validate the efficacy and efficiency of our approach.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-07
# OLMo: 言語モデルの科学を加速する

OLMo: Accelerating the Science of Language Models ( http://arxiv.org/abs/2402.00838v4 )

ライセンス: Link先を確認
Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi, (参考訳) 言語モデル(LM)は、NLP研究と商用製品製品の両方で広く普及している。 商業的重要性が高まるにつれて、最も強力なモデルは閉鎖され、プロプライエタリなインターフェースの背後に隠蔽され、トレーニングデータ、アーキテクチャ、開発に関する重要な詳細は公表されていない。 科学的にこれらのモデルを研究する上でこれらの詳細が重要であること、バイアスや潜在的なリスクなどを考えると、我々は研究コミュニティが強力で真にオープンなLMにアクセスすることが不可欠であると信じている。 この目的のために私たちは,言語モデルの科学的研究を可能にするために,競争力のある真のオープン言語モデルであるOLMoを開発しました。 モデルウェイトと推論コードしかリリースしていないこれまでの作業とは異なり、オープンなトレーニングデータとトレーニングおよび評価コードとともにOLMoをリリースしています。 このリリースによってオープンな研究コミュニティが強化され、新たなイノベーションの波がもたらされることを願っています。

Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, we have built OLMo, a competitive, truly Open Language Model, to enable the scientific study of language models. Unlike most prior efforts that have only released model weights and inference code, we release OLMo alongside open training data and training and evaluation code. We hope this release will empower the open research community and inspire a new wave of innovation.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-07
# MAGDi:小型言語モデルの推論を改善するマルチエージェント相互作用グラフの構造的蒸留

MAGDi: Structured Distillation of Multi-Agent Interaction Graphs Improves Reasoning in Smaller Language Models ( http://arxiv.org/abs/2402.01620v2 )

ライセンス: Link先を確認
Justin Chih-Yao Chen, Swarnadeep Saha, Elias Stengel-Eskin, Mohit Bansal, (参考訳) 大規模言語モデル(LLM)エージェント間のマルチエージェントインタラクションは、多種多様な推論タスクにおいて大幅に改善されている。 しかし、これらは複数のラウンドにわたる複数のモデルから長い世代を巻き込み、高価にしている。 さらに、これらのマルチエージェントアプローチは、効率的な推論のための最終的な単一モデルを提供していない。 そこで本研究では,複数のLDM間の推論相互作用をより小さなLMに構造化した新しい蒸留法であるMAGDiを紹介する。 MAGDiは、グラフとしてマルチエージェント相互作用を表現し、グラフエンコーダで基礎的な学生モデルを増強し、3つの目的関数を用いて知識を蒸留することで、より小さなモデルを教える。 7つの広く使われているコモンセンスと数学推論のベンチマーク実験により、MAGDiはより小さなモデルの推論能力を改善し、単一の教師と複数の教師から抽出するいくつかの方法より優れていることが示された。 さらに、MAGDiは教師よりもはるかに高い効率を示す。 本研究では,(1)領域外タスクへの一般化性の向上,(2)基礎的学生モデルのサイズと強度の正のスケール,(3)モデル多様性に依存する推論手法である自己整合性を適用した場合の(多教師養成による)大幅な改善,などについて広範な分析を行った。

Multi-agent interactions between Large Language Model (LLM) agents have shown major improvements on diverse reasoning tasks. However, these involve long generations from multiple models across several rounds, making them expensive. Moreover, these multi-agent approaches fail to provide a final, single model for efficient inference. To address this, we introduce MAGDi, a new method for structured distillation of the reasoning interactions between multiple LLMs into smaller LMs. MAGDi teaches smaller models by representing multi-agent interactions as graphs, augmenting a base student model with a graph encoder, and distilling knowledge using three objective functions: next-token prediction, a contrastive loss between correct and incorrect reasoning, and a graph-based objective to model the interaction structure. Experiments on seven widely used commonsense and math reasoning benchmarks show that MAGDi improves the reasoning capabilities of smaller models, outperforming several methods that distill from a single teacher and multiple teachers. Moreover, MAGDi also demonstrates an order of magnitude higher efficiency over its teachers. We conduct extensive analyses to show that MAGDi (1) enhances the generalizability to out-of-domain tasks, (2) scales positively with the size and strength of the base student model, and (3) obtains larger improvements (via our multi-teacher training) when applying self-consistency -- an inference technique that relies on model diversity.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-07
# 確率長と組成一般化について

On Provable Length and Compositional Generalization ( http://arxiv.org/abs/2402.04875v3 )

ライセンス: Link先を確認
Kartik Ahuja, Amin Mansouri, (参考訳) シーケンス・ツー・シーケンスモデルのアウト・オブ・ディストリビューションの一般化能力は、長さの一般化 - トレーニング中に見られるものよりも長いシーケンスに一般化する能力、構成的な一般化 - トレーニング中に見られないトークンの組み合わせに一般化する能力という2つの重要な一般化のレンズから研究することができる。 本研究では、予測誤差を最小限に抑えるために訓練された、一般的なシーケンス・ツー・シーケンスモデル(ディープ・セット、トランスフォーマー、ステート・スペース・モデル、リカレント・ニューラル・ネット)について、長さと構成的一般化に関する最初の証明可能な保証を提供する。 第一原理の観点から、我々は実現可能なケース、すなわちラベリング関数をアーキテクチャ上で実現可能であることを研究する。 これらの異なるアーキテクチャの限られた容量バージョンは、長さと構成の一般化の両方を達成することを示す。 また,学習した表現とラベリング関数の表現との線形関係は,長さや構成の一般化に必要であることがわかった。

Out-of-distribution generalization capabilities of sequence-to-sequence models can be studied from the lens of two crucial forms of generalization: length generalization -- the ability to generalize to longer sequences than ones seen during training, and compositional generalization: the ability to generalize to token combinations not seen during training. In this work, we provide first provable guarantees on length and compositional generalization for common sequence-to-sequence models -- deep sets, transformers, state space models, and recurrent neural nets -- trained to minimize the prediction error. Taking a first principles perspective, we study the realizable case, i.e., the labeling function is realizable on the architecture. We show that limited capacity versions of these different architectures achieve both length and compositional generalization. Across different architectures, we also find that a linear relationship between the learned representation and the representation in the labeling function is necessary for length and compositional generalization.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-07
# 学生が選択した LLM 指導用データリサイクル

Selective Reflection-Tuning: Student-Selected Data Recycling for LLM Instruction-Tuning ( http://arxiv.org/abs/2402.10110v2 )

ライセンス: Link先を確認
Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Jiuxiang Gu, Tianyi Zhou, (参考訳) インストラクションチューニングは、より優れたインストラクション追従とタスク適応能力を達成するために大きな言語モデル(LLM)にとって重要であるが、その成功はトレーニングデータの品質に大きく依存している。 最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルの微調整によるデータの互換性を見落としていることが多い。 本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を学生のLLMのデータ選択能力で向上させる新しいパラダイムであるSelective Reflection-Tuningを紹介し,既存のインストラクションチューニングデータを自動的に洗練する。 この教師と学生のコラボレーションは、高品質で生徒との互換性のある命令応答ペアを生成し、結果として、サンプル効率のよい命令チューニングと、優れた性能のLLMを実現する。 Selective Reflection-Tuningは、新しいデータを集めることなく、LLMの微調整と自己改善を改善するデータ拡張と合成である。 本手法をAlpaca と WizardLM のデータに適用し,より強力で最上位の 7B と 13B の LLM を実現する。

Instruction tuning is critical to large language models (LLMs) for achieving better instruction following and task adaptation capabilities but its success heavily relies on the training data quality. Many recent methods focus on improving the data quality but often overlook the compatibility of the data with the student model being finetuned. This paper introduces Selective Reflection-Tuning, a novel paradigm that synergizes a teacher LLM's reflection and introspection for improving existing data quality with the data selection capability of the student LLM, to automatically refine existing instruction-tuning data. This teacher-student collaboration produces high-quality and student-compatible instruction-response pairs, resulting in sample-efficient instruction tuning and LLMs of superior performance. Selective Reflection-Tuning is a data augmentation and synthesis that generally improves LLM finetuning and self-improvement without collecting brand-new data. We apply our method to Alpaca and WizardLM data and achieve much stronger and top-tier 7B and 13B LLMs.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-07
# LLMs Speak for Diverse People? 議論を通じてLLMをチューニングして、制御可能な議論文を生成する

Can LLMs Speak For Diverse People? Tuning LLMs via Debate to Generate Controllable Controversial Statements ( http://arxiv.org/abs/2402.10614v2 )

ライセンス: Link先を確認
Ming Li, Jiuhai Chen, Lichang Chen, Tianyi Zhou, (参考訳) LLMをさまざまな、特に少数派の人々に対して話すようにし、多様性や議論の的になっている視点を支持する声明を生成することは、包括的環境を作る上で非常に重要である。 しかし、既存のLCMは、しばしば矛盾、中立、偏見のある文を含む、生成されたコンテンツのスタンスに対して十分な制御性を持っていない。 本稿では,ユーザがプロンプトで定義した引数をサポートする文を生成する際のLCMの制御性を改善する。 逆姿勢の2つのLLM間の複数ラウンドの議論は、それぞれに高品質でより健全なステートメントを生成し、LLMの制御性を改善するための重要なトレーニングデータである。 そこで我々は,LLMを微調整する新しい議論&チューニング(DEBATUNE)パイプラインを開発し,議論によって得られた文を生成する。 DEBATUNEを検証するために、議論トピックの最大データセットをキュレートし、710の議論トピックと各トピックに対する対応する議論をカバーした。 GPT-4審査員による新しい議論の制御性指標による評価は、LLMが多様な視点を生成できる能力は、DEBATUNEによって著しく改善されていることを示している。 さらに、このような制御性は目に見えないトピックに一般化することができ、議論の的となっている議論を裏付ける高品質なステートメントを生成する。

Making LLMs speak for different, especially minority groups of people, and generate statements supporting their diverse or even controversial perspectives is critical to creating an inclusive environment. However, existing LLMs lack sufficient controllability to the stance of their generated content, which often contains inconsistent, neutral, or biased statements. In this paper, we improve the controllability of LLMs in generating statements supporting an argument the user defined in the prompt. We find that multi-round debates between two LLMs with opposite stances generate higher-quality and more salient statements for each, which are important training data to improve the controllability of LLMs. Motivated by this, we develop a novel debate & tuning (DEBATUNE) pipeline finetuning LLMs to generate the statements obtained via debate. To examine DEBATUNE, we curate the largest dataset of debate topics so far, which covers 710 controversial topics and corresponding arguments for each topic. Evaluations by the GPT-4 judge with a novel controversy controllability metric show that LLMs' capability of generating diverse perspectives is significantly improved by DEBATUNE. Moreover, such controllability can be generalized to unseen topics, generating high-quality statements supporting controversial arguments.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-07
# 学習可能なウェイトとして機能を有する言語モデルエージェントのオフライントレーニング

Offline Training of Language Model Agents with Functions as Learnable Weights ( http://arxiv.org/abs/2402.11359v3 )

ライセンス: Link先を確認
Shaokun Zhang, Jieyu Zhang, Jiale Liu, Linxin Song, Chi Wang, Ranjay Krishna, Qingyun Wu, (参考訳) 研究者や実践者が最近、強力なLarge Language Models(LLM)をエージェントとして再構成し、主に特殊な関数を使って複雑なタスクを自動化した。 LLM エージェントの開発を容易にするため,LLM エージェントを LLM 重量を変更することなくトレーニングする新たなパラダイムを提案する。 静的なツールセットに適合するように我々の生物学的構造を変えるのではなく、人間が現実世界のタスクに適応するためのツールを継続的に鍛造する方法に着想を得て、我々は、LCMの重みを変更するのではなく、下流タスクをよりよく解決するために、エージェントの機能を段階的に鍛造することを提案する。 学習可能な「エージェントパラメータ」として処理し、人工知能におけるモデルトレーニングの基本的な考え方を活用することにより、エージェントの機能を更新し、エージェントトレーニングアルゴリズムを2つの戦略(ロールバックとアーリーストップ)で考案し、トレーニングプロセスを合理化するエージェントオプティマイザを開発する。 広範囲な実験により、エージェント訓練パラダイムは、様々な下流タスクにおける代表的LLMエージェントの性能を著しく向上させることができることを示した。 また、学習曲線やドメイン転送可能性といった側面に関するエージェント訓練の振る舞いについても検討する。

Researchers and practitioners have recently reframed powerful Large Language Models (LLMs) as agents, enabling them to automate complex tasks largely via the use of specialized functions. To facilitate the development of LLM agents, we present a novel paradigm of training LLM agents without modifying the LLM weights, which is particularly useful when the LLMs are difficult or inaccessible for modifications. Inspired by how humans continuously forge tools to adapt to real-world tasks, rather than change our biological structure to fit a static set of tools, we propose to progressively forge agent's functions to better solve the downstream tasks instead of modifying the LLM weights. By treating the functions as learnable `agent parameters' and leveraging the fundamental idea of model training in artificial intelligence, we develop AgentOptimizer that employs the LLM to update agents' functions and devise an agent training algorithm with two strategies, roll-back, and early-stop, to streamline the training process. With extensive experiments, we showcase that the agent training paradigm could significantly improve the performance of representative LLM agents in various downstream tasks. We also study the behavior of the agent training regarding aspects like the learning curve and domain transferability.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-07
# 認知的動機付け言語モデルによる創発語順の普遍化

Emergent Word Order Universals from Cognitively-Motivated Language Models ( http://arxiv.org/abs/2402.12363v2 )

ライセンス: Link先を確認
Tatsuki Kuribayashi, Ryo Ueda, Ryo Yoshida, Yohei Oseki, Ted Briscoe, Timothy Baldwin, (参考訳) 世界の言語はある種の類型的あるいは含意的普遍性を示しており、例えば、主語-対象-動詞(SOV)言語は一般にポストポジションを使用する。 このようなバイアスの源を説明することは言語学の重要な目標である。 言語モデル (LM) を用いた計算シミュレーションにより, 語順普遍性について検討する。 実験の結果,タイプ的単語順序は,認知学的バイアス,特定の解析戦略,メモリ制限など,認知的バイアスを有するLMによって推定されるパープレキシティが低い傾向を示した。 このことは、認知バイアスと予測可能性(複雑さ)の相互作用が、語順普遍性の多くの側面を説明することを示唆している。 また、言語普遍性のシミュレーションにおいて認知的動機付けされたLM(一般的に認知モデリングに使用される)の利点も示している。

The world's languages exhibit certain so-called typological or implicational universals; for example, Subject-Object-Verb (SOV) languages typically use postpositions. Explaining the source of such biases is a key goal of linguistics. We study word-order universals through a computational simulation with language models (LMs). Our experiments show that typologically-typical word orders tend to have lower perplexity estimated by LMs with cognitively plausible biases: syntactic biases, specific parsing strategies, and memory limitations. This suggests that the interplay of cognitive biases and predictability (perplexity) can explain many aspects of word-order universals. It also showcases the advantage of cognitively-motivated LMs, typically employed in cognitive modeling, in the simulation of language universals.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-07
# アーティファクト(Artifacts)とアブダクション(Abduction): LLMは質問なしに複数の質問に答えるにはどうすればよいか?

Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question? ( http://arxiv.org/abs/2402.12483v2 )

ライセンス: Link先を確認
Nishant Balepur, Abhilasha Ravichander, Rachel Rudinger, (参考訳) 大規模言語モデル (LLM) を評価するために、MCQA (Multiple-choice Question answering) がよく用いられる。 MCQA が LLM を意図どおりに評価するかどうかを確認するため、選択のみのプロンプトで LLM が MCQA を実行できるかどうかを探索する。 3つのMCQAデータセットと4つのLCMにおいて、これは11/12ケースで過半数のベースラインを達成し、最大0.33の精度向上を達成している。 この振る舞いを説明するために、暗記、選択力学、質問推論について詳細なブラックボックス分析を行う。 私たちの重要な発見は3倍です。 まず、選択のみの精度が記憶のみに起因するという証拠は見つからない。 第二に、個々の選択に対する先行は、選択のみの精度を完全に説明せず、LLMが選択のグループ力学を使用することを示唆している。 第三に、LSMは選択から関連する質問を推測する能力があり、驚くべきことに元の質問にマッチすることもある。 元の質問を推測することは印象的な推論戦略であるが、MCQAにおけるLLMの高い選択のみの精度を完全に説明できない。 したがって、LCMはMCQAの推論が完全にできないわけではないが、MCQAベンチマークにおけるより強力なベースラインの使用、堅牢なMCQAデータセットの設計、LCMの意思決定のさらなる説明が唱えられている。

Multiple-choice question answering (MCQA) is often used to evaluate large language models (LLMs). To see if MCQA assesses LLMs as intended, we probe if LLMs can perform MCQA with choices-only prompts, where models must select the correct answer only from the choices. In three MCQA datasets and four LLMs, this prompt bests a majority baseline in 11/12 cases, with up to 0.33 accuracy gain. To help explain this behavior, we conduct an in-depth, black-box analysis on memorization, choice dynamics, and question inference. Our key findings are threefold. First, we find no evidence that the choices-only accuracy stems from memorization alone. Second, priors over individual choices do not fully explain choices-only accuracy, hinting that LLMs use the group dynamics of choices. Third, LLMs have some ability to infer a relevant question from choices, and surprisingly can sometimes even match the original question. Inferring the original question is an impressive reasoning strategy, but it cannot fully explain the high choices-only accuracy of LLMs in MCQA. Thus, while LLMs are not fully incapable of reasoning in MCQA, we still advocate for the use of stronger baselines in MCQA benchmarks, the design of robust MCQA datasets for fair evaluations, and further efforts to explain LLM decision-making.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-07
# リモートセンシング画像セグメンテーションのための雑音ラベルを用いたタスク特定事前学習

Task Specific Pretraining with Noisy Labels for Remote Sensing Image Segmentation ( http://arxiv.org/abs/2402.16164v3 )

ライセンス: Link先を確認
Chenying Liu, Conrad M Albrecht, Yi Wang, Xiao Xiang Zhu, (参考訳) 教師付きディープラーニングと比較して、セルフスーパービジョンは、人造地理空間アノテーションの正確な量を減らすためのリモートセンシングツールを提供する。 教師なし事前学習のための画像レベル情報は、様々な下流タスクに対して効率的に機能するが、モデル精度の観点からはピクセルレベルのセマンティックセマンティックセマンティックスラグのパフォーマンスが遅れている。 それとは対照的に、多くの手軽に利用可能なラベルソース(例えば、自動ラベル付けツールや土地被覆土地利用製品)が存在し、セグメンテーションモデルトレーニングのための大量のノイズラベルを提供することができる。 本研究では,モデル事前学習のためのノイズの多いセマンティックセグメンテーションマップを提案する。 我々の実験はネットワーク層ごとの堅牢性に関する洞察を提供する。 転送学習設定は、事前訓練されたエンコーダが異なるラベルクラスやデコーダに対して微調整された場合をテストする。 2つのデータセットから,ノイズラベルを用いたタスク固有教師付き事前学習の有効性が示唆された。 提案手法は, モデル精度の向上と, 効率的なリモートセンシング画像セグメンテーションのための新しい事前学習方法である。

Compared to supervised deep learning, self-supervision provides remote sensing a tool to reduce the amount of exact, human-crafted geospatial annotations. While image-level information for unsupervised pretraining efficiently works for various classification downstream tasks, the performance on pixel-level semantic segmentation lags behind in terms of model accuracy. On the contrary, many easily available label sources (e.g., automatic labeling tools and land cover land use products) exist, which can provide a large amount of noisy labels for segmentation model training. In this work, we propose to exploit noisy semantic segmentation maps for model pretraining. Our experiments provide insights on robustness per network layer. The transfer learning settings test the cases when the pretrained encoders are fine-tuned for different label classes and decoders. The results from two datasets indicate the effectiveness of task-specific supervised pretraining with noisy labels. Our findings pave new avenues to improved model accuracy and novel pretraining strategies for efficient remote sensing image segmentation.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-07
# 動的システム再構築における領域外一般化

Out-of-Domain Generalization in Dynamical Systems Reconstruction ( http://arxiv.org/abs/2402.18377v2 )

ライセンス: Link先を確認
Niclas Göring, Florian Hess, Manuel Brenner, Zahra Monfared, Daniel Durstewitz, (参考訳) 科学では、支配方程式、力学規則、基礎となる経験的現象を見つけることに興味がある。 従来の科学的モデルは人間の洞察と実験のサイクルから導かれるが、最近のディープラーニング(DL)技術は時系列データから直接動的システム(DS)を再構築するために進歩している。 最先端の動的システム再構成(DSR)手法は、観測されたDSの不変性や長期的な特性を捉える上で有望であるが、観測されていない領域に一般化する能力は依然としてオープンな課題である。 しかし、これはどんな科学理論でも期待できる重要な特性です。 本研究では、DSRの一般化に対処する形式的なフレームワークを提供する。 我々は、DSRにおけるOOD(out-of-domain)一般化が、機械学習において他の分野で考慮されたOODGと大きく異なる理由と理由を説明する。 本稿では,DSRモデルの学習可能性の概念を定式化するために,トポロジカルな概念とエルゴード理論に基づく数学的概念を導入する。 ブラックボックス DL 技術は,構造的前提を十分に満たさないが,一般に一般化 DSR モデルを学ぶことはできないことを正式に証明する。 また、これまでに提案されたDSRアルゴリズムの主要なクラスを考慮し、位相空間全体の一般化に失敗した理由を実証的に示す。 本研究は,DSRにおけるOODGの包括的数学的治療であり,OODGの根本的問題がどこにあるのか,実際にどのように対処できるかをより深く理解するものである。

In science we are interested in finding the governing equations, the dynamical rules, underlying empirical phenomena. While traditionally scientific models are derived through cycles of human insight and experimentation, recently deep learning (DL) techniques have been advanced to reconstruct dynamical systems (DS) directly from time series data. State-of-the-art dynamical systems reconstruction (DSR) methods show promise in capturing invariant and long-term properties of observed DS, but their ability to generalize to unobserved domains remains an open challenge. Yet, this is a crucial property we would expect from any viable scientific theory. In this work, we provide a formal framework that addresses generalization in DSR. We explain why and how out-of-domain (OOD) generalization (OODG) in DSR profoundly differs from OODG considered elsewhere in machine learning. We introduce mathematical notions based on topological concepts and ergodic theory to formalize the idea of learnability of a DSR model. We formally prove that black-box DL techniques, without adequate structural priors, generally will not be able to learn a generalizing DSR model. We also show this empirically, considering major classes of DSR algorithms proposed so far, and illustrate where and why they fail to generalize across the whole phase space. Our study provides the first comprehensive mathematical treatment of OODG in DSR, and gives a deeper conceptual understanding of where the fundamental problems in OODG lie and how they could possibly be addressed in practice.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-07
# 実測値を持つ大規模視覚言語モデルにおけるバイアスの発見

Uncovering Bias in Large Vision-Language Models with Counterfactuals ( http://arxiv.org/abs/2404.00166v2 )

ライセンス: Link先を確認
Phillip Howard, Anahita Bhiwandiwalla, Kathleen C. Fraser, Svetlana Kiritchenko, (参考訳) LVLM(Large Vision-Language Models)は,LVLM(Large Vision-Language Models)を視覚的入力で拡張するために提案されている。 このようなモデル条件は入力画像とテキストプロンプトの両方にテキストを生成し、視覚的質問応答やマルチモーダルチャットなどのさまざまなユースケースを可能にする。 以前の研究では、LLMが生成するテキストに含まれる社会的バイアスについて検討されてきたが、この話題はLVLMでは比較的研究されていない。 LVLMの社会的偏見を調べることは、テキストや視覚的モダリティに含まれる情報によって引き起こされる偏見の相違により特に困難である。 この課題に対処するため,異なるLVLMによって生成されたテキストを,入力画像の反実的変化下で大規模に研究する。 具体的には、異なる対物集合の画像を条件付けしながら、同一のオープンエンドテキストプロンプトを持つLVLMを提示する。それぞれのセットは、共通の対象(例えば、医師)の描写とほとんど同一であるが、交叉的な社会的属性(例えば、人種、性別)の点でのみ異なる画像を含む。 本研究では, 異なるLVLMが生成するテキストを, この逆生成環境下で包括的に評価し, 入力画像に表される人種, 性別, 身体的特徴などの社会的属性が有毒性や有能な関連語の生成に大きく影響することを見出した。

With the advent of Large Language Models (LLMs) possessing increasingly impressive capabilities, a number of Large Vision-Language Models (LVLMs) have been proposed to augment LLMs with visual inputs. Such models condition generated text on both an input image and a text prompt, enabling a variety of use cases such as visual question answering and multimodal chat. While prior studies have examined the social biases contained in text generated by LLMs, this topic has been relatively unexplored in LVLMs. Examining social biases in LVLMs is particularly challenging due to the confounding contributions of bias induced by information contained across the text and visual modalities. To address this challenging problem, we conduct a large-scale study of text generated by different LVLMs under counterfactual changes to input images. Specifically, we present LVLMs with identical open-ended text prompts while conditioning on images from different counterfactual sets, where each set contains images which are largely identical in their depiction of a common subject (e.g., a doctor), but vary only in terms of intersectional social attributes (e.g., race and gender). We comprehensively evaluate the text produced by different LVLMs under this counterfactual generation setting and find that social attributes such as race, gender, and physical characteristics depicted in input images can significantly influence toxicity and the generation of competency-associated words.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-07
# player2vec: ゲームにおけるプレイヤーの振る舞いを理解するための言語モデリングアプローチ

player2vec: A Language Modeling Approach to Understand Player Behavior in Games ( http://arxiv.org/abs/2404.04234v3 )

ライセンス: Link先を確認
Tianze Wang, Maryam Honari-Jahromi, Styliani Katsarou, Olga Mikheeva, Theodoros Panagiotakopoulos, Sahar Asadi, Oleg Smirnov, (参考訳) 過去の行動ログから潜在ユーザ表現を学習する方法は、eコマース、コンテンツストリーミング、その他の設定におけるレコメンデーションタスクの注目を集めている。 しかし、この領域はビデオやモバイルのゲーム分野ではまだ比較的過小評価されている。 本研究では,自然言語処理領域からプレイヤー行動データへの長距離トランスフォーマーモデルの拡張により,この制限を克服する新しい手法を提案する。 本研究では,ゲームにおける行動追跡の具体性を議論し,ゲーム内イベントを文中の単語と類似して見ることによって,前処理とトークン化のアプローチを提案する。 本研究では,本提案手法の有効性を,固有言語モデルメトリクスの評価により実験的に検証した。 さらに、学習した埋め込み空間の出現構造を質的に分析し、下流アプリケーションに通知するための行動パターンに対する洞察を生み出す価値を示す。

Methods for learning latent user representations from historical behavior logs have gained traction for recommendation tasks in e-commerce, content streaming, and other settings. However, this area still remains relatively underexplored in video and mobile gaming contexts. In this work, we present a novel method for overcoming this limitation by extending a long-range Transformer model from the natural language processing domain to player behavior data. We discuss specifics of behavior tracking in games and propose preprocessing and tokenization approaches by viewing in-game events in an analogous way to words in sentences, thus enabling learning player representations in a self-supervised manner in the absence of ground-truth annotations. We experimentally demonstrate the efficacy of the proposed approach in fitting the distribution of behavior events by evaluating intrinsic language modeling metrics. Furthermore, we qualitatively analyze the emerging structure of the learned embedding space and show its value for generating insights into behavior patterns to inform downstream applications.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-07
# ハイパーパラメータ最適化のためのIn-Context Freeze-Thaw Bayesian Optimization

In-Context Freeze-Thaw Bayesian Optimization for Hyperparameter Optimization ( http://arxiv.org/abs/2404.16795v2 )

ライセンス: Link先を確認
Herilalaina Rakotoarison, Steven Adriaensen, Neeratyoy Mallik, Samir Garibov, Edward Bergman, Frank Hutter, (参考訳) 深層学習に伴う計算コストの増大に伴い、自動ハイパーパラメータ最適化法はブラックボックスベイズ最適化(BO)に強く依存しており、限界に直面している。 Freeze-thaw BOは有望なグレーボックスの代替を提供し、戦略的に不足するリソースを異なる構成に段階的に割り当てる。 しかし、このアプローチに固有の頻繁なサロゲートモデル更新は、既存の手法に課題をもたらし、ニューラルネットワークのサロゲートをオンラインで再トレーニングまたは微調整し、オーバーヘッド、不安定性、ハイパーハイパーパラメータを導入する。 本研究では,フリーズソースタイルBOのための新しいサロゲートであるFT-PFNを提案する。 FT-PFN(FT-PFN)は、トランスフォーマーのコンテキスト内学習能力を利用して、ベイズ学習曲線外挿を1つの前方通過で効率よく確実に行う、事前データ付きネットワーク(PFN)である。 3つのベンチマークスイートを比較検討した結果,FT-PFN による予測は,ガウス過程の深部と深部アンサンブルサロゲートの10~100倍の精度で高速であることがわかった。 さらに,本手法とMFPI-randomの併用により,従来検討されていた3種類の深層学習HPOベンチマークにおいて,実環境における凍結ソーBO法(ifBO)が新たに実現されたことを示す。

With the increasing computational costs associated with deep learning, automated hyperparameter optimization methods, strongly relying on black-box Bayesian optimization (BO), face limitations. Freeze-thaw BO offers a promising grey-box alternative, strategically allocating scarce resources incrementally to different configurations. However, the frequent surrogate model updates inherent to this approach pose challenges for existing methods, requiring retraining or fine-tuning their neural network surrogates online, introducing overhead, instability, and hyper-hyperparameters. In this work, we propose FT-PFN, a novel surrogate for Freeze-thaw style BO. FT-PFN is a prior-data fitted network (PFN) that leverages the transformers' in-context learning ability to efficiently and reliably do Bayesian learning curve extrapolation in a single forward pass. Our empirical analysis across three benchmark suites shows that the predictions made by FT-PFN are more accurate and 10-100 times faster than those of the deep Gaussian process and deep ensemble surrogates used in previous work. Furthermore, we show that, when combined with our novel acquisition mechanism (MFPI-random), the resulting in-context freeze-thaw BO method (ifBO), yields new state-of-the-art performance in the same three families of deep learning HPO benchmarks considered in prior work.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-07
# マルコフ体制を超えた開量子系のシュウィンガー・ケルディシュ非平衡量子場理論:スピン-ボソンモデルへの応用

Schwinger-Keldysh nonequilibrium quantum field theory of open quantum systems beyond the Markovian regime: Application to the spin-boson model ( http://arxiv.org/abs/2405.00765v2 )

ライセンス: Link先を確認
Felipe Reyes-Osorio, Federico Garcia-Gaitan, David J. Strachan, Petr Plechac, Stephen R. Clark, Branislav K. Nikolic, (参考訳) 我々は、散逸した環境と相互作用するオープン量子系に対するシュウィンガー・ケルディッシュ場理論(SKFT)を開発し、その環境がボソニックバスで構成された古典的な例としてスピンボソンモデルに適用する。 このタイプの以前のSKFTの発展は、時間局所行列微分方程式であるリンドブラッド量子マスター方程式(英語版)(QME)による従来の記述の代替としてマルコフ系に限られていた。 ここで SKFT と 2-粒子既約 (2PI) の作用を組み合わせ、ファインマン図形のクラスを無限次とする。 スピン密度行列の時間進化は、マルコフ型と非マルコフ型の両方に適用される積分微分方程式の体系の形で得られる。 メモリ効果を考慮に入れた後者の体制は不可欠であり、システムや浴槽、時間進化の長さの任意の特性を取り入れようとする場合、標準的な手法では課題となる。 マルコフ系におけるスピン期待値のSKFT+2PI計算時間進化はリンドブラッドQMEの解を再現する。 非マルコフ系では、SKFT+2PIは、我々がベンチマークとして使用する運動の階層方程式とテンソルネットワークの手法の両方の結果を模倣する非摂動解が得られる。 我々のSKFT+2PIアプローチは、ゼロ温度やサブオーミックバス、任意の長い進化時間など、困難なケースにもアクセスできます。 SKFT+2PIアプローチは、スピン数、時間ステップまたは次元が増加する積分微分方程式を解くための好ましい数値コストを考慮して、様々な(単一または複数)散逸環境の存在下で、量子コンピューティングや量子マグノニクス、スピントロニクスにおける駆動散逸系のシミュレーションのための有望な経路を提供する。

We develop a Schwinger-Keldysh field theory (SKFT) for open quantum systems interacting with a dissipative environment and apply it to the spin-boson model as an archetypical example where the environment is composed of a bosonic bath. Prior SKFT developments of this type have been confined to the Markovian regime, as an alternative to a conventional description by the Lindblad quantum master equation (QME) which is a time-local matrix differential equation. Here we combine SKFT with a two-particle irreducible (2PI) action that resums a class of Feynman diagrams to infinite order. We obtain the time-evolution of the spin density matrix in the form of a system of integro-differential equations applicable to both Markovian and non-Markovian regimes. The latter regime--where taking into account memory effects becomes essential--poses a challenge for standard methods when trying to incorporate arbitrary properties of the system, bath, and length of time evolution. The SKFT+2PI-computed time evolution of the spin expectation values in the Markovian regime reproduces the solution of the Lindblad QME, as long as the system-bath coupling in the latter is adjusted by increasing it. In the non-Markovian regime, SKFT+2PI yields a nonperturbative solution that mimics results from both hierarchical equations of motion and tensor networks methods that we employ as benchmarks. Our SKFT+2PI approach can also access challenging cases, such as zero-temperature and sub-Ohmic bath, as well as arbitrary long evolution times. Taking into account favorable numerical cost of solving the integro-differential equations with increasing number of spins, time steps or dimensionality the SKFT+2PI approach offers a promising route for simulation of driven-dissipative systems in quantum computing or quantum magnonics and spintronics in the presence of a variety of (single or multiple) dissipative environments.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-07
# KIC 1718360の機械学習による可逆性可変回転の検出

The Detection of KIC 1718360, A Rotating Variable with a Possible Companion, Using Machine Learning ( http://arxiv.org/abs/2405.05282v2 )

ライセンス: Link先を確認
Jakob Roche, (参考訳) 本稿では, G1.5IV-V型星KIC 1718360の光曲線における周期的なディミング現象の検出について述べる。 これは、TESSとケプラー宇宙望遠鏡によって行われた可視光観測に基づいている。 データの分析は、恒星の自転周期が2.938日であることから、恒星の自転速度が高いことを示唆しているようである。 恒星の光度曲線内で見られる高い変動は、回転する変光星の分類に向かっている。 最初の観測は、ワンクラスSVM機械学習法を用いたケプラークォーター16データで行われた。 その後のテッサ宇宙望遠鏡による観測は、これらの発見を裏付けた。 KIC 1718360は近くで回転する変数であり、主要なカタログにはほとんど存在しない。 二次的な、追加の周期的なディップも存在しており、太陽系外惑星の伴星の可能性を示している。

This paper presents the detection of a periodic dimming event in the lightcurve of the G1.5IV-V type star KIC 1718360. This is based on visible-light observations conducted by both the TESS and Kepler space telescopes. Analysis of the data seems to point toward a high rotation rate in the star, with a rotational period of 2.938 days. The high variability seen within the star's lightcurve points toward classification as a rotating variable. The initial observation was made in Kepler Quarter 16 data using the One-Class SVM machine learning method. Subsequent observations by the TESS space telescope corroborated these findings. It appears that KIC 1718360 is a nearby rotating variable that appears in little to no major catalogs as such. A secondary, additional periodic dip is also present, indicating a possible exoplanetary companion.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-07
# FAdam:Adamは対角的な経験的フィッシャー情報を用いた自然な勾配最適化器です。

FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information ( http://arxiv.org/abs/2405.12807v6 )

ライセンス: Link先を確認
Dongseong Hwang, (参考訳) 本稿では、Adam Optimizationrの数学的基礎を確立し、リーマン的および情報幾何学による自然勾配降下との関係を解明する。 本研究では,Adam の対角的経験的フィッシャー情報行列 (FIM) を厳密に解析し,実験的 FIM の限界のため,離散分布に基づいたログ確率関数の損失としての利用を推奨する。 解析によって元のAdamアルゴリズムの欠陥が明らかとなり、運動量計算の強化、バイアス補正の調整、適応エプシロン、勾配クリッピングなどの修正が提案された。 我々は、我々の理論的枠組みに基づいて重量減衰項を洗練する。 我々の修正アルゴリズムであるFisher Adam (FAdam) は、LLM、ASR、VQ-VAEを含む様々な領域で優れた性能を示し、ASRにおける最先端の結果を達成する。

This paper establishes a mathematical foundation for the Adam optimizer, elucidating its connection to natural gradient descent through Riemannian and information geometry. We rigorously analyze the diagonal empirical Fisher information matrix (FIM) in Adam, clarifying all detailed approximations and advocating for the use of log probability functions as loss, which should be based on discrete distributions, due to the limitations of empirical FIM. Our analysis uncovers flaws in the original Adam algorithm, leading to proposed corrections such as enhanced momentum calculations, adjusted bias corrections, adaptive epsilon, and gradient clipping. We refine the weight decay term based on our theoretical framework. Our modified algorithm, Fisher Adam (FAdam), demonstrates superior performance across diverse domains including LLM, ASR, and VQ-VAE, achieving state-of-the-art results in ASR.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-07
# 身体的不可避関数の新しい信頼性攻撃

A novel reliability attack of Physical Unclonable Functions ( http://arxiv.org/abs/2405.13147v2 )

ライセンス: Link先を確認
Gaoxiang Li, Yu Zhuang, (参考訳) Physical Unclonable Functions(PUF)は、IoTデバイスの将来的なセキュリティプリミティブとして登場し、物理的特性に基づいたデバイスの指紋を提供する。 その強みにもかかわらず、PUFは従来のおよび信頼性ベースの攻撃を含む機械学習(ML)攻撃に対して脆弱である。 従来のML攻撃は多くのPUFの脆弱性を明らかにするのに有効であり、信頼性ベースのML攻撃は従来のML攻撃に耐性のあるPUFの脆弱性を検出する強力なツールである。 信頼性に基づくML攻撃は,PUFの信頼性の低い情報を活用しているため,信頼性向上技術を用いて,ビルディングディフェンスの実現可能性を検討した。 多数決は信頼性が低下するが,信頼性が低いPUFの信頼性が低い新たな攻撃方法が存在するかどうかを調査する動機があることが知られており,新たな信頼性表現と,高繰り返しの多数決によって強化された新しい表現可能な攻撃方法の開発につながっている。

Physical Unclonable Functions (PUFs) are emerging as promising security primitives for IoT devices, providing device fingerprints based on physical characteristics. Despite their strengths, PUFs are vulnerable to machine learning (ML) attacks, including conventional and reliability-based attacks. Conventional ML attacks have been effective in revealing vulnerabilities of many PUFs, and reliability-based ML attacks are more powerful tools that have detected vulnerabilities of some PUFs that are resistant to conventional ML attacks. Since reliability-based ML attacks leverage information of PUFs' unreliability, we were tempted to examine the feasibility of building defense using reliability enhancing techniques, and have discovered that majority voting with reasonably high repeats provides effective defense against existing reliability-based ML attack methods. It is known that majority voting reduces but does not eliminate unreliability, we are motivated to investigate if new attack methods exist that can capture the low unreliability of highly but not-perfectly reliable PUFs, which led to the development of a new reliability representation and the new representation-enabled attack method that has experimentally cracked PUFs enhanced with majority voting of high repetitions.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-07
# 複数のシークレットを保護する - データ共有のための統計プライバシの強化

Guarding Multiple Secrets: Enhanced Summary Statistic Privacy for Data Sharing ( http://arxiv.org/abs/2405.13804v2 )

ライセンス: Link先を確認
Shuaiqi Wang, Rongzhe Wei, Mohsen Ghassemi, Eleonora Kreacic, Vamsi K. Potluru, (参考訳) データ共有は、多くの研究領域やビジネスアプリケーションにおいて重要な進歩を可能にするが、機密性の高い要約統計(例えば、手段や量子化)の意図しない開示につながる可能性がある。 既存の文献は単一の機密量の保護にのみ焦点をあてるが、実際にはデータ共有には複数の機密統計が含まれる。 本稿では,データ共有における多極的サマリ統計量の定義,分析,保護を行う新しいフレームワークを提案する。 具体的には、攻撃者がサマリ統計シークレットの推測に成功した場合の最悪の確率で、任意のデータリリースメカニズムのプライバシーリスクを測定する。 攻撃者の目的が、サマリ統計シークレット全体の部分集合を推測することから、システマティックに設計し、適切なプライバシメトリクスを解析することまでである。 歪みを元のデータとリリースデータの間の最悪のケース距離として定義し、プライバシと歪みのトレードオフを分析する。 コントリビューションには、さまざまなデータ分散とシークレットタイプに適したデータリリースメカニズムの設計と分析も含まれています。 実世界のデータによる評価は, 実用化における我々のメカニズムの有効性を示すものである。

Data sharing enables critical advances in many research areas and business applications, but it may lead to inadvertent disclosure of sensitive summary statistics (e.g., means or quantiles). Existing literature only focuses on protecting a single confidential quantity, while in practice, data sharing involves multiple sensitive statistics. We propose a novel framework to define, analyze, and protect multi-secret summary statistics privacy in data sharing. Specifically, we measure the privacy risk of any data release mechanism by the worst-case probability of an attacker successfully inferring summary statistic secrets. Given an attacker's objective spanning from inferring a subset to the entirety of summary statistic secrets, we systematically design and analyze tailored privacy metrics. Defining the distortion as the worst-case distance between the original and released data distribution, we analyze the tradeoff between privacy and distortion. Our contribution also includes designing and analyzing data release mechanisms tailored for different data distributions and secret types. Evaluations on real-world data demonstrate the effectiveness of our mechanisms in practical applications.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-07
# 複合サイクルによる因果推論

Causal Inference with Cocycles ( http://arxiv.org/abs/2405.13844v2 )

ライセンス: Link先を確認
Hugh Dance, Benjamin Bloem-Reddy, (参考訳) 因果推論における多くの介入は変換として表すことができる。 このような介入の下で、大規模な因果モデルによって満たされる局所対称性特性を同定する。 現時点において、この対称性は、力学系理論の中心となる対象であるコサイクルと呼ばれる写像によって特徴づけられる。 このようなコサイクルは一般的な条件下で存在し、介入や反事実の分布を特定するのに十分であることを示す。 これらの結果を用いて, 因果推定のためのコサイクル式推定器を導出し, 典型的な条件下での半パラメトリック効率を示す。 多くの(無限に)分布は同じ共サイクルを共有できるので、これらの推定子は過水性モデリングの仮定をサイドステッピングすることによって、因果推論を誤特定に頑健にする。 本手法は, 実データを用いた資産蓄積に対する401(k)年金計画の適性評価に有効である。

Many interventions in causal inference can be represented as transformations. We identify a local symmetry property satisfied by a large class of causal models under such interventions. Where present, this symmetry can be characterized by a type of map called a cocycle, an object that is central to dynamical systems theory. We show that such cocycles exist under general conditions and are sufficient to identify interventional and counterfactual distributions. We use these results to derive cocycle-based estimators for causal estimands and show they achieve semiparametric efficiency under typical conditions. Since (infinitely) many distributions can share the same cocycle, these estimators make causal inference robust to mis-specification by sidestepping superfluous modelling assumptions. We demonstrate both robustness and state-of-the-art performance in several simulations, and apply our method to estimate the effects of 401(k) pension plan eligibility on asset accumulation using a real dataset.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-07
# 自己正当性を示すモデル

Models That Prove Their Own Correctness ( http://arxiv.org/abs/2405.15722v2 )

ライセンス: Link先を確認
Noga Amit, Shafi Goldwasser, Orr Paradise, Guy Rothblum, (参考訳) 学習したモデルの正しさを、特定の関心の入力にどのように信頼することができるか? モデル精度は通常、入力の分布について*平均*で測定され、固定された入力は保証されない。 本稿では,この問題に対する理論的に確立された解決策を提案し,その正当性を証明する*自己証明モデル*を,対話的証明による検証アルゴリズム$V$に訓練する。 自己証明モデルは、ランダムな入力よりも高い確率で正しい出力を生成し、その正しさを$V\! $. V$の*soundness*プロパティは、*すべての*入力に対して、間違った出力の正しさを$V$を納得させるモデルは存在しないことを保証します。 したがって、自己証明モデルは出力の大部分の正しさを証明し、*all*不正確な出力は(任意のモデルの)$V$で検出される。 我々は、自己形成モデルを学ぶための一般的な手法を考案し、ある仮定の下で収束境界を証明した。 理論的な枠組みと結果は、2つの整数の最大共通因子(GCD)を計算する算術能力の実験によって補完される。 学習方法は,GCDを演算する自己証明変換器を訓練するために用いられ,その解答の正しさが証明される。

How can we trust the correctness of a learned model on a particular input of interest? Model accuracy is typically measured *on average* over a distribution of inputs, giving no guarantee for any fixed input. This paper proposes a theoretically-founded solution to this problem: to train *Self-Proving models* that prove the correctness of their output to a verification algorithm $V$ via an Interactive Proof. Self-Proving models satisfy that, with high probability over a random input, the model generates a correct output *and* successfully proves its correctness to $V\!$. The *soundness* property of $V$ guarantees that, for *every* input, no model can convince $V$ of the correctness of an incorrect output. Thus, a Self-Proving model proves correctness of most of its outputs, while *all* incorrect outputs (of any model) are detected by $V$. We devise a generic method for learning Self-Proving models, and we prove convergence bounds under certain assumptions. The theoretical framework and results are complemented by experiments on an arithmetic capability: computing the greatest common divisor (GCD) of two integers. Our learning method is used to train a Self-Proving transformer that computes the GCD *and* proves the correctness of its answer.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-07
# 自己改善による大規模視覚言語モデルにおける視覚言語モダリティアライメントの強化

Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement ( http://arxiv.org/abs/2405.15973v3 )

ライセンス: Link先を確認
Xiyao Wang, Jiuhai Chen, Zhaoyang Wang, Yuhang Zhou, Yiyang Zhou, Huaxiu Yao, Tianyi Zhou, Tom Goldstein, Parminder Bhatia, Furong Huang, Cao Xiao, (参考訳) 大規模視覚言語モデル(LVLM)は、特定のデータセットに対する視覚指導による様々な視覚的質問応答および推論タスクにおいて印象的な結果を得た。 しかし、視覚的モダリティと言語的モダリティの整合性を改善する余地は依然として大きい。 このアライメントを強化するには、通常、その能力と品質に大きく依存する外部モデルやデータが必要である。 本稿では,自己改善による視覚的・言語的モダリティの整合性を向上し,外部モデルやデータの必要性を解消するフレームワークであるSIMAを提案する。 SIMAは、既存のビジョンインストラクションチューニングデータセットからのプロンプトを活用して、自己生成応答を生成し、コンテキスト内自己批判機構を使用して、優先順位調整のためのレスポンスペアを選択する。 重要なイノベーションは、コンテキスト内自己批判プロセス中に3つの視覚メトリクスを導入し、画像の理解を深める応答の選択においてLVLMを導くことである。 14の幻覚と総合的なベンチマークの実験を通して、SIMAは全てのベンチマークでモデル性能を向上するだけでなく、過去のアプローチよりも優れたモダリティアライメントを実現することを示した。

Large vision-language models (LVLMs) have achieved impressive results in various visual question-answering and reasoning tasks through vision instruction tuning on specific datasets. However, there is still significant room for improvement in the alignment between visual and language modalities. Previous methods to enhance this alignment typically require external models or data, heavily depending on their capabilities and quality, which inevitably sets an upper bound on performance. In this paper, we propose SIMA, a framework that enhances visual and language modality alignment through self-improvement, eliminating the needs for external models or data. SIMA leverages prompts from existing vision instruction tuning datasets to self-generate responses and employs an in-context self-critic mechanism to select response pairs for preference tuning. The key innovation is the introduction of three vision metrics during the in-context self-critic process, which can guide the LVLM in selecting responses that enhance image comprehension. Through experiments across 14 hallucination and comprehensive benchmarks, we demonstrate that SIMA not only improves model performance across all benchmarks but also achieves superior modality alignment, outperforming previous approaches.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-07
# フッド下の信頼:大規模言語モデルにおける信頼-確率アライメントの検討

Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models ( http://arxiv.org/abs/2405.16282v4 )

ライセンス: Link先を確認
Abhishek Kumar, Robert Morabito, Sanzhar Umbet, Jad Kabbara, Ali Emami, (参考訳) LLM(Large Language Models)の使用が広まるにつれて、これらのモデルの出力の信頼性に不可欠なので、生成した応答に対する自信の自己評価を理解することがますます重要になる。 本稿では, LLMの内部信頼度をトークン確率で定量化した信頼度と, その確実性を明示的に問う場合のモデル応答で伝達される信頼度を結合する信頼確率アライメントの概念を紹介する。 モデルイントロスペクションを促進する様々なデータセットとプロンプト技術を用いて、モデルの内部と表現された信頼の一致を探索する。 これらの手法は、信頼度を評価するために構造化された評価尺度を使用し、プロンプト時の回答オプションや、それ自身が認識していない出力に対してモデルの信頼レベルを引き出すことを含む。 特に、分析されたモデルの中で、OpenAIのGPT-4は、幅広いタスクにわたって、平均的なSpearmanの$\hat{\rho}$ 0.42の信頼性と確率のアライメントを示した。 我々の研究は、LCMの適用におけるリスクアセスメントの促進と、モデル信頼性のさらなる理解に寄与する。

As the use of Large Language Models (LLMs) becomes more widespread, understanding their self-evaluation of confidence in generated responses becomes increasingly important as it is integral to the reliability of the output of these models. We introduce the concept of Confidence-Probability Alignment, that connects an LLM's internal confidence, quantified by token probabilities, to the confidence conveyed in the model's response when explicitly asked about its certainty. Using various datasets and prompting techniques that encourage model introspection, we probe the alignment between models' internal and expressed confidence. These techniques encompass using structured evaluation scales to rate confidence, including answer options when prompting, and eliciting the model's confidence level for outputs it does not recognize as its own. Notably, among the models analyzed, OpenAI's GPT-4 showed the strongest confidence-probability alignment, with an average Spearman's $\hat{\rho}$ of 0.42, across a wide range of tasks. Our work contributes to the ongoing efforts to facilitate risk assessment in the application of LLMs and to further our understanding of model trustworthiness.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-07
# 大規模レコメンデーションシステムにおけるユーザ関心探索のためのLLM

LLMs for User Interest Exploration in Large-scale Recommendation Systems ( http://arxiv.org/abs/2405.16363v2 )

ライセンス: Link先を確認
Jianling Wang, Haokai Lu, Yifan Liu, He Ma, Yueqi Wang, Yang Gu, Shuzhou Zhang, Ningren Han, Shuchao Bi, Lexi Baugher, Ed Chi, Minmin Chen, (参考訳) 従来のレコメンデーションシステムは、過去のユーザとイテムのインタラクションから学び、強化することで、強いフィードバックループの対象となり、それによって新しいユーザ関心の発見が制限される。 そこで本稿では,Large Language Models (LLM) と古典的レコメンデーションモデルを組み合わせたハイブリッド階層型フレームワークを提案する。 このフレームワークは、アルゴリズム設計者によって明確に決定できる「関心クラスタ」を通じて、LLMと古典的なレコメンデーションモデルとのインターフェイスを制御する。 言語を用いて「興味あるクラスタ」を表現することで次の新しい関心を推し進めており、あらかじめ定義されたクラスタ内で厳密な新しい関心記述を生成するために微調整のLLMを使用している。 低レベルでは、これらの生成された関心は、古典的なレコメンデーションモデルを制限することでアイテムレベルのポリシーに向けられ、この場合、トランスフォーマーベースのシーケンスレコメンデータは、高レベルで生成された新しいクラスタに該当するアイテムを返すことを推奨する。 数十億のユーザを対象とする産業規模の商用プラットフォーム上で,このアプローチの有効性を実証する。 ライブ実験は、新しい興味の探索とプラットフォーム全体のユーザ満足度の両方において、顕著な増加を示している。

Traditional recommendation systems are subject to a strong feedback loop by learning from and reinforcing past user-item interactions, which in turn limits the discovery of novel user interests. To address this, we introduce a hybrid hierarchical framework combining Large Language Models (LLMs) and classic recommendation models for user interest exploration. The framework controls the interfacing between the LLMs and the classic recommendation models through "interest clusters", the granularity of which can be explicitly determined by algorithm designers. It recommends the next novel interests by first representing "interest clusters" using language, and employs a fine-tuned LLM to generate novel interest descriptions that are strictly within these predefined clusters. At the low level, it grounds these generated interests to an item-level policy by restricting classic recommendation models, in this case a transformer-based sequence recommender to return items that fall within the novel clusters generated at the high level. We showcase the efficacy of this approach on an industrial-scale commercial platform serving billions of users. Live experiments show a significant increase in both exploration of novel interests and overall user enjoyment of the platform.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-07
# LLMの効率的なマルチプロンプト評価

Efficient multi-prompt evaluation of LLMs ( http://arxiv.org/abs/2405.17202v2 )

ライセンス: Link先を確認
Felipe Maia Polo, Ronald Xu, Lucas Weber, Mírian Silva, Onkar Bhardwaj, Leshem Choshen, Allysson Flavio Melo de Oliveira, Yuekai Sun, Mikhail Yurochkin, (参考訳) LLMの比較のための最も一般的なベンチマークは限られたプロンプトテンプレートに依存しており、LLMの能力をフルに捉えておらず、リーダーボード上での結果の再現性に影響を与える可能性がある。 近年の多くの研究は、迅速な感度を実証的に検証し、LCM評価の変化を提唱している。 本稿では,評価対象の1つのプロンプトを見つけるのではなく,多くのプロンプト変種にまたがる性能分布を推定する問題を考察する。 PromptEvalは,プロンプトと実測値を用いた精度評価を行うために,プロンプトと実例をまたいで,多数のプロンプトをまたいで性能を推定する手法である。 結果の分布は、様々な堅牢なパフォーマンス指標(例えば、上位95%の量子化、中央値)を構築するために、パフォーマンス量子化を得るのに使うことができる。 MMLU, BIG-bench Hard, LMentryの3つのベンチマークにおいて, PromptEvalが連続的に性能分布を推定し, その有効性を実証した。 例えば、PromptEvalはMMLU上で100のプロンプトテンプレートにまたがるパフォーマンスの定量値を正確に見積もることができ、予算は2つの単発評価に相当する。 コードとデータはhttps://github.com/felipemaiapolo/prompt-eval.comで確認できます。

Most popular benchmarks for comparing LLMs rely on a limited set of prompt templates, which may not fully capture the LLMs' abilities and can affect the reproducibility of results on leaderboards. Many recent works empirically verify prompt sensitivity and advocate for changes in LLM evaluation. In this paper, we consider the problem of estimating the performance distribution across many prompt variants instead of finding a single prompt to evaluate with. We introduce PromptEval, a method for estimating performance across a large set of prompts borrowing strength across prompts and examples to produce accurate estimates under practical evaluation budgets. The resulting distribution can be used to obtain performance quantiles to construct various robust performance metrics (e.g., top 95% quantile or median). We prove that PromptEval consistently estimates the performance distribution and demonstrate its efficacy empirically on three prominent LLM benchmarks: MMLU, BIG-bench Hard, and LMentry. For example, PromptEval can accurately estimate performance quantiles across 100 prompt templates on MMLU with a budget equivalent to two single-prompt evaluations. Our code and data can be found at https://github.com/felipemaiapolo/prompt-eval.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-07
# レストレス・マルチアーマッドバンドにおけるグローバル・リワード

Global Rewards in Restless Multi-Armed Bandits ( http://arxiv.org/abs/2406.00738v2 )

ライセンス: Link先を確認
Naveen Raman, Zheyuan Ryan Shi, Fei Fang, (参考訳) レストレス・マルチアーム・バンディット(RMAB)はマルチアーム・バンディットを拡張し、腕を引っ張って将来の状態に影響を及ぼす。 RMABの成功にもかかわらず、重要な制限の前提は、報酬を武器の合計に分離できることである。 本研究は, RMABのグローバルな非分離型報酬への一般化である, RMAB-Gを用いたレスレスマルチアームバンディットの提案により, この欠陥に対処する。 RMAB-Gを解くために,RMABからRMAB-GまでWhittleインデックスを拡張可能な線形およびシェープWhittleインデックスを開発した。 近似境界を証明するとともに、報酬関数が非線形であるときにこれらの指標がいかに失敗するかを指摘する。 これを解決するために、第1の計算指標を反復的に、第2の計算指標をモンテカルロ木探索(MCTS)と組み合わせた2つの適応ポリシーを提案する。 実験により, 提案した政策は, 食品の回収から得られる合成データと実世界のデータを用いて, ベースラインやインデックスベースの政策よりも優れていることを示した。

Restless multi-armed bandits (RMAB) extend multi-armed bandits so pulling an arm impacts future states. Despite the success of RMABs, a key limiting assumption is the separability of rewards into a sum across arms. We address this deficiency by proposing restless-multi-armed bandit with global rewards (RMAB-G), a generalization of RMABs to global non-separable rewards. To solve RMAB-G, we develop the Linear- and Shapley-Whittle indices, which extend Whittle indices from RMABs to RMAB-Gs. We prove approximation bounds but also point out how these indices could fail when reward functions are highly non-linear. To overcome this, we propose two sets of adaptive policies: the first computes indices iteratively, and the second combines indices with Monte-Carlo Tree Search (MCTS). Empirically, we demonstrate that our proposed policies outperform baselines and index-based policies with synthetic data and real-world data from food rescue.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-07
# CHIQ:会話検索におけるクエリ書き換え改善のためのコンテキスト履歴の強化

CHIQ: Contextual History Enhancement for Improving Query Rewriting in Conversational Search ( http://arxiv.org/abs/2406.05013v1 )

ライセンス: Link先を確認
Fengran Mo, Abbas Ghaddar, Kelong Mao, Mehdi Rezagholizadeh, Boxing Chen, Qun Liu, Jian-Yun Nie, (参考訳) 本稿では,オープンソースの大規模言語モデル(LLM)を,特にあいまいなクエリに対して,対話型検索におけるクエリ書き換えを改善するために効果的に展開する方法について検討する。 質問の書き直し前にLLMの能力を利用して会話履歴のあいまいさを解消する2段階の手法であるCHIQを紹介する。 このアプローチは、会話履歴から直接検索クエリを生成するために、主にクローズドソースLLMを使用する以前の研究とは対照的である。 我々は、CHIQがほとんどの設定において最先端の結果をもたらす5つの確立されたベンチマークを実証し、クローズドソース LLM を利用したシステムとの高い競争性能を示す。 本研究は,商用LLMへの依存に対抗して,オープンソースのLLMを対話型検索に活用するための第一歩となる。 データ、モデル、ソースコードはhttps://github.com/fengranMark/CHIQ.comで公開される。

In this paper, we study how open-source large language models (LLMs) can be effectively deployed for improving query rewriting in conversational search, especially for ambiguous queries. We introduce CHIQ, a two-step method that leverages the capabilities of LLMs to resolve ambiguities in the conversation history before query rewriting. This approach contrasts with prior studies that predominantly use closed-source LLMs to directly generate search queries from conversation history. We demonstrate on five well-established benchmarks that CHIQ leads to state-of-the-art results across most settings, showing highly competitive performances with systems leveraging closed-source LLMs. Our study provides a first step towards leveraging open-source LLMs in conversational search, as a competitive alternative to the prevailing reliance on commercial LLMs. Data, models, and source code will be publicly available upon acceptance at https://github.com/fengranMark/CHIQ.
翻訳日:2024-06-11 23:05:25 公開日:2024-06-07
# 言語モデルに基づく移動学習による進化的探索の加速

Accelerating evolutionary exploration through language model-based transfer learning ( http://arxiv.org/abs/2406.05166v1 )

ライセンス: Link先を確認
Maximilian Reissmann, Yuan Fang, Andrew S. H. Ooi, Richard D. Sandberg, (参考訳) 遺伝子発現プログラミングは、回帰問題に対して解釈可能で容易に実装可能な方程式を生成するポテンシャルを持つ進化的最適化アルゴリズムである。 以前の最適化から得られた知識が利用可能であるにもかかわらず、初期候補のソリューションは通常、当初ランダムに生成され、しばしば予備的なユーザ仮定に基づいた機能や用語のみを含む。 このランダムな初期推定は、探索空間の制約を欠いているが、通常、最適解を求める際に高い計算コストをもたらす。 一方、トレーニングされたモデルの部品を再利用する技術であるトランスファーラーニングは、ニューラルネットワークにうまく適用されている。 しかし、進化的アルゴリズムの文脈における象徴的回帰のための一般化された戦略は存在しない。 そこで本研究では,伝達学習と遺伝子発現プログラミングを統合し,記号回帰に応用する手法を提案する。 構築されたフレームワークは自然言語処理技術を統合し、過去の最適化で探索された方程式から相関や繰り返しパターンを識別する。 この統合は、取得した知識を類似したタスクから新しいタスクへ移行することを容易にする。 オープンデータベースや計算流体力学の分野から、拡張されたフレームワークの実験的評価を通じて、移動学習機構によって導出された初期解が、改良された解に対するアルゴリズムの収束率を高めることを確認した。

Gene expression programming is an evolutionary optimization algorithm with the potential to generate interpretable and easily implementable equations for regression problems. Despite knowledge gained from previous optimizations being potentially available, the initial candidate solutions are typically generated randomly at the beginning and often only include features or terms based on preliminary user assumptions. This random initial guess, which lacks constraints on the search space, typically results in higher computational costs in the search for an optimal solution. Meanwhile, transfer learning, a technique to reuse parts of trained models, has been successfully applied to neural networks. However, no generalized strategy for its use exists for symbolic regression in the context of evolutionary algorithms. In this work, we propose an approach for integrating transfer learning with gene expression programming applied to symbolic regression. The constructed framework integrates Natural Language Processing techniques to discern correlations and recurring patterns from equations explored during previous optimizations. This integration facilitates the transfer of acquired knowledge from similar tasks to new ones. Through empirical evaluation of the extended framework across a range of univariate problems from an open database and from the field of computational fluid dynamics, our results affirm that initial solutions derived via a transfer learning mechanism enhance the algorithm's convergence rate towards improved solutions.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# ユニバーサルクリティカルホログラフィーとドメインウォール形成

Universal Critical Holography and Domain Wall Formation ( http://arxiv.org/abs/2406.05167v1 )

ライセンス: Link先を確認
Tian-Chi Ma, Han-Qing Shi, Hai-Qing Zhang, Adolfo del Campo, (参考訳) ホログラフィーを用いて,強結合ドメイン壁の粗大化ダイナミクスを規定する普遍的スケーリング法則について検討した。 具体的には,領域壁界面長のクエンチ速度に対する普遍的依存性について検討した。 この関係は臨界点のすぐ後にKybble-Zurekスケーリングを満たす。 しかし、時が経つにつれて、粗い力学はキブル・ズールクのスケーリングを抑え、特性長の普遍的動的スケーリングとシステムの断熱的成長を支持する。 普遍的スケーリング法則の理論的予測は、弱結合系と強結合系の両方において、両方の状態における数値的な発見と一致している。

Using holography, we study the universal scaling laws governing the coarsening dynamics of strongly coupled domain walls. Specifically, we studied the universal dependence of the length of the domain wall interfaces on the quench rate. The relation satisfies the Kibble-Zurek scaling shortly after the critical point. However, as time goes by, the coarsening dynamics suppresses the Kibble-Zurek scaling in favor of a universal dynamical scaling of the characteristic length and the adiabatic growth of the system. Theoretical predictions of the universal scaling laws are consistent with numerical findings in both regimes for both weak and strongly coupled systems.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# 二スピンエニグマ--ヘリウム原子から量子オントロジーへ

The two-spin enigma: from the helium atom to quantum ontology ( http://arxiv.org/abs/2406.05169v1 )

ライセンス: Link先を確認
Philippe Grangier, Alexia Auffeves, Nayla Farouki, Mathias Van Den Bossche, Olivier Ezratty, (参考訳) 本稿の目的は、警察の捜査の道をたどっているように、量子物理学の非公式な紹介を提供することである。 風景は、ヘリウム原子中の2つの電子の貴重な性質の消滅、または消滅を含む。 まず実験に基づく証拠から始め、物理的事実を分析し、仮に説明し、古典から量子的記述へと慎重に移動する。 量子重ね合わせは「同時に2つの状態にある」、「量子絡み合いは距離における瞬間的な作用である」、あるいは「事象は相対的である」といった文は説明的内容の空白として禁止される。 古典物理学と量子物理学の結論は、古典物理学と量子物理学は、エ・ニールス・ボーア(英語版)やレフ・ランダウ(英語版)の考えに則って、一方が機能し、他方が存在しないとも考えられないということである。

The purpose of this article is to provide an informal introduction to quantum physics, like if we were following the path of a police investigation. The scenery involves the demise, or vanishing, of some valuable properties of the two electrons in the helium atom. We will start from experimentally based evidence in order to analyse and tentatively explain physical facts, moving cautiously from a classical to a quantum description. Statements such as 'a quantum superposition is like being in two states at the same time', 'quantum entanglement is like an instantaneous action at a distance', or 'facts are relative', will be prohibited as empty of explanatory content. As a spoiler, and maybe against current common wisdom, but not giving up physical realism, the conclusion of the enquiry will be that classical physics and quantum physics can neither function nor even be conceived one without the other - in line with ideas attributed to e.g. Niels Bohr or Lev Landau.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# 画像強調法による腫瘍分離に関する研究

Research on Tumors Segmentation based on Image Enhancement Method ( http://arxiv.org/abs/2406.05170v1 )

ライセンス: Link先を確認
Danyi Huang, Ziang Liu, Yizhou Li, (参考訳) 肝癌に対する最も効果的な治療法の1つは、肝とその腫瘍の正確な画像分割を含む肝切除手術を行うことである。 しかし、従来の肝小葉分割技術は、精度の欠如、処理速度の遅さ、計算負荷など、肝小葉分割を行う際のいくつかの課題に直面している。 これらの欠点は、手術計画と実行の効率を制限します。 本研究では,画像のコントラストと明るさを適応的に調整することにより,画像の重要な特徴を向上する新しい画像強調アルゴリズムについて詳細に記述する。 次に深層学習に基づくセグメンテーションネットワークを導入し,腫瘍領域の検出精度を最適化するために,強調画像に基づいて特別に訓練を行った。 さらに、マルチスケール解析技術が研究に組み込まれており、異なる解像度の画像を解析することで、より微妙な腫瘍の特徴を捉えることができる。 実験結果の提示において,提案手法の有効性を検証するために3Dircadbデータセットを用いた。 実験の結果,従来の画像分割法と比較して,画像強調技術を用いた新しい手法は,腫瘍の同定精度とリコール率を大幅に向上させた。

One of the most effective ways to treat liver cancer is to perform precise liver resection surgery, the key step of which includes precise digital image segmentation of the liver and its tumor. However, traditional liver parenchymal segmentation techniques often face several challenges in performing liver segmentation: lack of precision, slow processing speed, and computational burden. These shortcomings limit the efficiency of surgical planning and execution. In this work, the model initially describes in detail a new image enhancement algorithm that enhances the key features of an image by adaptively adjusting the contrast and brightness of the image. Then, a deep learning-based segmentation network was introduced, which was specially trained on the enhanced images to optimize the detection accuracy of tumor regions. In addition, multi-scale analysis techniques have been incorporated into the study, allowing the model to analyze images at different resolutions to capture more nuanced tumor features. In the presentation of the experimental results, the study used the 3Dircadb dataset to test the effectiveness of the proposed method. The experimental results show that compared with the traditional image segmentation method, the new method using image enhancement technology has significantly improved the accuracy and recall rate of tumor identification.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# 2キュービットブロッホ球による安定化器の形式化

Connecting Stabilizer Formalism with Two-Qubit Bloch Spheres ( http://arxiv.org/abs/2406.05174v1 )

ライセンス: Link先を確認
Stanislav Filatov, Marcis Auzinsh, (参考訳) 最大絡み合った状態を含む純粋2ビット状態の2つのブロッホ球表現の導出における安定化器形式の適用について検討する。 具体的には、2ビット安定化状態の安定化群について検討し、与えられた安定化状態の密度行列とグラフィカル表現の両方とのリンクを確立する。 安定化群の行列の和は状態の密度行列を構成する。 同時に、与えられた状態の安定化群の行列は、その状態を表すブロッホ球の座標軸と関連付けられる。 この解析は密度行列とグラフィカル表現の自然な結びつきを明らかにし、幾何学や交叉の対称性に関する洞察を与える。

We explore the application of stabilizer formalism in deriving the two Bloch Sphere representation of pure two-qubit states, including maximally entangled ones. Specifically, we investigate the stabilizer groups of two-qubit stabilizer states and establish a link with both the density matrix and graphical representation of a given stabilizer state. The sum of the stabilizer group's matrices constitutes the state's density matrix. Simultaneously, matrices of a stabilizer group of a given state may be associated with the coordinate axes of the Bloch Spheres representing that state. This analysis reveals a natural link between the density matrix and graphical representations, offering insights into geometry and symmetries of entanglement and two-qubit states in general.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# ニューラルネットワークの不確実性を用いたロバスト量子ドット電荷自動チューニング

Robust quantum dots charge autotuning using neural networks uncertainty ( http://arxiv.org/abs/2406.05175v1 )

ライセンス: Link先を確認
Victor Yon, Bastien Galaup, Claude Rohrbacher, Joffrey Rivard, Clément Godfrin, Roy Li, Stefan Kubicek, Kristiaan De Greve, Louis Gaudreau, Eva Dupont-Ferrier, Yann Beilliard, Roger G. Melko, Dominique Drouin, (参考訳) 本研究では,半導体スピン量子ビットの電荷調整を最小限の介入で自動化する機械学習に基づく手法を提案する。 この方法は、ニューラルネットワークの不確実性推定を利用した堅牢な探索戦略を導いて、安定性図中のノイズの多い遷移線を特定するために、ニューラルネットワークを利用する。 異なる単一量子ドット技術を表す3つの異なるオフライン実験データセットでテストされたこの手法は、最適ケースにおける成功率を99%以上チューニングする。 ダイアグラムからダイアグラムへの変動度の高い小セットの難易度制約により,提案手法の能力と限界を評価することができた。

This study presents a machine-learning-based procedure to automate the charge tuning of semiconductor spin qubits with minimal human intervention, addressing one of the significant challenges in scaling up quantum dot technologies. This method exploits artificial neural networks to identify noisy transition lines in stability diagrams, guiding a robust exploration strategy leveraging neural networks' uncertainty estimations. Tested across three distinct offline experimental datasets representing different single quantum dot technologies, the approach achieves over 99% tuning success rate in optimal cases, where more than 10% of the success is directly attributable to uncertainty exploitation. The challenging constraints of small training sets containing high diagram-to-diagram variability allowed us to evaluate the capabilities and limits of the proposed procedure.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# ブースター量子テレポーテーション

Boosted quantum teleportation ( http://arxiv.org/abs/2406.05182v1 )

ライセンス: Link先を確認
Simone E. D'Aurelio, Matthias J. Bayerbach, Stefanie Barz, (参考訳) 量子テレポーテーションは多くの量子情報や通信プロセスに基礎があることが証明されている。 コアの概念は、量子状態の伝達、量子リピータ、量子コンピューティングなど、多くのタスクで利用することができる。 しかし、線形光学系では、テレポーテーションの効率はベル状態測定の成功確率に直接関係している。 ほとんどの実装において、これは本質的に成功確率が50%に制限された線形光学によって実現される。 ここでは、この限界を超える量子テレポーテーションを実証する。 伝送された状態の平均忠実度は0.8677\pm0.0024$であり、テレポーテーション全体の受け入れ率は69.71\pm0.75\%である。 ベル状態に干渉する補助光子状態を生成することにより、この成功確率を高めることができる。 そこで本研究では, 量子技術応用におけるベル状態測定の高速化を実証し, eg 量子リピータに直接適用可能であることを示す。

Quantum teleportation has proven to be fundamental for many quantum information and communication processes. The core concept can be exploited in many tasks, from the transmission of quantum states, quantum repeaters, to quantum computing. However, for linear-optical systems, the efficiency of teleportation is directly linked to the success probability of the involved Bell-state measurement. In most implementations, this is realized by linear optics with an intrinsically limited success probability of 50%. Here, we demonstrate quantum teleportation surpassing this limit. We achieve an average fidelity of the teleported states of $0.8677\pm0.0024$, leading to an overall acceptance rate of the teleportation of $69.71\pm0.75\%$. We obtain this boosted success probability by generating ancillary photonic states that are interfered with the Bell states. Thus, our work demonstrates the boosting Bell-state measurements in quantum-technology applications and our scheme could directly be applied to e.g. quantum repeaters.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# 因子化のカース:逆転のカースを根底から予測するツール

The Factorization Curse: Which Tokens You Predict Underlie the Reversal Curse and More ( http://arxiv.org/abs/2406.05183v1 )

ライセンス: Link先を確認
Ouail Kitouni, Niklas Nolte, Diane Bouchacourt, Adina Williams, Mike Rabbat, Mark Ibrahim, (参考訳) 今日の最高の言語モデルは、実際には誤った世代という幻覚に苦しむ。 逆の呪文は、トレーニング中に遭遇した異なる順序で探索された時に、モデルが情報を思い出せないというものであり、情報検索においてこれを例示している。 私たちは、逆の呪いを因子化の呪いとして再設定します - モデルが異なる因子化の下で同じ結合分布を学習する失敗です。 WikiReversal(知識集約的な微調整タスクを密にシミュレートするための設定)を含む現実主義のレベルを増大させる一連の制御実験を通じて、ファクタライゼーションの呪いは、人気のある大言語モデルで使われる次のトーケン予測目標の固有の失敗であることがわかった。 さらに,信頼度の高い情報検索は,スケールや逆トークン,さらにはナイーブな双方向アテンショントレーニングでは解決できないことを示す。 その結果、特定のデータを微調整する様々なアプローチは、既に正しいトークン列を目にしなければ、ダウンストリームタスクで混合結果をもたらす必要がある。 因子化に依存しない目的は、逆の呪いを著しく軽減し、知識記憶と計画能力の改善を示唆する。

Today's best language models still struggle with hallucinations: factually incorrect generations, which impede their ability to reliably retrieve information seen during training. The reversal curse, where models cannot recall information when probed in a different order than was encountered during training, exemplifies this in information retrieval. We reframe the reversal curse as a factorization curse - a failure of models to learn the same joint distribution under different factorizations. Through a series of controlled experiments with increasing levels of realism including WikiReversal, a setting we introduce to closely simulate a knowledge intensive finetuning task, we find that the factorization curse is an inherent failure of the next-token prediction objective used in popular large language models. Moreover, we demonstrate reliable information retrieval cannot be solved with scale, reversed tokens, or even naive bidirectional-attention training. Consequently, various approaches to finetuning on specialized data would necessarily provide mixed results on downstream tasks, unless the model has already seen the right sequence of tokens. Across five tasks of varying levels of complexity, our results uncover a promising path forward: factorization-agnostic objectives can significantly mitigate the reversal curse and hint at improved knowledge storage and planning capabilities.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# 合成訓練画像の無意味な約束 - リアル画像の検索によるパフォーマンス向上

The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better ( http://arxiv.org/abs/2406.05184v1 )

ライセンス: Link先を確認
Scott Geng, Cheng-Yu Hsieh, Vivek Ramanujan, Matthew Wallingford, Chun-Liang Li, Pang Wei Koh, Ranjay Krishna, (参考訳) 生成されたテキスト・画像モデルにより、無制限の画像を制御可能な方法で合成することが可能となり、近年では視覚モデルを合成データで訓練する試みが盛んに行われている。 しかしながら、すべての合成画像は、最終的にジェネレータを訓練するために使用される上流データに由来する。 中間ジェネレータは、上流データの関連部分を直接トレーニングする上で、どのような付加価値を提供しますか? 画像分類の設定において、我々は、LAION-2Bデータセットでトレーニングされた生成モデルであるStable Diffusionが生成したタスク関連ターゲット合成データの微調整と、LAION-2Bから直接取得したターゲット実画像の微調整を比較した。 合成データは下流タスクの恩恵を受けることができるが、単純な検索ベースラインから得られる実際のデータに普遍的にマッチするか、性能に優れることを示す。 解析の結果,このアンダーパフォーマンスは生成物と,合成画像中のタスク関連視覚的詳細が不正確なためであることが示唆された。 全体として、検索は、現在のメソッドがまだ上回っていないベースラインである合成データによるトレーニングを検討する上で、重要なベースラインである、と私たちは主張する。 コード、データ、モデルをhttps://github.com/scottgeng00/unmet-promise.comでリリースします。

Generative text-to-image models enable us to synthesize unlimited amounts of images in a controllable manner, spurring many recent efforts to train vision models with synthetic data. However, every synthetic image ultimately originates from the upstream data used to train the generator. What additional value does the intermediate generator provide over directly training on relevant parts of the upstream data? Grounding this question in the setting of image classification, we compare finetuning on task-relevant, targeted synthetic data generated by Stable Diffusion -- a generative model trained on the LAION-2B dataset -- against finetuning on targeted real images retrieved directly from LAION-2B. We show that while synthetic data can benefit some downstream tasks, it is universally matched or outperformed by real data from our simple retrieval baseline. Our analysis suggests that this underperformance is partially due to generator artifacts and inaccurate task-relevant visual details in the synthetic images. Overall, we argue that retrieval is a critical baseline to consider when training with synthetic data -- a baseline that current methods do not yet surpass. We release code, data, and models at https://github.com/scottgeng00/unmet-promise.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# 相関は補償を含まない:語彙の複雑さと不規則性

Correlation Does Not Imply Compensation: Complexity and Irregularity in the Lexicon ( http://arxiv.org/abs/2406.05186v1 )

ライセンス: Link先を確認
Amanda Doucette, Ryan Cotterell, Morgan Sonderegger, Timothy J. O'Donnell, (参考訳) 言語の中では、形態的に不規則な単語は音韻論的に単純であり、形態学的に正規な単語は音韻論的に複雑である可能性が高いと主張されている。 この逆相関は、少数の単語のサンプルでは英語で実証されているが、より大きな言語のサンプルでは示されていない。 さらに、周波数と単語の長さは、音韻的複雑性と形態的不規則の両方に影響を与えることが知られており、これらは、この関係に矛盾する要因である可能性がある。 そこで本研究では,これらの4変数のすべてのペア間の関係を,改善手法を用いて過去の知見の堅牢性を評価するとともに,根底にある因果関係を理解するためのステップとして検討する。 UniMorphの25言語における音韻的複雑性と形態的不規則性(Pimentel et al , 2020; Wu et al , 2019)に関する情報理論的尺度を用いて、各言語で方向が異なるが、平均的な言語における形態的不規則性と音韻的不規則性の間には正の相関があることを示す。 また,従来確認されていなかった単語長と形態的不規則性の負の関係の弱い証拠や,これらの4変数間の関係に関する既往の発見が,従来考えられていたほど堅牢ではないことも見いだした。

It has been claimed that within a language, morphologically irregular words are more likely to be phonotactically simple and morphologically regular words are more likely to be phonotactically complex. This inverse correlation has been demonstrated in English for a small sample of words, but has yet to be shown for a larger sample of languages. Furthermore, frequency and word length are known to influence both phonotactic complexity and morphological irregularity, and they may be confounding factors in this relationship. Therefore, we examine the relationships between all pairs of these four variables both to assess the robustness of previous findings using improved methodology and as a step towards understanding the underlying causal relationship. Using information-theoretic measures of phonotactic complexity and morphological irregularity (Pimentel et al., 2020; Wu et al., 2019) on 25 languages from UniMorph, we find that there is evidence of a positive relationship between morphological irregularity and phonotactic complexity within languages on average, although the direction varies within individual languages. We also find weak evidence of a negative relationship between word length and morphological irregularity that had not been previously identified, and that some existing findings about the relationships between these four variables are not as robust as previously thought.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# GenAI時代の人的コンテンツ創造の戦略

How to Strategize Human Content Creation in the Era of GenAI? ( http://arxiv.org/abs/2406.05187v1 )

ライセンス: Link先を確認
Seyed A. Esmaeili, Kshipra Bhawalkar, Zhe Feng, Di Wang, Haifeng Xu, (参考訳) Generative AI(GenAI)は、コンテンツ作成プラットフォームに大きな影響を与えるだろう。 本稿では,GenAIと人間コントリビュータの動的競合について検討する。 人間と違い、GenAIのコンテンツは、時間とともに人間によって多くのコンテンツが作成されるときにのみ改善されるが、GenAIはより低コストでコンテンツを生成するという利点がある。 このダイナミックコンペティションモデルにおけるアルゴリズム的問題として,コンテント生成のためのGenAIと競合する場合に,人間のコントリビュータが有効性を最大化する方法について検討する。 コンテンツの価値が時間の経過とともに減少する時間感受性コンテンツ領域(ニュースやポップミュージックなど)では、ランダム化された指数時間仮説が偽でない限り、人間の最適(動的)戦略を見つけるための多項式時間アルゴリズムが存在しないことを示す。 幸いなことに、短時間のウィンドウ上でミオプティックに最適化し、ページングと証明可能な近似比が$\frac{1}{2}$の間を自然に循環する多項式時間アルゴリズムを設計することができる。 次に、コンテンツが価値を損なわない時間非依存のコンテンツドメイン(例えば、履歴事実のコンテンツ)に目を向けます。 興味深いことに、この設定は、長い目で見れば人間の実用性を最大化する多項式時間アルゴリズムを可能にする。

Generative AI (GenAI) will have significant impact on content creation platforms. In this paper, we study the dynamic competition between a GenAI and a human contributor. Unlike the human, the GenAI's content only improves when more contents are created by human over the time; however, GenAI has the advantage of generating content at a lower cost. We study the algorithmic problem in this dynamic competition model about how the human contributor can maximize her utility when competing against the GenAI for content generation over a set of topics. In time-sensitive content domains (e.g., news or pop music creation) where contents' value diminishes over time, we show that there is no polynomial time algorithm for finding the human's optimal (dynamic) strategy, unless the randomized exponential time hypothesis is false. Fortunately, we are able to design a polynomial time algorithm that naturally cycles between myopically optimizing over a short time window and pausing and provably guarantees an approximation ratio of $\frac{1}{2}$. We then turn to time-insensitive content domains where contents do not lose their value (e.g., contents on history facts). Interestingly, we show that this setting permits a polynomial time algorithm that maximizes the human's utility in the long run.
翻訳日:2024-06-11 22:55:40 公開日:2024-06-07
# 糖尿病患者の入院期間に関する要因分析

Analyzing the factors that are involved in length of inpatient stay at the hospital for diabetes patients ( http://arxiv.org/abs/2406.05189v1 )

ライセンス: Link先を確認
Jorden Lam, Kunpeng Xu, (参考訳) 本研究は、新型コロナウイルスのパンデミックにより悪化する糖尿病患者の増加と、その後の医療資源の悪化にまつわる懸念について検討する。 本研究は,糖尿病患者の入院期間に影響を及ぼす因子を定量化する予測モデルを構築し,患者管理戦略の改善を病院管理者に提供することを目的とする。 文献レビューでは、糖尿病の流行が高まり、継続的な注意と医療アクセスにおける都市と農村の格差の分析の必要性を強調している。 国際研究は、糖尿病関連入院や合併症に関連する金銭的意味と医療負担を明らかにし、効果的な管理戦略の重要性を強調している。 この手法は、1999年から2008年までの米国の病院で1万件の糖尿病患者との遭遇を観測したデータセットを利用する、定量的アプローチを含む。 予測モデリング技術、特に一般線形モデル(GLM)は、患者人口、入院タイプ、医療史、治療体制に基づいて、入院期間を予測するモデルを開発するために使用される。 その結果, 糖尿病患者の入院期間に及ぼす年齢, 医療歴, 治療条件の影響が明らかとなった。 残留分析における正常性からの逸脱などのモデル的限界にもかかわらず, 患者管理における病院の管理者には貴重な知見が得られた。 本論文は、モデル限界に対処し、医療管理戦略における予測モデルの影響を探求し、適切な患者ケアと資源配分を確保するための今後の研究の提言をまとめて締めくくっている。

The paper investigates the escalating concerns surrounding the surge in diabetes cases, exacerbated by the COVID-19 pandemic, and the subsequent strain on medical resources. The research aims to construct a predictive model quantifying factors influencing inpatient hospital stay durations for diabetes patients, offering insights to hospital administrators for improved patient management strategies. The literature review highlights the increasing prevalence of diabetes, emphasizing the need for continued attention and analysis of urban-rural disparities in healthcare access. International studies underscore the financial implications and healthcare burden associated with diabetes-related hospitalizations and complications, emphasizing the significance of effective management strategies. The methodology involves a quantitative approach, utilizing a dataset comprising 10,000 observations of diabetic inpatient encounters in U.S. hospitals from 1999 to 2008. Predictive modeling techniques, particularly Generalized Linear Models (GLM), are employed to develop a model predicting hospital stay durations based on patient demographics, admission types, medical history, and treatment regimen. The results highlight the influence of age, medical history, and treatment regimen on hospital stay durations for diabetes patients. Despite model limitations, such as heteroscedasticity and deviations from normality in residual analysis, the findings offer valuable insights for hospital administrators in patient management. The paper concludes with recommendations for future research to address model limitations and explore the implications of predictive models on healthcare management strategies, ensuring equitable patient care and resource allocation.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# 低リソース環境における感情分類におけるデータ拡張の有効性の評価

Evaluating the Effectiveness of Data Augmentation for Emotion Classification in Low-Resource Settings ( http://arxiv.org/abs/2406.05190v1 )

ライセンス: Link先を確認
Aashish Arora, Elsbeth Turcan, (参考訳) データ拡張は、利用可能なトレーニングデータの量を増やすことで、機械学習モデルのパフォーマンスを改善する可能性がある。 本研究では,低リソースデータセットを用いたマルチラベル感情分類タスクにおいて,異なるデータ拡張手法の有効性を評価する。 その結果、Back Translationはオートエンコーダベースのアプローチよりも優れており、トレーニングインスタンス毎に複数の例を生成することで、さらなるパフォーマンス向上を実現していることがわかった。 さらに、Back Translationはユニグラムとトリグラムの最も多様なセットを生成しました。 これらの知見は,資源制限状況下での感情分類モデルの性能向上にバックトランスレーションが有効であることを示す。

Data augmentation has the potential to improve the performance of machine learning models by increasing the amount of training data available. In this study, we evaluated the effectiveness of different data augmentation techniques for a multi-label emotion classification task using a low-resource dataset. Our results showed that Back Translation outperformed autoencoder-based approaches and that generating multiple examples per training instance led to further performance improvement. In addition, we found that Back Translation generated the most diverse set of unigrams and trigrams. These findings demonstrate the utility of Back Translation in enhancing the performance of emotion classification models in resource-limited situations.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# DiffusionPID:部分情報分解による拡散の解釈

DiffusionPID: Interpreting Diffusion via Partial Information Decomposition ( http://arxiv.org/abs/2406.05191v1 )

ライセンス: Link先を確認
Shaurya Dewan, Rushikesh Zawar, Prakanshul Saxena, Yingshan Chang, Andrew Luo, Yonatan Bisk, (参考訳) テキストから画像への拡散モデルは、テキスト入力から自然な画像を生成する上で大きな進歩を遂げており、複雑な視覚・意味的関係を学習し表現する能力を示している。 これらの拡散モデルは目覚ましい成功を収めているが、その性能を駆動するメカニズムはまだ十分に説明されていない。 Diffusion partial Information Decomposition (DiffusionPID) は,入力テキストのプロンプトを基本成分に分解する情報理論の原理を応用し,個々のトークンとその相互作用が生成した画像をどのように形成するかを詳細に検証する手法である。 画像レベルと画素レベルの両方のデノナイジングモデルにPIDを適用し,その特異性,冗長性,シナジー項を解析するための形式的アプローチを提案する。 このアプローチにより、個々のトークンとその相互作用がモデル出力にどのように影響するかを特徴付けることができる。 まず、特定の概念を一意にローカライズするためにモデルが用いた特徴のきめ細かい分析を行い、バイアス分析に我々のアプローチを適用し、性別や民族性バイアスを回復できることを示す。 最後に,本手法を用いて,単語のあいまいさと類似性をモデルの観点から視覚的に特徴付けるとともに,迅速な介入のための手法の有効性を示す。 以上の結果から,PIDはテキスト・画像拡散モデルの評価と診断に有効なツールであることが示唆された。

Text-to-image diffusion models have made significant progress in generating naturalistic images from textual inputs, and demonstrate the capacity to learn and represent complex visual-semantic relationships. While these diffusion models have achieved remarkable success, the underlying mechanisms driving their performance are not yet fully accounted for, with many unanswered questions surrounding what they learn, how they represent visual-semantic relationships, and why they sometimes fail to generalize. Our work presents Diffusion Partial Information Decomposition (DiffusionPID), a novel technique that applies information-theoretic principles to decompose the input text prompt into its elementary components, enabling a detailed examination of how individual tokens and their interactions shape the generated image. We introduce a formal approach to analyze the uniqueness, redundancy, and synergy terms by applying PID to the denoising model at both the image and pixel level. This approach enables us to characterize how individual tokens and their interactions affect the model output. We first present a fine-grained analysis of characteristics utilized by the model to uniquely localize specific concepts, we then apply our approach in bias analysis and show it can recover gender and ethnicity biases. Finally, we use our method to visually characterize word ambiguity and similarity from the model's perspective and illustrate the efficacy of our method for prompt intervention. Our results show that PID is a potent tool for evaluating and diagnosing text-to-image diffusion models.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# LLMは知的な思考者ではない - LLMの総合評価のための数学的トピックツリーベンチマークの導入

LLMs Are Not Intelligent Thinkers: Introducing Mathematical Topic Tree Benchmark for Comprehensive Evaluation of LLMs ( http://arxiv.org/abs/2406.05194v1 )

ライセンス: Link先を確認
Arash Gholami Davoodi, Seyed Pouyan Mousavi Davoudi, Pouya Pezeshkpour, (参考訳) 大規模言語モデル(LLM)は、数学的推論において印象的な能力を示す。 しかし、これらの成果にもかかわらず、現在の評価は特定の数学的トピックに限られており、LLMが真に推論に関わっているかどうかは不明である。 これらのギャップに対処するために、我々はMathematical Topics Tree (MaTT)ベンチマークを提示する。これは、様々な数学的主題に1,958の質問を提供する、挑戦的で構造化されたベンチマークである。 MaTTベンチマークを用いて異なるLCMを評価すると、最も高度なモデルであるGPT-4が、多重選択シナリオにおいてわずか54倍の精度で達成できることが判明した。 興味深いことに、Chain-of-Thoughtを推し進める場合でも、目立った改善は行われていない。 さらに、LLMの精度は、選択肢を与えずに質問が提示されたときに最大24.2ポイントまで劇的に低下した。 LLMの性能を様々なトピックにわたって詳細に分析したところ、同じ一般数学領域における近縁なサブトピックに対しても大きな相違が見られた。 LLMのパフォーマンスの背景にある理由を特定すべく,選択可能な場合のGPT-4による説明の完全性と正しさを手作業で評価した。 驚くべきことに、モデルが正しい答えを提供する場合の53.3\%で、伴う説明は完全かつ正確であると判断された。

Large language models (LLMs) demonstrate impressive capabilities in mathematical reasoning. However, despite these achievements, current evaluations are mostly limited to specific mathematical topics, and it remains unclear whether LLMs are genuinely engaging in reasoning. To address these gaps, we present the Mathematical Topics Tree (MaTT) benchmark, a challenging and structured benchmark that offers 1,958 questions across a wide array of mathematical subjects, each paired with a detailed hierarchical chain of topics. Upon assessing different LLMs using the MaTT benchmark, we find that the most advanced model, GPT-4, achieved a mere 54\% accuracy in a multiple-choice scenario. Interestingly, even when employing Chain-of-Thought prompting, we observe mostly no notable improvement. Moreover, LLMs accuracy dramatically reduced by up to 24.2 percentage point when the questions were presented without providing choices. Further detailed analysis of the LLMs' performance across a range of topics showed significant discrepancy even for closely related subtopics within the same general mathematical area. In an effort to pinpoint the reasons behind LLMs performances, we conducted a manual evaluation of the completeness and correctness of the explanations generated by GPT-4 when choices were available. Surprisingly, we find that in only 53.3\% of the instances where the model provided a correct answer, the accompanying explanations were deemed complete and accurate, i.e., the model engaged in genuine reasoning.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# 2次Møller-Plesset摂動理論と構成相互作用ダブルスを用いた振動円二色性スペクトルのシミュレーション

Simulation of Vibrational Circular Dichroism Spectra Using Second-Order Møller-Plesset Perturbation Theory and Configuration Interaction Doubles ( http://arxiv.org/abs/2406.05196v1 )

ライセンス: Link先を確認
Brendan M. Shumberger, T. Daniel Crawford, (参考訳) 本稿では、第2次M{\o}ller-Plesset摂動理論(MP2)と構成相互作用ダブルス(CID)を用いた波動関数を用いた原子軸テンソル(AAT)の1次参照計算について述べる。 我々の実装は、核変位座標と外部磁場の両方に関して相関する波動関数の数値微分の重なりを計算することを含む。 テストセットには、軸方向のキラル水素分子二量体と(P)-過酸化水素を含む3つの小さな分子と、アキラルH2Oが含まれていた。 分子試験では, HF法(Hartree-Fock)法とMP2法とCID法との相違点が49%以上であり, 基数の選択に異なっていた。 P)-過酸化水素の場合, VCDの回転強度と対応するスペクトルに対する電子相関効果は,MP2とCIDの回転強度の最大偏差が62%,CIDの最大偏差が49%であった。 AATの計算への動的電子相関の関与は、結果として生じる回転強度とVCDスペクトルに大きな影響を及ぼす可能性がある。

We present the first single-reference calculations of the atomic axial tensors (AATs) using wave-function-based methods including dynamic electron correlation effects using second-order M{\o}ller-Plesset perturbation theory (MP2) and configuration interaction doubles (CID). Our implementation involves computing the overlap of numerical derivatives of the correlated wave functions with respect to both nuclear displacement coordinates and the external magnetic field. Out test set included three small molecules, including the axially chiral hydrogen molecule dimer and (P)-hydrogen peroxide, and the achiral H2O. For our molecular test set, we observed deviations of the AATs for MP2 and CID from that of the Hartree-Fock (HF) method upwards of 49%, varying with the choice of basis set. For (P)-hydrogen peroxide, electron correlation effects on the VCD rotatory strengths and corresponding spectra were particularly significant, with maximum deviations of the rotatory strengths of 62% and 49% for MP2 and CID, respectively, using our largest basis set. The inclusion of dynamic electron correlation to the computation of the AATs can have a significant impact on the resulting rotatory strengths and VCD spectra.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# 分散型イオントラップ量子コンピューティングシステムにおける量子核動力学

Quantum nuclear dynamics on a distributed set of ion-trap quantum computing systems ( http://arxiv.org/abs/2406.05197v1 )

ライセンス: Link先を確認
Anurag Dwivedi, A. J. Rasmusson, Philip Richerme, Srinivasan S. Iyengar, (参考訳) ウェーブパケットの時間進化を伴う量子核動力学は古典的に難解であり、量子情報処理のための有望な道と見なされている。 ここでは、IonQ 11量子ビットトラップイオン量子コンピュータであるHarmonyを用いて、短弦水素結合系における共有陽子の量子ウェーブレットダイナミクスを研究する。 また、分散量子コンピューティングを化学力学問題に適用し、テンソルネットワーク形式を用いて分散量子プロセスの集合を構築した。 初期状態では、電子構造から生じるポテンシャル面に沿って進化する量子核波束をエミュレートするために、イオントラップ系を実験的に駆動する。 核波束を実験的に作成した後, 時間依存性の空間射影や特性振動周波数などの観測可能な物質を抽出し, 古典的な結果とよく一致した。 量子計算から得られる振動エネルギーは、古典的なシミュレーションから得られたエネルギーとkcal/molのごく一部の範囲で一致しており、化学的精度が示唆される。 提案手法は,分子の量子化学力学と振動スペクトルを研究するための新しいパラダイムを開き,また,分散イオントラップ量子コンピュータ上での並列量子計算の初めての実証も提供する。

Quantum nuclear dynamics with wavepacket time-evolution is classically intractable and viewed as a promising avenue for quantum information processing. Here, we use an IonQ 11-qubit trapped-ion quantum computer, Harmony, to study the quantum wavepacket dynamics of a shared-proton within a short-strong hydrogen-bonded system. We also provide the first application of distributed quantum computing for chemical dynamics problems, where the distributed set of quantum processes is constructed using a tensor network formalism. For a range of initial states, we experimentally drive the ion-trap system to emulate the quantum nuclear wavepacket as it evolves along the potential surface generated from electronic structure. Following the experimental creation of the nuclear wavepacket, we extract measurement observables such as its time-dependent spatial projection and its characteristic vibrational frequencies to good agreement with classical results. Vibrational eigenenergies obtained from quantum computational are in agreement with those obtained from classical simulations to within a fraction of a kcal/mol, thus suggesting chemical accuracy. Our approach opens a new paradigm for studying the quantum chemical dynamics and vibrational spectra of molecules and also provides the first demonstration for parallel quantum computation on a distributed set of ion-trap quantum computers.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# CPLIP:包括的視覚言語アライメントによる病理学のゼロショット学習

CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language Alignment ( http://arxiv.org/abs/2406.05205v1 )

ライセンス: Link先を確認
Sajid Javed, Arif Mahmood, Iyyakutti Iyappan Ganapathi, Fayaz Ali Dharejo, Naoufel Werghi, Mohammed Bennamoun, (参考訳) 本稿では,分類やセグメンテーションなどの課題に対する病理組織における画像とテキストのアライメントを強化するために,新しい教師なし手法である包括的病理言語画像事前訓練(CPLIP)を提案する。 この方法論は、基礎となる真理のアノテーションを必要とせず、広範なデータを活用することで、視覚言語モデルを強化する。 CPLIPは、病理学固有の辞書の構築、言語モデルを用いた画像のテキスト記述の作成、事前訓練されたモデルによる各テキストスニペットの関連画像の検索を含む。 このモデルは、多対多のコントラスト学習法を用いて微調整され、複雑な相互関係の概念を両モードで整列させる。 複数の病理組織学タスクで評価され、CPLIPはゼロショット学習シナリオの顕著な改善、解釈可能性とロバスト性の両方において既存の手法よりも優れた性能を示し、現場でのビジョン言語モデルの適用のためのより高いベンチマークを設定した。 さらなる研究とレプリケーションを促進するため、CPLIPのコードはGitHubでhttps://cplip.github.io/で公開されている。

This paper proposes Comprehensive Pathology Language Image Pre-training (CPLIP), a new unsupervised technique designed to enhance the alignment of images and text in histopathology for tasks such as classification and segmentation. This methodology enriches vision-language models by leveraging extensive data without needing ground truth annotations. CPLIP involves constructing a pathology-specific dictionary, generating textual descriptions for images using language models, and retrieving relevant images for each text snippet via a pre-trained model. The model is then fine-tuned using a many-to-many contrastive learning method to align complex interrelated concepts across both modalities. Evaluated across multiple histopathology tasks, CPLIP shows notable improvements in zero-shot learning scenarios, outperforming existing methods in both interpretability and robustness and setting a higher benchmark for the application of vision-language models in the field. To encourage further research and replication, the code for CPLIP is available on GitHub at https://cplip.github.io/
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# In-Context Tabular Modelの検索と微調整

Retrieval & Fine-Tuning for In-Context Tabular Models ( http://arxiv.org/abs/2406.05207v1 )

ライセンス: Link先を確認
Valentin Thomas, Junwei Ma, Rasa Hosseinzadeh, Keyvan Golestan, Guangwei Yu, Maksims Volkovs, Anthony Caterini, (参考訳) タブラルデータ(Tabular data)は、幅広い領域にまたがる広範に広がるモダリティであり、固有の多様性はディープラーニングにかなりの課題をもたらす。 トランスフォーマーベースのインコンテキスト学習を用いた最近の進歩は、より小さく、より複雑でないデータセットを約束しているが、より大きく、より複雑なデータセットにスケールするのに苦労している。 この制限に対処するために、我々は検索と微調整の組み合わせを提案する: 近くの隣人を収集することで、トランスフォーマーをデータの局所的なサブセットに適応させ、この検索された隣人の集合とコンテキストでタスク固有の微調整を行うことができる。 TabPFNをベースモデルとして – 現在最高の表形式のインコンテキスト学習者 – を使用し、検索と微調整スキームをトップに適用することで、ローカル校正されたPFN(LoCalPFN)と呼ばれる結果が得られます。 OpenMLのTabZillaがキュレートした95のデータセットに対して広範な評価を行い、調整されたツリーベースモデルであっても、LoCalPFNで新たな最先端のデータセットを確立する。 特に,本手法の有効性を実証し,表形式での深層学習のフロンティアを推し進めた。

Tabular data is a pervasive modality spanning a wide range of domains, and the inherent diversity poses a considerable challenge for deep learning. Recent advancements using transformer-based in-context learning have shown promise on smaller and less complex datasets, but have struggled to scale to larger and more complex ones. To address this limitation, we propose a combination of retrieval and fine-tuning: we can adapt the transformer to a local subset of the data by collecting nearest neighbours, and then perform task-specific fine-tuning with this retrieved set of neighbours in context. Using TabPFN as the base model -- currently the best tabular in-context learner -- and applying our retrieval and fine-tuning scheme on top results in what we call a locally-calibrated PFN, or LoCalPFN. We conduct extensive evaluation on 95 datasets curated by TabZilla from OpenML, upon which we establish a new state-of-the-art with LoCalPFN -- even with respect to tuned tree-based models. Notably, we show a significant boost in performance compared to the base in-context model, demonstrating the efficacy of our approach and advancing the frontier of deep learning in tabular data.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# AHA! ソフトウェア設計に関する洞察を得るための戦略

AHA! Strategies for Gaining Insights into Software Design ( http://arxiv.org/abs/2406.05210v1 )

ライセンス: Link先を確認
Mary Shaw, (参考訳) これらのパターンは、私がソフトウェア設計と研究の領域において、新しい、または非正統な洞察を見つけるために使う戦略を記述しています。 パターンは、私たちが何を言っているのかと何をしているのかの矛盾によって駆動され、これらの矛盾に対処するための実用的な洞察を見つけるための技術を提供します。 これらの洞察は研究の機会の特定に役立ち、研究または実践の批評を刺激し、新しい方法を提案する。

These patterns describe the strategies I use to find novel or unorthodox insights in the area of software design and research. The patterns are driven by inconsistencies between what we say and what we do, and they provide techniques for finding actionable insights to address these inconsistencies. These insights may help to identify research opportunities; they may stimulate critiques of either research or practice; they may suggest new methods.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# 自然言語生成における主観的不確かさの定量化と校正について

On Subjective Uncertainty Quantification and Calibration in Natural Language Generation ( http://arxiv.org/abs/2406.05213v1 )

ライセンス: Link先を確認
Ziyu Wang, Chris Holmes, (参考訳) 大規模言語モデルの応用は、しばしば自由形式応答の生成を伴い、不確実な定量化が困難になる。 これは、一般的な場合では定義が難しいタスク固有の不確実性(例:意味論)を特定する必要があるためである。 この研究はベイズ決定論の観点からこれらの課題に対処し、我々の効用は、生成した応答と仮説的真反応を比較する類似度尺度によって特徴づけられるという仮定から始まった。 本稿では,モデルの主観的不確実性とそのキャリブレーションを原理的に定量化する方法について論じる。 さらに、欠落したデータ視点に基づくてんかん不確実性の尺度を導出し、その特徴を過剰なリスクとして評価する。 提案手法はブラックボックス言語モデルに適用できる。 提案手法は,GPTモデルとGeminiモデルから広く意味のある不確実性推定を抽出し,キャリブレーションの定量化を行う。

Applications of large language models often involve the generation of free-form responses, in which case uncertainty quantification becomes challenging. This is due to the need to identify task-specific uncertainties (e.g., about the semantics) which appears difficult to define in general cases. This work addresses these challenges from a perspective of Bayesian decision theory, starting from the assumption that our utility is characterized by a similarity measure that compares a generated response with a hypothetical true response. We discuss how this assumption enables principled quantification of the model's subjective uncertainty and its calibration. We further derive a measure for epistemic uncertainty, based on a missing data perspective and its characterization as an excess risk. The proposed measures can be applied to black-box language models. We demonstrate the proposed methods on question answering and machine translation tasks, where they extract broadly meaningful uncertainty estimates from GPT and Gemini models and quantify their calibration.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# TabPFGen -- TabPFNによるタブラルデータ生成

TabPFGen -- Tabular Data Generation with TabPFN ( http://arxiv.org/abs/2406.05216v1 )

ライセンス: Link先を確認
Junwei Ma, Apoorv Dankar, George Stein, Guangwei Yu, Anthony Caterini, (参考訳) 深部生成モデリングの進歩は表形式のデータにうまく翻訳されていない。 これは、一般的な生成モデルと表データの識別モデルとのミスマッチによるものであると我々は主張する。 そこで我々は,TabPFNという高機能な変換器を,当初テキスト内識別的表型タスク用に設計した手法をエネルギーベース生成モデルに変換し,TabPFGenをダブする手法を開発した。 この新しいフレームワークは、エネルギー機能の一部としてトレーニング済みのTabPFNを活用し、追加のトレーニングやハイパーパラメータチューニングを必要としないため、TabPFNのコンテキスト内学習能力を継承する。 他のエネルギーベースモデルと類似してTabPFGenからサンプルを採取できる。 データ拡張、クラスバランス、計算など、標準生成モデルタスクの強力な結果を示し、表型データ生成の新たなフロンティアを開放する。

Advances in deep generative modelling have not translated well to tabular data. We argue that this is caused by a mismatch in structure between popular generative models and discriminative models of tabular data. We thus devise a technique to turn TabPFN -- a highly performant transformer initially designed for in-context discriminative tabular tasks -- into an energy-based generative model, which we dub TabPFGen. This novel framework leverages the pre-trained TabPFN as part of the energy function and does not require any additional training or hyperparameter tuning, thus inheriting TabPFN's in-context learning capability. We can sample from TabPFGen analogously to other energy-based models. We demonstrate strong results on standard generative modelling tasks, including data augmentation, class-balancing, and imputation, unlocking a new frontier of tabular data generation.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# 量子アルゴリズムとオープン量子システムへの応用

Quantum Algorithms and Applications for Open Quantum Systems ( http://arxiv.org/abs/2406.05219v1 )

ライセンス: Link先を確認
Luis H. Delgado-Granados, Timothy J. Krogmeier, LeeAnn M. Sager-Smith, Irma Avdic, Zixuan Hu, Manas Sajjan, Maryam Abbasi, Scott E. Smart, Prineha Narang, Sabre Kais, Anthony W. Schlimgen, Kade Head-Marsden, David A. Mazziotti, (参考訳) オープン量子系の正確なモデル -- 環境と自明な相互作用を持たない量子状態 -- は、量子計算、情報学、静的および動的分子特性の予測など、様々な分野の進展に役立つ可能性がある。 近年、量子アルゴリズムはオープン量子システムの計算に利用されており、古典的な量子デバイスよりも量子デバイスの予測された量子優位性により、以前はアクセス不可能な応用が可能になっている。 この目標の達成には、さまざまな研究の観点からのインプットと専門知識、および多様な量子労働者のトレーニングが必要であり、オープン量子システムを便利かつタイムリーに扱うための現在の量子メソッドのコンパイルが求められる。 このレビューでは、まずオープン量子システムの基本理論の簡潔な要約を行い、次に最近の量子アルゴリズムに関する議論を掘り下げる。 我々は,本分野の現実的な化学,生物,物質システムへの適用性を実証し,関連する応用の議論を締めくくった。

Accurate models for open quantum systems -- quantum states that have non-trivial interactions with their environment -- may aid in the advancement of a diverse array of fields, including quantum computation, informatics, and the prediction of static and dynamic molecular properties. In recent years, quantum algorithms have been leveraged for the computation of open quantum systems as the predicted quantum advantage of quantum devices over classical ones may allow previously inaccessible applications. Accomplishing this goal will require input and expertise from different research perspectives, as well as the training of a diverse quantum workforce, making a compilation of current quantum methods for treating open quantum systems both useful and timely. In this Review, we first provide a succinct summary of the fundamental theory of open quantum systems and then delve into a discussion on recent quantum algorithms. We conclude with a discussion of pertinent applications, demonstrating the applicability of this field to realistic chemical, biological, and material systems.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# 逐次的グラディエント・リコンシリエーションによる深層学習の解釈に向けて

Towards Interpretable Deep Local Learning with Successive Gradient Reconciliation ( http://arxiv.org/abs/2406.05222v1 )

ライセンス: Link先を確認
Yibo Yang, Xiaojie Li, Motasem Alfarra, Hasan Hammoud, Adel Bibi, Philip Torr, Bernard Ghanem, (参考訳) 世界的バックプロパゲーション(BP)に対するニューラルネットワークトレーニングの信頼性の回復は、BPによる生物学的不確実性と膨大なメモリ消費のため、注目すべき研究トピックとして浮上している。 既存のソリューションの中で、局所学習は局所的なエラーでニューラルネットワークの勾配分離モジュールを最適化し、大規模なデータセットでも有効であることが証明されている。 しかし、局所的な誤り間の和解は調査されていない。 本稿では,まず非格子層学習を理論的に研究し,加群 w.r.t の局所勾配が前の加群 w.r.t の局所勾配とその出力と整合しない場合に収束を保証できないことを示す。 さらに,理論的な結果から着想を得た局所的学習戦略を提案し,勾配分離を壊したり,学習可能なパラメータを導入することなく,隣接するモジュール間の勾配調整を連続的に調整する。 提案手法はローカルBPとBPフリー設定の両方に統合できる。 実験では,従来の手法に比べて性能が大幅に向上した。 特に、ImageNet上のCNNおよびTransformerアーキテクチャの手法は、グローバルBPと競合する性能を達成でき、40%以上のメモリ消費を節約できる。

Relieving the reliance of neural network training on a global back-propagation (BP) has emerged as a notable research topic due to the biological implausibility and huge memory consumption caused by BP. Among the existing solutions, local learning optimizes gradient-isolated modules of a neural network with local errors and has been proved to be effective even on large-scale datasets. However, the reconciliation among local errors has never been investigated. In this paper, we first theoretically study non-greedy layer-wise training and show that the convergence cannot be assured when the local gradient in a module w.r.t. its input is not reconciled with the local gradient in the previous module w.r.t. its output. Inspired by the theoretical result, we further propose a local training strategy that successively regularizes the gradient reconciliation between neighboring modules without breaking gradient isolation or introducing any learnable parameters. Our method can be integrated into both local-BP and BP-free settings. In experiments, we achieve significant performance improvements compared to previous methods. Particularly, our method for CNN and Transformer architectures on ImageNet is able to attain a competitive performance with global BP, saving more than 40% memory consumption.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# CorDA: 大規模言語モデルのコンテキスト指向分解適応

CorDA: Context-Oriented Decomposition Adaptation of Large Language Models ( http://arxiv.org/abs/2406.05223v1 )

ライセンス: Link先を確認
Yibo Yang, Xiaojie Li, Zhongzhu Zhou, Shuaiwen Leon Song, Jianlong Wu, Liqiang Nie, Bernard Ghanem, (参考訳) 現在のパラメータ効率細調整(PEFT)メソッドは、下流のタスクのコンテキストや維持すべき重要な知識のコンテキストを考慮せずにアダプタを構築する。 その結果、フルパラメータの微調整に比べて性能の差がしばしばあり、一方、微調整されたモデルは、事前訓練された世界の知識を破滅的に忘れることに悩まされる。 本稿では,下流タスクや世界知識のコンテキストを指向した重み分解から学習可能なアダプタを構築する,コンテキスト指向の分解適応手法であるCorDAを提案する。 具体的には、いくつかのデータサンプルを収集し、これらのサンプルを用いて入力アクティベーションの共分散行列に乗じて、事前学習したLLMの各線形層に対して特異値分解を行う。 これにより、因子化方向を決定することによって、代表サンプルのコンテキストをキャプチャする。 本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。 前者に対しては、共分散行列を得るために質問応答サンプルを使用し、最小の$r$特異値を持つ分解されたコンポーネントを使用して学習可能なアダプタを初期化し、他のコンポーネントは世界知識がより保存されるように凍結する。 後者では、数学やコーディングなどの微調整タスクからの命令データを用いて、分解を指向し、学習するタスクの主要な特徴をキャプチャする最大の$r$コンポーネントを訓練する。 我々はMath, Code, Instruction followingタスクについて広範な実験を行う。 我々の知識保存適応は、微調整作業においてLoRAよりも優れた性能を達成するだけでなく、世界の知識の忘れを軽減します。 提案手法は,全パラメータ微調整法や最先端PEFT法を超越して,ファインチューニング性能をさらに向上させることができる。

Current parameter-efficient fine-tuning (PEFT) methods build adapters without considering the context of downstream task to learn, or the context of important knowledge to maintain. As a result, there is often a performance gap compared to full-parameter finetuning, and meanwhile the finetuned model suffers from catastrophic forgetting of the pre-trained world knowledge. In this paper, we propose CorDA, a Context-oriented Decomposition Adaptation method that builds learnable adapters from weight decomposition oriented by the context of downstream task or world knowledge. Concretely, we collect a few data samples, and perform singular value decomposition for each linear layer of a pre-trained LLM multiplied by the covariance matrix of the input activation using these samples. By doing so, the context of the representative samples is captured through deciding the factorizing orientation. Our method enables two options, the knowledge-preserved adaptation and the instruction-previewed adaptation. For the former, we use question-answering samples to obtain the covariance matrices, and use the decomposed components with the smallest $r$ singular values to initialize a learnable adapter, with the others frozen such that the world knowledge is better preserved. For the latter, we use the instruction data from the finetuning task, such as math or coding, to orientate the decomposition and train the largest $r$ components that capture the main characteristics of the task to learn. We conduct extensive experiments on Math, Code, and Instruction Following tasks. Our knowledge-preserved adaptation not only achieves better performance than LoRA on finetuning tasks, but also mitigates the forgetting of world knowledge. Our instruction-previewed adaptation is able to further enhance the finetuning performance, surpassing full-parameter finetuning and the state-of-the-art PEFT methods.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# Fowler-Nordheimアニールを用いたオンオフ型ニューロモルフィックISINGマシン

ON-OFF Neuromorphic ISING Machines using Fowler-Nordheim Annealers ( http://arxiv.org/abs/2406.05224v1 )

ライセンス: Link先を確認
Zihao Chen, Zhili Xiao, Mahmoud Akl, Johannes Leugring, Omowuyi Olajide, Adil Malik, Nik Dennler, Chad Harper, Subhankar Bose, Hector A. Gonzalez, Jason Eshraghian, Riccardo Pignari, Gianvito Urgese, Andreas G. Andreou, Sadasivan Shankar, Christian Mayr, Gert Cauwenberghs, Shantanu Chakrabartty, (参考訳) 本稿では,Fowler-Nordheim (FN) を用いた量子力学トンネルの物理によって制御されるアニーリング法を用いて,イジング問題の基底状態への漸近収束を確実にするためのニューロモルフィックアーキテクチャであるNeuroSAを紹介する。 NeuroSAのコアコンポーネントは、一対の非同期ON-OFFニューロンからなり、古典的シミュレートされたアニール(SA)ダイナミクスを統合と発火(IF)ニューロンのネットワークに効果的にマッピングする。 各ON-OFFニューロン対の閾値はFNアニールにより適応的に調整され、特に低温でのSAの最適脱出機構と収束を再現する。 ニューロモルフィックIsingマシンの有効性を検証するため,様々なベンチマークMAX-CUT組合せ最適化問題を系統的に解決した。 複数回にわたって、NeuroSAは、グラフ固有のハイパーパラメータチューニングなしで、高い精度(99%以上)で最先端レベルにアプローチするソリューションを一貫して生成する。 実例として,我々はNeuroSAをSpiNNaker2プラットフォーム上で実装し,提案したアーキテクチャを標準的なニューロモルフィック・アクセラレーションプラットフォームにマッピングする可能性を強調した。

We introduce NeuroSA, a neuromorphic architecture specifically designed to ensure asymptotic convergence to the ground state of an Ising problem using an annealing process that is governed by the physics of quantum mechanical tunneling using Fowler-Nordheim (FN). The core component of NeuroSA consists of a pair of asynchronous ON-OFF neurons, which effectively map classical simulated annealing (SA) dynamics onto a network of integrate-and-fire (IF) neurons. The threshold of each ON-OFF neuron pair is adaptively adjusted by an FN annealer which replicates the optimal escape mechanism and convergence of SA, particularly at low temperatures. To validate the effectiveness of our neuromorphic Ising machine, we systematically solved various benchmark MAX-CUT combinatorial optimization problems. Across multiple runs, NeuroSA consistently generates solutions that approach the state-of-the-art level with high accuracy (greater than 99%), and without any graph-specific hyperparameter tuning. For practical illustration, we present results from an implementation of NeuroSA on the SpiNNaker2 platform, highlighting the feasibility of mapping our proposed architecture onto a standard neuromorphic accelerator platform.
翻訳日:2024-06-11 22:45:56 公開日:2024-06-07
# グラフニューラルネットワークの統計的一般化に関する多様体的考察

A Manifold Perspective on the Statistical Generalization of Graph Neural Networks ( http://arxiv.org/abs/2406.05225v1 )

ライセンス: Link先を確認
Zhiyang Wang, Juan Cervino, Alejandro Ribeiro, (参考訳) 畳み込みニューラルネットワークはグラフ上での動作に成功し、グラフニューラルネットワーク(GNN)が誕生した。 GNNはグラフ畳み込みの連続的な応用によって隣接ノードからの情報を結合する。 GNNは様々な学習タスクでうまく実装されているが、その一般化能力に関する理論的理解はまだ進行中である。 本稿では, GNN の統計一般化ギャップを解析するために, 多様体理論を活用する。 ノードレベルとグラフレベルの両方のタスクにおけるGNNの一般化ギャップについて検討する。 学習グラフのノード数によって一般化のギャップが減少し、GNNの多様体上の点への一般化が保証されることを示す。 複数の実世界のデータセットで理論的結果を検証する。

Convolutional neural networks have been successfully extended to operate on graphs, giving rise to Graph Neural Networks (GNNs). GNNs combine information from adjacent nodes by successive applications of graph convolutions. GNNs have been implemented successfully in various learning tasks while the theoretical understanding of their generalization capability is still in progress. In this paper, we leverage manifold theory to analyze the statistical generalization gap of GNNs operating on graphs constructed on sampled points from manifolds. We study the generalization gaps of GNNs on both node-level and graph-level tasks. We show that the generalization gaps decrease with the number of nodes in the training graphs, which guarantees the generalization of GNNs to unseen points over manifolds. We validate our theoretical results in multiple real-world datasets.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# 混合曲率決定木とランダム森林

Mixed-Curvature Decision Trees and Random Forests ( http://arxiv.org/abs/2406.05227v1 )

ライセンス: Link先を確認
Philippe Chlenski, Quentin Chu, Itsik Pe'er, (参考訳) 決定木とランダム森林アルゴリズムを混合曲率積空間に拡張する。 そのような空間はユークリッド多様体、超球面多様体、双曲多様体のカルテ多様体として定義され、単一の多様体よりもはるかに低い歪みを持つペア距離から点を埋め込むことができる。 これまで、積空間のすべての分類器は1つの線形決定境界に適合しており、回帰器は記述されていない。 我々の方法は、積多様体における単純で表現力のある分類と回帰を可能にすることによって、これらの制限を克服する。 広範囲の曲率を含む成分多様体の周囲空間で作用するユークリッド法や積多様体の選択に対して,ツールの精度が優れていることを示す。

We extend decision tree and random forest algorithms to mixed-curvature product spaces. Such spaces, defined as Cartesian products of Euclidean, hyperspherical, and hyperbolic manifolds, can often embed points from pairwise distances with much lower distortion than in single manifolds. To date, all classifiers for product spaces fit a single linear decision boundary, and no regressor has been described. Our method overcomes these limitations by enabling simple, expressive classification and regression in product manifolds. We demonstrate the superior accuracy of our tool compared to Euclidean methods operating in the ambient space for component manifolds covering a wide range of curvatures, as well as on a selection of product manifolds.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# ULS23チャレンジ:CTにおける3次元ユニバーサル病変分割のためのベースラインモデルとベンチマークデータセット

The ULS23 Challenge: a Baseline Model and Benchmark Dataset for 3D Universal Lesion Segmentation in Computed Tomography ( http://arxiv.org/abs/2406.05231v1 )

ライセンス: Link先を確認
M. J. J. de Grauw, E. Th. Scholten, E. J. Smit, M. J. C. M. Rutten, M. Prokop, B. van Ginneken, A. Hering, (参考訳) 術後CT検査における腫瘍像の大きさ測定は, がん患者の治療成績を評価する上で重要である。 効率的な病変のセグメンテーションは、これらの放射線学的ワークフローを高速化することができる。 多くのベンチマークや課題は、肝臓、腎臓、肺などの特定の臓器の病変のセグメンテーションに対処するが、臨床で遭遇するより多様な病変には、より普遍的なアプローチが必要である。 このギャップに対処するため,胸腹部骨盤CT検査における3次元普遍的病変分割のためのULS23ベンチマークを導入した。 ULS23のトレーニングデータセットには、膵、結腸、骨の病変を含む、この地域全体で38,693の病変が含まれている。 評価目的で,284例の775病変からなるデータセットを収集した。 これらの病変のそれぞれが臨床的文脈における標的病変として同定され、このデータセット内での多様性と臨床的妥当性が保証された。 ULS23ベンチマークはuls23.grand-challenge.orgを通じて一般に公開されている。 さらに, ベースライン型半教師付き3次元病変分割モデルの開発と公開を行った。 このモデルは、チャレンジテストセットで平均Dice係数 0.703$\pm$ 0.240 を達成した。 今後の ULS モデルの開発を進めるため,現在進行中の提出を募集する。

Size measurements of tumor manifestations on follow-up CT examinations are crucial for evaluating treatment outcomes in cancer patients. Efficient lesion segmentation can speed up these radiological workflows. While numerous benchmarks and challenges address lesion segmentation in specific organs like the liver, kidneys, and lungs, the larger variety of lesion types encountered in clinical practice demands a more universal approach. To address this gap, we introduced the ULS23 benchmark for 3D universal lesion segmentation in chest-abdomen-pelvis CT examinations. The ULS23 training dataset contains 38,693 lesions across this region, including challenging pancreatic, colon and bone lesions. For evaluation purposes, we curated a dataset comprising 775 lesions from 284 patients. Each of these lesions was identified as a target lesion in a clinical context, ensuring diversity and clinical relevance within this dataset. The ULS23 benchmark is publicly accessible via uls23.grand-challenge.org, enabling researchers worldwide to assess the performance of their segmentation methods. Furthermore, we have developed and publicly released our baseline semi-supervised 3D lesion segmentation model. This model achieved an average Dice coefficient of 0.703 $\pm$ 0.240 on the challenge test set. We invite ongoing submissions to advance the development of future ULS models.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# ブラックボックスLCMによるロジット不要なロジットベース検出器の改良

Improving Logits-based Detector without Logits from Black-box LLMs ( http://arxiv.org/abs/2406.05232v1 )

ライセンス: Link先を確認
Cong Zeng, Shengkun Tang, Xianjun Yang, Yuanzhou Chen, Yiyou Sun, zhiqiang xu, Yao Li, Haifeng Chen, Wei Cheng, Dongkuan Xu, (参考訳) LLM(Large Language Models)の出現はテキスト生成に革命をもたらした。 この機械文と人文文の線がぼやけていることは、プロプライエタリなLLMの頻繁な更新とクローズドな性質によって、一方と他方を区別する作業がさらに複雑になる、という新たな課題を示している。 従来のロジットに基づく検出手法では、ブラックボックスのLLMから正確なロジットが利用できない場合に、Surrogateモデルを用いてLCM生成したコンテンツを識別する。 しかし、これらの手法はサロゲートの分布としばしば開示されるターゲットモデルとのミスアライメントに対処し、特に新しいクローズドソースモデルの導入による性能劣化につながった。 さらに、現在の方法論は、ソースモデルが特定されると一般的に有効であるが、モデルバージョンが不明なシナリオや、テストセットが様々なソースモデルから出力を出力するシナリオに干渉する。 これらの制約に対処するため、我々は、ソースLLMからのロジットを使わずに、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDis Distribution-Aligned LLMs Detection (DALD)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、最小限のトレーニング投資で高速モデルイテレーションに対する検出能力とレジリエンスを向上させるように設計されている。 コーパスサンプルをChatGPT, GPT-4, Claude-3などの先進モデルの公開出力から活用することにより、DALDファイントゥインシュロゲートモデルを未知のソースモデル分布と効率的に同期させる。

The advent of Large Language Models (LLMs) has revolutionized text generation, producing outputs that closely mimic human writing. This blurring of lines between machine- and human-written text presents new challenges in distinguishing one from the other a task further complicated by the frequent updates and closed nature of leading proprietary LLMs. Traditional logits-based detection methods leverage surrogate models for identifying LLM-generated content when the exact logits are unavailable from black-box LLMs. However, these methods grapple with the misalignment between the distributions of the surrogate and the often undisclosed target models, leading to performance degradation, particularly with the introduction of new, closed-source models. Furthermore, while current methodologies are generally effective when the source model is identified, they falter in scenarios where the model version remains unknown, or the test set comprises outputs from various source models. To address these limitations, we present Distribution-Aligned LLMs Detection (DALD), an innovative framework that redefines the state-of-the-art performance in black-box text detection even without logits from source LLMs. DALD is designed to align the surrogate model's distribution with that of unknown target LLMs, ensuring enhanced detection capability and resilience against rapid model iterations with minimal training investment. By leveraging corpus samples from publicly accessible outputs of advanced models such as ChatGPT, GPT-4 and Claude-3, DALD fine-tunes surrogate models to synchronize with unknown source model distributions effectively.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# 疎通信によるフェデレーションLORA

Federated LoRA with Sparse Communication ( http://arxiv.org/abs/2406.05233v1 )

ライセンス: Link先を確認
Kevin Kuo, Arian Raje, Kousik Rajesh, Virginia Smith, (参考訳) ローランク適応(ローランク適応、LoRA)は、デバイス間フェデレーション学習のような、通信に制約のある機械学習設定において微調整を行う自然な方法である。 フェデレートラーニングの文脈でLoRAを研究する以前の研究は、不均一性とプライバシに対するLoRAの堅牢性の改善に重点を置いてきた。 そこで本研究では,フェデレートされたLoRAにおける通信効率の向上手法について検討する。 残念ながら、未構造化プルーニングによるLoRAの効率を向上する集中型ML手法は、フェデレートされた設定にうまく移行しない。 その代わりに、クライアントがLoRAモジュール全体を局所的に微調整しながら、通信中にLoRAに空間性を適用できる簡単なアプローチである「textbf{FLASC}」について研究する。 4つの共通学習課題にまたがって,この手法が高密度LoRAの性能と最大10\timesの低通信性能とを一致させることを示した。 さらに、主に通信をターゲットに設計されているにもかかわらず、このアプローチは、これらの特定の懸念に合わせた既存のアプローチと比較して、異質性やプライバシの面でのメリットがある。 本研究は,コミュニケーション効率のよいファインタニングアプローチを開発する上で,システム固有の制約を検討することの重要性を強調し,フェデレートファインタニングにおける今後の作業の単純かつ競争的なベースラインとして機能する。

Low-rank adaptation (LoRA) is a natural method for finetuning in communication-constrained machine learning settings such as cross-device federated learning. Prior work that has studied LoRA in the context of federated learning has focused on improving LoRA's robustness to heterogeneity and privacy. In this work, we instead consider techniques for further improving communication-efficiency in federated LoRA. Unfortunately, we show that centralized ML methods that improve the efficiency of LoRA through unstructured pruning do not transfer well to federated settings. We instead study a simple approach, \textbf{FLASC}, that applies sparsity to LoRA during communication while allowing clients to locally fine-tune the entire LoRA module. Across four common federated learning tasks, we demonstrate that this method matches the performance of dense LoRA with up to $10\times$ less communication. Additionally, despite being designed primarily to target communication, we find that this approach has benefits in terms of heterogeneity and privacy relative to existing approaches tailored to these specific concerns. Overall, our work highlights the importance of considering system-specific constraints when developing communication-efficient finetuning approaches, and serves as a simple and competitive baseline for future work in federated finetuning.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# 目標を評価せずにマルコフ連鎖モンテカルロ:補助変数アプローチ

Markov chain Monte Carlo without evaluating the target: an auxiliary variable approach ( http://arxiv.org/abs/2406.05242v1 )

ライセンス: Link先を確認
Wei Yuan, Guanyang Wang, (参考訳) サンプリングタスクでは、ターゲット分布を正規化定数まで知ることが一般的である。 しかし、多くの状況において、正規化されていない分布を評価することはコストがかかるか不可能である。 この問題は、背の高いデータセットのベイズ後部からのサンプリングや'二重抽出可能'分布などのシナリオで発生する。 本稿では,交換アルゴリズム,PoissonMH,TunaMHなど,一見異なるマルコフ連鎖モンテカルロ(MCMC)アルゴリズムが,単純な共通手順で統一可能であることを観察することから始める。 次に、この手順を新しいフレームワークに拡張し、提案ステップと受入拒否ステップの両方で補助変数を使用できるようにします。 我々は,新たなフレームワークの理論を開発し,それを既存のアルゴリズムに適用し,その結果を簡素化し拡張する。 このフレームワークからいくつかの新しいアルゴリズムが登場し、合成データセットと実データセットの両方でパフォーマンスが改善された。

In sampling tasks, it is common for target distributions to be known up to a normalizing constant. However, in many situations, evaluating even the unnormalized distribution can be costly or infeasible. This issue arises in scenarios such as sampling from the Bayesian posterior for tall datasets and the `doubly-intractable' distributions. In this paper, we begin by observing that seemingly different Markov chain Monte Carlo (MCMC) algorithms, such as the exchange algorithm, PoissonMH, and TunaMH, can be unified under a simple common procedure. We then extend this procedure into a novel framework that allows the use of auxiliary variables in both the proposal and acceptance-rejection steps. We develop the theory of the new framework, applying it to existing algorithms to simplify and extend their results. Several new algorithms emerge from this framework, with improved performance demonstrated on both synthetic and real datasets.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# 分散シフトを伴う時系列マイニングのための言語モデルガイドフレームワーク

A Language Model-Guided Framework for Mining Time Series with Distributional Shifts ( http://arxiv.org/abs/2406.05249v1 )

ライセンス: Link先を確認
Haibei Zhu, Yousef El-Laham, Elizabeth Fons, Svitlana Vyetrenko, (参考訳) 時系列データの有効利用は、特に分散シフトの条件下で、複雑なダイナミクスを反映するデータ量の不足によって制限されることが多い。 既存のデータセットは、堅牢で包括的な分析に必要な全ての統計特性を包含していないかもしれない。 プライバシーに関する懸念は、金融やヘルスケアといった分野のアクセシビリティをさらに制限する可能性がある。 本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。 外部ソースから収集されたデータは、一次時系列データセットと重要な統計特性を共有しており、様々なシナリオをモデル化し適応することができる。 この方法は、元のデータが制限されたり、本質的な性質が欠如している場合に、データ量を大きくする。 収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。 実例を用いて収集したデータセットの有効性を実証し、これらのデータセット上で微調整された時系列予測基礎モデルを微調整することなく、それらのモデルに匹敵する性能を実現する方法を示す。

Effective utilization of time series data is often constrained by the scarcity of data quantity that reflects complex dynamics, especially under the condition of distributional shifts. Existing datasets may not encompass the full range of statistical properties required for robust and comprehensive analysis. And privacy concerns can further limit their accessibility in domains such as finance and healthcare. This paper presents an approach that utilizes large language models and data source interfaces to explore and collect time series datasets. While obtained from external sources, the collected data share critical statistical properties with primary time series datasets, making it possible to model and adapt to various scenarios. This method enlarges the data quantity when the original data is limited or lacks essential properties. It suggests that collected datasets can effectively supplement existing datasets, especially involving changes in data distribution. We demonstrate the effectiveness of the collected datasets through practical examples and show how time series forecasting foundation models fine-tuned on these datasets achieve comparable performance to those models without fine-tuning.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# LLMによる効率的なアナログレイアウト制約生成のためのベイズ最適化

LLM-Enhanced Bayesian Optimization for Efficient Analog Layout Constraint Generation ( http://arxiv.org/abs/2406.05250v1 )

ライセンス: Link先を確認
Guojin Chen, Keren Zhu, Seunggeun Kim, Hanqing Zhu, Yao Lai, Bei Yu, David Z. Pan, (参考訳) アナログレイアウトの合成は、手作業のプロセスへの依存、かなりの時間要件、パフォーマンスの不安定さなど、重大な課題に直面している。 現在のベイズ最適化(BO)に基づくアナログレイアウト合成技術は、自動化の可能性を秘めているが、収束の遅さと広範なデータ要求に悩まされ、実用的利用が制限されている。 本稿では,LLMの数発の学習能力を活かして,Large Language Models (LLMs) を利用した新しいアプローチである \texttt{LLANA} フレームワークを提案する。 実験結果から, <texttt{LLANA} は最新技術 (SOTA) BO法に匹敵する性能を達成するだけでなく, LLM のより優れた文脈理解と学習効率により, アナログ回路設計空間のより効率的な探索を可能にした。 コードは \url{https://github.com/dekura/LLANA} で公開されている。

Analog layout synthesis faces significant challenges due to its dependence on manual processes, considerable time requirements, and performance instability. Current Bayesian Optimization (BO)-based techniques for analog layout synthesis, despite their potential for automation, suffer from slow convergence and extensive data needs, limiting their practical application. This paper presents the \texttt{LLANA} framework, a novel approach that leverages Large Language Models (LLMs) to enhance BO by exploiting the few-shot learning abilities of LLMs for more efficient generation of analog design-dependent parameter constraints. Experimental results demonstrate that \texttt{LLANA} not only achieves performance comparable to state-of-the-art (SOTA) BO methods but also enables a more effective exploration of the analog circuit design space, thanks to LLM's superior contextual understanding and learning efficiency. The code is available at \url{https://github.com/dekura/LLANA}.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# 機械学習分類器の信頼性自動テスト

Automated Trustworthiness Testing for Machine Learning Classifiers ( http://arxiv.org/abs/2406.05251v1 )

ライセンス: Link先を確認
Steven Cho, Seaton Cousins-Baxter, Stefano Ruberto, Valerio Terragni, (参考訳) 機械学習(ML)は、金融、医療、交通といった重要な領域で一般的に使われている社会の不可欠な部分となっている。 したがって、MLモデルが正しい予測を行うかどうかだけでなく、正しい理由から正しい予測を行うかどうかを判断し、見当たらないデータに対して良好な信頼性を確保することが重要である。 この概念はMLの信頼性として知られている。 近年,MLモデルの意思決定過程を解釈するための説明可能な手法 (例: LIME, SHAP) が開発されている。 これらの説明の妥当性を評価することは、モデルの信頼性に対する信頼を高めることができる。 しかしながら、現在のアプローチは通常、これらの説明の妥当性を決定するために人間の判断に依存している。 本稿では,テキスト分類器が信頼に値するかどうかを判断する信頼度オラクルを自動生成するTOWERを提案する。 単語埋め込みを利用して、説明技法の出力に基づいて、モデルに依存しないテキスト分類器の信頼性を自動的に評価する。 我々の仮説は、その説明中の単語が予測されたクラスと意味的に関連している場合、予測は信頼に値するというものである。 ノイズデータから得られた信頼できないモデルを用いて教師なし学習を行い、TOWERの最適構成を求める。 そして、作成した人間ラベルの信頼性データセットでTOWERを評価しました。 その結果,TOWERはノイズの増加に伴って信頼性の低下を検出することができるが,人為的ラベル付きデータセットに対して評価しても有効ではないことがわかった。 最初の実験では、仮説が有効で有望であることが示唆されたが、説明と信頼性の問題との関係をよりよく理解するためには、さらなる研究が必要である。

Machine Learning (ML) has become an integral part of our society, commonly used in critical domains such as finance, healthcare, and transportation. Therefore, it is crucial to evaluate not only whether ML models make correct predictions but also whether they do so for the correct reasons, ensuring our trust that will perform well on unseen data. This concept is known as trustworthiness in ML. Recently, explainable techniques (e.g., LIME, SHAP) have been developed to interpret the decision-making processes of ML models, providing explanations for their predictions (e.g., words in the input that influenced the prediction the most). Assessing the plausibility of these explanations can enhance our confidence in the models' trustworthiness. However, current approaches typically rely on human judgment to determine the plausibility of these explanations. This paper proposes TOWER, the first technique to automatically create trustworthiness oracles that determine whether text classifier predictions are trustworthy. It leverages word embeddings to automatically evaluate the trustworthiness of a model-agnostic text classifiers based on the outputs of explanatory techniques. Our hypothesis is that a prediction is trustworthy if the words in its explanation are semantically related to the predicted class. We perform unsupervised learning with untrustworthy models obtained from noisy data to find the optimal configuration of TOWER. We then evaluated TOWER on a human-labeled trustworthiness dataset that we created. The results show that TOWER can detect a decrease in trustworthiness as noise increases, but is not effective when evaluated against the human-labeled dataset. Our initial experiments suggest that our hypothesis is valid and promising, but further research is needed to better understand the relationship between explanations and trustworthiness issues.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# ジェネレーティブ・エクスプロイト:LLM最適化を用いたジェネレーティブ・レコメンダシステムの訓練不要最適化

Generative Explore-Exploit: Training-free Optimization of Generative Recommender Systems using LLM Optimizers ( http://arxiv.org/abs/2406.05255v1 )

ライセンス: Link先を確認
Lütfi Kerem Senel, Besnik Fetahu, Davis Yoshida, Zhiyu Chen, Giuseppe Castellucci, Nikhita Vedula, Jason Choi, Shervin Malmasi, (参考訳) リコメンダシステムは、エンゲージメントなコンテンツを提案するために広く使われており、Large Language Models (LLMs) は、ジェネレーティブなレコメンダを生み出している。 このようなシステムは、質問提案のようなオープンなタスクを含む、直接的にアイテムを生成することができる。 LLMの世界の知識は良いレコメンデーションを可能にするが、ユーザからのフィードバックによって生成されたコンテンツを改善することは困難であり、継続的な微調整 LLM は違法に高価である。 ユーザフィードバックループをLLMベースのオプティマイザに接続することで,生成レコメンデーションを最適化するためのトレーニング不要なアプローチを提案する。 本研究では, 高いエンゲージメントを有する生成アイテムを活用できるだけでなく, 隠された集団選好を積極的に探索・発見し, 推薦品質の向上を図る。 我々は,2つの領域(eコマースと一般知識)における質問生成に対するアプローチを評価し,クリックスルーレート(CTR)を用いたユーザフィードバックをモデル化する。 LLMに基づく探索探索アプローチは、リコメンデーションを反復的に改善し、CTRを継続的に増加させます。 アブレーション分析は、生成的探索がユーザの好みを学習する鍵であり、欲求的なエクスプロイトのみのアプローチの落とし穴を避けていることを示している。 人間の評価は我々の量的発見を強く支持する。

Recommender systems are widely used to suggest engaging content, and Large Language Models (LLMs) have given rise to generative recommenders. Such systems can directly generate items, including for open-set tasks like question suggestion. While the world knowledge of LLMs enable good recommendations, improving the generated content through user feedback is challenging as continuously fine-tuning LLMs is prohibitively expensive. We present a training-free approach for optimizing generative recommenders by connecting user feedback loops to LLM-based optimizers. We propose a generative explore-exploit method that can not only exploit generated items with known high engagement, but also actively explore and discover hidden population preferences to improve recommendation quality. We evaluate our approach on question generation in two domains (e-commerce and general knowledge), and model user feedback with Click Through Rate (CTR). Experiments show our LLM-based explore-exploit approach can iteratively improve recommendations, and consistently increase CTR. Ablation analysis shows that generative exploration is key to learning user preferences, avoiding the pitfalls of greedy exploit-only approaches. A human evaluation strongly supports our quantitative findings.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# 拡散モデルの高効率微分プライベート微調整

Efficient Differentially Private Fine-Tuning of Diffusion Models ( http://arxiv.org/abs/2406.05257v1 )

ライセンス: Link先を確認
Jing Liu, Andrew Lowy, Toshiaki Koike-Akino, Kieran Parsons, Ye Wang, (参考訳) 拡散モデル(DM)の最近の発展により、驚くべきほど高品質な合成サンプルの生成が可能になった。 最近の研究によると、拡散モデルによって生成された合成サンプルは、公開データ上で事前訓練され、プライベートデータ上での差分プライバシーで完全に微調整され、優れたプライバシー利用トレードオフを達成しつつ、下流の分類器を訓練できることが示されている。 しかし、DP-SGDによるそのような大きな拡散モデルを完全に微調整することは、メモリ使用量や計算の点で非常にリソースの需要が高い。 本研究では,低次元適応(LoDA)と微分プライバシーを用いた拡散モデルのパラメータ効率の良い微調整(PEFT)について検討する。 提案手法を MNIST と CIFAR-10 データセットを用いて評価し,このような効率的な微調整により,下流分類器の訓練に有用な合成サンプルを生成でき,微調整データのプライバシー保護が保証されることを示した。 ソースコードはGitHubで公開されます。

The recent developments of Diffusion Models (DMs) enable generation of astonishingly high-quality synthetic samples. Recent work showed that the synthetic samples generated by the diffusion model, which is pre-trained on public data and fully fine-tuned with differential privacy on private data, can train a downstream classifier, while achieving a good privacy-utility tradeoff. However, fully fine-tuning such large diffusion models with DP-SGD can be very resource-demanding in terms of memory usage and computation. In this work, we investigate Parameter-Efficient Fine-Tuning (PEFT) of diffusion models using Low-Dimensional Adaptation (LoDA) with Differential Privacy. We evaluate the proposed method with the MNIST and CIFAR-10 datasets and demonstrate that such efficient fine-tuning can also generate useful synthetic samples for training downstream classifiers, with guaranteed privacy protection of fine-tuning data. Our source code will be made available on GitHub.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# リアルタイムな音声視覚的命名イベントに基づく早期単語獲得モデル

A model of early word acquisition based on realistic-scale audiovisual naming events ( http://arxiv.org/abs/2406.05259v1 )

ライセンス: Link先を確認
Khazar Khorrami, Okko Räsänen, (参考訳) 幼児は徐々に、連続した音声を単語にパースし、名前とオブジェクトを結びつけるように学習するが、初期の単語認識スキルの発達のメカニズムはいまだに不明である。 音声知覚入力における正規性からの統計的学習により,早期語が獲得できる範囲について検討した。 実年齢12か月までの幼児における単語学習を,無注釈の生音声と画素レベルの視覚入力の統計的規則性からのみ学習するモデルを用いてシミュレートした。 重要なことに、オブジェクトの命名イベントの量は、同等の年齢の幼児にアクセスできるものに合わせて慎重に設計されている。 以上の結果から, 幼児期と同等の語彙成長速度で, 単語の認識とそれに対応する視覚オブジェクトの関連付けを効果的に学習できることが示唆された。 この知見は、早期単語知覚のための一般統計学習の実用性を支持し、学習が事前の言語能力を仮定せずにどのように機能するかを実証する。

Infants gradually learn to parse continuous speech into words and connect names with objects, yet the mechanisms behind development of early word perception skills remain unknown. We studied the extent to which early words can be acquired through statistical learning from regularities in audiovisual sensory input. We simulated word learning in infants up to 12 months of age in a realistic setting, using a model that solely learns from statistical regularities in unannotated raw speech and pixel-level visual input. Crucially, the quantity of object naming events was carefully designed to match that accessible to infants of comparable ages. Results show that the model effectively learns to recognize words and associate them with corresponding visual objects, with a vocabulary growth rate comparable to that observed in infants. The findings support the viability of general statistical learning for early word perception, demonstrating how learning can operate without assuming any prior linguistic capabilities.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# 木流中における密度回帰の生成モデル

Generative modeling of density regression through tree flows ( http://arxiv.org/abs/2406.05260v1 )

ライセンス: Link先を確認
Zhuoqun Wang, Naoki Awaya, Li Ma, (参考訳) 表型データの解析における一般的な目的は、一組の「共変量」が与えられた一連の「アウトカム」変数の条件分布を推定することであり、これはしばしば「密度回帰」問題と呼ばれる。 条件分布の推定以外にも、学習条件分布から合成サンプルを抽出する生成能力も望まれており、適用範囲をさらに広げている。 本稿では,表データの密度回帰タスクに適したフローベース生成モデルを提案する。 我々の流れは、初期一様雑音に木をベースとした一様線形変換を適用し、最終的に共変量(単変量または多変量)の結果の複素条件密度からサンプルを生成し、サンプル空間の任意の点における適合条件密度の効率的な解析的評価を可能にする。 そこで本研究では,木分割・クロスエントロピー損失における木分割・クロスエントロピー損失の1つとして,木フローの最大極大トレーニングを2値分類器の集合に変換する分別・対数戦略を用いて木ベース変換を適合させる訓練アルゴリズムを提案する。 我々は,本手法の性能をサンプル外確率評価で評価し,シミュレーションおよび実ベンチマーク表を用いた各種条件密度学習者と比較した。 本手法は, トレーニングおよびサンプリング予算のごく一部において, 同等あるいは優れた性能を継続的に達成する。 最後に,我々のフローのトレーニングに基づく合成長手マイクロバイオーム合成データ作成への応用を通じて,本手法の生成能力を実証する。

A common objective in the analysis of tabular data is estimating the conditional distribution (in contrast to only producing predictions) of a set of "outcome" variables given a set of "covariates", which is sometimes referred to as the "density regression" problem. Beyond estimation on the conditional distribution, the generative ability of drawing synthetic samples from the learned conditional distribution is also desired as it further widens the range of applications. We propose a flow-based generative model tailored for the density regression task on tabular data. Our flow applies a sequence of tree-based piecewise-linear transforms on initial uniform noise to eventually generate samples from complex conditional densities of (univariate or multivariate) outcomes given the covariates and allows efficient analytical evaluation of the fitted conditional density on any point in the sample space. We introduce a training algorithm for fitting the tree-based transforms using a divide-and-conquer strategy that transforms maximum likelihood training of the tree-flow into training a collection of binary classifiers--one at each tree split--under cross-entropy loss. We assess the performance of our method under out-of-sample likelihood evaluation and compare it with a variety of state-of-the-art conditional density learners on a range of simulated and real benchmark tabular datasets. Our method consistently achieves comparable or superior performance at a fraction of the training and sampling budget. Finally, we demonstrate the utility of our method's generative ability through an application to generating synthetic longitudinal microbiome compositional data based on training our flow on a publicly available microbiome study.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# Split-and-Fit:構造を考慮したボロノイ分割によるB-Repsの学習

Split-and-Fit: Learning B-Reps via Structure-Aware Voronoi Partitioning ( http://arxiv.org/abs/2406.05261v1 )

ライセンス: Link先を確認
Yilin Liu, Jiale Chen, Shanshan Pan, Daniel Cohen-Or, Hao Zhang, Hui Huang, (参考訳) 本稿では,2段階のプロセスを含む3次元CADモデルの境界表現(B-Reps)を取得する新しい手法を提案する。 具体的には,GT-B-Repプリミティブの集合の古典的なボロノイ図を作成することを目的としている。 直接のプリミティブフィッティングやポイントクラスタリングによってボトムアップされた以前のB-Rep構造とは対照的に、私たちのSplit-and-Fitアプローチは、プリミティブ間の数と接続の両方を明確に示しているため、トップダウンと構造認識である。 入力点雲や距離場から二項分類によりボロノイ図を予測するニューラルネットワークを設計する。 我々のネットワークはニューラル・ボロノイ図でNVD-Netと呼ばれ、訓練データからCADモデルのボロノイ分割を効果的に学習できることを示し、優れた一般化能力を示す。 大規模な実験と評価により, パラメトリック表面, 曲線, 頂点からなるB-Repsは, 既存の代替品よりも信頼性が高く, 再現性も著しく向上した。 コードはhttps://github.com/yilinliu77/NVDNetでリリースされる。

We introduce a novel method for acquiring boundary representations (B-Reps) of 3D CAD models which involves a two-step process: it first applies a spatial partitioning, referred to as the ``split``, followed by a ``fit`` operation to derive a single primitive within each partition. Specifically, our partitioning aims to produce the classical Voronoi diagram of the set of ground-truth (GT) B-Rep primitives. In contrast to prior B-Rep constructions which were bottom-up, either via direct primitive fitting or point clustering, our Split-and-Fit approach is top-down and structure-aware, since a Voronoi partition explicitly reveals both the number of and the connections between the primitives. We design a neural network to predict the Voronoi diagram from an input point cloud or distance field via a binary classification. We show that our network, coined NVD-Net for neural Voronoi diagrams, can effectively learn Voronoi partitions for CAD models from training data and exhibits superior generalization capabilities. Extensive experiments and evaluation demonstrate that the resulting B-Reps, consisting of parametric surfaces, curves, and vertices, are more plausible than those obtained by existing alternatives, with significant improvements in reconstruction quality. Code will be released on https://github.com/yilinliu77/NVDNet.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# 最小1」データ予測は、良好な交叉忠実度を持つ合成国勢調査データを生成する

"Minus-One" Data Prediction Generates Synthetic Census Data with Good Crosstabulation Fidelity ( http://arxiv.org/abs/2406.05264v1 )

ライセンス: Link先を確認
William H. Press, (参考訳) 確率的予測関数 L を「学習する」という手法を用いて,カテゴリー的調査応答のデータセットに関連性のある統計関連を抽出することを提案する。 結果の確率分布からの描画は合成応答となる。 この手法をCensus ACSデータのPUMSサブセットに適用し、複数の並列ロジスティック回帰に類似した学習Lを用いて、クロスタビュレーション(2点条件)がすべてのクロスタビュレーションセルで中央値5%の精度で4桁以上のセル数を持つ合成応答を生成する。 我々は、元のデータのプライバシが保護されている程度を調査し、定量化しようと試みる。

We propose to capture relevant statistical associations in a dataset of categorical survey responses by a method, here termed MODP, that "learns" a probabilistic prediction function L. Specifically, L predicts each question's response based on the same respondent's answers to all the other questions. Draws from the resulting probability distribution become synthetic responses. Applying this methodology to the PUMS subset of Census ACS data, and with a learned L akin to multiple parallel logistic regression, we generate synthetic responses whose crosstabulations (two-point conditionals) are found to have a median accuracy of ~5% across all crosstabulation cells, with cell counts ranging over four orders of magnitude. We investigate and attempt to quantify the degree to which the privacy of the original data is protected.
翻訳日:2024-06-11 22:36:11 公開日:2024-06-07
# TLEX: TimeML の時間グラフから正確な時間線を抽出する効率的な方法

TLEX: An Efficient Method for Extracting Exact Timelines from TimeML Temporal Graphs ( http://arxiv.org/abs/2406.05265v1 )

ライセンス: Link先を確認
Mustafa Ocal, Ning Xie, Mark Finlayson, (参考訳) タイムラインは、イベントと時間の完全な順序付けを提供し、多くの自然言語理解タスクに役立ちます。 しかし、TimeMLアノテーションのようなテキストから直接導出できる定性的な時間グラフは、通常、イベントや時間の部分順序のみを明確に示します。 本研究では,TimeMLアノテートされたテキストからタイムラインを抽出するタスクに対して,ポイント代数問題を解くための先行研究を適用し,TLEX(TimeLine Extraction)と呼ぶエンドツーエンドのソリューションを開発する。 TLEXはTimeMLアノテーションをトランクとブランチ構造に配置されたタイムラインのコレクションに変換する。 これまでの作業と同様に、TLEXは時間グラフの整合性をチェックし、それを解決するが、2つの新しい機能を加えている。 まず、不整合(次に手動で修正できる)に関わる特定の関係を識別し、次に、TLEXは、不確定な順序を持つタイムラインのセクション、異なるタイムラインからのイベントの整列などの下流タスクに不可欠な情報、を新規に識別する。 TLEXにおけるアルゴリズム成分の詳細な記述と解析を行い,4つのコーパスから385のTimeMLアノテートテキストにTLEXを適用して実験評価を行った。 123のテキストが矛盾しており、181のテキストには複数の「現実の世界」またはメインタイムラインがあり、全4コーパスに2,541の未決定セクションがある。 サンプリング評価の結果, TLEXは, 時間点の順序, 主時系列数, 主時系列と主時系列上の時間点の配置, 分岐タイムラインの接続点, 不定区間の位置の5次元に沿って, 95%信頼度で98~100%正確であることがわかった。 本稿では,TLEXの参照実装,全テキストの抽出したタイムライン,一貫性のないテキストのマニュアル修正について述べる。

A timeline provides a total ordering of events and times, and is useful for a number of natural language understanding tasks. However, qualitative temporal graphs that can be derived directly from text -- such as TimeML annotations -- usually explicitly reveal only partial orderings of events and times. In this work, we apply prior work on solving point algebra problems to the task of extracting timelines from TimeML annotated texts, and develop an exact, end-to-end solution which we call TLEX (TimeLine EXtraction). TLEX transforms TimeML annotations into a collection of timelines arranged in a trunk-and-branch structure. Like what has been done in prior work, TLEX checks the consistency of the temporal graph and solves it; however, it adds two novel functionalities. First, it identifies specific relations involved in an inconsistency (which could then be manually corrected) and, second, TLEX performs a novel identification of sections of the timelines that have indeterminate order, information critical for downstream tasks such as aligning events from different timelines. We provide detailed descriptions and analysis of the algorithmic components in TLEX, and conduct experimental evaluations by applying TLEX to 385 TimeML annotated texts from four corpora. We show that 123 of the texts are inconsistent, 181 of them have more than one ``real world'' or main timeline, and there are 2,541 indeterminate sections across all four corpora. A sampling evaluation showed that TLEX is 98--100% accurate with 95% confidence along five dimensions: the ordering of time-points, the number of main timelines, the placement of time-points on main versus subordinate timelines, the connecting point of branch timelines, and the location of the indeterminate sections. We provide a reference implementation of TLEX, the extracted timelines for all texts, and the manual corrections of the inconsistent texts.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# fastMRI Breast : 乳房ダイナミックコントラスト強調MRIの公用ラジアルk空間データセット

fastMRI Breast: A publicly available radial k-space dataset of breast dynamic contrast-enhanced MRI ( http://arxiv.org/abs/2406.05270v1 )

ライセンス: Link先を確認
Eddy Solomon, Patricia M. Johnson, Zhengguo Tan, Radhika Tibrewala, Yvonne W. Lui, Florian Knoll, Linda Moy, Sungheon Gene Kim, Laura Heacock, (参考訳) このデータキュレーション作業は、乳房MRI検査で取得した乳房DCE-MRIのための放射状k空間とDICOMデータの大規模なデータセットを初めて導入する。 本データセットは, 患者年齢, 更年期状態, 病変(陰性, 良性, 悪性) および各症例の病変タイプを示す症例レベルラベルを含む。 このデータセットの公開とそれに伴う再構成コードは、高速で定量的な乳房画像再構成と機械学習手法の研究と開発を支援する。

This data curation work introduces the first large-scale dataset of radial k-space and DICOM data for breast DCE-MRI acquired in diagnostic breast MRI exams. Our dataset includes case-level labels indicating patient age, menopause status, lesion status (negative, benign, and malignant), and lesion type for each case. The public availability of this dataset and accompanying reconstruction code will support research and development of fast and quantitative breast image reconstruction and machine learning methods.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# USE:Open-Vocabulary Image Segmentationのためのユニバーサルセグメント埋め込み

USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation ( http://arxiv.org/abs/2406.05271v1 )

ライセンス: Link先を確認
Xiaoqi Wang, Wenbin He, Xiwei Xuan, Clint Sebastian, Jorge Piazentin Ono, Xin Li, Sima Behpour, Thang Doan, Liang Gou, Han Wei Shen, Liu Ren, (参考訳) オープン語彙のイメージセグメンテーションタスクでは、イメージを意味のあるセグメントに分割し、柔軟なテキスト定義カテゴリで分類する。 SAM(Seegment Anything Model)のような近年のビジョンベース基盤モデルは、クラス非依存の画像セグメントの生成において優れた性能を示している。 オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。 本稿では,この課題に対処するユニバーサルセグメンテーション(USE)フレームワークを紹介する。 このフレームワークは2つの重要なコンポーネントで構成されています。 1)大量のセグメントテキストペアを様々な粒度で効率よくキュレートするように設計されたデータパイプライン 2) 幅広いテキスト定義カテゴリに精度の高いセグメント分類を可能にするユニバーサルセグメント埋め込みモデル。 USEモデルは、オープン語彙のイメージセグメンテーションに役立つだけでなく、他の下流タスク(例えば、クエリやランキング)にも役立ちます。 セマンティックセグメンテーションと部分セグメンテーションのベンチマークに関する総合的な実験を通じて、USEフレームワークは最先端のオープンボキャブラリセグメンテーション法より優れていることを示した。

The open-vocabulary image segmentation task involves partitioning images into semantically meaningful segments and classifying them with flexible text-defined categories. The recent vision-based foundation models such as the Segment Anything Model (SAM) have shown superior performance in generating class-agnostic image segments. The main challenge in open-vocabulary image segmentation now lies in accurately classifying these segments into text-defined categories. In this paper, we introduce the Universal Segment Embedding (USE) framework to address this challenge. This framework is comprised of two key components: 1) a data pipeline designed to efficiently curate a large amount of segment-text pairs at various granularities, and 2) a universal segment embedding model that enables precise segment classification into a vast range of text-defined categories. The USE model can not only help open-vocabulary image segmentation but also facilitate other downstream tasks (e.g., querying and ranking). Through comprehensive experimental studies on semantic segmentation and part segmentation benchmarks, we demonstrate that the USE framework outperforms state-of-the-art open-vocabulary segmentation methods.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# 行動構造体:構造化トークン化を用いた学習者表現

Behavior Structformer: Learning Players Representations with Structured Tokenization ( http://arxiv.org/abs/2406.05274v1 )

ライセンス: Link先を確認
Oleg Smirnov, Labinot Polisi, (参考訳) 本稿では,Transformer ベースのアーキテクチャにおける構造化トークン化を用いたユーザ行動モデリング手法である Behavior Structformer を紹介する。 追跡イベントを高密度トークンに変換することで、モデルのトレーニング効率と有効性を高めることができる。 従来の表状および半構造化ベースラインに対するアブレーション研究とベンチマークにより,その優れた性能を示す。 その結果, 逐次処理による構造化トークン化は, 動作モデリングを大幅に改善することが示された。

In this paper, we introduce the Behavior Structformer, a method for modeling user behavior using structured tokenization within a Transformer-based architecture. By converting tracking events into dense tokens, this approach enhances model training efficiency and effectiveness. We demonstrate its superior performance through ablation studies and benchmarking against traditional tabular and semi-structured baselines. The results indicate that structured tokenization with sequential processing significantly improves behavior modeling.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# VTrans: 変分情報ボトルネックに基づくプルーニングによる変圧器圧縮の高速化

VTrans: Accelerating Transformer Compression with Variational Information Bottleneck based Pruning ( http://arxiv.org/abs/2406.05276v1 )

ライセンス: Link先を確認
Oshin Dutta, Ritvik Gupta, Sumeet Agarwal, (参考訳) 近年,資源制約のあるデバイスに対して,大規模な事前学習型トランスフォーマーモデルを圧縮することの重要性が高まっている。 しかし、伝統的なプルーニング法は、しばしば埋め込み層を無傷で残し、過パラメータ化のモデルに繋がる。 さらに、プルーニングされたモデルのパフォーマンスを維持するために、大規模なデータセットによる広範な圧縮時間が必要となる。 これらの課題に対処するために,変分情報ボトルネック(VIB)の原理で導かれる反復的刈り取りフレームワークであるVTransを提案する。 提案手法は,VIBトレーニングマスクを用いた埋め込み,アテンションヘッド,層など,すべての構造成分を圧縮する。 このアプローチは各レイヤに必須の重みしか保持せず、特定のモデルサイズや計算上の制約に準拠することを保証する。 特に,本手法は,タスク非依存とタスク特化の両面において,従来の最先端手法よりも最大70%圧縮を実現している。 高速VTransは、VBマスクを排他的に微調整し、圧縮を25倍まで加速し、従来の方法に比べて性能損失が最小限である。 BERT, ROBERTa, GPT-2モデルに対する広範囲な実験により, 本法の有効性が確認された。 さらに,LLaMA-2-7Bのような大型モデルの圧縮におけるスケーラビリティを実証し,従来のプルーニング法と比較して優れた性能を実現する。 さらに、注意に基づく探索を用いて、モデルの冗長性を質的に評価し、アプローチの効率性を解釈する。 特に,本手法では,タスククリティカルなキーワードに係わる上で,保持された頭部が最優先のプルーニング候補として,特別なトークンや現在のトークンに注意を払っている。

In recent years, there has been a growing emphasis on compressing large pre-trained transformer models for resource-constrained devices. However, traditional pruning methods often leave the embedding layer untouched, leading to model over-parameterization. Additionally, they require extensive compression time with large datasets to maintain performance in pruned models. To address these challenges, we propose VTrans, an iterative pruning framework guided by the Variational Information Bottleneck (VIB) principle. Our method compresses all structural components, including embeddings, attention heads, and layers using VIB-trained masks. This approach retains only essential weights in each layer, ensuring compliance with specified model size or computational constraints. Notably, our method achieves upto 70% more compression than prior state-of-the-art approaches, both task-agnostic and task-specific. We further propose faster variants of our method: Fast-VTrans utilizing only 3% of the data and Faster-VTrans, a time efficient alternative that involves exclusive finetuning of VIB masks, accelerating compression by upto 25 times with minimal performance loss compared to previous methods. Extensive experiments on BERT, ROBERTa, and GPT-2 models substantiate the efficacy of our method. Moreover, our method demonstrates scalability in compressing large models such as LLaMA-2-7B, achieving superior performance compared to previous pruning methods. Additionally, we use attention-based probing to qualitatively assess model redundancy and interpret the efficiency of our approach. Notably, our method considers heads with high attention to special and current tokens in un-pruned model as foremost candidates for pruning while retained heads are observed to attend more to task-critical keywords.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# SuperPos-Prompt: マルチトークン埋め込みの重ね合わせによる言語モデルのソフトプロンプトチューニングの強化

SuperPos-Prompt: Enhancing Soft Prompt Tuning of Language Models with Superposition of Multi Token Embeddings ( http://arxiv.org/abs/2406.05279v1 )

ライセンス: Link先を確認
MohammadAli SadraeiJavaeri, Ehsaneddin Asgari, Alice Carolyn McHardy, Hamid Reza Rabiee, (参考訳) 近年、事前訓練された言語モデルのパラメータ効率チューニングに有効な手法として、特にモデルのパラメータの調整を最小化するために、ソフトプロンプトチューニング技術が注目を集めている。 使用が増加しているにもかかわらず、ソフトプロンプトによる最適なチューニング、特に小さなデータセットの達成は、依然として大きな課題である。 本研究はこの領域に2つの貢献をする。 ソフトプロンプトの学習を改善するために,複数の事前学習語彙の埋め込みを重畳した新しいパラメータ化手法であるSuperPos-Promptを導入する。 いくつかのGLUEおよびSuperGLUEベンチマークによる実験では、Residual Promptチューニングに対するSuperPos-Promptの優位性が一貫して強調され、T5-Smallでは平均スコアが$6.4$、T5-Baseでは$5.0$となり、より高速な収束が見られた。 驚くべきことに、SuperPos-Promptは時々、完全な微調整方法よりも優れています。 さらに,凍結したネットワークからのドロップアウトを省略し,様々なシナリオやチューニング手法に一貫した改善をもたらすことにより,性能の向上と迅速な収束を実証した。

Soft prompt tuning techniques have recently gained traction as an effective strategy for the parameter-efficient tuning of pretrained language models, particularly minimizing the required adjustment of model parameters. Despite their growing use, achieving optimal tuning with soft prompts, especially for smaller datasets, remains a substantial challenge. This study makes two contributions in this domain: (i) we introduce SuperPos-Prompt, a new reparameterization technique employing the superposition of multiple pretrained vocabulary embeddings to improve the learning of soft prompts. Our experiments across several GLUE and SuperGLUE benchmarks consistently highlight SuperPos-Prompt's superiority over Residual Prompt tuning, exhibiting an average score increase of $+6.4$ in T5-Small and $+5.0$ in T5-Base along with a faster convergence. Remarkably, SuperPos-Prompt occasionally outperforms even full fine-tuning methods. (ii) Additionally, we demonstrate enhanced performance and rapid convergence by omitting dropouts from the frozen network, yielding consistent improvements across various scenarios and tuning methods.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# VISTA3D:3次元CTのためのVersatile Imaging Segmentationとアノテーションモデル

VISTA3D: Versatile Imaging SegmenTation and Annotation model for 3D Computed Tomography ( http://arxiv.org/abs/2406.05285v1 )

ライセンス: Link先を確認
Yufan He, Pengfei Guo, Yucheng Tang, Andriy Myronenko, Vishwesh Nath, Ziyue Xu, Dong Yang, Can Zhao, Benjamin Simon, Mason Belue, Stephanie Harmon, Baris Turkbey, Daguang Xu, Wenqi Li, (参考訳) セグメンテーション基礎モデルは非常に注目されているが、3DCT(CT)画像のユースケースに十分なものではない。 既存の作業は、自然画像に基づいて訓練された2Dファンデーションモデルで医療画像に微調整されるが、インタラクティブセグメンテーション(特に2D)は、3Dスキャンには時間がかかりすぎて、大規模なコホート分析には役に立たない。 アウト・オブ・ボックスの自動セグメンテーションを行うモデルの方が望ましい。 しかし、この方法で訓練されたモデルは、新しい腫瘍のような見えない物体に対してセグメンテーションを行う能力に欠ける。 したがって、3D画像解析では、理想的なセグメンテーションソリューションは、主要な臓器クラスをカバーする正確なアウト・オブ・ザ・ボックスのパフォーマンスと、新規構造への効果的な適応またはゼロショット能力の2つの特徴を期待できる。 本稿では,VISTA3D,Versatile Imaging SegmenTation, Annotationモデルを紹介する。 このモデルは、1454巻に117種類のヒト解剖学的構造と様々な病変を含む体系的に訓練され、正確なアウト・オブ・ザ・ボックスのセグメンテーションを提供する。 モデルの設計は、最先端のゼロショットインタラクティブセグメンテーションを3Dで実現している。 新規なモデル設計およびトレーニングレシピは、多目的な医用画像基盤モデルを開発するための有望なステップである。 コードとモデルの重み付けはまもなくリリースされる。 オンラインデモの初期バージョンはhttps://build.nvidia.com/nvidia/vista-3d.comで試すことができる。

Segmentation foundation models have attracted great interest, however, none of them are adequate enough for the use cases in 3D computed tomography scans (CT) images. Existing works finetune on medical images with 2D foundation models trained on natural images, but interactive segmentation, especially in 2D, is too time-consuming for 3D scans and less useful for large cohort analysis. Models that can perform out-of-the-box automatic segmentation are more desirable. However, the model trained in this way lacks the ability to perform segmentation on unseen objects like novel tumors. Thus for 3D medical image analysis, an ideal segmentation solution might expect two features: accurate out-of-the-box performance covering major organ classes, and effective adaptation or zero-shot ability to novel structures. In this paper, we discuss what features a 3D CT segmentation foundation model should have, and introduce VISTA3D, Versatile Imaging SegmenTation and Annotation model. The model is trained systematically on 11454 volumes encompassing 127 types of human anatomical structures and various lesions and provides accurate out-of-the-box segmentation. The model's design also achieves state-of-the-art zero-shot interactive segmentation in 3D. The novel model design and training recipe represent a promising step toward developing a versatile medical image foundation model. Code and model weights will be released shortly. The early version of online demo can be tried on https://build.nvidia.com/nvidia/vista-3d.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# オンライン多群学習のためのグループワイドオラクル効率アルゴリズム

Group-wise oracle-efficient algorithms for online multi-group learning ( http://arxiv.org/abs/2406.05287v1 )

ライセンス: Link先を確認
Samuel Deng, Daniel Hsu, Jingwen Liu, (参考訳) オンライン多群学習の課題は、オンライン学習者が、集団の族に対応する(おそらく重複する)サブシーケンスの大規模なコレクションに対して、小さな予測後悔を同時に達成しなければならない学習モデルである。 群は文脈空間のサブセットであり、公平な応用においては、人口統計属性の表現関数によって定義されるサブ集団に対応することができる。 この学習モデルに関するこれまでの研究とは対照的に、群族が明示的に列挙するには大きすぎるシナリオを考える。 本稿では, 種々の条件下で, サブ線形後悔を伴うオラクル効率のアルゴリズムを設計する。 i) i.i.d. 設定、 (二)スムーズな文脈分布をもつ敵の設定、及び 三 反対転化の設定

We study the problem of online multi-group learning, a learning model in which an online learner must simultaneously achieve small prediction regret on a large collection of (possibly overlapping) subsequences corresponding to a family of groups. Groups are subsets of the context space, and in fairness applications, they may correspond to subpopulations defined by expressive functions of demographic attributes. In contrast to previous work on this learning model, we consider scenarios in which the family of groups is too large to explicitly enumerate, and hence we seek algorithms that only access groups via an optimization oracle. In this paper, we design such oracle-efficient algorithms with sublinear regret under a variety of settings, including: (i) the i.i.d. setting, (ii) the adversarial setting with smoothed context distributions, and (iii) the adversarial transductive setting.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# 最適アイサージオン:初期化時のスパースジェネレータによる画像先行検出

Optimal Eye Surgeon: Finding Image Priors through Sparse Generators at Initialization ( http://arxiv.org/abs/2406.05288v1 )

ライセンス: Link先を確認
Avrajit Ghosh, Xitong Zhang, Kenneth K. Sun, Qing Qu, Saiprasad Ravishankar, Rongrong Wang, (参考訳) 我々は,深部画像生成ネットワークのプルーニングとトレーニングのためのフレームワークであるOptimal Eye Surgeon (OES)を紹介した。 通常、画像サンプリング操作を含む未訓練の深層畳み込みネットワークは、効果的な画像優先として機能する(Ulyanov et al , 2018)。 しかし、過パラメータ化されているため、画像復元作業ではノイズに過度に適応する傾向にある。 OESは、ネットワークをランダム初期化してアンダーパラメータ化のレベルに適応的にプルーニングすることでこの問題に対処する。 このプロセスは、単にマスクすることで、トレーニングなしでも、低周波画像成分を効果的にキャプチャする。 Sparse-DIPと呼ばれるこの破れたサブネットは、ノイズに対する過度な適応に抵抗する。 この利点は、アンダーパラメータ化とマスキングの正規化効果から生じ、それらを画像前の多様体に制約する。 我々は,OESを経由したサブネットワークが,画像回復作業に最適であることが知られているロッテ・ティケット仮説(Wu et al ,2023)など,他の先進的なプルーニング手法を上回ることを実証した。 我々は,OESマスクの転送性および画像生成用スパースサブネットの特性について広範な実験を行った。 コードはhttps://github.com/Avra98/Optimal-Eye-Surgeon.gitで公開されている。

We introduce Optimal Eye Surgeon (OES), a framework for pruning and training deep image generator networks. Typically, untrained deep convolutional networks, which include image sampling operations, serve as effective image priors (Ulyanov et al., 2018). However, they tend to overfit to noise in image restoration tasks due to being overparameterized. OES addresses this by adaptively pruning networks at random initialization to a level of underparameterization. This process effectively captures low-frequency image components even without training, by just masking. When trained to fit noisy images, these pruned subnetworks, which we term Sparse-DIP, resist overfitting to noise. This benefit arises from underparameterization and the regularization effect of masking, constraining them in the manifold of image priors. We demonstrate that subnetworks pruned through OES surpass other leading pruning methods, such as the Lottery Ticket Hypothesis, which is known to be suboptimal for image recovery tasks (Wu et al., 2023). Our extensive experiments demonstrate the transferability of OES-masks and the characteristics of sparse-subnetworks for image generation. Code is available at https://github.com/Avra98/Optimal-Eye-Surgeon.git.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# 境界値問題の解法のための微細チューン物理インフォームニューラルネットワークの極端化

Extremization to Fine Tune Physics Informed Neural Networks for Solving Boundary Value Problems ( http://arxiv.org/abs/2406.05290v1 )

ライセンス: Link先を確認
Abhiram Anand Thiruthummal, Sergiy Shelyag, Eun-jin Kim, (参考訳) 本稿では,境界値問題 (BVPs) と初期境界値問題 (IBVPs) の解を求めるために,物理インフォームドニューラルネットワーク (PINNs) の高速かつ正確なトレーニング手法を提案する。 ディープニューラルネットワーク(DNN)とエクストリームラーニングマシン(ELM)の訓練手法を組み合わせることで,DNNの表現性とEMMの微調整能力を備えたモデルを開発する。 線形および非線形常微分方程式(ODE)、偏微分方程式(PDE)、結合されたPDEを含む複数のBVPとIBVPを解くことで提案手法の優位性を示す。 例えば、従来の数値法が失敗する固結合ODEシステム、3+1D非線形PDE、コヴァズネー流、テイラー-グリーン渦解から圧縮不能なナヴィエ・ストークス方程式、および1+1D圧縮可能なオイラー方程式の純粋対流解などである。 関数接続理論(TFC)は、(I)BVPの初期および境界条件(IBC)をPINNに正確に課すために用いられる。 本稿では,TFC を用いた IBC と比較して,TFC フレームワークを改良し,PINN のトレーニングおよび推論時間を大幅に改善することを示す。 さらに、還元されたTFCは、TFCでは不可能なより複雑な境界幾何学に一般化できることが示されている。 また、BVP に対して無限大の境界条件を適用し、これらの境界条件を用いて 1+1D オイラー方程式の純粋対流を数値的に解く方法も導入する。

We propose a novel method for fast and accurate training of physics-informed neural networks (PINNs) to find solutions to boundary value problems (BVPs) and initial boundary value problems (IBVPs). By combining the methods of training deep neural networks (DNNs) and Extreme Learning Machines (ELMs), we develop a model which has the expressivity of DNNs with the fine-tuning ability of ELMs. We showcase the superiority of our proposed method by solving several BVPs and IBVPs which include linear and non-linear ordinary differential equations (ODEs), partial differential equations (PDEs) and coupled PDEs. The examples we consider include a stiff coupled ODE system where traditional numerical methods fail, a 3+1D non-linear PDE, Kovasznay flow and Taylor-Green vortex solutions to incompressible Navier-Stokes equations and pure advection solution of 1+1 D compressible Euler equation. The Theory of Functional Connections (TFC) is used to exactly impose initial and boundary conditions (IBCs) of (I)BVPs on PINNs. We propose a modification to the TFC framework named Reduced TFC and show a significant improvement in the training and inference time of PINNs compared to IBCs imposed using TFC. Furthermore, Reduced TFC is shown to be able to generalize to more complex boundary geometries which is not possible with TFC. We also introduce a method of applying boundary conditions at infinity for BVPs and numerically solve the pure advection in 1+1 D Euler equations using these boundary conditions.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# 1次元スピンモデルの非平衡ダイナミクスシミュレーションにおける中性原子との絡み合い

Entanglement with neutral atoms in the simulation of nonequilibrium dynamics of one-dimensional spin models ( http://arxiv.org/abs/2406.05291v1 )

ライセンス: Link先を確認
Anupam Mitra, (参考訳) 量子絡み合い(quantum entanglement)は、古典的な計算以上の能力を持つ量子情報処理の鍵となる要素である。 スピン-1/2モデルの力学における絡み合いの発生と役割について研究し、汎用量子計算のための量子ゲートの設計と相互作用するスピンモデルの量子シミュレーションについて考察する。 我々は,スピンエチョ配列でインターリーブされた急激な断熱的Rydbergドレッシングを含む中性原子M{\o}lmer-S{\o}rensenゲートを紹介する。 我々は,Rydbergを介するエンタングルメント生成の時間-エネルギースケールによる準静電的実験不完全性に対するロバスト性を示す。 量子シミュレーションでは、逆場イジングモデルのクエンチ力学における臨界挙動を考察する。 行列積状態を用いて力学を計算し, 規則パラメータ, 臨界点, 臨界指数を適度な結合次元を用いて推定できることを見出した。 クエンチにおけるカオスと平衡の役割を考慮すると、局所観測可能量は、大域的な絡み合いが低いか、局所境界が最大混合状態に近接しているため、よく近似されていることが分かる。 これらの発見は、古典的な記述に到達できない関連する量子現象を特定することの難しさを浮き彫りにしている。 古典的な記述が失敗するが、フォールト耐性量子ハードウェアにアクセスできる状態を理解することは、将来の量子情報プロセッサの設計を知らせる助けとなる。

Quantum entanglement is a key ingredient for quantum information processing with capabilities beyond that of classical computation. We study the generation and role of entanglement in the dynamics of spin-1/2 models, both for the design of quantum gates for general-purpose quantum computation and for quantum simulation of interacting spin models. We introduce the neutral atom M{\o}lmer-S{\o}rensen gate, involving rapid adiabatic Rydberg dressing interleaved in a spin-echo sequence. We show its robustness to quasi-static experimental imperfections and favorable scaling with the time-energy scales of Rydberg-mediated entanglement generation. In quantum simulation, we consider critical behavior in quench dynamics of transverse field Ising models. Using matrix product states to calculate the dynamics, we find that order parameters, critical point, and critical exponents can be estimated using modest bond dimensions. Considering the role of chaos and equilibration in quenches, we find that local observables are well approximated either due to low global entanglement or the proximity of local marginals to the maximally mixed state. These findings highlight the challenge of identifying relevant quantum phenomena that remain inaccessible to classical descriptions. Understanding the regimes where classical descriptions fail but remain accessible to pre-fault tolerant quantum hardware will help inform the design of future quantum information processors
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# Residue Number System (RNS)による分散量子加算

Residue Number System (RNS) based Distributed Quantum Addition ( http://arxiv.org/abs/2406.05294v1 )

ライセンス: Link先を確認
Bhaskar Gaur, Travis S. Humble, Himanshu Thapliyal, (参考訳) 量子算術は、現在のノイズ中間スケール量子(NISQ)時代の量子コンピュータにおいて、ノイズやリソースの制約のような制限に直面している。 本稿では,Residue Number System (RNS) ベースの量子変調加算器で高深さ量子加算回路を置換することにより,これらの制限を克服するために分散量子コンピューティング(DQC)を提案する。 RNSベースの分散量子加算回路は、深さが低く、複数の量子コンピュータ/ジョブに分散しており、ノイズ耐性が高い。 本稿では, RNS Tool (QSMART) に基づく量子上モジュロ加算法を提案する。 また、RSSに基づく分散量子加算とQSMARTツールの重要な部分を形成する量子化-1 Modulo (2n + 1) Adder (QDMA) の新規な設計を提案する。 本稿では,Residue Number System (RNS) を用いた分散量子加算器の高ノイズレジリエンスを,Quantinuum の H1 イオントラップ型量子コンピュータをモデル化したシミュレーションにより実証する。 シミュレーションにより、RSSベースの分散量子加算は6ビットから10ビットの非分散量子完全加算器よりも出力確率が11.36%から133.15%高く、ノイズの忠実度が高いことが示された。 さらに,20量子ビット範囲の量子H1を用いて,分散量子加算を実現するスケーラブルな方法を提案する。

Quantum Arithmetic faces limitations such as noise and resource constraints in the current Noisy Intermediate Scale Quantum (NISQ) era quantum computers. We propose using Distributed Quantum Computing (DQC) to overcome these limitations by substituting a higher depth quantum addition circuit with Residue Number System (RNS) based quantum modulo adders. The RNS-based distributed quantum addition circuits possess lower depth and are distributed across multiple quantum computers/jobs, resulting in higher noise resilience. We propose the Quantum Superior Modulo Addition based on RNS Tool (QSMART), which can generate RNS sets of quantum adders based on multiple factors such as depth, range, and efficiency. We also propose a novel design of Quantum Diminished-1 Modulo (2n + 1) Adder (QDMA), which forms a crucial part of RNS-based distributed quantum addition and the QSMART tool. We demonstrate the higher noise resilience of the Residue Number System (RNS) based distributed quantum addition by conducting simulations modeling Quantinuum's H1 ion trap-based quantum computer. Our simulations demonstrate that RNS-based distributed quantum addition has 11.36% to 133.15% higher output probability over 6-bit to 10-bit non-distributed quantum full adders, indicating higher noise fidelity. Furthermore, we present a scalable way of achieving distributed quantum addition higher than limited otherwise by the 20-qubit range of Quantinuum H1.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# 学習中のニューラルネットワークパラメータの進化に関する情報幾何学

Information Geometry of Evolution of Neural Network Parameters While Training ( http://arxiv.org/abs/2406.05295v1 )

ライセンス: Link先を確認
Abhiram Anand Thiruthummal, Eun-jin Kim, Sergiy Shelyag, (参考訳) 人工ニューラルネットワーク(ANN)は任意の数学的関数を近似できる強力なツールであるが、その解釈可能性はまだ限られており、ブラックボックスモデルとして機能する。 この問題に対処するために、ANNの説明可能性と解釈可能性を高めるために、数多くの手法が提案されている。 本研究では,ANNのトレーニング中に相転移様の挙動を調べるための情報幾何学的枠組みの適用について紹介し,これらの遷移を特定のモデルにおける過度適合に関連付ける。 トレーニング中のANNの進化は、そのパラメータの確率分布を調べることによって研究される。 微分幾何学の原理を利用する情報幾何学は、確率密度関数をリーマン多様体上の点として考えることにより、確率と統計に関するユニークな視点を提供する。 我々はフィッシャー情報に基づく計量を用いてこの多様体を作成し、距離と速度を定義する。 この距離と速度をトレーニングステップでパラメータ化することにより、トレーニングが進むにつれてANNがどのように進化するかを研究する。 MNIST,FMNIST,CIFAR-10などの標準データセットを用いて,ANNのトレーニング中に多様体上の運動の遷移を観察し,この遷移をANNモデルにおける過度な適合と同定する。 観測された幾何学的遷移は、物理学における相転移と数学的に類似していることが示されている。 有限サイズのスケーリング挙動を示す予備的な結果も提供される。 この研究は、ANNの説明可能性と解釈可能性を改善するための堅牢なツールの開発に貢献し、これらの複雑なモデルがトレーニング中に示すパラメータの多様性の理解を支援します。

Artificial neural networks (ANNs) are powerful tools capable of approximating any arbitrary mathematical function, but their interpretability remains limited, rendering them as black box models. To address this issue, numerous methods have been proposed to enhance the explainability and interpretability of ANNs. In this study, we introduce the application of information geometric framework to investigate phase transition-like behavior during the training of ANNs and relate these transitions to overfitting in certain models. The evolution of ANNs during training is studied by looking at the probability distribution of its parameters. Information geometry utilizing the principles of differential geometry, offers a unique perspective on probability and statistics by considering probability density functions as points on a Riemannian manifold. We create this manifold using a metric based on Fisher information to define a distance and a velocity. By parameterizing this distance and velocity with training steps, we study how the ANN evolves as training progresses. Utilizing standard datasets like MNIST, FMNIST and CIFAR-10, we observe a transition in the motion on the manifold while training the ANN and this transition is identified with over-fitting in the ANN models considered. The information geometric transitions observed is shown to be mathematically similar to the phase transitions in physics. Preliminary results showing finite-size scaling behavior is also provided. This work contributes to the development of robust tools for improving the explainability and interpretability of ANNs, aiding in our understanding of the variability of the parameters these complex models exhibit during training.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-07
# オーディオ・マンバ:自己監督型音声表現のための選択状態空間

Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations ( http://arxiv.org/abs/2406.02178v2 )

ライセンス: Link先を確認
Sarthak Yadav, Zheng-Hua Tan, (参考訳) 顕著なニューラルアーキテクチャとして広く採用されているにもかかわらず、Transformerはその限界に対処するためにいくつかの独立した作業ラインを刺激してきた。 そのようなアプローチの1つは選択状態空間モデルであり、言語モデリングの有望な結果を示している。 しかし, 自己指導型汎用音声表現の学習の可能性については, 未だ検討されていない。 この研究は、ランダムなマスク付きスペクトログラムパッチから自己監督を通して汎用音声表現を学習するための選択状態空間モデルであるAudio Mambaを提案する。 10の多様なオーディオ認識ダウンストリームタスクに対する実証的な結果から、提案されたモデルはAudioSetデータセットで事前訓練され、ほぼ同等の自己教師型オーディオスペクトログラム変換器(SSAST)ベースラインをかなりのマージンで上回り、データセットサイズ、シーケンス長、モデルサイズの比較においてより良いパフォーマンスを示す。

Despite its widespread adoption as the prominent neural architecture, the Transformer has spurred several independent lines of work to address its limitations. One such approach is selective state space models, which have demonstrated promising results for language modelling. However, their feasibility for learning self-supervised, general-purpose audio representations is yet to be investigated. This work proposes Audio Mamba, a selective state space model for learning general-purpose audio representations from randomly masked spectrogram patches through self-supervision. Empirical results on ten diverse audio recognition downstream tasks show that the proposed models, pretrained on the AudioSet dataset, consistently outperform comparable self-supervised audio spectrogram transformer (SSAST) baselines by a considerable margin and demonstrate better performance in dataset size, sequence length and model size comparisons.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-07
# 科学におけるイノベーティブ・アイデアの活用と促進言語

Promotional Language and the Adoption of Innovative Ideas in Science ( http://arxiv.org/abs/2406.02798v2 )

ライセンス: Link先を確認
Hao Peng, Huilian Sophie Qiu, Henrik Barslund Fosse, Brian Uzzi, (参考訳) 科学におけるイノベーティブなアイデアのメリットはどのようなものか? ここでは、多くの文脈で頻繁に成長しており、革新的なアイデアの独創性と重要性を伝達している科学振興言語に焦点を当てて、承認申請の成功のセマンティック分析を行う。 我々の分析は、NIH、NSF、世界最大級の民間科学財団であるNovo Nordisk Foundation(ノヴォ・ノルディスク財団)という3つの主要な公的および民間資金機関から、資金提供と資金提供の両方の助成金の全文を調べることで、先行研究の限界を克服しようと試みている。 我々は、プロモーション言語と、資金提供者と他の科学者による革新的なアイデアの支持と採用との間に、堅牢な関連性を見出した。 まず、助成提案におけるプロモーション言語の割合は、助成金の確率の最大2倍に関連付けられている。 第二に、助成金の宣伝言葉はその固有の革新性のレベルを反映している。 第3に、宣伝語の割合は、資金援助によって支持される出版物の期待される引用と生産性への影響を予測する。 最後に,データ中の促進言語を操作するコンピュータ支援実験により,認知的アクティベーションを通じて,促進言語がアイデアのメリットを伝達することを示す。 科学における促進言語の発生が急激に増加し,将来性や願望のアイデアをソリューションに変換する上で,助成金が重要な役割を担っていることから,我々の分析は,促進言語が革新的科学的アイデアのメリットを効果的に伝達することに関連する実証的な証拠を提供する。

How are the merits of innovative ideas communicated in science? Here we conduct semantic analyses of grant application success with a focus on scientific promotional language, which has been growing in frequency in many contexts and purportedly may convey an innovative idea's originality and significance. Our analysis attempts to surmount limitations of prior studies by examining the full text of tens of thousands of both funded and unfunded grants from three leading public and private funding agencies: the NIH, the NSF, and the Novo Nordisk Foundation, one of the world's largest private science foundations. We find a robust association between promotional language and the support and adoption of innovative ideas by funders and other scientists. First, the percentage of promotional language in a grant proposal is associated with up to a doubling of the grant's probability of being funded. Second, a grant's promotional language reflects its intrinsic level of innovativeness. Third, the percentage of promotional language predicts the expected citation and productivity impact of publications that are supported by funded grants. Lastly, a computer-assisted experiment that manipulates the promotional language in our data demonstrates how promotional language can communicate the merit of ideas through cognitive activation. With the incidence of promotional language in science steeply rising, and the pivotal role of grants in converting promising and aspirational ideas into solutions, our analysis provides empirical evidence that promotional language is associated with effectively communicating the merits of innovative scientific ideas.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-07
# 残差ストリームアクティベーション分析による大規模言語モデルの攻撃に対する防御

Defending Large Language Models Against Attacks With Residual Stream Activation Analysis ( http://arxiv.org/abs/2406.03230v2 )

ライセンス: Link先を確認
Amelia Kawasaki, Andrew Davis, Houssam Abbas, (参考訳) OpenAIのChatGPTによって実証されたLLM(Large Language Models)の普及は、これらのモデルに対する敵対的脅威に対して防御する義務を最前線にもたらす。 悪意のある入力を導入してLLMの出力を操作するこれらの攻撃は、モデルの整合性を損なうとともに、信頼ユーザが出力に配置する。 そこで本論文では,LLMの変圧器層間の残余の活性化解析を生かした,白箱がLLMにアクセスできる革新的な防御戦略を提案する。 そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。 複数のデータセットをキュレートして、この新しい攻撃データセットを含む複数のタイプの攻撃シナリオに対して、この方法で高い精度で分類する方法を実証します。 さらに,LLMの安全微調整技術を統合して,攻撃検出能力への影響を計測することで,モデルのレジリエンスを向上させる。 その結果,LLMの運用するセキュリティフレームワークを推進し,敵入力の検出・緩和におけるアプローチの有効性を実証した。

The widespread adoption of Large Language Models (LLMs), exemplified by OpenAI's ChatGPT, brings to the forefront the imperative to defend against adversarial threats on these models. These attacks, which manipulate an LLM's output by introducing malicious inputs, undermine the model's integrity and the trust users place in its outputs. In response to this challenge, our paper presents an innovative defensive strategy, given white box access to an LLM, that harnesses residual activation analysis between transformer layers of the LLM. We apply a novel methodology for analyzing distinctive activation patterns in the residual streams for attack prompt classification. We curate multiple datasets to demonstrate how this method of classification has high accuracy across multiple types of attack scenarios, including our newly-created attack dataset. Furthermore, we enhance the model's resilience by integrating safety fine-tuning techniques for LLMs in order to measure its effect on our capability to detect attacks. The results underscore the effectiveness of our approach in enhancing the detection and mitigation of adversarial inputs, advancing the security framework within which LLMs operate.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-07
# 確率的定式化によるオープン量子系シミュレーションのための自己回帰トランスフォーマーニューラルネットワーク

Autoregressive Transformer Neural Network for Simulating Open Quantum Systems via a Probabilistic Formulation ( http://arxiv.org/abs/2009.05580v4 )

ライセンス: Link先を確認
Di Luo, Zhuo Chen, Juan Carrasquilla, Bryan K. Clark, (参考訳) オープン量子系の理論は、量子科学と工学における現代の研究のかなりの一部の基礎を成している。 拡張ヒルベルト空間の次元において回転し、開量子系をシミュレートする高い計算複雑性は、それらの力学を近似する戦略の開発を要求する。 本稿では,オープン量子システムのダイナミクスに対処するためのアプローチを提案する。 正の演算子値測定(POVM)に基づく量子物理学の正確な確率的定式化を用いて、自己回帰型トランスフォーマーニューラルネットワークを用いて量子状態をコンパクトに表現する。 さらに,自己回帰変換器ニューラルネットワークの対称性を部分的に復元し,局所相関の記述を改善するために,文字列状態の概念を導入する。 フォワード・バックワード・タペゾイド法を用いて、リウヴィリア超作用素の力学をシミュレートし、変分定式化により定常状態を求める効率的なアルゴリズムが開発された。 提案手法は, マルコフ連鎖モンテカルロを用いた制限ボルツマンマシンのサンプリングにより, 厳密な解を追尾し, 精度の高い計算結果を得た。 我々の研究は、様々な文脈における量子力学の理解のための一般的な方法と、古典的なセットアップにおける高次元確率微分方程式の解法を提供する。

The theory of open quantum systems lays the foundations for a substantial part of modern research in quantum science and engineering. Rooted in the dimensionality of their extended Hilbert spaces, the high computational complexity of simulating open quantum systems calls for the development of strategies to approximate their dynamics. In this paper, we present an approach for tackling open quantum system dynamics. Using an exact probabilistic formulation of quantum physics based on positive operator-valued measure (POVM), we compactly represent quantum states with autoregressive transformer neural networks; such networks bring significant algorithmic flexibility due to efficient exact sampling and tractable density. We further introduce the concept of String States to partially restore the symmetry of the autoregressive transformer neural network and improve the description of local correlations. Efficient algorithms have been developed to simulate the dynamics of the Liouvillian superoperator using a forward-backward trapezoid method and find the steady state via a variational formulation. Our approach is benchmarked on prototypical one and two-dimensional systems, finding results which closely track the exact solution and achieve higher accuracy than alternative approaches based on using Markov chain Monte Carlo to sample restricted Boltzmann machines. Our work provides general methods for understanding quantum dynamics in various contexts, as well as techniques for solving high-dimensional probabilistic differential equations in classical setups.
翻訳日:2024-06-10 23:21:09 公開日:2024-06-07
# 量子格子モデルのためのゲージ不変量とAnyonic Symmetric TransformerおよびRNN量子状態

Gauge Invariant and Anyonic Symmetric Transformer and RNN Quantum States for Quantum Lattice Models ( http://arxiv.org/abs/2101.07243v4 )

ライセンス: Link先を確認
Di Luo, Zhuo Chen, Kaiwen Hu, Zhizhen Zhao, Vera Mikyoung Hur, Bryan K. Clark, (参考訳) ゲージ不変性や正準対称性のような対称性は、量子多体物理学において重要な役割を果たす。 我々は、量子格子モデルのためのTransformerやRecurrent Neural Network (RNN)のような幅広いアーキテクチャを含む、ゲージ不変または正準対称性の自己回帰型ニューラルネットワーク量子状態を構築するための一般的なアプローチを開発する。 これらのネットワークは効率的にサンプリングでき、ゲージ対称性や任意の制約に明示的に従うことができる。 提案手法は,2次元および3次元トーリック符号の基底および励起状態の正確な表現と,X-キューブフラクトンモデルを提供する。 我々は、様々なモデルのためのリアルタイム力学と同様に、基底状態のための自己回帰ニューラルネットワークの対称性を変動的に最適化する。 我々は、$\text{U(1)}$格子ゲージ理論の量子リンクモデルの力学と基底状態のシミュレーションを行い、2D$\mathbb{Z}_2$ゲージ理論の位相図を取得し、$\text{SU(2)}_3$正準鎖の相転移と中心電荷を決定し、SU(2)不変のハイゼンベルクスピン鎖の基底状態エネルギーを計算する。 我々のアプローチは、凝縮物質物理学、高エネルギー物理学、量子情報科学を探索するための強力なツールを提供する。

Symmetries such as gauge invariance and anyonic symmetry play a crucial role in quantum many-body physics. We develop a general approach to constructing gauge invariant or anyonic symmetric autoregressive neural network quantum states, including a wide range of architectures such as Transformer and recurrent neural network (RNN), for quantum lattice models. These networks can be efficiently sampled and explicitly obey gauge symmetries or anyonic constraint. We prove that our methods can provide exact representation for the ground and excited states of the 2D and 3D toric codes, and the X-cube fracton model. We variationally optimize our symmetry incorporated autoregressive neural networks for ground states as well as real-time dynamics for a variety of models. We simulate the dynamics and the ground states of the quantum link model of $\text{U(1)}$ lattice gauge theory, obtain the phase diagram for the 2D $\mathbb{Z}_2$ gauge theory, determine the phase transition and the central charge of the $\text{SU(2)}_3$ anyonic chain, and also compute the ground state energy of the SU(2) invariant Heisenberg spin chain. Our approach provides powerful tools for exploring condensed matter physics, high energy physics and quantum information science.
翻訳日:2024-06-10 23:21:09 公開日:2024-06-07
# 2つの観測可能な未知の純量子状態の定式化

Determination of All Unknown Pure Quantum States with Two Observables ( http://arxiv.org/abs/2108.05752v3 )

ライセンス: Link先を確認
Yu Wang, (参考訳) 主系上の極小観測値を用いて純粋量子状態から情報を効率的に抽出することは、量子情報理論における長年の根本的問題である。 位置と運動量の確率分布が波動関数を一意に特定できないにもかかわらず、ペレスは2つの相補的な可観測物が位置と運動量に類似しており、直交基底への射影測度として実現された離散バージョンを予想した。 その後の発見では、2つの直交基底を持つ測度ゼロ集合を無視しても、$d$-dimenisonal pure 状態が一意に決定できないことが判明し、ペレスの予想も$d=3$に対して正しいが$d=4$については正しくない。 本研究では,2つの直交基底が,測度ゼロの集合を無視することで,基底係数の複素数を伴わずに,最大2^{d-1}$有限候補を効果的にフィルタリングできることを示す。 さらに、2つの相補観測器を用いて波動関数の目標係数を直接計算するために、逐次測定からインスピレーションを得た結果、ほぼ全ての純クォーディットは、中央にPOVMを適応的に組み込んだ上で、その相補観測器の測定によって一意に決定できることを示した。

Efficiently extracting information from pure quantum states using minimal observables on the main system is a longstanding and fundamental issue in quantum information theory. Despite the inability of probability distributions of position and momentum to uniquely specify a wavefunction, Peres conjectured a discrete version wherein two complementary observables, analogous to position and momentum and realized as projective measurements onto orthogonal bases, can determine all pure qudits up to a finite set of ambiguities. Subsequent findings revealed the impossibility of uniquely determining $d$-dimenisonal pure states even when neglecting a measure-zero set with any two orthogonal bases, and Peres's conjecture is also correct for $d=3$ but not for $d=4$. In this study, we show that two orthogonal bases are capable of effectively filtering up to $2^{d-1}$ finite candidates by disregarding a measure-zero set, without involving complex numbers in the bases' coefficients. Additionally, drawing inspiration from sequential measurements to directly calculate the target coefficients of the wavefunction using two complementary observables, we show that almost all pure qudits can be uniquely determined by adaptively incorporating a POVM in the middle, followed by measuring the complementary observable.
翻訳日:2024-06-10 23:21:09 公開日:2024-06-07
# アウト・オブ・ディストリビューション・ラーニングの理論に向けて

Towards a theory of out-of-distribution learning ( http://arxiv.org/abs/2109.14501v5 )

ライセンス: Link先を確認
Jayanta Dey, Ali Geisa, Ronak Mehta, Tyler M. Tomita, Hayden S. Helm, Haoyin Xu, Eric Eaton, Jeffery Dick, Carey E. Priebe, Joshua T. Vogelstein, (参考訳) 学習とは、学習エージェントが経験やデータを公開することによって、そのパフォーマンスを高めるプロセスである。 この旅を通じて、エージェントは多様な学習環境に遭遇する可能性がある。 例えば、データは一度に、複数のバッチで、あるいはシーケンシャルに、リーンに提示される。 さらに、各データサンプルの分布は同一であり、独立した(iid)か非IDである可能性がある。 さらに、学習アルゴリズムの展開には計算的制約や空間的制約が存在する可能性がある。 学習タスクの複雑さは、学習のセットアップとそれに課される制約によって大きく異なる可能性がある。 しかし、現在の文献には、分布論と分布論の学習パラダイムの多くについて、形式的な定義が欠けていることに注意する必要がある。 これらの学習環境に対する適切な、そして普遍的に合意された定義を確立することは、異なる学習シナリオにまたがるアイデアの進化を徹底的に探求し、これらの学習者に一般化された数学的境界を導出するために不可欠である。 本稿では,PAC学習フレームワークを用いて,異なる学習課題を定義するための時系列的アプローチを提案することにより,この問題に対処することを目的とする。 まずは流通学習から始め、最近提案された生涯学習や継続学習へと進む。 我々は、これらの学習フレームワークが、より広くより一般化された学習可能性の概念の特定のインスタンスをどのように表現しているかを示すために、一貫した用語と表記を用いる。 この研究によって、さまざまなタイプの学習を定量化し、この分野の理解と進歩を促進する、普遍的に合意されたアプローチがもたらされることを期待しています。

Learning is a process wherein a learning agent enhances its performance through exposure of experience or data. Throughout this journey, the agent may encounter diverse learning environments. For example, data may be presented to the leaner all at once, in multiple batches, or sequentially. Furthermore, the distribution of each data sample could be either identical and independent (iid) or non-iid. Additionally, there may exist computational and space constraints for the deployment of the learning algorithms. The complexity of a learning task can vary significantly, depending on the learning setup and the constraints imposed upon it. However, it is worth noting that the current literature lacks formal definitions for many of the in-distribution and out-of-distribution learning paradigms. Establishing proper and universally agreed-upon definitions for these learning setups is essential for thoroughly exploring the evolution of ideas across different learning scenarios and deriving generalized mathematical bounds for these learners. In this paper, we aim to address this issue by proposing a chronological approach to defining different learning tasks using the provably approximately correct (PAC) learning framework. We will start with in-distribution learning and progress to recently proposed lifelong or continual learning. We employ consistent terminology and notation to demonstrate how each of these learning frameworks represents a specific instance of a broader, more generalized concept of learnability. Our hope is that this work will inspire a universally agreed-upon approach to quantifying different types of learning, fostering greater understanding and progress in the field.
翻訳日:2024-06-10 23:21:09 公開日:2024-06-07
# Kinectを用いた行動認識アルゴリズムの解析と評価

Analysis and Evaluation of Kinect-based Action Recognition Algorithms ( http://arxiv.org/abs/2112.08626v3 )

ライセンス: Link先を確認
Lei Wang, (参考訳) 人間の行動認識には、様々な視点、隠蔽、照明条件、人体の大きさ、行動実行の速度など多くの課題がある。 これらの課題に対処するため、Kinect深度センサーは、人間の衣服の色や照明条件に敏感なリアルタイム深度シーケンスを記録するために開発された。 HON4D, HOPC, RBD, HDGなどの文献では, 4次元表面の正規分布, 点雲, 骨格モデル, 深度勾配を用いて, 深度ビデオや骨格データから識別情報を抽出する手法が報告されている。 本研究プロジェクトでは,上記4つのアルゴリズムの性能を5つのベンチマークデータセットを用いて解析し,評価する。 また,HDGアルゴリズムの実装と改良を行い,UWA3D Multiview Activity データセットを用いたクロスビュー動作認識に適用した。 また,HDGにおける特徴ベクトルの異なる組み合わせを用いて性能評価を行った。 実験の結果,HDGの精度は,他の3つの最先端アルゴリズムよりも優れていることがわかった。

Human action recognition still exists many challenging problems such as different viewpoints, occlusion, lighting conditions, human body size and the speed of action execution, although it has been widely used in different areas. To tackle these challenges, the Kinect depth sensor has been developed to record real time depth sequences, which are insensitive to the color of human clothes and illumination conditions. Many methods on recognizing human action have been reported in the literature such as HON4D, HOPC, RBD and HDG, which use the 4D surface normals, pointclouds, skeleton-based model and depth gradients respectively to capture discriminative information from depth videos or skeleton data. In this research project, the performance of four aforementioned algorithms will be analyzed and evaluated using five benchmark datasets, which cover challenging issues such as noise, change of viewpoints, background clutters and occlusions. We also implemented and improved the HDG algorithm, and applied it in cross-view action recognition using the UWA3D Multiview Activity dataset. Moreover, we used different combinations of individual feature vectors in HDG for performance evaluation. The experimental results show that our improvement of HDG outperforms other three state-of-the-art algorithms for cross-view action recognition.
翻訳日:2024-06-10 23:21:09 公開日:2024-06-07
# より高速なグラディエントバリアントを用いたプライバシー保護ロジスティック回帰トレーニング

Privacy-Preserving Logistic Regression Training with A Faster Gradient Variant ( http://arxiv.org/abs/2201.10838v6 )

ライセンス: Link先を確認
John Chiang, (参考訳) 暗号化されたデータに対するロジスティック回帰トレーニングは、セキュリティ上の懸念に対して何年も前から魅力的なアイデアでした。 本稿では,プライバシー保護ロジスティック回帰トレーニングのために,$\texttt{quadratic gradient}$という高速勾配変種を提案する。 $\texttt{quadratic gradient}$ の中核は、単純化された固定 Hessian の拡張と見なすことができる。 我々はNesterovの加速勾配(NAG)と適応勾配アルゴリズム(Adagrad)を$\texttt{quadratic gradient}$でそれぞれ拡張し、複数のデータセット上で拡張アルゴリズムを評価する。 %gradient $ascent$ method with this gradient variant on the gene data provided by the 2017 iDASH competition and other datasets。 実験により, 改良された手法は, 生の1次勾配法に比べ, 収束速度の最先端性を示した。 次に、同型ロジスティック回帰トレーニングを実装するために拡張NAG法を採用し、わずか3ドル反復で同等の結果を得る。 一般的な数値最適化問題に対して、$\texttt{quadratic gradient}$が他の一階勾配法を拡張できる可能性はある。

Logistic regression training over encrypted data has been an attractive idea to security concerns for years. In this paper, we propose a faster gradient variant called $\texttt{quadratic gradient}$ for privacy-preserving logistic regression training. The core of $\texttt{quadratic gradient}$ can be seen as an extension of the simplified fixed Hessian. We enhance Nesterov's accelerated gradient (NAG) and Adaptive Gradient Algorithm (Adagrad) respectively with $\texttt{quadratic gradient}$ and evaluate the enhanced algorithms on several datasets. %gradient $ascent$ methods with this gradient variant on the gene dataset provided by the 2017 iDASH competition and other datasets. Experiments show that the enhanced methods have a state-of-the-art performance in convergence speed compared to the raw first-order gradient methods. We then adopt the enhanced NAG method to implement homomorphic logistic regression training, obtaining a comparable result by only $3$ iterations. There is a promising chance that $\texttt{quadratic gradient}$ could be used to enhance other first-order gradient methods for general numerical optimization problems.
翻訳日:2024-06-10 23:21:09 公開日:2024-06-07
# In-of-distriion Calibrated Inferenceのためのカーネル密度グラフの深部判別

Deep Discriminative to Kernel Density Graph for In- and Out-of-distribution Calibrated Inference ( http://arxiv.org/abs/2201.13001v8 )

ライセンス: Link先を確認
Jayanta Dey, Haoyin Xu, Will LeVine, Ashwin De Silva, Tyler M. Tomita, Ali Geisa, Tiffany Chu, Jacob Desman, Joshua T. Vogelstein, (参考訳) ランダムフォレストやディープニューラルネットワークのような深い差別的アプローチは、最近、多くの重要な現実世界のシナリオで応用を見出した。 しかし、これらの学習アルゴリズムを安全クリティカルなアプリケーションにデプロイすることは、特に、配布内および配布外の両方のデータポイントの信頼性の校正を確実にする際の懸念を提起する。 アイソトニックやプラットのシグモイドレグレッションといった,IDキャリブレーションの一般的な方法の多くは,IDキャリブレーション性能に優れていた。 しかし、これらの手法は全特徴空間に対して校正されていないため、オフ・オブ・ディストリビューション(OOD)サンプルの場合、自信過剰につながる。 一方、既存のオフ・オブ・ディストリビューション(OOD)キャリブレーション法は、一般的には低いイン・ディストリビューション(IDキャリブレーション)キャリブレーションを示す。 本稿では,IDとOODの校正問題を共同で解決する。 我々は、ランダム森林とディープネットを含む深層モデルが、アフィン活性化関数を持つポリトープの結合である内部表現を学習し、特徴空間の分割規則としてそれらの両方を概念化するという事実を活用する。 トレーニングデータに代表される各ポリトープのアフィン関数をガウス核に置き換える。 表計算と視力評価の両ベンチマークを用いて,提案手法は,主にID領域のアルゴリズムの分類精度を保ちつつ,よく校正された後部を抽出し,OOD入力を適切に処理するためのトレーニングデータを超えて外挿することを示した。

Deep discriminative approaches like random forests and deep neural networks have recently found applications in many important real-world scenarios. However, deploying these learning algorithms in safety-critical applications raises concerns, particularly when it comes to ensuring confidence calibration for both in-distribution and out-of-distribution data points. Many popular methods for in-distribution (ID) calibration, such as isotonic and Platt's sigmoidal regression, exhibit excellent ID calibration performance. However, these methods are not calibrated for the entire feature space, leading to overconfidence in the case of out-of-distribution (OOD) samples. On the other end of the spectrum, existing out-of-distribution (OOD) calibration methods generally exhibit poor in-distribution (ID) calibration. In this paper, we address ID and OOD calibration problems jointly. We leveraged the fact that deep models, including both random forests and deep-nets, learn internal representations which are unions of polytopes with affine activation functions to conceptualize them both as partitioning rules of the feature space. We replace the affine function in each polytope populated by the training data with a Gaussian kernel. Our experiments on both tabular and vision benchmarks show that the proposed approaches obtain well-calibrated posteriors while mostly preserving or improving the classification accuracy of the original algorithm for ID region, and extrapolate beyond the training data to handle OOD inputs appropriately.
翻訳日:2024-06-10 23:21:09 公開日:2024-06-07
# 半間接離散対数問題に対する部分指数量子アルゴリズム

A Subexponential Quantum Algorithm for the Semidirect Discrete Logarithm Problem ( http://arxiv.org/abs/2209.02814v5 )

ライセンス: Link先を確認
Christopher Battarbee, Delaram Kahrobaei, Ludovic Perret, Siamak F. Shahandashti, (参考訳) グループベースの暗号は、量子後暗号における比較的未発見の家系であり、いわゆるセミダイレクト離散対数問題(Semidirect Discrete Logarithm Problem, SDLP)は、最も中心的な問題の一つである。 しかし、SDLPの複雑さと、特に量子敵に対するセキュリティに関して、よりよく知られた硬さ問題との関係はよく理解されておらず、この分野の研究者にとって重要なオープンな問題であった。 本稿ではSDLPのセキュリティ解析について述べる。 特に、SDLPとグループアクションの間には、量子部分指数アルゴリズムを適用することが知られているコンテキストがある。 したがって、SDLPを解くための部分指数量子アルゴリズムを構築することができ、SDLPの複雑さと既知の計算問題との関係を分類することができる。

Group-based cryptography is a relatively unexplored family in post-quantum cryptography, and the so-called Semidirect Discrete Logarithm Problem (SDLP) is one of its most central problems. However, the complexity of SDLP and its relationship to more well-known hardness problems, particularly with respect to its security against quantum adversaries, has not been well understood and was a significant open problem for researchers in this area. In this paper we give the first dedicated security analysis of SDLP. In particular, we provide a connection between SDLP and group actions, a context in which quantum subexponential algorithms are known to apply. We are therefore able to construct a subexponential quantum algorithm for solving SDLP, thereby classifying the complexity of SDLP and its relation to known computational problems.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# 事象に基づく行動認識のためのニューラルネットワークのスパイク:その利点を理解するための新しい課題

Spiking Neural Networks for event-based action recognition: A new task to understand their advantage ( http://arxiv.org/abs/2209.14915v3 )

ライセンス: Link先を確認
Alex Vicente-Sola, Davide L. Manna, Paul Kirkland, Gaetano Di Caterina, Trevor Bihl, (参考訳) スパイキングニューラルネットワーク(SNN)は、そのユニークな時間的ダイナミクスによって特徴づけられるが、そのような計算の特性と利点はまだよく理解されていない。 この研究は、繰り返しシナプスを必要としないフィードフォワードニューラルネットワークにおいて、スパイキングニューロンが時間的特徴抽出を可能にする方法と、より少ないパラメータでSNNがLSTMに匹敵する結果を得ることができることを実証する。 このことは、彼らのバイオインスパイアされたコンピューティングの原則がエネルギー効率の向上を超えてうまく活用できることを示し、従来の人工ニューラルネットワークに対する彼らの違いを証明している。 これらの結果は、DVS-Gesture-Chain(DVS-GC)と呼ばれる新しいタスクを通じて得られる。 本研究は,イベントがフレームに蓄積された場合の時間的特徴抽出を行なわずに,広く使用されているDVS Gestureベンチマークが,イベントの発生順序の理解を必要とする新しいDVS-GCとは異なり,ネットワークによってどのように解決できるかを実証する。 さらに、この設定により、時相処理タスクにおけるスパイキングニューロンの漏洩速度の役割を明らかにし、「ハードリセット」機構の利点を実証した。 さらに,時間依存重みと正規化が時間的注意による順序の理解にどのように寄与するかを示す。

Spiking Neural Networks (SNN) are characterised by their unique temporal dynamics, but the properties and advantages of such computations are still not well understood. In order to provide answers, in this work we demonstrate how Spiking neurons can enable temporal feature extraction in feed-forward neural networks without the need for recurrent synapses, and how recurrent SNNs can achieve comparable results to LSTM with a smaller number of parameters. This shows how their bio-inspired computing principles can be successfully exploited beyond energy efficiency gains and evidences their differences with respect to conventional artificial neural networks. These results are obtained through a new task, DVS-Gesture-Chain (DVS-GC), which allows, for the first time, to evaluate the perception of temporal dependencies in a real event-based action recognition dataset. Our study proves how the widely used DVS Gesture benchmark can be solved by networks without temporal feature extraction when its events are accumulated in frames, unlike the new DVS-GC which demands an understanding of the order in which events happen. Furthermore, this setup allowed us to reveal the role of the leakage rate in spiking neurons for temporal processing tasks and demonstrated the benefits of "hard reset" mechanisms. Additionally, we also show how time-dependent weights and normalization can lead to understanding order by means of temporal attention.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# OST:ポイントクラウドにおける3次元単一物体追跡のための効率的なワンストリームネットワーク

OST: Efficient One-stream Network for 3D Single Object Tracking in Point Clouds ( http://arxiv.org/abs/2210.08518v2 )

ライセンス: Link先を確認
Xiantong Zhao, Yinan Han, Shengjing Tian, Jian Liu, Xiuping Liu, (参考訳) 最近のシームズネットワークベースのトラッカーは、LiDAR点群における単一物体追跡において、目覚しい精度を達成しているが、彼らは通常、重相関演算を用いてカテゴリレベルの特性のみをキャプチャし、複数の物体追跡とは対照的に、任意性の本質的な利点を見落としている。 本研究では,従来のシームズネットワークで発生した相関操作を回避し,計算労力を大幅に削減する,インスタンスレベルのエンコーディングの強みを持つ一ストリームネットワークを急進的に提案する。 特に,提案手法は主にテンプレート対応トランスフォーマーモジュール (TTM) と,空間情報と意味情報を融合可能なマルチスケール特徴集約モジュール (MFA) から構成される。 TTMは、指定されたテンプレートと検索領域を縫合し、アテンション機構を利用して情報フローを確立し、独立な \textit{extraction-and-correlation} の以前のパターンを破る。 結果として、このモジュールは、ターゲットの任意かつ継続的に変化する性質に適したテンプレート認識機能を直接生成することができ、モデルは目に見えないカテゴリに対処できる。 さらに,MFAは,浅層から深層までの情報を集約する逆方向の特徴伝搬を特徴とする空間的・意味的情報を相互に補完する手法を提案する。 KITTI と nuScenes の大規模な実験により,本手法はクラス固有のトラッキングだけでなく,計算量が少なく,高い効率でクラスに依存しないトラッキングにも有効であることが示された。

Although recent Siamese network-based trackers have achieved impressive perceptual accuracy for single object tracking in LiDAR point clouds, they usually utilized heavy correlation operations to capture category-level characteristics only, and overlook the inherent merit of arbitrariness in contrast to multiple object tracking. In this work, we propose a radically novel one-stream network with the strength of the instance-level encoding, which avoids the correlation operations occurring in previous Siamese network, thus considerably reducing the computational effort. In particular, the proposed method mainly consists of a Template-aware Transformer Module (TTM) and a Multi-scale Feature Aggregation (MFA) module capable of fusing spatial and semantic information. The TTM stitches the specified template and the search region together and leverages an attention mechanism to establish the information flow, breaking the previous pattern of independent \textit{extraction-and-correlation}. As a result, this module makes it possible to directly generate template-aware features that are suitable for the arbitrary and continuously changing nature of the target, enabling the model to deal with unseen categories. In addition, the MFA is proposed to make spatial and semantic information complementary to each other, which is characterized by reverse directional feature propagation that aggregates information from shallow to deep layers. Extensive experiments on KITTI and nuScenes demonstrate that our method has achieved considerable performance not only for class-specific tracking but also for class-agnostic tracking with less computation and higher efficiency.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# 不均衡ペナル化:量子最適化アルゴリズムにおける組合せ問題の不等式制約をエンコードする新しいアプローチ

Unbalanced penalization: A new approach to encode inequality constraints of combinatorial problems for quantum optimization algorithms ( http://arxiv.org/abs/2211.13914v4 )

ライセンス: Link先を確認
Alejandro Montanez-Barrera, Dennis Willsch, Alberto Maldonado-Romo, Kristel Michielsen, (参考訳) 二次的非制約バイナリ最適化(QUBO)によって符号化できる種類の組合せ最適化問題を解くことは、量子計算の有望な応用である。 このクラスのいくつかの問題は、旅行セールスマン問題(TSP)、ビンパッキング問題(BPP)、クナップサック問題(KP)など、特定のコスト関数の符号化を必要とする不等式制約がある。 一般的なアプローチは、コスト関数の不等式制約を表現するためにslack変数を使用することである。 しかし、スラック変数の使用は量子デバイスを用いてこれらの問題を解決するのに必要なキュービットの数と演算を著しく増加させる。 本研究では、余分なスラック変数を必要とせず、QUBOの不等式制約を表現するために不均衡なペナル化関数を使用する方法を提案する。 この関数は、不等式制約が時よりも達成されない場合に、より大きなペナル化を特徴とする。 我々は、TSP、BPP、KPに対する我々のアプローチを評価し、基底状態コストのハミルトニアンに近い最適化問題の最適解の符号化に成功した。 さらに、最大29項目の解を求めることで、スラック変数アプローチの性能を上回り、スラック変数アプローチでは最大11項目しか処理できないのに対し、D-Wave AdvantageとD-Waveハイブリッドソルバを用いてBPPを解く。 この新しいアプローチは、量子アニール法や変分量子アルゴリズムを用いたスラック変数アプローチと比較して、リソース数の削減による不等式制約の組合せ問題を解くために使用できる。

Solving combinatorial optimization problems of the kind that can be codified by quadratic unconstrained binary optimization (QUBO) is a promising application of quantum computation. Some problems of this class suitable for practical applications such as the traveling salesman problem (TSP), the bin packing problem (BPP), or the knapsack problem (KP) have inequality constraints that require a particular cost function encoding. The common approach is the use of slack variables to represent the inequality constraints in the cost function. However, the use of slack variables considerably increases the number of qubits and operations required to solve these problems using quantum devices. In this work, we present an alternative method that does not require extra slack variables and consists of using an unbalanced penalization function to represent the inequality constraints in the QUBO. This function is characterized by larger penalization when the inequality constraint is not achieved than when it is. We evaluate our approach on the TSP, BPP, and KP, successfully encoding the optimal solution of the original optimization problem near the ground state cost Hamiltonian. Additionally, we employ D-Wave Advantage and D-Wave hybrid solvers to solve the BPP, surpassing the performance of the slack variables approach by achieving solutions for up to 29 items, whereas the slack variables approach only handles up to 11 items. This new approach can be used to solve combinatorial problems with inequality constraints with a reduced number of resources compared to the slack variables approach using quantum annealing or variational quantum algorithms.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# クロスドメイン合成---------Wild深さと3次元シーン理解のための正規推定

Cross-Domain Synthetic-to-Real In-the-Wild Depth and Normal Estimation for 3D Scene Understanding ( http://arxiv.org/abs/2212.05040v3 )

ライセンス: Link先を確認
Jay Bhanushali, Manivannan Muniyandi, Praneeth Chakravarthula, (参考訳) 本研究では,実世界の非制御環境下で発生する全方位3Dシーンの深度と正常度を推定するために,合成データから学習するクロスドメイン推論手法を提案する。 この目的のために、UBotNetは、UNetとBottleneck Transformer要素を組み合わせて、一貫したシーンの正規性と深さを予測するアーキテクチャである。 また, 建物, 街路, 多様な植生など, 多様な屋外環境を表す全方位画像24,335枚を含むOmniHorizon合成データセットについても紹介した。 このデータセットは、人生のような拡張可能な仮想空間から生成され、照明条件の変化、日時の変化、歩行者、車両といった動的なシーン要素を含んでいる。 実験の結果,UBotNetは既存のモデルと比較して,深さ推定と正規推定の精度を大幅に向上することがわかった。 最後に、我々の合成OmniHorizonデータセットのみをトレーニングしたUBotNetを用いて、ドメイン間合成-実深度と実際の屋外画像の正規推定を検証し、実世界のシーン理解のための合成データセットと提案したネットワークの可能性を実証した。

We present a cross-domain inference technique that learns from synthetic data to estimate depth and normals for in-the-wild omnidirectional 3D scenes encountered in real-world uncontrolled settings. To this end, we introduce UBotNet, an architecture that combines UNet and Bottleneck Transformer elements to predict consistent scene normals and depth. We also introduce the OmniHorizon synthetic dataset containing 24,335 omnidirectional images that represent a wide variety of outdoor environments, including buildings, streets, and diverse vegetation. This dataset is generated from expansive, lifelike virtual spaces and encompasses dynamic scene elements, such as changing lighting conditions, different times of day, pedestrians, and vehicles. Our experiments show that UBotNet achieves significantly improved accuracy in depth estimation and normal estimation compared to existing models. Lastly, we validate cross-domain synthetic-to-real depth and normal estimation on real outdoor images using UBotNet trained solely on our synthetic OmniHorizon dataset, demonstrating the potential of both the synthetic dataset and the proposed network for real-world scene understanding applications.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# Qubit Clifford 階層における群について

On Groups in the Qubit Clifford Hierarchy ( http://arxiv.org/abs/2212.05398v2 )

ライセンス: Link先を確認
Jonas T. Anderson, (参考訳) ここでは、立方体 Clifford Hierarchy の元を用いて構成できるユニタリ群について検討する。 まず、半クリフォード元と一般化半クリフォード元が Clifford Hierarchy で満たさなければならない必要十分かつ十分な正準形式を提供する。 そして、そのような要素から生成できる群を分類する。 クリフォード共役(Clifford conjugation)は、クリフォード階層内の一般化半クリフォード元を用いて構築できるすべての群を分類する。 付録でこの分類のマイナーな例外について論じる。 これは立方体 Clifford Hierarchy のすべての群の完全な分類ではなく、Clifford Hierarchy のすべての元が半クリフォードに一般化されなければならないかどうかは現在分かっていないからである。 Cui らによって発見された対角ゲート群に加えて、(対角ゲート群への)非同型でない一般化対称群もクリフォード階層に含まれることを示す。 最後に、この分類の適用として、ここで列挙された群の構造によって与えられる超越ゲートの制限について検討する。

Here we study the unitary groups that can be constructed using elements from the qubit Clifford Hierarchy. We first provide a necessary and sufficient canonical form that semi-Clifford and generalized semi-Clifford elements must satisfy to be in the Clifford Hierarchy. Then we classify the groups that can be formed from such elements. Up to Clifford conjugation, we classify all such groups that can be constructed using generalized semi-Clifford elements in the Clifford Hierarchy. We discuss a possible minor exception to this classification in the appendix. This may not be a full classification of all groups in the qubit Clifford Hierarchy as it is not currently known if all elements in the Clifford Hierarchy must be generalized semi-Clifford. In addition to the diagonal gate groups found by Cui et al., we show that many non-isomorphic (to the diagonal gate groups) generalized symmetric groups are also contained in the Clifford Hierarchy. Finally, as an application of this classification, we examine restrictions on transversal gates given by the structure of the groups enumerated herein which may be of independent interest.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# 複合力学の合同生成モデルのためのマルチモーダルデータの統合

Integrating Multimodal Data for Joint Generative Modeling of Complex Dynamics ( http://arxiv.org/abs/2212.07892v3 )

ライセンス: Link先を確認
Manuel Brenner, Florian Hess, Georgia Koppe, Daniel Durstewitz, (参考訳) 科学に関心を持つシステムの多くは自然に非線形力学系として記述されている。 経験的には、時系列測定によってこれらのシステムによくアクセスする。 このような時系列は、連続的な測定ではなく離散的なランダム変数で構成されたり、同時に観察される複数のデータモーダルから測定されることもある。 例えば神経科学では、スパイクカウントや継続的な生理的記録に加えて行動ラベルがあるかもしれない。 動的システム再構築(DSR)の深層学習に関する文献は,現在,盛んに研究されているが,この文脈ではマルチモーダルデータの統合はほとんど検討されていない。 本稿では,DSRトレーニング技術の最近の進歩を生かして,再構成モデルのトレーニングを誘導するスパース教師信号を生成するマルチモーダル変分オートエンコーダ上に,効率的で柔軟なアルゴリズムフレームワークを提供する。 最適な再構成のために様々な情報ソースを組み合わせることができ、シンボリックデータ(クラスラベル)のみからの再構築を可能にし、共通の潜在力学空間内で異なるタイプの観測を接続する。 従来の科学応用のマルチモーダルデータ統合技術とは対照的に、我々のフレームワークは、訓練後、基底真理系と同じ幾何学的・時間的構造を持つ軌跡を生成する、完全に「textit{generative}」である。

Many, if not most, systems of interest in science are naturally described as nonlinear dynamical systems. Empirically, we commonly access these systems through time series measurements. Often such time series may consist of discrete random variables rather than continuous measurements, or may be composed of measurements from multiple data modalities observed simultaneously. For instance, in neuroscience we may have behavioral labels in addition to spike counts and continuous physiological recordings. While by now there is a burgeoning literature on deep learning for dynamical systems reconstruction (DSR), multimodal data integration has hardly been considered in this context. Here we provide such an efficient and flexible algorithmic framework that rests on a multimodal variational autoencoder for generating a sparse teacher signal that guides training of a reconstruction model, exploiting recent advances in DSR training techniques. It enables to combine various sources of information for optimal reconstruction, even allows for reconstruction from symbolic data (class labels) alone, and connects different types of observations within a common latent dynamics space. In contrast to previous multimodal data integration techniques for scientific applications, our framework is fully \textit{generative}, producing, after training, trajectories with the same geometrical and temporal structure as those of the ground truth system.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# DYST (Did You See That?): それまでのデータを表示できる、増幅されたカバーチャネル

DYST (Did You See That?): An Amplified Covert Channel That Points To Previously Seen Data ( http://arxiv.org/abs/2212.11850v4 )

ライセンス: Link先を確認
Steffen Wendzel, Tobias Schmidbauer, Sebastian Zillien, Jörg Keller, (参考訳) 隠蔽チャンネルは、マルウェア通信からジャーナリストによる機密情報の交換、検閲回避まで、多様体の敵と合法的なシナリオを可能にするステルスな通信チャネルである。 歴史隠蔽チャネルと呼ばれる新しい種類の隠蔽チャネルを導入する。 さらに,新しいパラダイムとして,包括チャネル増幅を提案する。 これまで説明したすべての秘密チャンネルは、一見正当なフローを作るか、サードパーティのフローを変更する必要がある。 対照的に、ヒストリーカバーチャネルは、通常のネットワークノードによって生成された、変更されていない正当なトラフィックを指して通信することができる。 秘密通信プロセスの無視可能な部分だけが、秘密チャンネルの送信者による秘密情報の転送を必要とする。 この情報は異なるプロトコル/チャネルを介して送信することができる。 弊社のアプローチは、秘密チャネルのメッセージサイズを増幅することを可能にし、すなわち、交換される全体的な秘密データに関連して、実際に転送された秘密データの分数を秘密チャネルの送信者によって最小化する。 さらに,隠蔽チャネルに対する現在の分類を拡張して,履歴チャネルの分類方法を示す。 履歴隠蔽チャネルを実現できる複数のシナリオを記述し、これらのチャネルの特性を分析し、それらの構成をどのように最適化できるかを示す。

Covert channels are stealthy communication channels that enable manifold adversary and legitimate scenarios, ranging from malware communications to the exchange of confidential information by journalists and censorship circumvention. We introduce a new class of covert channels that we call history covert channels. We further present a new paradigm: covert channel amplification. All covert channels described until now need to craft seemingly legitimate flows or need to modify third-party flows, mimicking unsuspicious behavior. In contrast, history covert channels can communicate by pointing to unaltered legitimate traffic created by regular network nodes. Only a negligible fraction of the covert communication process requires the transfer of covert information by the covert channel's sender. This information can be sent through different protocols/channels. Our approach allows an amplification of the covert channel's message size, i.e., minimizing the fraction of actually transferred secret data by a covert channel's sender in relation to the overall secret data being exchanged. Further, we extend the current taxonomy for covert channels to show how history channels can be categorized. We describe multiple scenarios in which history covert channels can be realized, analyze the characteristics of these channels, and show how their configuration can be optimized.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# Tightrope-walking rationality in action: Feyerabendian insights for the foundations of quantumchanics

Tightrope-walking rationality in action: Feyerabendian insights for the foundations of quantum mechanics ( http://arxiv.org/abs/2212.12782v3 )

ライセンス: Link先を確認
Daniele Oriti, (参考訳) Paul K. Feyerabendの物理学と科学の哲学における研究を、量子力学の基礎に関する現代の議論に役立つ洞察のために、より一般的にスキャンする。 ファイヤベンドが実際に量子力学について書いたことの出発点として捉えていますが、我々は分析を現実主義、客観性、多元主義、物理学と哲学の関係に関する一般的な見解にまで拡張し、これらのより一般的な見解が、実際に量子基盤に取り組んでいる物理学者や哲学者に多くの興味深い洞察を与える可能性があることに気付きました。

We scan Paul K. Feyerabend's work in philosophy of physics and of science more generally for insights that could be useful for the contemporary debate on the foundations of quantum mechanics. We take as our starting point what Feyerabend has actually written about quantum mechanics, but we extend our analysis to his general views on realism, objectivity, pluralism, and the relation between physics and philosophy, finding that these more general views could in fact offer many interesting insights for physicists and philosophers working on quantum foundations.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# リングレーザージャイロスコープのフェムトラド/s域における騒音レベル

Noise level of a ring laser gyroscope in the femto-rad/s range ( http://arxiv.org/abs/2301.01386v2 )

ライセンス: Link先を確認
Angela D. V. Di Virgilio, Francesco Bajardi, Andrea Basti, Nicolò Beverini, Giorgio Carelli, Donatella Ciampini, Giuseppe Di Somma, Francesco Fuso, Enrico Maccioni, Paolo Marsili, Antonello Ortolan, Alberto Porzio, David Vitali, (参考訳) prad/sよりも感度の良い絶対角回転率測定は、基礎科学研究に有用である。 ここでは, GINGERINO 能動リング型レーザー上限雑音が, 2 × 10^{-15}$ rad/s for $\sim 2 \times 10^5$ s for $\sim 2 \times 10^5$ s for $\sim 2 \times 10^{-15}$ rad/s for a differential measurement scheme, as the Allan deviation。 これは、2つの独立した伝播モードと見なされるキャビティ内部で対向伝播する2つのビームと対向伝播する理想的なリングレーザーを撮影する上で、これまでの理論予測よりも10倍良い因子である。 この特徴は、2つの逆伝播モード間の位相クロストークを引き起こす実環レーザー力学の特異性に関連している。 この文脈では、独立ビームモデルは適用不可能であり、測定されたノイズ限界は期待値を下回る。

Absolute angular rotation rate measurements with sensitivity better than prad/s would be beneficial for fundamental science investigations. On this regard, large frame Earth based ring laser gyroscopes are top instrumentation as far as bandwidth, long--term operation, and sensitivity are concerned. Here, we demonstrate that the GINGERINO active--ring laser upper limiting noise is close to $2 \times 10^{-15}$ rad/s for $\sim 2 \times 10^5$ s of integration time, as estimated by the Allan deviation evaluated in a differential measurement scheme. This is more than a factor 10 better than the theoretical prediction so far accounted for ideal ring lasers shot--noise with the two beams counter--propagating inside the cavity considered as two independent propagating modes. This feature is related to the peculiarity of real ring laser system dynamics that causes phase cross--talking among the two counter--propagating modes. In this context, the independent beam model is, then, not applicable and the measured noise limit falls below the expected one.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# 量子再起動問題における不安定性

Instability in the quantum restart problem ( http://arxiv.org/abs/2301.06100v2 )

ライセンス: Link先を確認
Ruoyu Yin, Qingyuan Wang, Eli Barkai, (参考訳) 繰り返し監視された量子ウォークは、本質的にランダムな1/\tau$の離散時間軌道を生成する。 これらの経路では、急激な再起動を伴う最初のヒット時間が研究される。 古典的ランダムウォーキングプロセスでは,最適平均打点時間の不安定性は認められない。 この不安定さは、パラメータの小さな変更が、最適な再起動時間のかなり大きな変更につながることを意味する。 最適再起動時間と$\tau$は、制御パラメータとして階段と急降下のセットを示す。 急降下は、上述した不安定性によるもので、これは再起動の欠如において、最初の隠れた時間確率の量子振動と関連している。 さらに, ターゲットとソースの距離のパリティに依存する2つの階段構造が格子定数の単位において存在することを証明した。 ヒット時間の世界最小値は、古典的な問題のように再起動時間だけでなく、サンプリング時間$\tau$によって制御される。 各測定の後に再起動すると、平均打点時間を最小化する$\tau$に対して、この大域的な最小値が生じるという数値的な証拠を提供する。 最後に、この研究で発見された不安定性はサンプリング時間$\tau$の確率的摂動に対して比較的堅牢であることを示す。

Repeatedly-monitored quantum walks with a rate $1/\tau$ yield discrete-time trajectories which are inherently random. With these paths the first-hitting time with sharp restart is studied. We find an instability in the optimal mean hitting time, which is not found in the corresponding classical random walk process. This instability implies that a small change in parameters can lead to a rather large change of the optimal restart time. We show that the optimal restart time versus $\tau$, as a control parameter, exhibits sets of staircases and plunges. The plunges, are due to the mentioned instability, which in turn is related to the quantum oscillations of the first-hitting time probability, in the absence of restarts. Furthermore, we prove that there are only two patterns of staircase structures, dependent on the parity of the distance between the target and the source in units of lattice constant. The global minimum of the hitting time, is controlled not only by the restart time, as in classical problems, but also by the sampling time $\tau$. We provide numerical evidence that this global minimum occurs for the $\tau$ minimizing the mean hitting time, given restarts taking place after each measurement. Last but not least, we numerically show that the instability found in this work is relatively robust against stochastic perturbations in the sampling time $\tau$.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# MOAT: 安全なBPFカーネル拡張を目指す

MOAT: Towards Safe BPF Kernel Extension ( http://arxiv.org/abs/2301.13421v3 )

ライセンス: Link先を確認
Hongyi Lu, Shuai Wang, Yechang Wu, Wanning He, Fengwei Zhang, (参考訳) LinuxカーネルはBerkeley Packet Filter (BPF) を広く使用し、ユーザが記述したBPFアプリケーションをカーネル空間で実行できるようにする。 BPFは、ユーザが供給するBPFコードのセキュリティを静的にチェックするために検証器を使用する。 最近の攻撃は、BPFプログラムがセキュリティチェックを回避し、カーネルメモリへの不正アクセスを取得できることを示し、検証プロセスが欠陥のないものではないことを示している。 本稿では,Intel Memory Protection Keys (MPK) を用いて,潜在的に悪意のあるBPFプログラムを分離するMOATを提案する。 MOATは、限られたハードウェアキーや様々なBPFヘルパー機能を保護する必要性など、技術的な障害を軽減するように設計されている。 我々は、Linux上でMOATを実装し(約6.1.38)、MOATは、BPFパケットフィルタを3%のスループット損失で分離するなど、BPFプログラムの低コスト分離を実現することを示す。

The Linux kernel extensively uses the Berkeley Packet Filter (BPF) to allow user-written BPF applications to execute in the kernel space. The BPF employs a verifier to check the security of user-supplied BPF code statically. Recent attacks show that BPF programs can evade security checks and gain unauthorized access to kernel memory, indicating that the verification process is not flawless. In this paper, we present MOAT, a system that isolates potentially malicious BPF programs using Intel Memory Protection Keys (MPK). Enforcing BPF program isolation with MPK is not straightforward; MOAT is designed to alleviate technical obstacles, such as limited hardware keys and the need to protect a wide variety of BPF helper functions. We implement MOAT on Linux (ver. 6.1.38), and our evaluation shows that MOAT delivers low-cost isolation of BPF programs under mainstream use cases, such as isolating a BPF packet filter with only 3% throughput loss.
翻訳日:2024-06-10 23:14:33 公開日:2024-06-07
# 量子ビット系における熱電流

Heat currents in qubit systems ( http://arxiv.org/abs/2301.13544v4 )

ライセンス: Link先を確認
Hans C. Fogedby, (参考訳) 現在、オープン量子系の文脈における量子熱力学への関心がある。 重要な問題は、量子熱力学の整合性、特に熱力学の第2法則、すなわち熱貯水池から冷たい貯水池への熱の流れである。 ここでは、最近のコンポジットシステム、特に局所的または大域的マスター方程式の適用に関する問題に重点を置いている。 この議論に寄与するために, 一つの量子ビットの例と, 異なる温度で2つの熱貯水池によって駆動される2つの結合量子ビットの単純な合成系について述べる。 大域的リンドブラッドマスター方程式アプローチの適用により、熱力学の第2法則に従って熱流の明示的な表現を提示する。 この分析はボルン・マルコフ近似を用いて行われる。 また、定常状態におけるコヒーレンスの存在の可能性についても論じる。

There is a current interest in quantum thermodynamics in the context of open quantum systems. An important issue is the consistency of quantum thermodynamics, in particular the second law of thermodynamics, i.e., the flow of heat from a hot reservoir to a cold reservoir. Here recent emphasis has been on composite system and in particular the issue regarding the application of local or global master equations. In order to contribute to this discussion we discuss two cases, namely as an example a single qubit and as a simple composite system two coupled qubits driven by two heat reservoirs at different temperatures, respectively. Applying a global Lindblad master equation approach we present explicit expressions for the heat currents in agreement with the second law of thermodynamics. The analysis is carried out in the Born-Markov approximation. We also discuss issues regarding the possible presence of coherences in the steady state.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# 2原子崩壊を伴うアンサンブル量子ビットの提案

Proposal of ensemble qubits with two-atom decay ( http://arxiv.org/abs/2302.06781v2 )

ライセンス: Link先を確認
Wei Qin, Adam Miranowicz, Franco Nori, (参考訳) 本研究では,アンサンブル量子ビットの実装のための新しい手法を提案し,解析する。 要求される不調和性は、2つの原子の同時崩壊(すなわち2原子の崩壊)によってもたらされ、完全に量子デジネートされたパラメトリック増幅によって達成される。 原子アンサンブルでは、2つの原子崩壊が2次元量子多様体を生成し、安定化する。 さらに、この非線形崩壊過程は、高励起超放射状態への遷移を強く抑制し、残留遷移を単一励起超放射状態から基底状態への効果的な崩壊に変換することができる。 我々の手法は、Rydberg Dipole Blockadeを必要とせず、従って、従来の研究と比べて強い原子-原子相互作用を持つ。 これは、単純な実験的な設定で典型的な原子やスピンのアンサンブルに適用できることを示している。 また,空洞保護機構と互換性があり,不均一な拡張によるスピン脱落を強く抑制することができる。 提示されたアンサンブル量子ビットは、量子情報処理のための新しいプラットフォームを提供し、また原子やスピンアンサンブルの応用範囲を広げる。

We propose and analyze a novel approach to implement ensemble qubits. The required anharmonicity is provided by a simultaneous decay of two atoms (i.e., two-atom decay), which is achieved by fully quantum degenerate parametric amplification. For an atomic ensemble, the two-atom decay generates and stabilizes a 2D quantum manifold, which is spanned by the ground and single-excited superradiant states. Moreover, this nonlinear decay process can strongly suppress transitions to higher-excited superradiant states, and convert residual transitions into an effective decay from the single-excitation superradiant state to the ground state. Our method does not require Rydberg dipole blockade and, thus, strong atom-atom interactions, compared to previous work. This indicates that it can be applied to typical atomic or spin ensembles in simple experimental setups. Remarkably, our idea is compatible with the cavity protection mechanism, and therefore spin dephasing due to inhomogeneous broadening can be strongly suppressed. The presented ensemble qubit provides a new platform for quantum information processing, and also extends the range of applications of atomic or spin ensembles.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# 非線形確率系のデータ駆動観測可能性解析

Data-Driven Observability Analysis for Nonlinear Stochastic Systems ( http://arxiv.org/abs/2302.11979v2 )

ライセンス: Link先を確認
Pierre-François Massiani, Mona Buisson-Fenet, Friedrich Solowjow, Florent Di Meglio, Sebastian Trimpe, (参考訳) 区別可能性と拡張性により、可観測性は力学系の鍵となる性質である。 これらの特性の確立は、特に分析モデルが利用できず、測定データから直接推測される場合、困難である。 ノイズの存在は、識別可能性の標準概念が決定論的システムに適合するので、この分析をさらに複雑にする。 確率システムの出力の分布を比較することにより,決定論的概念を拡張した分布微分可能性を構築した。 まず、両概念が線形システムを含むシステムのクラスに等価であることを示す。 そこで我々は,出力データから分布微分可能性を評価し,定量化する手法を提案する。 特に、我々の定量化は、2つの初期状態を区別するためにどれだけのデータが必要かを測定し、連続したスペクトルの識別可能性を引き起こす。 2つの状態が高信頼で識別可能なしきい値を決定するための統計的テストを提案する。 シミュレーションでは、状態空間上の識別可能性マップを計算し、テストを活用してハードウェア上のセンサ構成を比較する。

Distinguishability and, by extension, observability are key properties of dynamical systems. Establishing these properties is challenging, especially when no analytical model is available and they are to be inferred directly from measurement data. The presence of noise further complicates this analysis, as standard notions of distinguishability are tailored to deterministic systems. We build on distributional distinguishability, which extends the deterministic notion by comparing distributions of outputs of stochastic systems. We first show that both concepts are equivalent for a class of systems that includes linear systems. We then present a method to assess and quantify distributional distinguishability from output data. Specifically, our quantification measures how much data is required to tell apart two initial states, inducing a continuous spectrum of distinguishability. We propose a statistical test to determine a threshold above which two states can be considered distinguishable with high confidence. We illustrate these tools by computing distinguishability maps over the state space in simulation, then leverage the test to compare sensor configurations on hardware.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# 大規模言語モデルのためのチェーン・オブ・サートを用いたアクティブ・プロンプティング

Active Prompting with Chain-of-Thought for Large Language Models ( http://arxiv.org/abs/2302.12246v4 )

ライセンス: Link先を確認
Shizhe Diao, Pengcheng Wang, Yong Lin, Tong Zhang, (参考訳) 大規模言語モデル(LLM)の規模が大きくなると、算術や常識推論のような推論を必要とする様々な複雑なタスクに創発的能力がもたらされる。 タスク固有のプロンプトを効果的に設計することは、LLMが高品質な回答を得られる能力にとって重要であることが知られている。 特に、複雑な問合せタスクに対する効果的なアプローチは、LLMの性能を大幅に向上させるチェーン・オブ・ソート(CoT)推論による例ベースのプロンプトである。 しかし、現在のCoT法は人間に注釈を付けた例の固定セットに依存しており、これは必ずしも異なるタスクの最も効果的な例ではない。 本稿では,タスク固有のサンプルプロンプト(人間設計のCoT推論に注釈を付ける)を用いて,LLMを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。 そこで本研究では,タスク固有のクエリのプールからアノテートを行う上で,どの質問が最も重要かつ有用なものかを判断する上で,重要な問題の解決法を提案する。 不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、アノテーションに関する最も不確実な問題を選択するために、不確実性を特徴付ける指標をいくつか導入する。 実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。 さらに, 異なる不確実性指標, プールサイズ, ゼロショット学習, 精度・不確実性関係を解析した結果, 提案手法の有効性が示された。 私たちのコードはhttps://github.com/shizhediao/active-prompt.comで公開されます。

The increasing scale of large language models (LLMs) brings emergent abilities to various complex tasks requiring reasoning, such as arithmetic and commonsense reasoning. It is known that the effective design of task-specific prompts is critical for LLMs' ability to produce high-quality answers. In particular, an effective approach for complex question-and-answer tasks is example-based prompting with chain-of-thought (CoT) reasoning, which significantly improves the performance of LLMs. However, current CoT methods rely on a fixed set of human-annotated exemplars, which are not necessarily the most effective examples for different tasks. This paper proposes a new method, Active-Prompt, to adapt LLMs to different tasks with task-specific example prompts (annotated with human-designed CoT reasoning). For this purpose, we propose a solution to the key problem of determining which questions are the most important and helpful ones to annotate from a pool of task-specific queries. By borrowing ideas from the related problem of uncertainty-based active learning, we introduce several metrics to characterize the uncertainty so as to select the most uncertain questions for annotation. Experimental results demonstrate the superiority of our proposed method, achieving state-of-the-art on eight complex reasoning tasks. Further analyses of different uncertainty metrics, pool sizes, zero-shot learning, and accuracy-uncertainty relationship demonstrate the effectiveness of our method. Our code will be available at https://github.com/shizhediao/active-prompt.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# モード適応線形ユニット(MoLU)

Moderate Adaptive Linear Units (MoLU) ( http://arxiv.org/abs/2302.13696v3 )

ライセンス: Link先を確認
Hankyul Koh, Joon-hyuk Ko, Wonho Jhe, (参考訳) 深層ニューラルネットワークのための新しい高性能アクティベーション関数であるModrate Adaptive Linear Units (MoLU)を提案する。 MoLUはシンプルで美しく強力なアクティベーション関数であり、数百のアクティベーション関数の中で優れたメインアクティベーション関数となる。 MoLU は基本函数からなるので、無限微分同相(すなわち、領域全体の滑らかかつ無限に微分可能)であるだけでなく、訓練時間も減少する。

We propose a new high-performance activation function, Moderate Adaptive Linear Units (MoLU), for the deep neural network. The MoLU is a simple, beautiful and powerful activation function that can be a good main activation function among hundreds of activation functions. Because the MoLU is made up of the elementary functions, not only it is a infinite diffeomorphism (i.e. smooth and infinitely differentiable over whole domains), but also it decreases training time.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# CONFIDE: PDEの文脈差モデリング

CONFIDE: Contextual Finite Differences Modelling of PDEs ( http://arxiv.org/abs/2303.15827v3 )

ライセンス: Link先を確認
Ori Linial, Orly Avner, Dotan Di Castro, (参考訳) 本稿では、学習コンテキストに基づいて、以前に見つからなかったダイナミックスによって生成されたデータサンプルから明示的なPDEを推測する手法を提案する。 トレーニングフェーズは、方程式の形式に関する知識を微分スキームと統合し、推論フェーズは、データサンプルに適合し、信号予測とデータ説明の両方を可能にするPDEを生成する。 本研究は,SOTA法とSOTA法との比較,および溶液の異なるフレーバーを調べたアブレーション研究の広範な実験結果を含む。

We introduce a method for inferring an explicit PDE from a data sample generated by previously unseen dynamics, based on a learned context. The training phase integrates knowledge of the form of the equation with a differential scheme, while the inference phase yields a PDE that fits the data sample and enables both signal prediction and data explanation. We include results of extensive experimentation, comparing our method to SOTA approaches, together with ablation studies that examine different flavors of our solution.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# 直流合成最適化のための不正確なLPAと外接点をもつ行列完備化への応用

An inexact LPA for DC composite optimization and application to matrix completions with outliers ( http://arxiv.org/abs/2303.16822v4 )

ライセンス: Link先を確認
Ting Tao, Ruyu Liu, Shaohua Pan, (参考訳) コンベックス合成最適化問題と非滑らか成分の直流プログラムの拡張として、低ランク行列回復のロバスト因数分解モデルでしばしば発生する直流合成最適化問題について述べる。 この非凸問題と非滑らかな問題に対して、各ステップで計算することで、現在のイテレートにおける目的関数の偏線型化で構築された強凸偏極偏極の非コンパクト最小化を導出し、ポテンシャル関数のクルディカ-\L\"ojasiewicz (KL) 特性の下で生成されたイテレート列の収束を確立する。 特に、合成構造を利用することで、極限点における指数1/2$のKL特性を持つポテンシャル関数に対して検証可能な条件を与えるので、反復列は局所 R-線型収束率を持つ。 最後に,提案したiLPAを,外れ値と非一様サンプリングを含む行列補完に対するロバストな分解モデルに適用し,PAM法との比較により,特に大規模実データにおいて,iLPAの相対誤差とNMAEとの相関性を確認した。

This paper concerns a class of DC composite optimization problems which, as an extension of convex composite optimization problems and DC programs with nonsmooth components, often arises in robust factorization models of low-rank matrix recovery. For this class of nonconvex and nonsmooth problems, we propose an inexact linearized proximal algorithm (iLPA) by computing in each step an inexact minimizer of a strongly convex majorization constructed with a partial linearization of their objective functions at the current iterate, and establish the convergence of the generated iterate sequence under the Kurdyka-\L\"ojasiewicz (KL) property of a potential function. In particular, by leveraging the composite structure, we provide a verifiable condition for the potential function to have the KL property of exponent $1/2$ at the limit point, so for the iterate sequence to have a local R-linear convergence rate. Finally, we apply the proposed iLPA to a robust factorization model for matrix completions with outliers and non-uniform sampling, and numerical comparison with a proximal alternating minimization (PAM) method confirms iLPA yields the comparable relative errors or NMAEs within less running time, especially for large-scale real data.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# BOtied: 連結多変量階数を持つ多目的ベイズ最適化

BOtied: Multi-objective Bayesian optimization with tied multivariate ranks ( http://arxiv.org/abs/2306.00344v2 )

ライセンス: Link先を確認
Ji Won Park, Nataša Tagasovska, Michael Maser, Stephen Ra, Kyunghyun Cho, (参考訳) 多くの科学的および工業的応用は、競合する可能性のある複数の目的を共同で最適化する必要がある。 多目的ベイズ最適化(MOBO)は、パレート最適解を特定するためのサンプリング効率の高いフレームワークである。 MOBOの核心は獲得関数であり、目標間の最良の妥協をナビゲートすることによって次の候補を評価する。 本稿では,非支配解と結合累積分布関数(CDF)の極端量子化との自然な関係を示す。 このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。 BOtiedはCDFの望ましい不変性を継承し、コプラによる効率的な実装により、多くの目的にスケールすることができる。 種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れ,多くの目的に対して計算効率がよいことを示した。

Many scientific and industrial applications require the joint optimization of multiple, potentially competing objectives. Multi-objective Bayesian optimization (MOBO) is a sample-efficient framework for identifying Pareto-optimal solutions. At the heart of MOBO is the acquisition function, which determines the next candidate to evaluate by navigating the best compromises among the objectives. In this paper, we show a natural connection between non-dominated solutions and the extreme quantile of the joint cumulative distribution function (CDF). Motivated by this link, we propose the Pareto-compliant CDF indicator and the associated acquisition function, BOtied. BOtied inherits desirable invariance properties of the CDF, and an efficient implementation with copulas allows it to scale to many objectives. Our experiments on a variety of synthetic and real-world problems demonstrate that BOtied outperforms state-of-the-art MOBO acquisition functions while being computationally efficient for many objectives.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# 古典的および量子的ブラフト・アリモトアルゴリズムのブレグマン近近観

A Bregman Proximal Perspective on Classical and Quantum Blahut-Arimoto Algorithms ( http://arxiv.org/abs/2306.04492v3 )

ライセンス: Link先を確認
Kerry He, James Saunderson, Hamza Fawzi, (参考訳) Blahut-Arimotoアルゴリズムは、古典的なチャネル容量とレート歪み関数を計算するためのよく知られた方法である。 近年の研究では、これらの量の様々な量子アナログを計算するためにこのアルゴリズムを拡張している。 本稿では,Blahut-Arimotoアルゴリズムが,Bregman近位法の一種であるミラー降下の特別な例であり,制約付き凸最適化のための勾配降下のよく研究された一般化について述べる。 近年開発された凸解析ツールを用いて,Blahut-Arimotoアルゴリズムの相対的滑らかさと強い凸性に基づく解析が,既知のサブ線形および線形収束率を回復することを示す。 このブレグマン近位視点は、ブラフト・アリモト型アルゴリズムが直接適用できない情報理論の問題を解くために、類似収束保証付き関連アルゴリズムを導出することができる。 この枠組みは、エネルギー制約付き古典的および量子的チャネル容量、古典的および量子的速度歪み関数、およびエンタングルメントの相対エントロピーの近似を、いずれも証明可能な収束保証とともに計算するために適用される。

The Blahut-Arimoto algorithm is a well-known method to compute classical channel capacities and rate-distortion functions. Recent works have extended this algorithm to compute various quantum analogs of these quantities. In this paper, we show how these Blahut-Arimoto algorithms are special instances of mirror descent, which is a type of Bregman proximal method, and a well-studied generalization of gradient descent for constrained convex optimization. Using recently developed convex analysis tools, we show how analysis based on relative smoothness and strong convexity recovers known sublinear and linear convergence rates for Blahut-Arimoto algorithms. This Bregman proximal viewpoint allows us to derive related algorithms with similar convergence guarantees to solve problems in information theory for which Blahut-Arimoto-type algorithms are not directly applicable. We apply this framework to compute energy-constrained classical and quantum channel capacities, classical and quantum rate-distortion functions, and approximations of the relative entropy of entanglement, all with provable convergence guarantees.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# Pseudo-Negatives を用いた継続的自己監督学習のための正規化

Regularizing with Pseudo-Negatives for Continual Self-Supervised Learning ( http://arxiv.org/abs/2306.05101v2 )

ライセンス: Link先を確認
Sungmin Cha, Kyunghyun Cho, Taesup Moon, (参考訳) 本稿では,Pseudo-Negative Regularization (PNR) フレームワークを提案する。 我々のPNRは,新たに学習した表現が過去の学習と矛盾しないように,モデルに基づく拡張によって得られた擬陰性情報を活用する。 具体的には、InfoNCEに基づくコントラスト学習法において、現在のモデルと過去のモデルから得られた対称擬似負性を定義し、主化損失項と正規化損失項の両方で使用する。 さらに、この考え方を、本質的に否定に依存しない非競合学習手法に拡張する。 これらの方法では、擬陰性はアンカーサンプルの異なる拡張版に対する前のモデルからの出力として定義され、正規化項に非対称に適用される。 CSSLにおける表現学習におけるPNRフレームワークは, 塑性と安定性のトレードオフを効果的にバランスさせることにより, 最先端の表現学習を実現することを示す。

We introduce a novel Pseudo-Negative Regularization (PNR) framework for effective continual self-supervised learning (CSSL). Our PNR leverages pseudo-negatives obtained through model-based augmentation in a way that newly learned representations may not contradict what has been learned in the past. Specifically, for the InfoNCE-based contrastive learning methods, we define symmetric pseudo-negatives obtained from current and previous models and use them in both main and regularization loss terms. Furthermore, we extend this idea to non-contrastive learning methods which do not inherently rely on negatives. For these methods, a pseudo-negative is defined as the output from the previous model for a differently augmented version of the anchor sample and is asymmetrically applied to the regularization term. Extensive experimental results demonstrate that our PNR framework achieves state-of-the-art performance in representation learning during CSSL by effectively balancing the trade-off between plasticity and stability.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# オンライン学習におけるSGDノイズの重要さ

Beyond Implicit Bias: The Insignificance of SGD Noise in Online Learning ( http://arxiv.org/abs/2306.08590v2 )

ライセンス: Link先を確認
Nikhil Vyas, Depen Morwani, Rosie Zhao, Gal Kaplun, Sham Kakade, Boaz Barak, (参考訳) ディープラーニングにおけるSGDの成功は、有限バッチサイズによって誘導される暗黙のバイアス("SGD noise")の先行研究によって説明されている。 オフライン学習(マルチエポック学習)に焦点を当てた先行研究では,オンライン学習(単一エポック学習)におけるSGDノイズの影響について検討した。 画像および言語データの広範な経験的分析を通じて、オンライン学習において、小さなバッチサイズは暗黙のバイアスの利点を示さないことを示した。 オフライン学習とは対照的に、オンライン学習におけるSGDノイズの利点は厳密な計算であり、よりコスト効率の良い勾配ステップを促進する。 これは、オンラインシステムにおけるSGDは、ノイズレス勾配降下アルゴリズムの「ゴールドパス」に沿ってノイズのあるステップを取ることができることを示唆している。 この仮説を考察し、損失空間と関数空間の支持証拠を提供する。 本研究は,SGDの一般的な理解に挑戦し,オンライン学習におけるSGDの役割について新たな知見を提供する。

The success of SGD in deep learning has been ascribed by prior works to the implicit bias induced by finite batch sizes ("SGD noise"). While prior works focused on offline learning (i.e., multiple-epoch training), we study the impact of SGD noise on online (i.e., single epoch) learning. Through an extensive empirical analysis of image and language data, we demonstrate that small batch sizes do not confer any implicit bias advantages in online learning. In contrast to offline learning, the benefits of SGD noise in online learning are strictly computational, facilitating more cost-effective gradient steps. This suggests that SGD in the online regime can be construed as taking noisy steps along the "golden path" of the noiseless gradient descent algorithm. We study this hypothesis and provide supporting evidence in loss and function space. Our findings challenge the prevailing understanding of SGD and offer novel insights into its role in online learning.
翻訳日:2024-06-10 23:04:47 公開日:2024-06-07
# モダリティ融合を損なうビデオQA変換器モデルにおける多重モードの分離

Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion ( http://arxiv.org/abs/2306.08889v3 )

ライセンス: Link先を確認
Ishaan Singh Rawal, Alexander Matyasko, Shantanu Jaiswal, Basura Fernando, Cheston Tan, (参考訳) VideoQA Transformerモデルは、標準ベンチマーク上での競合性能を示すが、その成功の背景にある理由は、完全には理解されていない。 これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? あるいは、バイアスや刺激的な機能を利用して高いスコアを達成できるのでしょうか? そこで我々は, 軽量かつ非パラメトリックなプローブである $\textit{QUAG}$ (QUadrant AveraGe) を設計し, モダリティ融合を損なうことなく, データセットとモデルを組み合わせた表現解析を行う。 モデルはマルチモーダル表現を活用することなく,多くのデータセット上で高い性能を実現する。 QUIGをさらに検証するために、制限されたトークン相互作用による自己アテンションの非表現的な置き換えである$\textit{QUAG-attention}$を設計する。 quaGアテンションを持つモデルは、微調整なしでの乗算演算を著しく少なくして、同様の性能を達成する。 本研究は,従来のモデルが高度に結合されたマルチモーダル表現を学習する能力に疑問を呈するものである。 そこで我々は,実世界の動画を増大させて高モダリティ結合を図ったストレステストデータセットである$\textit{CLAVI}$ (Complements in LAnguage and VIdeo) を設計した。 QUIGの結果と一致して,ほとんどのモデルがCLAVI上でほぼ自明な性能を達成していることがわかった。 これは、現在のデータセット(プロジェクトページ:https://dissect-videoqa.github.io )で評価されない、高度に結合されたマルチモーダル表現を学ぶための現在のモデルの制限を再主張する。

While VideoQA Transformer models demonstrate competitive performance on standard benchmarks, the reasons behind their success are not fully understood. Do these models capture the rich multimodal structures and dynamics from video and text jointly? Or are they achieving high scores by exploiting biases and spurious features? Hence, to provide insights, we design $\textit{QUAG}$ (QUadrant AveraGe), a lightweight and non-parametric probe, to conduct dataset-model combined representation analysis by impairing modality fusion. We find that the models achieve high performance on many datasets without leveraging multimodal representations. To validate QUAG further, we design $\textit{QUAG-attention}$, a less-expressive replacement of self-attention with restricted token interactions. Models with QUAG-attention achieve similar performance with significantly fewer multiplication operations without any finetuning. Our findings raise doubts about the current models' abilities to learn highly-coupled multimodal representations. Hence, we design the $\textit{CLAVI}$ (Complements in LAnguage and VIdeo) dataset, a stress-test dataset curated by augmenting real-world videos to have high modality coupling. Consistent with the findings of QUAG, we find that most of the models achieve near-trivial performance on CLAVI. This reasserts the limitations of current models for learning highly-coupled multimodal representations, that is not evaluated by the current datasets (project page: https://dissect-videoqa.github.io ).
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# 効率的なスペクトル画像分割のためのスパースグラフ定式化

A Sparse Graph Formulation for Efficient Spectral Image Segmentation ( http://arxiv.org/abs/2306.13166v3 )

ライセンス: Link先を確認
Rahul Palnitkar, Jeova Farias Sales Rocha Neto, (参考訳) スペクトルクラスタリングは、セグメンテーション問題を解決する最も伝統的な方法の1つである。 正規化カットに基づいて、グラフで定義された目的関数を使って画像を分割することを目的としている。 数学的魅力にもかかわらず、スペクトルアプローチは実践的な問題や性能の低さから伝統的に科学界によって無視されている。 本稿では,単純なグリッドグラフへの余分なノードの包含に基づくスパースグラフ定式化を採用する。 グリッドは画素空間配置を符号化する一方、余分なノードは画素色データを管理する。 元の正規化カットアルゴリズムをこのグラフに適用すると、解釈可能な解を持つスペクトル画像分割の単純でスケーラブルな方法が導かれる。 また, 提案手法は, 実データと合成データのセグメンテーションにおいて, 従来の非教師付きアルゴリズムと近代的アルゴリズムの両方を実行することを実証した。

Spectral Clustering is one of the most traditional methods to solve segmentation problems. Based on Normalized Cuts, it aims at partitioning an image using an objective function defined by a graph. Despite their mathematical attractiveness, spectral approaches are traditionally neglected by the scientific community due to their practical issues and underperformance. In this paper, we adopt a sparse graph formulation based on the inclusion of extra nodes to a simple grid graph. While the grid encodes the pixel spatial disposition, the extra nodes account for the pixel color data. Applying the original Normalized Cuts algorithm to this graph leads to a simple and scalable method for spectral image segmentation, with an interpretable solution. Our experiments also demonstrate that our proposed methodology over performs both traditional and modern unsupervised algorithms for segmentation in both real and synthetic data.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# 深層強化学習による未知環境における被覆経路の学習

Learning Coverage Paths in Unknown Environments with Deep Reinforcement Learning ( http://arxiv.org/abs/2306.16978v4 )

ライセンス: Link先を確認
Arvi Jonnarth, Jie Zhao, Michael Felsberg, (参考訳) カバー・パス・プランニング(CPP)は、ロボット芝刈りから捜索・救助まで、限られた地域の自由空間全体をカバーする経路を見つける問題である。 環境が不明な場合、環境をマッピングしながら経路をオンラインに計画する必要があるが、柔軟な経路空間を許さないオフラインの計画手法では対処できない。 本稿では,この課題に対する強化学習の適当性について検討し,アクション空間,入力特徴表現,ニューラルネットワークアーキテクチャ,報酬関数などのカバレッジパスを効率的に学習するために必要なコンポーネントを分析した。 本稿では,フロンティアに基づく計算可能なエゴセントリックマップ表現と,全変動に基づく新たな報酬項を提案する。 広範にわたる実験により,本手法は従来のRLに基づくアプローチと,複数のCPP変動にまたがる高度に特殊な手法の両方の性能を上回ることを示した。

Coverage path planning (CPP) is the problem of finding a path that covers the entire free space of a confined area, with applications ranging from robotic lawn mowing to search-and-rescue. When the environment is unknown, the path needs to be planned online while mapping the environment, which cannot be addressed by offline planning methods that do not allow for a flexible path space. We investigate how suitable reinforcement learning is for this challenging problem, and analyze the involved components required to efficiently learn coverage paths, such as action space, input feature representation, neural network architecture, and reward function. We propose a computationally feasible egocentric map representation based on frontiers, and a novel reward term based on total variation to promote complete coverage. Through extensive experiments, we show that our approach surpasses the performance of both previous RL-based approaches and highly specialized methods across multiple CPP variations.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# MDViT:小型医用画像分割データセット用マルチドメインビジョントランス

MDViT: Multi-domain Vision Transformer for Small Medical Image Segmentation Datasets ( http://arxiv.org/abs/2307.02100v3 )

ライセンス: Link先を確認
Siyi Du, Nourhan Bayasi, Ghassan Hamarneh, Rafeef Garbi, (参考訳) 臨床的有用性にもかかわらず、医用画像分割(MIS)は画像固有の複雑さと変動性のため、困難な作業である。 ビジョントランスフォーマー(ViT)は最近、MISを改善するための有望なソリューションとして登場したが、畳み込みニューラルネットワークよりも大規模なトレーニングデータセットを必要とする。 この障害を克服するために、データ効率のよいViTが提案されたが、通常は単一のデータソースを使用してトレーニングされている。 異なるドメインからのデータセットを組み合わせることは、負の知識伝達(NKT)、すなわち、無視できないドメイン間不均一性を持ついくつかのドメインにおけるモデル性能の低下をもたらす。 本稿では,複数の小さなデータリソース(ドメイン)の知識を適応的に活用することにより,データハンガーを緩和し,NKTと戦うためのドメインアダプタを含む,最初のマルチドメイン ViT である MDViT を提案する。 さらに、ドメイン間の表現学習を強化するために、普遍的なネットワーク(全てのドメインを拡大する)と補助的なドメイン固有のブランチの間で知識を伝達する相互知識蒸留パラダイムを統合する。 4つの皮膚病変セグメンテーションデータセットの実験により、MDViTは、より多くのドメインを追加しても推論時に、より優れたセグメンテーション性能と固定モデルサイズで最先端のアルゴリズムより優れていることが示された。 私たちのコードはhttps://github.com/siyi-wind/MDViT.comで利用可能です。

Despite its clinical utility, medical image segmentation (MIS) remains a daunting task due to images' inherent complexity and variability. Vision transformers (ViTs) have recently emerged as a promising solution to improve MIS; however, they require larger training datasets than convolutional neural networks. To overcome this obstacle, data-efficient ViTs were proposed, but they are typically trained using a single source of data, which overlooks the valuable knowledge that could be leveraged from other available datasets. Naivly combining datasets from different domains can result in negative knowledge transfer (NKT), i.e., a decrease in model performance on some domains with non-negligible inter-domain heterogeneity. In this paper, we propose MDViT, the first multi-domain ViT that includes domain adapters to mitigate data-hunger and combat NKT by adaptively exploiting knowledge in multiple small data resources (domains). Further, to enhance representation learning across domains, we integrate a mutual knowledge distillation paradigm that transfers knowledge between a universal network (spanning all the domains) and auxiliary domain-specific branches. Experiments on 4 skin lesion segmentation datasets show that MDViT outperforms state-of-the-art algorithms, with superior segmentation performance and a fixed model size, at inference time, even as more domains are added. Our code is available at https://github.com/siyi-wind/MDViT.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# 2層ReLUニューラルネットワークによる確率的マルチタスク表現学習

Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks ( http://arxiv.org/abs/2307.06887v5 )

ライセンス: Link先を確認
Liam Collins, Hamed Hassani, Mahdi Soltanolkotabi, Aryan Mokhtari, Sanjay Shakkottai, (参考訳) ますます人気のある機械学習パラダイムは、多くのタスクでニューラルネットワーク(NN)をオフラインで事前トレーニングし、ダウンストリームタスクに適応させることである。 このアプローチは様々な文脈において強力なダウンストリーム性能をもたらし、マルチタスク事前学習が効果的な特徴学習につながることを示す。 最近のいくつかの理論的研究は、浅いNNはいずれかが有意義な特徴を学習していることを示している。 i) 単調なタスクで訓練されるか (ii)これらは線型であり、非線型NNが複数のタスクで訓練された場合についてはほとんど知られていない。 本研究では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。 私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。 この結果から,2層 ReLU NN 上の単純な勾配に基づくマルチタスク学習アルゴリズムにより,データを$d\gg r$-dimensional 入力空間内の$r$-dimensional 部分空間に投影した値に依存したラベル付きバイナリ分類タスクが,このプロジェクションを復元し,サンプルとニューロンの複雑さを$d$と独立にダウンストリームタスクに一般化できることが示唆された。 対照的に、1つのタスクの引き分けよりも高い確率で、この1つのタスクのトレーニングは、すべての$r$グランドトルース機能を学ぶことを保証できない。

An increasingly popular machine learning paradigm is to pretrain a neural network (NN) on many tasks offline, then adapt it to downstream tasks, often by re-training only the last linear layer of the network. This approach yields strong downstream performance in a variety of contexts, demonstrating that multitask pretraining leads to effective feature learning. Although several recent theoretical studies have shown that shallow NNs learn meaningful features when either (i) they are trained on a {\em single} task or (ii) they are {\em linear}, very little is known about the closer-to-practice case of {\em nonlinear} NNs trained on {\em multiple} tasks. In this work, we present the first results proving that feature learning occurs during training with a nonlinear model on multiple tasks. Our key insight is that multi-task pretraining induces a pseudo-contrastive loss that favors representations that align points that typically have the same label across tasks. Using this observation, we show that when the tasks are binary classification tasks with labels depending on the projection of the data onto an $r$-dimensional subspace within the $d\gg r$-dimensional input space, a simple gradient-based multitask learning algorithm on a two-layer ReLU NN recovers this projection, allowing for generalization to downstream tasks with sample and neuron complexity independent of $d$. In contrast, we show that with high probability over the draw of a single task, training on this single task cannot guarantee to learn all $r$ ground-truth features.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# 単一領域一般化のための新しいクロス摂動法

A Novel Cross-Perturbation for Single Domain Generalization ( http://arxiv.org/abs/2308.00918v2 )

ライセンス: Link先を確認
Dongjia Zhao, Lei Qi, Xiao Shi, Yinghuan Shi, Xin Geng, (参考訳) 単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。 しかし、訓練データの限られた多様性は、ドメイン不変の特徴の学習を妨げ、一般化性能を損なう結果となった。 これを解決するために、データの摂動(増大)がデータの多様性を高める重要な方法として浮上した。 それにもかかわらず、既存の摂動法は画像レベルの摂動と特徴レベルの摂動に独立して焦点を合わせ、その相乗効果を無視することが多い。 これらの制限を克服するために,CPerbを提案する。 具体的には、CPerbは水平操作と垂直操作の両方を利用する。 水平的に、トレーニングデータの多様性を高めるために画像レベルと特徴レベルの摂動を適用し、単一ソースドメインにおける限られた多様性の問題を軽減する。 垂直的には、同じ意味圏を持つサンプルの異なる視点からドメイン不変性を学ぶために、マルチルート摂動を導入し、モデルの一般化能力を高める。 さらに、ローカル画像スタイル情報を利用してトレーニングデータをさらに多様化する特徴レベルの摂動手法であるMixPatchを提案する。 各種ベンチマークデータセットの大規模な実験により,本手法の有効性が検証された。

Single domain generalization aims to enhance the ability of the model to generalize to unknown domains when trained on a single source domain. However, the limited diversity in the training data hampers the learning of domain-invariant features, resulting in compromised generalization performance. To address this, data perturbation (augmentation) has emerged as a crucial method to increase data diversity. Nevertheless, existing perturbation methods often focus on either image-level or feature-level perturbations independently, neglecting their synergistic effects. To overcome these limitations, we propose CPerb, a simple yet effective cross-perturbation method. Specifically, CPerb utilizes both horizontal and vertical operations. Horizontally, it applies image-level and feature-level perturbations to enhance the diversity of the training data, mitigating the issue of limited diversity in single-source domains. Vertically, it introduces multi-route perturbation to learn domain-invariant features from different perspectives of samples with the same semantic category, thereby enhancing the generalization capability of the model. Additionally, we propose MixPatch, a novel feature-level perturbation method that exploits local image style information to further diversify the training data. Extensive experiments on various benchmark datasets validate the effectiveness of our method.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# マイクロ波光子校正のための二次元プランク分光法

Two-dimensional Planck spectroscopy for microwave photon calibration ( http://arxiv.org/abs/2308.02389v2 )

ライセンス: Link先を確認
S. Gandorfer, M. Renger, W. K. Yam, F. Fesquet, A. Marx, R. Gross, K. G. Fedorov, (参考訳) 弱いマイクロ波信号の量子状態トモグラフィーは超伝導回路を用いた量子情報処理における多くのプロトコルの重要な部分である。 このステップは通常、実験的なセットアップにおける信号損失の正確な$\textit{in-situ}$推定に依存し、慎重に光子数を校正する必要がある。 本稿では, 閉冷凍システム内におけるマイクロ波損失推定法の改良について述べる。 当社のアプローチはプランクの法則に基づいており、低温設定の個々の部分の独立した温度上昇を利用する。 この手法を用いることで,低温環境下でのマイクロ波損失の0.1dB以下の変化を実験的に解決することができる。 本稿では, 量子制限型超伝導増幅器の高精度なキャラクタリゼーションと, その他の顕著な実験環境における本手法の適用可能性について論じる。

Quantum state tomography of weak microwave signals is an important part of many protocols in the field of quantum information processing with superconducting circuits. This step typically relies on an accurate $\textit{in-situ}$ estimation of signal losses in the experimental set-up and requires a careful photon number calibration. Here, we present an improved method for the microwave loss estimation inside of a closed cryogenic system. Our approach is based on Planck's law and makes use of independent temperature sweeps of individual parts of the cryogenic set-up. Using this technique, we can experimentally resolve changes in microwave losses of less than 0.1 dB in the cryogenic environment. We discuss potential applications of this approach for precise characterization of quantum-limited superconducting amplifiers and in other prominent experimental settings.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# SZZ実装の評価:Linuxカーネルに関する実証的研究

Evaluating SZZ Implementations: An Empirical Study on the Linux Kernel ( http://arxiv.org/abs/2308.05060v2 )

ライセンス: Link先を確認
Yunbo Lyu, Hong Jin Kang, Ratnadira Widyasari, Julia Lawall, David Lo, (参考訳) SZZアルゴリズムはバグ修正コミットとバグを導入した以前のコミットを接続するために使用される。 このアルゴリズムには多くの応用があり、多くの変種が考案されている。 しかし、SZZアルゴリズムでは追跡できないいくつかのタイプのコミットがあり、"ghost commits"と呼ばれている。 これらのゴーストコミットがSZZアルゴリズムに与える影響の評価は依然として限られている。 さらに、これらのアルゴリズムは、バグトラッカーやバージョン管理履歴の情報から、ソフトウェア工学研究者によって作成されたデータセットに基づいて評価されている。 2013年10月以降、Linuxカーネル開発者は、標準のプラクティスとして、対応するバグ誘発コミット(s)のコミット識別子にバグ修正パッチをラベル付けし始めた。 v6.1-rc5では、76,046対のバグ修正パッチとバグ発生コミットが利用可能である。 これは、ソフトウェアエンジニアリング研究者のバイアスとは独立して、プロジェクト開発者によって作成、レビューされた大規模なデータセット上でSZZアルゴリズムを評価するユニークな機会を提供する。 本稿では6つのSZZアルゴリズムを76,046対のバグ修正パッチとLinuxカーネルからのバグ導入コミットに適用する。 以上の結果から,SZZアルゴリズムは,Rosaらによる以前の結果と比較して,データセットのリコール率(13.8%)が大幅に低下し,個々のSZZアルゴリズム間の差異が減少していることが判明した。 さらに、バグ修正コミットの17.47%がゴーストコミットであることがわかった。 最後に,Tracing-Commit SZZ (TC-SZZ)を提案する。 TC-SZZをゴーストコミットを除くすべての障害事例に適用すると、T-SZZが17.7%を特定できることがわかった。 我々のさらなる分析によると、34.6%のバグ誘発コミットが関数履歴にあり、27.5%はファイル履歴にある(ただし関数履歴には含まれていない)。

The SZZ algorithm is used to connect bug-fixing commits to the earlier commits that introduced bugs. This algorithm has many applications and many variants have been devised. However, there are some types of commits that cannot be traced by the SZZ algorithm, referred to as "ghost commits". The evaluation of how these ghost commits impact the SZZ algorithm remains limited. Moreover, these algorithms have been evaluated on datasets created by software engineering researchers from information in bug trackers and version controlled histories. Since Oct 2013, the Linux kernel developers have started labelling bug-fixing patches with the commit identifiers of the corresponding bug-inducing commit(s) as a standard practice. As of v6.1-rc5, 76,046 pairs of bug-fixing patches and bug-inducing commits are available. This provides a unique opportunity to evaluate the SZZ algorithm on a large dataset that has been created and reviewed by project developers, entirely independently of the biases of software engineering researchers. In this paper, we apply six SZZ algorithms to 76,046 pairs of bug-fixing patches and bug-introducing commits from the Linux kernel. Our findings reveal that SZZ algorithms experience a more significant decline in recall on our dataset (13.8%) as compared to prior findings reported by Rosa et al., and the disparities between the individual SZZ algorithms diminish. Moreover, we find that 17.47% of bug-fixing commits are ghost commits. Finally, we propose Tracing-Commit SZZ (TC-SZZ), that traces all commits in the change history of lines modified or deleted in bug-fixing commits. Applying TC-SZZ to all failure cases, excluding ghost commits, we found that TC-SZZ could identify 17.7% of them. Our further analysis found that 34.6% of bug-inducing commits were in the function history, 27.5% in the file history (but not in the function history), and...
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# パラメトリック不安定性からのバックアクション回避計測の保護

Protecting backaction-evading measurements from parametric instability ( http://arxiv.org/abs/2308.09168v5 )

ライセンス: Link先を確認
E. P. Ruddy, Y. Jiang, N. E. Frattini, K. O. Quinlan, K. W. Lehnert, (参考訳) パラメトリック結合型発振器系における1つの二次状態の無雑音測定は、2つの発振器の総和と差分周波数をポンピングすることで理論的に可能であり、バックアクション回避(BAE)方式を実現することができる。 これは純粋な3波混合システムにおいて最も単純なシナリオでは当てはまるが、この方式の実装は、システムの不安定化とノイズの追加という不要な高次パラメトリックプロセスによって妨げられる。 総和と差分周波数から2つのポンプを変形させることでシステムを安定させ,BAE性能を回復し,非アクセス不能な協調動作の操作を可能にすることを解析的に示す。 また,弱い信号検出実験(PRX QUANTUM 4, 020302 (2023))で示された加速度は,このデチューニング技術により達成可能であることを示した。

Noiseless measurement of a single quadrature in systems of parametrically coupled oscillators is theoretically possible by pumping at the sum and difference frequencies of the two oscillators, realizing a backaction-evading (BAE) scheme. Although this would hold true in the simplest scenario for a system with pure three-wave mixing, implementations of this scheme are hindered by unwanted higher-order parametric processes that destabilize the system and add noise. We show analytically that detuning the two pumps from the sum and difference frequencies can stabilize the system and fully recover the BAE performance, enabling operation at otherwise inaccessible cooperativities. We also show that the acceleration demonstrated in a weak signal detection experiment [PRX QUANTUM 4, 020302 (2023)] was only achievable because of this detuning technique.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# ASPIRE:スプリアス相関に対するロバスト性向上のための言語指導型データ拡張

ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations ( http://arxiv.org/abs/2308.10103v3 )

ライセンス: Link先を確認
Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi, Sakshi Singh, Sanjoy Chowdhury, Dinesh Manocha, (参考訳) ニューラルイメージ分類器は、トレーニングデータ内のクラスラベルと突発的に相関する非予測的特徴を過度に頼って予測を行うことで、しばしば学習することができる。 これにより、そのような機能が欠落している現実世界の非定型シナリオでは、パフォーマンスが低下する。 本稿では,SPurious correlation Removalを用いたASPIRE(Language-guided Data Augmentation for SPurious correlation Removal)を提案する。 言語によって様々なステップでガイドされるASPIREは、トレーニングセットにグループラベルや既存の非スパース画像を必要とせずに、非スパース画像を生成することができる。 より正確には、画像のテキスト記述から前景と背景の特徴を抽出するためにLLMを使用し、その後、高度な言語誘導画像編集を行い、クラスラベルと突発的に相関する特徴を発見する。 最後に、編集画像を用いてテキスト・画像生成モデルをパーソナライズし、素早い特徴を伴わずに多様なドメイン内画像を生成する。 ASPIREは文献における従来の頑健なトレーニング手法を補完するものであり、4つのデータセットと9つのベースラインにまたがる有効性を実証し、ASPIREが先行手法の最悪のグループ分類精度を1%から38%改善することを示す。 また、挑戦的なHard ImageNetデータセットのための新しいテストセットも提供します。

Neural image classifiers can often learn to make predictions by overly relying on non-predictive features that are spuriously correlated with the class labels in the training data. This leads to poor performance in real-world atypical scenarios where such features are absent. This paper presents ASPIRE (Language-guided Data Augmentation for SPurIous correlation REmoval), a simple yet effective solution for supplementing the training dataset with images without spurious features, for robust learning against spurious correlations via better generalization. ASPIRE, guided by language at various steps, can generate non-spurious images without requiring any group labeling or existing non-spurious images in the training set. Precisely, we employ LLMs to first extract foreground and background features from textual descriptions of an image, followed by advanced language-guided image editing to discover the features that are spuriously correlated with the class label. Finally, we personalize a text-to-image generation model using the edited images to generate diverse in-domain images without spurious features. ASPIRE is complementary to all prior robust training methods in literature, and we demonstrate its effectiveness across 4 datasets and 9 baselines and show that ASPIRE improves the worst-group classification accuracy of prior methods by 1% - 38%. We also contribute a novel test set for the challenging Hard ImageNet dataset.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# 組込みシステムにおけるリアルタイム単眼深度推定

Real-time Monocular Depth Estimation on Embedded Systems ( http://arxiv.org/abs/2308.10569v2 )

ライセンス: Link先を確認
Cheng Feng, Congxuan Zhang, Zhen Chen, Weiming Hu, Liyue Ge, (参考訳) 深度検知は無人航空機や自律車両にとって最重要課題である。 それにもかかわらず、畳み込みニューラルネットワーク内の複雑なディープニューラルネットワークを用いた現代の単眼深度推定法は、組込みプラットフォーム上でのリアルタイム推論に不適当である。 本稿では,RT-MonoDepth と RT-MonoDepth-S という2つの効率的かつ軽量なアーキテクチャを提案し,計算複雑性とレイテンシの低減を図る。 提案手法は,従来の深度推定法に匹敵する精度を得るだけでなく,より高速な推論速度が得られる。 具体的には、RT-MonoDepthとRT-MonoDepth-SはNVIDIA Jetson Nanoで18.4&30.5 FPS、Jetson AGX Orinで253.0&364.1 FPS、解像度640x192のRGB画像を使用する。 実験結果は,KITTIデータセット上の既存の高速な単分子深度推定手法と比較して,提案手法の精度と高速な推測速度を裏付けるものである。

Depth sensing is of paramount importance for unmanned aerial and autonomous vehicles. Nonetheless, contemporary monocular depth estimation methods employing complex deep neural networks within Convolutional Neural Networks are inadequately expedient for real-time inference on embedded platforms. This paper endeavors to surmount this challenge by proposing two efficient and lightweight architectures, RT-MonoDepth and RT-MonoDepth-S, thereby mitigating computational complexity and latency. Our methodologies not only attain accuracy comparable to prior depth estimation methods but also yield faster inference speeds. Specifically, RT-MonoDepth and RT-MonoDepth-S achieve frame rates of 18.4&30.5 FPS on NVIDIA Jetson Nano and 253.0&364.1 FPS on Jetson AGX Orin, utilizing a single RGB image of resolution 640x192. The experimental results underscore the superior accuracy and faster inference speed of our methods in comparison to existing fast monocular depth estimation methodologies on the KITTI dataset.
翻訳日:2024-06-10 21:06:02 公開日:2024-06-07
# 拡張コンパスモデルにおけるサブシステム対称性、臨界ボース面、および非移動励起

Subsystem symmetries, critical Bose surface, and immobile excitations in an extended compass model ( http://arxiv.org/abs/2309.08300v3 )

ライセンス: Link先を確認
Zhidan Li, Chun-Jiong Huang, Changle Liu, Hai-Zhou Lu, (参考訳) サブシステム対称性をホストする拡張コンパスモデルを提案し、3d遷移金属化合物との潜在的な実験的関連性を示す。 サブシステム対称性はスピン励起の移動性を強く制限し、重大な結果をもたらす。 量子臨界点では、$k_x$と$k_y$軸全体に沿って「臨界ボース曲面」が存在することが分かる。 そこでは、低温でネマティック不安定となるノルダルラインのスピン液体が見つかる。 強四極子相では、1つの励起が個別に「フラクトン」に類似していることが分かる。

We propose an extended compass model that hosts subsystem symmetries and has potential experimental relevance with 3d transition metal compounds. The subsystem symmetries strongly constrain the mobility of spin excitations and lead to profound consequences. At the quantum critical point we find the presence of "critical Bose surface" along the entire $k_x$ and $k_y$ axis. Across which we find a nodal-line spin liquid that undergoes nematic instability at low temperatures. In the ferro-quadrupole phase, we find that one excitation is immobile individually analogous to "fractons".
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# 最適な契約を学習する:小さなアクションスペースを爆発させる方法

Learning Optimal Contracts: How to Exploit Small Action Spaces ( http://arxiv.org/abs/2309.09801v4 )

ライセンス: Link先を確認
Francesco Bacchiocchi, Matteo Castiglioni, Alberto Marchesi, Nicola Gatti, (参考訳) 契約と呼ばれる結果依存型支払いスキームに主目的がコミットする主目的問題について検討し、エージェントに費用がかかる、観察不能な行動を起こさせ、有利な結果をもたらすよう誘導する。 我々は、主成分が複数のラウンドの契約にコミットすることでエージェントと相互作用する問題の古典的(単ラウンド)バージョンの一般化を考える。 プリンシパルはエージェントに関する情報を持っておらず、各ラウンドで実現した結果のみを観察することで最適な契約を学ばなければなりません。 エージェントのアクション空間のサイズが小さい設定に焦点を当てる。 動作数が一定である場合, 結果空間の大きさの多数の円多項式において, 確率の高いほぼ最適契約を学習するアルゴリズムを設計する。 我々のアルゴリズムは Zhu et al [2022] によるオープンな問題を解く。 さらに、関連するオンライン学習環境に$\tilde{\mathcal{O}}(T^{4/5})$ regret boundを提供するためにも使用できる。

We study principal-agent problems in which a principal commits to an outcome-dependent payment scheme -- called contract -- in order to induce an agent to take a costly, unobservable action leading to favorable outcomes. We consider a generalization of the classical (single-round) version of the problem in which the principal interacts with the agent by committing to contracts over multiple rounds. The principal has no information about the agent, and they have to learn an optimal contract by only observing the outcome realized at each round. We focus on settings in which the size of the agent's action space is small. We design an algorithm that learns an approximately-optimal contract with high probability in a number of rounds polynomial in the size of the outcome space, when the number of actions is constant. Our algorithm solves an open problem by Zhu et al.[2022]. Moreover, it can also be employed to provide a $\tilde{\mathcal{O}}(T^{4/5})$ regret bound in the related online learning setting in which the principal aims at maximizing their cumulative utility, thus considerably improving previously-known regret bounds.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# スクリーンだけ見る:マルチモーダル・チェーン・オブ・アクション・エージェント

You Only Look at Screens: Multimodal Chain-of-Action Agents ( http://arxiv.org/abs/2309.11436v4 )

ライセンス: Link先を確認
Zhuosheng Zhang, Aston Zhang, (参考訳) 自律型グラフィカルユーザインタフェース(GUI)エージェントは、手作業による介入なしにユーザインタフェースと対話することで、タスクの自動化を促進することを目的としている。 近年,多様な環境において,大規模言語モデル(LLM)を効果的に活用する能力について検討している。 LLMの入出力要件に合わせて、既存のほとんどのアプローチはサンドボックス環境下で開発され、外部ツールやアプリケーション固有のAPIに依存して、環境をテキスト要素に解析し、予測されたアクションを解釈する。 その結果、これらのアプローチは推論の非効率性とエラーの伝播リスクに悩まされることが多い。 課題を軽減するため、私たちはAuto-GUIを導入しました。Auto-GUIはインターフェースと直接対話するマルチモーダルソリューションで、環境解析やアプリケーション依存APIへの依存を回避します。 さらに、エージェントが実行すべきアクションを決定するのを助けるために、一連の中間的なアクション履歴と将来のアクション計画を活用するチェーン・オブ・アクション手法を提案する。 我々は,アプリケーション操作やWeb検索,Webショッピングといったマルチステップタスクにまたがる,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。 実験の結果,Auto-GUIは動作型予測精度90\%,総合動作成功率74\%で最先端性能を達成することがわかった。 コードはhttps://github.com/cooelf/Auto-GUIで公開されている。

Autonomous graphical user interface (GUI) agents aim to facilitate task automation by interacting with the user interface without manual intervention. Recent studies have investigated eliciting the capabilities of large language models (LLMs) for effective engagement in diverse environments. To align with the input-output requirement of LLMs, most existing approaches are developed under a sandbox setting where they rely on external tools and application-specific APIs to parse the environment into textual elements and interpret the predicted actions. Consequently, those approaches often grapple with inference inefficiency and error propagation risks. To mitigate the challenges, we introduce Auto-GUI, a multimodal solution that directly interacts with the interface, bypassing the need for environment parsing or reliance on application-dependent APIs. Moreover, we propose a chain-of-action technique -- leveraging a series of intermediate previous action histories and future action plans -- to help the agent decide what action to execute. We evaluate our approach on a new device-control benchmark AITW with 30$K$ unique instructions, spanning multi-step tasks such as application operation, web searching, and web shopping. Experimental results show that Auto-GUI achieves state-of-the-art performance with an action type prediction accuracy of 90\% and an overall action success rate of 74\%. Code is publicly available at https://github.com/cooelf/Auto-GUI.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# ダイナミック-k混合スペクトル変換による活性化空間の爆発的生成

Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion ( http://arxiv.org/abs/2310.04361v3 )

ライセンス: Link先を確認
Filip Szatkowski, Bartosz Wójcik, Mikołaj Piórczyński, Simone Scardapane, (参考訳) トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。 同時に、これらのモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる、かなりのアクティベーション間隔を示す。 活性化空間が果たす重要な役割にもかかわらず、そのプロセスに対する影響は未解明のままである。 特に, 基本モデルの活性化間隔を適切に正規化することにより, 変換効率を大幅に向上できることを示す。 さらに、異なる入力に対する活性化ニューロン数のばらつきが大きいことから、より効果的な動的k専門家選択規則を導入する。 最後に,本手法をマルチヘッド・アテンション・プロジェクションに拡張し,FFNブロックのみを変換した場合に比べて余分な節約効果が得られた。 提案手法であるDense to Dynamic-$k$ Mixture-of-Experts (D2DMoE) は、一般的なNLPや視覚タスクにおける既存の手法よりも優れており、モデルの性能に大きな影響を与えずに最大60%の推論コストを節約できる。

Transformer models can face practical limitations due to their high computational requirements. At the same time, such models exhibit significant activation sparsity, which can be leveraged to reduce the inference cost by converting parts of the network into equivalent Mixture-of-Experts (MoE) layers. Despite the crucial role played by activation sparsity, its impact on this process remains unexplored. In particular, we show that the efficiency of the conversion can be significantly enhanced by a proper regularization of the activation sparsity of the base model. Moreover, motivated by the high variance of the number of activated neurons for different inputs, we introduce a more effective dynamic-k expert selection rule that adjusts the number of executed experts on a per-token basis. Finally, we extend this approach to multi-head attention projections, which results in additional savings compared to only converting the FFN blocks. The proposed method, Dense to Dynamic-$k$ Mixture-of-Experts (D2DMoE), outperforms existing approaches on common NLP and vision tasks, allowing us to save up to 60% of inference cost without significantly affecting model performance.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# Chat Vector: 新しい言語における命令追従とモデルアライメントを備えたLLMの取得方法

Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages ( http://arxiv.org/abs/2310.04799v3 )

ライセンス: Link先を確認
Shih-Cheng Huang, Pin-Zu Li, Yu-Chi Hsu, Kuang-Ming Chen, Yu Tung Lin, Shih-Kai Hsiao, Richard Tzong-Han Tsai, Hung-yi Lee, (参考訳) 近年,オープンソースの大規模言語モデル (LLM) の開発が急速に進んでいる。 それでも、データ制約のため、ほとんどのオープンソースLLMの機能は、主に英語に焦点を当てている。 この問題に対処するために、簡単なモデル演算による命令追従と人間の値アライメントを備えた事前学習言語モデルに$\textit{chat vector}$という概念を導入する。 チャットベクトルは、トレーニング済みベースモデル(eg LLaMA2)の重みを、対応するチャットモデル(eg LLaMA2-chat)の重みから引いたものである。 継続した事前学習モデルの重み付けにチャットベクトルを追加するだけで、さらなるトレーニングを必要とせずに、新しい言語でチャット機能を備えたモデルを実現することができる。 本研究は,3つの異なる側面から,チャットベクトルの優れた有効性を示すものである。 さらに,本手法の適応性を示すため,様々な言語,ベースモデル,チャットベクトルを含む実験を拡張した。 その結果、チャットベクターの単純さ、有効性、幅広い適用性を強調し、事前訓練された言語モデルで会話機能を有効にするための魅力的なソリューションとなった。 私たちのコードはhttps://github.com/aqweteddy/ChatVector.comから入手可能です。

Recently, the development of open-source large language models (LLMs) has advanced rapidly. Nevertheless, due to data constraints, the capabilities of most open-source LLMs are primarily focused on English. To address this issue, we introduce the concept of $\textit{chat vector}$ to equip pre-trained language models with instruction following and human value alignment via simple model arithmetic. The chat vector is derived by subtracting the weights of a pre-trained base model (e.g. LLaMA2) from those of its corresponding chat model (e.g. LLaMA2-chat). By simply adding the chat vector to a continual pre-trained model's weights, we can endow the model with chat capabilities in new languages without the need for further training. Our empirical studies demonstrate the superior efficacy of the chat vector from three different aspects: instruction following, toxicity mitigation, and multi-turn dialogue. Moreover, to showcase the adaptability of our approach, we extend our experiments to encompass various languages, base models, and chat vectors. The results underscore the chat vector's simplicity, effectiveness, and wide applicability, making it a compelling solution for efficiently enabling conversational capabilities in pre-trained language models. Our code is available at https://github.com/aqweteddy/ChatVector.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# 教師付き微調整データ構成による大規模言語モデルの能力への影響

How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition ( http://arxiv.org/abs/2310.05492v4 )

ライセンス: Link先を確認
Guanting Dong, Hongyi Yuan, Keming Lu, Chengpeng Li, Mingfeng Xue, Dayiheng Liu, Wei Wang, Zheng Yuan, Chang Zhou, Jingren Zhou, (参考訳) 膨大な事前学習トークンとパラメータを持つ大規模言語モデル(LLM)は、算術推論、コード生成、命令追従を含む多様な能力が出現する。 これらの機能は、教師付き微調整(SFT)によってさらに強化される。 オープンソースコミュニティは、個々の能力を向上するためのアドホックなSFTを探してきたが、プロプライエタリなLLMは様々なスキルにまたがって多芸性を示している。 したがって、SFTを介して複数の能力の促進を理解することが最重要である。 本研究では,SFTにおける数学的推論,コード生成,一般人適応能力間のデータ合成の相互作用に着目した。 そこで本研究では,データ量,構成比,モデルサイズ,SFT戦略など,モデル性能と諸要因との関連性を検討するために,興味深い4つの研究課題を提案する。 我々の実験では、異なる能力のスケールが異なり、より大きなモデルでは、通常、同じ量のデータで優れたパフォーマンスを示す。 数学的推論とコード生成はデータ量の増加とともに一貫して改善され、一般的な能力プラトーは約1000のサンプルが得られた。 さらに,データ構成が限られたデータ条件下で様々な能力を増強するように見えるのを観察するが,データが豊富である場合には性能上の矛盾を生じさせる可能性がある。 また, コンポジションデータの量は, コンポジション比よりも性能に影響を及ぼすことが示唆された。 SFT 戦略の分析において,複数のスキルを逐次学習すると破滅的な忘れが生ずることが判明した。 提案したDual-stage Mixed Fine-tuning(DMT)戦略は,異なるスケーリングパターンで複数の能力を学ぶための,有望なソリューションを提供する。

Large language models (LLMs) with enormous pre-training tokens and parameters emerge diverse abilities, including math reasoning, code generation, and instruction following. These abilities are further enhanced by supervised fine-tuning (SFT). While the open-source community has explored ad-hoc SFT for enhancing individual capabilities, proprietary LLMs exhibit versatility across various skills. Therefore, understanding the facilitation of multiple abilities via SFT is paramount. In this study, we specifically focuses on the interplay of data composition between mathematical reasoning, code generation, and general human-aligning abilities during SFT. We propose four intriguing research questions to explore the association between model performance and various factors including data amount, composition ratio, model size and SFT strategies. Our experiments reveal that distinct capabilities scale differently and larger models generally show superior performance with same amount of data. Mathematical reasoning and code generation consistently improve with increasing data amount, whereas general abilities plateau after roughly a thousand samples. Moreover, we observe data composition appears to enhance various abilities under limited data conditions, yet can lead to performance conflicts when data is plentiful. Our findings also suggest the amount of composition data influences performance more than the composition ratio. In analysis of SFT strategies, we find that sequentially learning multiple skills risks catastrophic forgetting. Our proposed Dual-stage Mixed Fine-tuning (DMT) strategy offers a promising solution to learn multiple abilities with different scaling patterns.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# 時間的行動検出のための境界離散化と信頼性分類網

Boundary Discretization and Reliable Classification Network for Temporal Action Detection ( http://arxiv.org/abs/2310.06403v4 )

ライセンス: Link先を確認
Zhenying Fang, Jun Yu, Richang Hong, (参考訳) 時間的アクション検出は、アクションカテゴリを認識し、各アクションインスタンスの開始と終了の時間を未トリミングビデオで決定することを目的としている。 混合手法は、アンカーベースとアンカーフリーのアプローチをシームレスにマージすることで、優れた性能を実現している。 1) ブラトフォースのマージと手作りアンカーの設計は、混合手法の実質的な可能性と実用性を妨げている。 2)カテゴリー内予測は偽陽性の有意な数を示す。 本稿では,境界離散化と信頼性分類モジュールを導入することで,上記の問題に対処する新しい境界離散化・信頼性分類ネットワーク(BDRC-Net)を提案する。 具体的には、境界離散化モジュール(BDM)は境界離散化の形でアンカーベースおよびアンカーフリーアプローチをエレガントにマージし、従来の手作りアンカー設計の必要性を排除した。 さらに、信頼性分類モジュール(RCM)は、信頼性のあるグローバルアクションカテゴリを予測し、偽陽性を減らす。 異なるベンチマークで行った実験により,提案手法が競合検出性能を実現することを示す。 コードはhttps://github.com/zhenyingfang/BDRC-Netで公開される。

Temporal action detection aims to recognize the action category and determine each action instance's starting and ending time in untrimmed videos. The mixed methods have achieved remarkable performance by seamlessly merging anchor-based and anchor-free approaches. Nonetheless, there are still two crucial issues within the mixed framework: (1) Brute-force merging and handcrafted anchor design hinder the substantial potential and practicality of the mixed methods. (2) Within-category predictions show a significant abundance of false positives. In this paper, we propose a novel Boundary Discretization and Reliable Classification Network (BDRC-Net) that addresses the issues above by introducing boundary discretization and reliable classification modules. Specifically, the boundary discretization module (BDM) elegantly merges anchor-based and anchor-free approaches in the form of boundary discretization, eliminating the need for the traditional handcrafted anchor design. Furthermore, the reliable classification module (RCM) predicts reliable global action categories to reduce false positives. Extensive experiments conducted on different benchmarks demonstrate that our proposed method achieves competitive detection performance. The code will be released at https://github.com/zhenyingfang/BDRC-Net.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# オンライン投機的デコード

Online Speculative Decoding ( http://arxiv.org/abs/2310.07177v3 )

ライセンス: Link先を確認
Xiaoxuan Liu, Lanxiang Hu, Peter Bailis, Ion Stoica, Zhijie Deng, Alvin Cheung, Hao Zhang, (参考訳) 投機的復号化(英: Speculative decoding)は、より小さなドラフトモデルを用いてターゲットモデルの出力を予測することにより、大規模言語モデル(LLM)の推論を高速化する重要な手法である。 しかし、その有効性は、ドラフトモデルの予測精度が低いこと、特に多様なテキスト入力に直面した場合、ドラフトモデルとターゲットモデルの間に有意な能力差があるため、制限される可能性がある。 この課題に対処するために、オンライン投機的復号化を導入する。 主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。 クエリ分布への適応は、ドラフトモデルのトレーニング分布とクエリ分布とのシフトを緩和し、ドラフトモデルがターゲットモデルの出力をより正確に予測できるようにする。 本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。 その結果、トークンの受け入れ率は0.1から0.65に大幅に増加し、レイテンシが1.42倍から2.17倍に低下した。 私たちのコードはhttps://github.com/LiuXiaoxuanPKU/OSD.comで公開されています。

Speculative decoding is a pivotal technique to accelerate the inference of large language models (LLMs) by employing a smaller draft model to predict the target model's outputs. However, its efficacy can be limited due to the low predictive accuracy of the draft model, particularly when faced with diverse text inputs and a significant capability gap between the draft and target models. We introduce online speculative decoding to address this challenge. The main idea is to continuously update the (multiple) draft model(s) on observed user query data. Adapting to query distribution mitigates the shifts between the training distribution of the draft model and the query distribution, enabling the draft model to more accurately predict the target model's outputs. We develop a prototype of online speculative decoding based on knowledge distillation and evaluate it using both synthetic and real query data. The results show a substantial increase in the token acceptance rate by 0.1 to 0.65, bringing 1.42x to 2.17x latency reduction. Our code is available at https://github.com/LiuXiaoxuanPKU/OSD.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# 流体力学格子ガスオートマトンのための量子衝突回路、量子不変量および量子位相推定法

Quantum collision circuit, quantum invariants and quantum phase estimation procedure for fluid dynamic lattice gas automata ( http://arxiv.org/abs/2310.07362v2 )

ライセンス: Link先を確認
Niccolo Fonio, Pierre Sagaut, Giuseppe Di Molfetta, (参考訳) 格子ガスセルラーオートマタ (LGCA) は、様々な物理現象をシミュレートするために広く知られ応用された古典的な数値法である。 これらの現象の中で、ナヴィエ・ストークス方程式で表される流体の流れが分かる。 量子コンピュータ上での流体力学LGCAのシミュレーションを可能にする量子アルゴリズムを開発した。 さらに、興味の量を保存することを証明するが、期待以上の量子不変量を見つける。 最後に, 細胞の再活性化を回避するため, 質量や運動量などの興味量を検出する位相推定法を開発した。 さらに、一意的なストリーミングを許容する格子のサブ線形符号化について論じるが、衝突のステップを制約する。

Lattice Gas Cellular Automata (LGCA) is a classical numerical method widely known and applied to simulate several physical phenomena. Among these phenomena, we find fluid flows described by the Navier-Stokes equations. We develop a quantum algorithm that allows for the simulation of fluid dynamic LGCA on a quantum computer. Furthermore, we prove the conservation of the quantities of interest, but finding more quantum invariants than expected. Finally, we develop a phase estimation procedure for detecting quantities of interest such as mass and momentum, avoiding reinitialization of the cell. In addition, we discuss a sublinear encoding of the lattice which admits a unitary streaming but constrains the collision step.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# リング・ア・ベル!拡散モデルの概念除去法はどの程度信頼性が高いか?

Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? ( http://arxiv.org/abs/2310.10012v4 )

ライセンス: Link先を確認
Yu-Lin Tsai, Chia-Yi Hsu, Chulin Xie, Chih-Hsun Lin, Jia-You Chen, Bo Li, Pin-Yu Chen, Chia-Mu Yu, Chun-Ying Huang, (参考訳) 安定拡散(SD)のようなテキスト・ツー・イメージ(T2I)合成のための拡散モデルは、最近、高品質なコンテンツを生成するための例外的な能力を実証している。 しかし、この進歩は潜在的な誤用、特に著作権付き、禁止され、制限されたコンテンツ、NSFW(職場では安全ではない)のイメージを作成する際の懸念を提起している。 このような問題を軽減するために、評価段階での安全フィルタの実装や、望ましくない概念やスタイルを除去するための微調整モデルの開発が試みられているが、これらの安全対策が幅広いプロンプトに対処する上での有効性は明らかにされていない。 本研究では,評価のための新しい概念検索アルゴリズムを提案することで,これらの安全性メカニズムを解明することを目的とする。 本稿では,T2I拡散モデルに対するモデルに依存しないレッドチームツールであるRing-A-Bellを紹介する。 具体的には、Ring-A-Bellはまず概念抽出を行い、センシティブで不適切な概念に対する全体論的な表現を得る。 その後、抽出された概念を活用することで、Ring-A-Bellは、不適切なコンテンツの生成に対応する拡散モデルに対する問題のあるプロンプトを自動的に識別し、ユーザは、デプロイされた安全メカニズムの信頼性を評価することができる。 最後に、Midjourneyなどのオンラインサービスやさまざまなコンセプト削除方法をテストすることで、我々の手法を実証的に検証する。 この結果から, 安全プロンプトベンチマークの操作により, 既存の安全機構を回避できると考えられるプロンプトを変換し, 実質的に有害な内容の生成につながるような, いわゆる安全機構の欠陥を明らかにすることができた。 私たちのコードはhttps://github.com/chiayi-hsu/Ring-A-Bell.comで公開されています。

Diffusion models for text-to-image (T2I) synthesis, such as Stable Diffusion (SD), have recently demonstrated exceptional capabilities for generating high-quality content. However, this progress has raised several concerns of potential misuse, particularly in creating copyrighted, prohibited, and restricted content, or NSFW (not safe for work) images. While efforts have been made to mitigate such problems, either by implementing a safety filter at the evaluation stage or by fine-tuning models to eliminate undesirable concepts or styles, the effectiveness of these safety measures in dealing with a wide range of prompts remains largely unexplored. In this work, we aim to investigate these safety mechanisms by proposing one novel concept retrieval algorithm for evaluation. We introduce Ring-A-Bell, a model-agnostic red-teaming tool for T2I diffusion models, where the whole evaluation can be prepared in advance without prior knowledge of the target model. Specifically, Ring-A-Bell first performs concept extraction to obtain holistic representations for sensitive and inappropriate concepts. Subsequently, by leveraging the extracted concept, Ring-A-Bell automatically identifies problematic prompts for diffusion models with the corresponding generation of inappropriate content, allowing the user to assess the reliability of deployed safety mechanisms. Finally, we empirically validate our method by testing online services such as Midjourney and various methods of concept removal. Our results show that Ring-A-Bell, by manipulating safe prompting benchmarks, can transform prompts that were originally regarded as safe to evade existing safety mechanisms, thus revealing the defects of the so-called safety mechanisms which could practically lead to the generation of harmful contents. Our codes are available at https://github.com/chiayi-hsu/Ring-A-Bell.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# GTA:多視点変圧器の幾何学的注意機構

GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers ( http://arxiv.org/abs/2310.10375v3 )

ライセンス: Link先を確認
Takeru Miyato, Bernhard Jaeger, Max Welling, Andreas Geiger, (参考訳) 変換器は入力トークンの置換に等しく、多くのタスクにはトークンの位置情報を符号化する必要がある。 しかしながら、既存の位置符号化方式は、当初、NLPタスク用に設計されていたため、一般的にデータに異なる構造特性を示す視覚タスクに適していることは疑問視される。 既存の位置符号化方式は、基礎となる3次元幾何学的構造を尊重しないため、3次元視覚課題に最適である。 この仮説に基づいて,クエリとキー-値ペア間の幾何学的関係から決定される相対変換としてトークンの幾何学的構造を符号化する幾何学的注意機構を提案する。 広視野多視点設定における複数新しいビュー合成(NVS)データセットの評価により,幾何学変換注意(Geometric Transform Attention, GTA)と呼ばれる,新たな学習パラメータや計算オーバーヘッドを伴わずに,最先端のトランスフォーマーベースNVSモデルの学習効率と性能の向上が示された。

As transformers are equivariant to the permutation of input tokens, encoding the positional information of tokens is necessary for many tasks. However, since existing positional encoding schemes have been initially designed for NLP tasks, their suitability for vision tasks, which typically exhibit different structural properties in their data, is questionable. We argue that existing positional encoding schemes are suboptimal for 3D vision tasks, as they do not respect their underlying 3D geometric structure. Based on this hypothesis, we propose a geometry-aware attention mechanism that encodes the geometric structure of tokens as relative transformation determined by the geometric relationship between queries and key-value pairs. By evaluating on multiple novel view synthesis (NVS) datasets in the sparse wide-baseline multi-view setting, we show that our attention, called Geometric Transform Attention (GTA), improves learning efficiency and performance of state-of-the-art transformer-based NVS models without any additional learned parameters and only minor computational overhead.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# HelmFluid: 解釈可能な流体予測のための学習ヘルムホルツダイナミクス

HelmFluid: Learning Helmholtz Dynamics for Interpretable Fluid Prediction ( http://arxiv.org/abs/2310.10565v3 )

ライセンス: Link先を確認
Lanxiang Xing, Haixu Wu, Yuezhou Ma, Jianmin Wang, Mingsheng Long, (参考訳) 流体予測は、本質的な高次元非線形力学のために長年の課題である。 従来の手法は通常、深部モデルの非線形モデリング機能を利用して、将来の予測のために速度場を直接推定する。 しかしながら、固有の物理的特性をスキップするが、表面の速度場を直接学習することは、正確なあるいは物理学的な信頼性のある結果を生み出すことから、モデルを圧倒する。 本稿では,HelmFluidを流体の高精度かつ解釈可能な予測器として提案する。 ヘルムホルツの定理にインスパイアされた我々はヘルムホルツの力学を学ぶためにヘルム力学ブロックを設計し、流体力学をより解けるカールフリーで発散のない部分に分解し、流体のポテンシャルとストリーム関数に物理的に対応する。 HelmDynamicsブロックをマルチスケールのマルチヘッド積分アーキテクチャに埋め込むことで、HelmFluidは学習したHelmholtzダイナミクスを複数の空間スケールの時間次元に沿って統合し、将来の流体を得ることができる。 従来の速度推定法と比較すると、ヘルムフルイドはヘルムホルツの定理から忠実に導かれ、物理的に解釈可能な証拠を持つ複素流体力学を解明する。 実験的に、HelmFluidは、複雑な境界を持つシナリオであっても、数値シミュレーションと実世界の観測ベンチマークの両方において、一貫した最先端を達成する。

Fluid prediction is a long-standing challenge due to the intrinsic high-dimensional non-linear dynamics. Previous methods usually utilize the non-linear modeling capability of deep models to directly estimate velocity fields for future prediction. However, skipping over inherent physical properties but directly learning superficial velocity fields will overwhelm the model from generating precise or physics-reliable results. In this paper, we propose the HelmFluid toward an accurate and interpretable predictor for fluid. Inspired by the Helmholtz theorem, we design a HelmDynamics block to learn Helmholtz dynamics, which decomposes fluid dynamics into more solvable curl-free and divergence-free parts, physically corresponding to potential and stream functions of fluid. By embedding the HelmDynamics block into a Multiscale Multihead Integral Architecture, HelmFluid can integrate learned Helmholtz dynamics along temporal dimension in multiple spatial scales to yield future fluid. Compared with previous velocity estimating methods, HelmFluid is faithfully derived from Helmholtz theorem and ravels out complex fluid dynamics with physically interpretable evidence. Experimentally, HelmFluid achieves consistent state-of-the-art in both numerical simulated and real-world observed benchmarks, even for scenarios with complex boundaries.
翻訳日:2024-06-10 20:56:18 公開日:2024-06-07
# Branch-Solve-Mergeは大規模言語モデルの評価と生成を改善する

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation ( http://arxiv.org/abs/2310.15123v2 )

ライセンス: Link先を確認
Swarnadeep Saha, Omer Levy, Asli Celikyilmaz, Mohit Bansal, Jason Weston, Xian Li, (参考訳) 大規模言語モデル(LLM)は、複雑なユーザ制約を満たすことや、複数の側面や基準を考慮することを含む、多面的な言語生成と評価タスクに頻繁に使用される。 しかしながら、モデルの一貫性が欠如し、問題を計画し分解できないため、それらのパフォーマンスは低下する可能性がある。 本稿では,これらの課題に対処するための大規模言語モデルプログラムであるブランチ・ソルヴ・マージ(BSM)を提案する。 ブランチ、解決、マージモジュールで構成されており、ベースLSMへの特定のプロンプトでパラメータ化されている。 これら3つのモジュールはタスクを複数の並列サブタスクに分解し、それらを独立に解き、サブタスクに解を融合させる。 Vicuna, LLaMA-2-chat, GPT-4 を含む複数の LLM を用いて, LLM 応答評価と制約付きテキスト生成のタスクに適用し,その有効性を評価する。 BSMは、人間とLLMの合意を最大26%向上させ、長さと対位置バイアスを最大50%減少させ、LLaMA2-chatがほとんどのドメインでGPT-4に適合または上回るようにすることで、各LLMの評価正当性と整合性を改善する。 制約ストーリー生成タスクでは、BSMはストーリーの一貫性を改善し、制約満足度を12%向上させる。

Large Language Models (LLMs) are frequently used for multi-faceted language generation and evaluation tasks that involve satisfying intricate user constraints or taking into account multiple aspects and criteria. However, their performance can fall short, due to the model's lack of coherence and inability to plan and decompose the problem. We propose Branch-Solve-Merge (BSM), a Large Language Model program (Schlag et al., 2023) for tackling such challenging natural language tasks. It consists of branch, solve, and merge modules that are parameterized with specific prompts to the base LLM. These three modules plan a decomposition of the task into multiple parallel sub-tasks, independently solve them, and fuse the solutions to the sub-tasks. We apply our method to the tasks of LLM response evaluation and constrained text generation and evaluate its effectiveness with multiple LLMs, including Vicuna, LLaMA-2-chat, and GPT-4. BSM improves the evaluation correctness and consistency for each LLM by enhancing human-LLM agreement by up to 26%, reducing length and pairwise position biases by up to 50%, and allowing LLaMA2-chat to match or outperform GPT-4 on most domains. On a constraint story generation task, BSM improves the coherence of stories while also improving constraint satisfaction by 12%.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# 観測変数のグループ化による因果表現学習

Causal Representation Learning Made Identifiable by Grouping of Observational Variables ( http://arxiv.org/abs/2310.15709v2 )

ライセンス: Link先を確認
Hiroshi Morioka, Aapo Hyvärinen, (参考訳) 現在大きな関心を集めているトピックはCausal Representation Learning (CRL)である。 残念ながらCRLは、表現学習と因果発見の2つの悪名高い悪名高い問題の組み合わせであるため、深刻な悪名高い。 しかし,一意解が保証される実用的識別可能性条件の発見は,その実用性に不可欠である。 これまでのアプローチの多くは、時間的因果性や監督や介入の存在といった、潜む因果的メカニズムの仮定に基づいている。 ここでは、時間的構造や介入、監督の弱さを必要としない、新規で弱い制約に基づく識別可能性を示す。 この手法は、観測混合が観測変数の適切なグループ化を示すと仮定することに基づいている。 また,モデルに整合した新たな自己教師付き推定フレームワークを提案し,その統計的整合性を証明し,最先端のベースラインと比較して,その優れたCRL性能を実験的に示す。 我々はまた、潜伏した共同設立者と因果サイクルに対する堅牢性を示す。

A topic of great current interest is Causal Representation Learning (CRL), whose goal is to learn a causal model for hidden features in a data-driven manner. Unfortunately, CRL is severely ill-posed since it is a combination of the two notoriously ill-posed problems of representation learning and causal discovery. Yet, finding practical identifiability conditions that guarantee a unique solution is crucial for its practical applicability. Most approaches so far have been based on assumptions on the latent causal mechanisms, such as temporal causality, or existence of supervision or interventions; these can be too restrictive in actual applications. Here, we show identifiability based on novel, weak constraints, which requires no temporal structure, intervention, nor weak supervision. The approach is based on assuming the observational mixing exhibits a suitable grouping of the observational variables. We also propose a novel self-supervised estimation framework consistent with the model, prove its statistical consistency, and experimentally show its superior CRL performances compared to the state-of-the-art baselines. We further demonstrate its robustness against latent confounders and causal cycles.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# TimewarpVAE: 軌跡の同時学習と表現学習

TimewarpVAE: Simultaneous Time-Warping and Representation Learning of Trajectories ( http://arxiv.org/abs/2310.16027v2 )

ライセンス: Link先を確認
Travers Rhodes, Daniel D. Lee, (参考訳) 軌道の人間の実演は多くの機械学習問題に対するトレーニングデータの重要な情報源である。 しかし、複雑なタスクのための人間の実演データを集めることの難しさは、これらの軌跡の効率的な表現を学習することを困難にしている。 器用な操作など多くの問題に対して、軌道の正確なタイミングは、その空間的経路特性から決定されるべきである。 本研究では,動的時間ウォーピング(DTW)を取り入れた完全微分可能多様体学習アルゴリズムであるTimewarpVAEを提案する。 我々は、TimewarpVAEアルゴリズムが、手書きおよびフォーク操作データセットにおける空間変動の適切な時間アライメントと有意義な表現をいかに学習するかを示す。 提案手法は,提案手法よりも空間再構成テスト誤差が低く,学習した低次元表現を用いて意味論的に意味のある新規な軌跡を効率的に生成することができる。 ロボットアームのための新しい高速軌道を生成するアルゴリズムの有用性を実証する。

Human demonstrations of trajectories are an important source of training data for many machine learning problems. However, the difficulty of collecting human demonstration data for complex tasks makes learning efficient representations of those trajectories challenging. For many problems, such as for dexterous manipulation, the exact timings of the trajectories should be factored from their spatial path characteristics. In this work, we propose TimewarpVAE, a fully differentiable manifold-learning algorithm that incorporates Dynamic Time Warping (DTW) to simultaneously learn both timing variations and latent factors of spatial variation. We show how the TimewarpVAE algorithm learns appropriate time alignments and meaningful representations of spatial variations in handwriting and fork manipulation datasets. Our results have lower spatial reconstruction test error than baseline approaches and the learned low-dimensional representations can be used to efficiently generate semantically meaningful novel trajectories. We demonstrate the utility of our algorithm to generate novel high-speed trajectories for a robotic arm.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# CompeteAI:大規模言語モデルベースエージェントにおける競合ダイナミクスの理解

CompeteAI: Understanding the Competition Dynamics in Large Language Model-based Agents ( http://arxiv.org/abs/2310.17512v2 )

ライセンス: Link先を確認
Qinlin Zhao, Jindong Wang, Yixuan Zhang, Yiqiao Jin, Kaijie Zhu, Hao Chen, Xing Xie, (参考訳) 大規模言語モデル(LLM)は、個人支援やイベント計画など、さまざまなタスクを完了させるエージェントとして広く使用されている。 研究の大部分はエージェント間の協力と協力に重点を置いているが、社会と経済の発展を促進する重要なメカニズムである競争を探求する活動はほとんどない。 本稿では,LSMをベースとしたエージェントの競合ダイナミクスについて検討する。 まず,エージェント間の競合を研究するための一般的な枠組みを提案する。 そして,GPT-4を用いて,レストランエージェントとカスタマーエージェントの2種類のエージェントで仮想街をシミュレートする現実的な競争環境を構築する。 具体的には、レストランエージェントが競合してより多くの顧客を惹きつけ、競争は新たなオペレーション戦略の育成などの変革を促す。 シミュレーション実験では、既存の市場や社会学理論とよく一致しているミクロやマクロのレベルで興味深い発見がいくつか示されている。 我々は,社会の理解を深める競争を研究する上で,枠組みと環境が有望なテストベッドになることを期待している。 コードは、https://github.com/microsoft/competeai.comで入手できる。

Large language models (LLMs) have been widely used as agents to complete different tasks, such as personal assistance or event planning. While most of the work has focused on cooperation and collaboration between agents, little work explores competition, another important mechanism that promotes the development of society and economy. In this paper, we seek to examine the competition dynamics in LLM-based agents. We first propose a general framework for studying the competition between agents. Then, we implement a practical competitive environment using GPT-4 to simulate a virtual town with two types of agents, restaurant agents and customer agents. Specifically, the restaurant agents compete with each other to attract more customers, where competition encourages them to transform, such as cultivating new operating strategies. Simulation experiments reveal several interesting findings at the micro and macro levels, which align well with existing market and sociological theories. We hope that the framework and environment can be a promising testbed to study competition that fosters understanding of society. Code is available at: https://github.com/microsoft/competeai.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# InCharacter:心理学的面接によるロールプレイングエージェントのパーソナリティの忠実度評価

InCharacter: Evaluating Personality Fidelity in Role-Playing Agents through Psychological Interviews ( http://arxiv.org/abs/2310.17976v4 )

ライセンス: Link先を確認
Xintao Wang, Yunze Xiao, Jen-tse Huang, Siyu Yuan, Rui Xu, Haoran Guo, Quan Tu, Yaying Fei, Ziang Leng, Wei Wang, Jiangjie Chen, Cheng Li, Yanghua Xiao, (参考訳) ロールプレイングエージェント (RPAs) は、大規模言語モデルによって開発されたアプリケーション分野として栄えている。 しかし、重要な課題は、RPAがターゲットキャラクタのペルソナ、すなわちキャラクタの忠実さを正確に再現するかどうかを評価することである。 既存の手法は主に文字の知識と言語パターンに焦点を当てている。 そこで本稿では,心理学的尺度によるRPAの性格的忠実度を評価するために,新たな視点を導入する。 RPAに対する過去の自己報告評価の欠点を克服し、個性検査のためのインタビュリング・キャラクタ・エージェントであるInCharacterを提案する。 実験には様々な種類の RPA と LLM が含まれ、14の広く使用されている心理学的尺度で32の異なる文字をカバーしている。 RPAの個人性測定におけるInCharacterの有効性を検証した。 次に、InCharacterを用いて、現状のRPAは人物の人格と高度に一致した個性を示し、80.7%の精度を達成していることを示す。

Role-playing agents (RPAs), powered by large language models, have emerged as a flourishing field of applications. However, a key challenge lies in assessing whether RPAs accurately reproduce the personas of target characters, namely their character fidelity. Existing methods mainly focus on the knowledge and linguistic patterns of characters. This paper, instead, introduces a novel perspective to evaluate the personality fidelity of RPAs with psychological scales. Overcoming drawbacks of previous self-report assessments on RPAs, we propose InCharacter, namely Interviewing Character agents for personality tests. Experiments include various types of RPAs and LLMs, covering 32 distinct characters on 14 widely used psychological scales. The results validate the effectiveness of InCharacter in measuring RPA personalities. Then, with InCharacter, we show that state-of-the-art RPAs exhibit personalities highly aligned with the human-perceived personalities of the characters, achieving an accuracy up to 80.7%.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# ストリームからプールへ:マージナル・ユーティリティーを最小化する法律の下での価格設定

From Stream to Pool: Pricing Under the Law of Diminishing Marginal Utility ( http://arxiv.org/abs/2310.19220v3 )

ライセンス: Link先を確認
Titing Cui, Su Jia, Thomas Lavastida, (参考訳) 動的価格モデルはしばしば、顧客のインタラクションの$\textbf{stream}$が順次発生し、顧客のバリュエーションが独立して引き出されることを仮定する。 しかし、このモデルは、限界効用を減らし、各追加単位からの顧客の限界効用が減少するという、重要な側面を見落としているために、現実の世界を完全に反映しているわけではない。 これにより、バリュエーションの分布は、ストリームモデルによって捉えられていないローエンドへとシフトする。 これはプールベースのモデルを研究する動機となり、$\textbf{pool}$の顧客は、ディスカウント機能によって購入される回数が減少するモノポリスの売り手と繰り返しやりとりする。 特に、割引関数が一定であれば、プールモデルによってストリームモデルが復元される。 購入が完了すると、顧客の評価がゼロになる、最も基本的な特殊なケースに注目します。 k$の価格が与えられた場合、非適応的かつ詳細のない(すなわち、非適応的政策の中で最適である1/k$の競争比率を達成するような政策を提示する。 さらに, 新たなデバイアス化手法を基礎として, $\tilde O(k^{2/3} n^{2/3})$ regret を用いた適応型学習理論を提案する。

Dynamic pricing models often posit that a $\textbf{stream}$ of customer interactions occur sequentially, where customers' valuations are drawn independently. However, this model is not entirely reflective of the real world, as it overlooks a critical aspect, the law of diminishing marginal utility, which states that a customer's marginal utility from each additional unit declines. This causes the valuation distribution to shift towards the lower end, which is not captured by the stream model. This motivates us to study a pool-based model, where a $\textbf{pool}$ of customers repeatedly interacts with a monopolist seller, each of whose valuation diminishes in the number of purchases made according to a discount function. In particular, when the discount function is constant, our pool model recovers the stream model. We focus on the most fundamental special case, where a customer's valuation becomes zero once a purchase is made. Given $k$ prices, we present a non-adaptive, detail-free (i.e., does not "know" the valuations) policy that achieves a $1/k$ competitive ratio, which is optimal among non-adaptive policies. Furthermore, based on a novel debiasing technique, we propose an adaptive learn-then-earn policy with a $\tilde O(k^{2/3} n^{2/3})$ regret.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# WinNet: 時系列予測に有効な1つの畳み込みレイヤ

WinNet: Make Only One Convolutional Layer Effective for Time Series Forecasting ( http://arxiv.org/abs/2311.00214v2 )

ライセンス: Link先を確認
Wenjie Ou, Zhishuo Zhao, Dongyue Guo, Zheng Zhang, Yi Lin, (参考訳) ディープラーニングモデルは、最近、時系列予測において大幅なパフォーマンス改善を達成している。 我々は、WinNetと呼ばれる1つの畳み込み層しか持たない非常に正確で単純なCNNベースのモデルを提案する。 一 次数列を2次元テンソルに変換するサブウィンドウ分割ブロック 二 短期・長期の変動を捉えるための二重予測機構 三 二次元ハイブリッド分解(TDD)ブロックにより、2次元テンソルをトレンド及び季節用語に分解し、非定常性を排除すること。 (4) コンボリューション層による傾向と季節条件の相関を利用するための分解相関ブロック (DCB) について検討した。 8つのベンチマークデータセットの結果から、WinNetは、CNN-、MLP-、Transformer-basedメソッドよりもSOTA性能と計算複雑性が低いことが示されている。 コードは、https://github.com/ouwen18/WinNet.comから入手できる。

Deep learning models have recently achieved significant performance improvements in time series forecasting. We present a highly accurate and simply structured CNN-based model with only one convolutional layer, called WinNet, including (i) Sub-window Division block to transform the series into 2D tensor, (ii) Dual-Forecasting mechanism to capture the short- and long-term variations, (iii) Two-dimensional Hybrid Decomposition (TDD) block to decompose the 2D tensor into the trend and seasonal terms to eliminate the non-stationarity, and (iv) Decomposition Correlation Block (DCB) to leverage the correlation between the trend and seasonal terms by the convolution layer. Results on eight benchmark datasets demonstrate that WinNet can achieve SOTA performance and lower computational complexity over CNN-, MLP- and Transformer-based methods. The code will be available at: https://github.com/ouwen18/WinNet.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# 大規模言語モデルを用いた身体的ナビゲーションの進歩:サーベイ

Advances in Embodied Navigation Using Large Language Models: A Survey ( http://arxiv.org/abs/2311.00530v4 )

ライセンス: Link先を確認
Jinzhou Lin, Han Gao, Xuxiang Feng, Rongtao Xu, Changwei Wang, Man Zhang, Li Guo, Shibiao Xu, (参考訳) 近年,GPT (Generative Pre-trained Transformer) などの大規模言語モデル (LLM) の急速な進歩が注目されている。 エンボディード・インテリジェンス(Embodied Intelligence)によるLLMの応用は、重要な分野として現れている。 LLMの無数の応用の中で、ナビゲーションタスクは環境の深い理解と迅速かつ正確な意思決定を必要とするため特に注目すべきである。 LLMは、洗練された環境認識と意思決定支援を備えたエンボディードインテリジェンスシステムを強化し、堅牢な言語と画像処理機能を活用することができる。 本稿では, LLMとインボディードインテリジェンスとの共生を概観し, ナビゲーションに焦点をあてる。 最先端のモデル、研究方法論をレビューし、既存の埋め込みナビゲーションモデルとデータセットの利点とデメリットを評価する。 最後に, 本論文は, インテリジェンスにおけるLLMの役割を解明し, 今後の方向性を予測している。 この調査の包括的な研究リストはhttps://github.com/Rongtao-Xu/Awesome-LLM-ENで公開されている。

In recent years, the rapid advancement of Large Language Models (LLMs) such as the Generative Pre-trained Transformer (GPT) has attracted increasing attention due to their potential in a variety of practical applications. The application of LLMs with Embodied Intelligence has emerged as a significant area of focus. Among the myriad applications of LLMs, navigation tasks are particularly noteworthy because they demand a deep understanding of the environment and quick, accurate decision-making. LLMs can augment embodied intelligence systems with sophisticated environmental perception and decision-making support, leveraging their robust language and image-processing capabilities. This article offers an exhaustive summary of the symbiosis between LLMs and embodied intelligence with a focus on navigation. It reviews state-of-the-art models, research methodologies, and assesses the advantages and disadvantages of existing embodied navigation models and datasets. Finally, the article elucidates the role of LLMs in embodied intelligence, based on current research, and forecasts future directions in the field. A comprehensive list of studies in this survey is available at https://github.com/Rongtao-Xu/Awesome-LLM-EN.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# ドープおよびフォトドープモット絶縁体における結合のフロケット工学

Floquet engineering of binding in doped and photo-doped Mott insulators ( http://arxiv.org/abs/2311.04899v2 )

ライセンス: Link先を確認
Madhumita Sarkar, Zala Lenarčič, Denis Golež, (参考訳) ケミカルおよび光ドープモット絶縁体におけるバウンド状態の出現について, スピンおよび2脚ラグおよび2Dシステム内における$\eta$-pairingゆらぎを介する検討を行った。 同じ足場上での写真と化学的にドープされた状態を効果的に記述するために、シュリーファー・ウォルフ変換を用い、一般化された$t$-$J$モデルが得られる。 以上の結果から,ケミカルおよび光ドープ系における結合エネルギーと局在長は同等であり,$\eta$-pairingの変動は重要な役割を果たさないことが明らかとなった。 さらに、Floquet Engineeringと呼ばれる技術により、外部周期駆動による結合の操作が可能となり、結合エネルギーが大幅に向上することを示す。 また,フェルミの黄金律に基づく周期運転条件下での光ドープ状態の寿命を概算した。 最後に,低温原子実験におけるハバード励起子の実現のための実験的プロトコルを提案する。

We investigate the emergence of bound states in chemically and photo-doped Mott insulators, mediated by spin and $\eta$-pairing fluctuations within both 2-leg ladder and 2D systems. To effectively describe the photo and chemically doped state on the same footings, we employ the Schrieffer-Wolff transformation, resulting in a generalized $t$-$J$ model. Our results demonstrate that the binding energies and localization length in the chemically and photo-doped regimes are comparable, with $\eta$-pairing fluctuations not playing a crucial role. Furthermore, we show that manipulating the binding is possible through external periodic driving, a technique known as Floquet engineering, leading to significantly enhanced binding energies. We also roughly estimate the lifetime of photo-doped states under periodic driving conditions based on the Fermi golden rule. Lastly, we propose experimental protocols for realizing Hubbard excitons in cold-atom experiments.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# CodeScope: コード理解と生成におけるLLM評価のための実行型多言語マルチタスク多次元ベンチマーク

CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation ( http://arxiv.org/abs/2311.08588v3 )

ライセンス: Link先を確認
Weixiang Yan, Haitian Liu, Yunkun Wang, Yunzhe Li, Qian Chen, Wen Wang, Tingyu Lin, Weishan Zhao, Li Zhu, Hari Sundaram, Shuiguang Deng, (参考訳) 大規模言語モデル(LLM)は、人間のプログラミング支援とプログラミング自動化の促進に優れたパフォーマンスを示してきた。 しかし、LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。 現実のソフトウェア開発シナリオでは、多様な要件を満たすために、多言語およびマルチタスクのプログラミング環境を持つシステムを実装する必要があることが示されています。 第二に、ほとんどのベンチマークは、実際の実行可能性と生成されたコードの実行結果の一貫性を考慮していない。 既存のベンチマークと実用アプリケーションとのギャップを埋めるため,コーディングタスクにおけるLLM能力を総合的に測定する多次元評価ベンチマークであるCodeScopeを紹介した。 CodeScopeは43のプログラミング言語と8つのコーディングタスクをカバーしている。 LLMの符号化性能を,長さ,難易度,効率の3次元から評価する。 コード生成の実行に基づく評価を容易にするため,14のプログラミング言語をサポートする自動コード実行エンジンであるMultiCodeEngineを開発した。 最後に,8つの主要なLCMを体系的に評価・解析し,コード理解および生成タスクにおけるLLMの評価において,CodeScopeの優れた広さと課題を他のベンチマークと比較した。 CodeScopeのベンチマークとコードはhttps://github.com/WeixiangYAN/CodeScopeで公開されている。

Large Language Models (LLMs) have demonstrated remarkable performance on assisting humans in programming and facilitating programming automation. However, existing benchmarks for evaluating the code understanding and generation capacities of LLMs suffer from severe limitations. First, most benchmarks are insufficient as they focus on a narrow range of popular programming languages and specific tasks, whereas real-world software development scenarios show a critical need to implement systems with multilingual and multitask programming environments to satisfy diverse requirements. Second, most benchmarks fail to consider the actual executability and the consistency of execution results of the generated code. To bridge these gaps between existing benchmarks and expectations from practical applications, we introduce CodeScope, an execution-based, multilingual, multitask, multidimensional evaluation benchmark for comprehensively measuring LLM capabilities on coding tasks. CodeScope covers 43 programming languages and eight coding tasks. It evaluates the coding performance of LLMs from three dimensions (perspectives): length, difficulty, and efficiency. To facilitate execution-based evaluations of code generation, we develop MultiCodeEngine, an automated code execution engine that supports 14 programming languages. Finally, we systematically evaluate and analyze eight mainstream LLMs and demonstrate the superior breadth and challenges of CodeScope for evaluating LLMs on code understanding and generation tasks compared to other benchmarks. The CodeScope benchmark and code are publicly available at https://github.com/WeixiangYAN/CodeScope.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# 両部量子ビット系におけるベル不等式振動に対する有限状態の最適化

Optimizing Fictitious States for Bell Inequality Violation in Bipartite Qubit Systems ( http://arxiv.org/abs/2311.09166v2 )

ライセンス: Link先を確認
Kun Cheng, Tao Han, Matthew Low, (参考訳) 高エネルギー実験における量子エンタングルメントとベルの不等式違反のテストには大きな関心がある。 高エネルギー実験における解析は、位相空間上で統計的に平均化された事象によって行われるので、観測可能な状態を決定するのに使用される状態は、事象に依存した基底による座標の選択に依存するため、真の量子状態ではなく、むしろ「架空の状態」である。 ベルの不等式違反が虚数状態で観測された場合、量子準状態も同様であることを示す。 さらに、スピンスピン相関を対角化する基礎は、架空の状態を構築し、ベルの不等式を最大化するのに最適であることを示す。

There is a significant interest in testing quantum entanglement and Bell inequality violation in high-energy experiments. Since the analyses in high-energy experiments are performed with events statistically averaged over phase space, the states used to determine observables depend on the choice of coordinates through an event-dependent basis and are thus not genuine quantum states, but rather "fictitious states." We prove that if Bell inequality violation is observed with a fictitious state, then it implies the same for a quantum sub-state. We further show analytically that the basis which diagonalizes the spin-spin correlations is optimal for constructing fictitious states, and for maximizing the violation of Bell's inequality.
翻訳日:2024-06-10 20:46:33 公開日:2024-06-07
# R-Tuning: 大きな言語モデルに“知らない”と言うように指示する

R-Tuning: Instructing Large Language Models to Say `I Don't Know' ( http://arxiv.org/abs/2311.09677v3 )

ライセンス: Link先を確認
Hanning Zhang, Shizhe Diao, Yong Lin, Yi R. Fung, Qing Lian, Xingyao Wang, Yangyi Chen, Heng Ji, Tong Zhang, (参考訳) 大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。 主要な問題は、これらのモデルが存在しない事実を生成することの正当性であり、幻覚と呼ばれる懸念である。 本研究の動機は,従来の指導指導手法が,モデルが知識を知っているかどうかに関わらず,モデルに文章を完成させるよう強制することにある。 質問がパラメトリックな知識から外れた場合、何かを作り上げようと試み、それが知識を欠いていることを示そうとしないでしょう。 本稿では,Refusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しい手法を提案する。 このアプローチは、まず、事前訓練されたパラメータによって包含される知識の相違を、インストラクションチューニングデータと比較することによって定式化される。 そして,知識交叉に基づく拒絶認識データを構築し,そのパラメトリック知識を超えた質問への応答を抑えるためにLLMをチューニングする。 実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。 さらに、ドメイン外のデータセットでテストすると、拒絶能力は他のタスクに一般化可能なメタスキルであることが判明した。 さらなる分析により、不確実性を学ぶことでキャリブレーションが向上し、不確実性ベースのテストよりも不確実性を評価する能力が改善されることがわかった。 私たちのコードはhttps://github.com/shizhediao/R-Tuning.comで公開されています。

Large language models (LLMs) have revolutionized numerous domains with their impressive performance but still face their challenges. A predominant issue is the propensity for these models to generate non-existent facts, a concern termed hallucination. Our research is motivated by the observation that previous instruction tuning methods force the model to complete a sentence no matter whether the model knows the knowledge or not. When the question is out of the parametric knowledge, it will try to make up something and fail to indicate when it lacks knowledge. In this paper, we present a new approach called Refusal-Aware Instruction Tuning (R-Tuning). This approach is formalized by first identifying the disparity in knowledge encompassed by pre-trained parameters compared to that of instruction tuning data. Then, we construct the refusal-aware data based on the knowledge intersection, to tune LLMs to refrain from responding to questions beyond its parametric knowledge. Experimental results demonstrate R-Tuning effectively improves a model's ability to answer known questions and refrain from answering unknown questions. Furthermore, when tested on out-of-domain datasets, the refusal ability was found to be a meta-skill that could be generalized to other tasks. Further analysis surprisingly finds that learning the uncertainty results in better calibration and an improved ability to estimate the uncertainty than uncertainty-based testing. Our code is available at https://github.com/shizhediao/R-Tuning.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# 自己愛的評価指標としてのLLM:Egoが評価スコアを膨らませたとき

LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores ( http://arxiv.org/abs/2311.09766v4 )

ライセンス: Link先を確認
Yiqi Liu, Nafise Sadat Moosavi, Chenghua Lin, (参考訳) 生成したテキストコンテンツの自動評価は、NLPの分野において進行中の課題である。 多様なNLPタスクにまたがるモダン言語モデル(LM)の印象的な機能を考えると、生成タスクの自動評価のための革新的な評価指標を作成するために、これらのモデルを採用する傾向が高まっている。 言語モデルに基づく評価指標は、本質的に同じ言語モデルが生成するテキストに偏りを示すか? 具体的には,LMに基づく評価指標(例えば BARTScore, T5Score, GPTScore)が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すか否かを評価する。 以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。 これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響され得ることを示し、将来、より信頼性の高い評価プロトコルを開発する必要性を強調している。

Automatic evaluation of generated textual content presents an ongoing challenge within the field of NLP. Given the impressive capabilities of modern language models (LMs) across diverse NLP tasks, there is a growing trend to employ these models in creating innovative evaluation metrics for automated assessment of generation tasks. This paper investigates a pivotal question: Do language model-driven evaluation metrics inherently exhibit bias favoring texts generated by the same underlying language model? Specifically, we assess whether prominent LM-based evaluation metrics (e.g. BARTScore, T5Score, and GPTScore) demonstrate a favorable bias toward their respective underlying LMs in the context of summarization tasks. Our findings unveil a latent bias, particularly pronounced when such evaluation metrics are used in a reference-free manner without leveraging gold summaries. These results underscore that assessments provided by generative evaluation models can be influenced by factors beyond the inherent text quality, highlighting the necessity of developing more reliable evaluation protocols in the future.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# ベイズ推定器の頻繁性評価のためのWカーネルと必須部分空間

W-kernel and essential subspace for frequentist evaluation of Bayesian estimators ( http://arxiv.org/abs/2311.13017v4 )

ライセンス: Link先を確認
Yukito Iba, (参考訳) 各観測の対数類似度で定義される後続共分散行列Wは、感度解析とベイズ推定器の頻繁な評価において重要な役割を果たす。 この研究は行列 W とその主空間に焦点をあて、後者を必須部分空間と呼ぶ。 基本部分空間への投影は、感度解析と頻繁な評価の次元的低減を実現する。 頻繁な性質を扱うための重要なツールは、最近提案されたベイズ無限小ジャックニフ近似(Giordano and Broderick (2023))である。 マトリックスWは再生カーネルと解釈でき、Wカーネルと表記される。 W-カーネルを用いて、必須部分空間はカーネルの主成分分析によって与えられる主空間として表現される。 フィッシャー・カーネルとニューラル・タンジェント・カーネルの関係が確立され、古典的漸近理論との関係が解明される。 また、カーネルフレームワークから自然に現れるベイズ頻度主義的双対性についても論じる。 2つの応用が議論されている: 近似ブートストラップにおける観測の代表的な集合の選択と次元還元である。 前者では、必須部分空間を計算するための効率的な方法として、不完全コレスキー分解を導入している。 後者では、後部手段に対する近似ブートストラップの異なる実装を比較する。

The posterior covariance matrix W defined by the log-likelihood of each observation plays important roles both in the sensitivity analysis and frequentist evaluation of the Bayesian estimators. This study is focused on the matrix W and its principal space; we term the latter as an essential subspace. Projections to the essential subspace realize dimensional reduction in the sensitivity analysis and frequentist evaluation. A key tool for treating frequentist properties is the recently proposed Bayesian infinitesimal jackknife approximation(Giordano and Broderick (2023)). The matrix W can be interpreted as a reproducing kernel and is denoted as W-kernel. Using W-kernel, the essential subspace is expressed as a principal space given by the kernel principal component analysis. A relation to the Fisher kernel and neural tangent kernel is established, which elucidates the connection to the classical asymptotic theory. We also discuss a type of Bayesian-frequentist duality, naturally appeared from the kernel framework. Two applications are discussed: the selection of a representative set of observations and dimensional reduction in the approximate bootstrap. In the former, incomplete Cholesky decomposition is introduced as an efficient method for computing the essential subspace. In the latter, different implementations of the approximate bootstrap for posterior means are compared.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# ビザンチンのロバスト性と部分的参加性は、一度に達成できる: ゆるやかな違い

Byzantine Robustness and Partial Participation Can Be Achieved at Once: Just Clip Gradient Differences ( http://arxiv.org/abs/2311.14127v2 )

ライセンス: Link先を確認
Grigory Malinovsky, Peter Richtárik, Samuel Horváth, Eduard Gorbunov, (参考訳) 分散学習は、大規模な機械学習モデルをトレーニングするための主要なパラダイムとして登場した。 しかし、現実世界のシナリオでは、参加者は信頼できないか悪意があるかもしれない。 ビザンチンのフォールトトレランス機構はこれらの問題に対処するために提案されているが、クライアントの完全参加を前提とすることが多い。 本研究では,クライアントサンプリングによる最初の分散手法を提案する。 この手法の背景にある重要な考え方は、再帰的分散還元の確率的勾配差を制御するために勾配クリッピングを用いることである。 これにより、すべてのサンプルクライアントがビザンツ人である場合であっても、ビザンツ人労働者による潜在的損害を負わせることができます。 さらに,通信効率を向上させるために,通信圧縮を本手法に組み込む。 一般的な仮定では、既存の最先端(SOTA)理論結果と一致する提案手法の収束率を示す。 また,Byzantine-robust法をクリッピングによる部分参加シナリオに適応させる手法を提案する。

Distributed learning has emerged as a leading paradigm for training large machine learning models. However, in real-world scenarios, participants may be unreliable or malicious, posing a significant challenge to the integrity and accuracy of the trained models. Byzantine fault tolerance mechanisms have been proposed to address these issues, but they often assume full participation from all clients, which is not always practical due to the unavailability of some clients or communication constraints. In our work, we propose the first distributed method with client sampling and provable tolerance to Byzantine workers. The key idea behind the developed method is the use of gradient clipping to control stochastic gradient differences in recursive variance reduction. This allows us to bound the potential harm caused by Byzantine workers, even during iterations when all sampled clients are Byzantine. Furthermore, we incorporate communication compression into the method to enhance communication efficiency. Under general assumptions, we prove convergence rates for the proposed method that match the existing state-of-the-art (SOTA) theoretical results. We also propose a heuristic on adjusting any Byzantine-robust method to a partial participation scenario via clipping.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# CLOMO: 大規模言語モデルによる対実論理修正

CLOMO: Counterfactual Logical Modification with Large Language Models ( http://arxiv.org/abs/2311.17438v4 )

ライセンス: Link先を確認
Yinya Huang, Ruixin Hong, Hongming Zhang, Wei Shao, Zhicheng Yang, Dong Yu, Changshui Zhang, Xiaodan Liang, Linqi Song, (参考訳) 本研究では,大規模言語モデル(LLM)の対実的推論能力の領域を探索する。 我々の主な目的は、LLM内の反現実的思考過程を育成し、それらのプロセスの有効性を厳格に評価することである。 具体的には、新しいタスク、CLOMO(Counterfactual Logical Modification)と、高品質な人間注釈ベンチマークを紹介する。 このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 生成モデルの対物的能力を効果的に評価するために,タスクを多重選択問題としてモデル化するのではなく,LLMの自然言語出力を直接評価する,革新的な評価指標である自己評価スコア(SES)を提案する。 分析の結果,提案手法は人間の好みとよく一致していることがわかった。 実験の結果,LLMは論理的対実的思考において顕著な能力を示すが,現在の能力と人的パフォーマンスとの間には明確なギャップが残っていることが示唆された。 コードとデータはhttps://github.com/Eleanor-H/CLOMOで公開されている。

In this study, we delve into the realm of counterfactual reasoning capabilities of large language models (LLMs). Our primary objective is to cultivate the counterfactual thought processes within LLMs and rigorously assess these processes for their validity. Specifically, we introduce a novel task, Counterfactual Logical Modification (CLOMO), and a high-quality human-annotated benchmark. In this task, LLMs must adeptly alter a given argumentative text to uphold a predetermined logical relationship. To effectively evaluate a generation model's counterfactual capabilities, we propose an innovative evaluation metric, the decomposed Self-Evaluation Score (SES) to directly evaluate the natural language output of LLMs instead of modeling the task as a multiple-choice problem. Analysis shows that the proposed automatic metric aligns well with human preference. Our experimental results show that while LLMs demonstrate a notable capacity for logical counterfactual thinking, there remains a discernible gap between their current abilities and human performance. Code and data are available at https://github.com/Eleanor-H/CLOMO.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# 法医学的ツールマーク比較のためのアルゴリズム

An algorithm for forensic toolmark comparisons ( http://arxiv.org/abs/2312.00032v3 )

ライセンス: Link先を確認
Maria Cuellar, Sheng Gao, Heike Hofmann, (参考訳) 法医学的ツールマーク分析は伝統的に主観的人間の判断に依存しており、矛盾と透明性の欠如につながっている。 マーク生成の角度や方向を含む変数の多さは、比較をさらに複雑にする。 そこで我々はまず,連続製造したスロットドライバーを用いて,様々な角度と方向から3Dツールマークのデータセットを生成する。 PAMクラスタリングにより、角度や方向ではなく、ツールによるクラスタリングがあることが分かる。 Known Match と Known Non-Match の密度を用いて分類のしきい値を確立する。 ベータ分布を密度に合わせると、新しいツールマーク対に対する確率比の導出が可能である。 クロスバリデード感度98%,特異性96%により,ツールマーク解析の信頼性が向上した。 このアプローチはスロット付きスクリュードライバーや、同様の製造法で作られたスクリュードライバーにも適用できる。 他のツールやファクタのデータ収集では、他のタイプのツールマークを比較するために使用することができる。 この経験的に訓練されたオープンソースのソリューションは、法務官にツールマークを客観的に比較するための標準化された手段を提供する。

Forensic toolmark analysis traditionally relies on subjective human judgment, leading to inconsistencies and lack of transparency. The multitude of variables, including angles and directions of mark generation, further complicates comparisons. To address this, we first generate a dataset of 3D toolmarks from various angles and directions using consecutively manufactured slotted screwdrivers. By using PAM clustering, we find that there is clustering by tool rather than angle or direction. Using Known Match and Known Non-Match densities, we establish thresholds for classification. Fitting Beta distributions to the densities, we allow for the derivation of likelihood ratios for new toolmark pairs. With a cross-validated sensitivity of 98% and specificity of 96%, our approach enhances the reliability of toolmark analysis. This approach is applicable to slotted screwdrivers, and for screwdrivers that are made with a similar production method. With data collection of other tools and factors, it could be applied to compare toolmarks of other types. This empirically trained, open-source solution offers forensic examiners a standardized means to objectively compare toolmarks, potentially decreasing the number of miscarriages of justice in the legal system.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# ユーザレビューによるモバイルアプリ市場競争のダイナミクスの解明

Unveiling Competition Dynamics in Mobile App Markets through User Reviews ( http://arxiv.org/abs/2312.01981v3 )

ライセンス: Link先を確認
Quim Motger, Xavier Franch, Vincenzo Gervasi, Jordi Marco, (参考訳) モバイルアプリリポジトリに公開されたユーザレビューは、特定の市場セグメントにおけるユーザの満足度とエンゲージメントを理解するために不可欠である。 レビューのマニュアル分析は膨大なデータ量のために現実的ではなく、自動分析はデータ合成やレポートといった課題に直面している。 これにより、アプリケーションプロバイダがパターンや重要なイベントを識別する作業、特に競合アプリの影響を評価する作業が複雑になる。 さらに、レビューベースの調査は、潜在的な競合分析を除いて、主に1つのアプリまたは1つのアプリプロバイダに限られている。 その結果、特定の市場セグメント内でのクロスアプリ分析をサポートするために、ユーザレビューを活用する上で、オープンな研究課題が存在する。 マイクロブログアプリ市場におけるケーススタディ研究の手法に倣って,モバイルアプリ市場分析を支援する新しい手法を提案する。 提案手法は,新たに公開されたユーザレビューに基づいて,定量的なメトリクスとイベント検出技術を活用する。 モバイルアプリのライフサイクル内で、メトリック偏差と過去のベースラインインジケータを比較して、重要なイベントを積極的に識別し、要約する。 本研究の結果から,ソフトウェアやリリースベースのイベント,コンテキストイベント,新たな競争相手の出現など,選択された市場セグメント内の関連事象の検出に関する実証的証拠が得られた。

User reviews published in mobile app repositories are essential for understanding user satisfaction and engagement within a specific market segment. Manual analysis of reviews is impractical due to the large data volume, and automated analysis faces challenges like data synthesis and reporting. This complicates the task for app providers in identifying patterns and significant events, especially in assessing the influence of competitor apps. Furthermore, review-based research is mostly limited to a single app or a single app provider, excluding potential competition analysis. Consequently, there is an open research challenge in leveraging user reviews to support cross-app analysis within a specific market segment. Following a case-study research method in the microblogging app market, we introduce an automatic, novel approach to support mobile app market analysis. Our approach leverages quantitative metrics and event detection techniques based on newly published user reviews. Significant events are proactively identified and summarized by comparing metric deviations with historical baseline indicators within the lifecycle of a mobile app. Results from our case study show empirical evidence of the detection of relevant events within the selected market segment, including software- or release-based events, contextual events and the emergence of new competitors.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# Magicoder:OSS命令によるコード生成の強化

Magicoder: Empowering Code Generation with OSS-Instruct ( http://arxiv.org/abs/2312.02120v2 )

ライセンス: Link先を確認
Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang, (参考訳) Magicoderは、コードのための、完全なオープンソース(コード、重み、データ)のシリーズで、7Bパラメータを含まないまま、トップコードモデルとのギャップを著しく埋める大規模言語モデル(LLM)を紹介します。 Magicoderモデルは、OSS-Instructを使って75Kの合成命令データに基づいてトレーニングされている。 我々の主な動機は、より現実的で制御可能なデータを生成するために、LLMが生成する合成データの固有のバイアスを軽減することである。 OSS-InstructとEvol-Instructのようなデータ生成メソッドの直交性により、さらに拡張されたMagicoderSを構築することができます。 MagicoderとMagicoderSはどちらも、幅広いコーディングベンチマークにおいて、類似またはそれ以上の大きさの最先端のコードモデルよりも大幅に優れている。 特に、CodeLlamaをベースとしたMagicoderS-CL-7Bは、HumanEval+の著名なChatGPT(66.5 vs. 65.9 in pass@1 )を超えている。 OSS-Instructは、豊富なオープンソースリファレンスを使用して、コードのための多様な合成インストラクションデータを構築するための、新たな方向を開く。

We introduce Magicoder, a series of fully open-source (code, weights, and data) Large Language Models (LLMs) for code that significantly closes the gap with top code models while having no more than 7B parameters. Magicoder models are trained on 75K synthetic instruction data using OSS-Instruct, a novel approach to enlightening LLMs with open-source code snippets to generate diverse instruction data for code. Our main motivation is to mitigate the inherent bias of the synthetic data generated by LLMs through the wealth of open-source references for the production of more realistic and controllable data. The orthogonality of OSS-Instruct and other data generation methods like Evol-Instruct further enables us to build an enhanced MagicoderS. Both Magicoder and MagicoderS substantially outperform state-of-the-art code models with similar or even larger sizes on a wide range of coding benchmarks. Notably, MagicoderS-CL-7B based on CodeLlama even surpasses the prominent ChatGPT on HumanEval+ (66.5 vs. 65.9 in pass@1 ). Overall, OSS-Instruct opens a new direction for crafting diverse synthetic instruction data for code using abundant open-source references.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# FRAPPE: すべてを後処理するためのグループフェアネスフレームワーク

FRAPPE: A Group Fairness Framework for Post-Processing Everything ( http://arxiv.org/abs/2312.02592v3 )

ライセンス: Link先を確認
Alexandru Tifrea, Preethi Lahoti, Ben Packer, Yoni Halpern, Ahmad Beirami, Flavien Prost, (参考訳) 有望なフェアネスエラートレードオフを達成しているにもかかわらず、グループフェアネスのインプロセッシング緩和技術は、限られた計算資源や予測モデルのトレーニングパイプラインにアクセスできない多くの実用的なアプリケーションには適用できない。 このような状況下では、後処理は実行可能な代替手段です。 しかし、現在の手法は特定の問題設定や公平性の定義に合わせて調整されているため、インプロセッシングほど広くは適用できない。 本研究では,任意の正規化インプロセッシング手法をポストプロセッシング手法に変換するフレームワークを提案する。 本手法は,従来の後処理文献よりも幅広い問題設定のための後処理技術を得る方法を規定する。 理論的および広範な実験を通して、我々のフレームワークは、インプロセッシングによって達成された優れたフェアネス・エラートレードオフを保ち、以前のポストプロセッシング手法の有効性よりも改善できることを示す。 最後に,予測モデルのトレーニングをフェアネス緩和から切り離すモジュール緩和戦略のいくつかの利点を示す。

Despite achieving promising fairness-error trade-offs, in-processing mitigation techniques for group fairness cannot be employed in numerous practical applications with limited computation resources or no access to the training pipeline of the prediction model. In these situations, post-processing is a viable alternative. However, current methods are tailored to specific problem settings and fairness definitions and hence, are not as broadly applicable as in-processing. In this work, we propose a framework that turns any regularized in-processing method into a post-processing approach. This procedure prescribes a way to obtain post-processing techniques for a much broader range of problem settings than the prior post-processing literature. We show theoretically and through extensive experiments that our framework preserves the good fairness-error trade-offs achieved with in-processing and can improve over the effectiveness of prior post-processing methods. Finally, we demonstrate several advantages of a modular mitigation strategy that disentangles the training of the prediction model from the fairness mitigation, including better performance on tasks with partial group labels.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# Doodle Your 3D:抽象的なフリーハンドケッチから精密な3D形状まで

Doodle Your 3D: From Abstract Freehand Sketches to Precise 3D Shapes ( http://arxiv.org/abs/2312.04043v2 )

ライセンス: Link先を確認
Hmrishav Bandyopadhyay, Subhadeep Koley, Ayan Das, Ayan Kumar Bhunia, Aneeshan Sain, Pinaki Nath Chowdhury, Tao Xiang, Yi-Zhe Song, (参考訳) 本稿では、3Dコンテンツ作成を民主化し、抽象スケッチから3D形状を正確に生成し、描画スキルの限界を克服する。 本稿では,抽象モデリングとクロスモーダル対応を容易にする新しい部分レベルモデリング・アライメントフレームワークを提案する。 同じ部分レベルのデコーダを活用することで,CLIPassoエッジマップと投影された3D部分領域との対応性を確立し,人間のスケッチと3D形状をペアリングするデータセットを不要にすることで,スケッチモデリングをシームレスに実現する。 さらに,クロスモーダルなパートアライメントモデリングの副産物として,シームレスなインポジション編集プロセスを導入する。 低次元の暗黙空間で運用することで,計算要求や処理時間を著しく削減できる。

In this paper, we democratise 3D content creation, enabling precise generation of 3D shapes from abstract sketches while overcoming limitations tied to drawing skills. We introduce a novel part-level modelling and alignment framework that facilitates abstraction modelling and cross-modal correspondence. Leveraging the same part-level decoder, our approach seamlessly extends to sketch modelling by establishing correspondence between CLIPasso edgemaps and projected 3D part regions, eliminating the need for a dataset pairing human sketches and 3D shapes. Additionally, our method introduces a seamless in-position editing process as a byproduct of cross-modal part-aligned modelling. Operating in a low-dimensional implicit space, our approach significantly reduces computational demands and processing time.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# エゴセントリックビデオからの3Dシーンのインスタンス追跡

Instance Tracking in 3D Scenes from Egocentric Videos ( http://arxiv.org/abs/2312.04117v2 )

ライセンス: Link先を確認
Yunhan Zhao, Haoyu Ma, Shu Kong, Charless Fowlkes, (参考訳) AR/VRデバイスのようなエゴセントリックなセンサーは、人間と物体の相互作用を捉え、周囲の環境に関心のある物体の3D位置をリコールすることでタスク支援を提供する。 この機能は、エゴセントリックビデオ(IT3DEgo)から現実世界の3Dシーンのインスタンス追跡を必要とする。 まず、RGBと深度ビデオ、フレームごとのカメラポーズ、そして2Dカメラと3Dワールド座標の両方でインスタンスレベルのアノテーションからなる新しいベンチマークデータセットを導入する。 1) ユーザのインタラクションに基づいて,インスタンスをオンザフライで指定した単一ビューオンライン登録を行う。 2) 追跡対象のインスタンスのイメージを事前にメモリに格納するマルチビュー事前登録。 IT3DEgoに対処するために、私たちは、SOTメソッドを実行して、2Dフレーム内のインスタンスを追跡し、カメラのポーズと深さを使って3Dに持ち上げるなど、関連する領域から、まずSOT(Single Object Tracking)メソッドを再利用しました。 また、事前訓練されたセグメンテーションと検出モデルを利用して、RGBフレームから提案を生成し、登録されたインスタンス画像とマッチングする簡単な方法を提案する。 実験の結果,本手法はエゴセントリックな設定において,SOTに基づくアプローチよりも有意に優れていることがわかった。 我々は、カメラのポーズを利用し、3Dアロセンティブ(世界)座標表現を使用することにより、自己中心型インスタンス追跡の問題はより容易である、と結論付けている。

Egocentric sensors such as AR/VR devices capture human-object interactions and offer the potential to provide task-assistance by recalling 3D locations of objects of interest in the surrounding environment. This capability requires instance tracking in real-world 3D scenes from egocentric videos (IT3DEgo). We explore this problem by first introducing a new benchmark dataset, consisting of RGB and depth videos, per-frame camera pose, and instance-level annotations in both 2D camera and 3D world coordinates. We present an evaluation protocol which evaluates tracking performance in 3D coordinates with two settings for enrolling instances to track: (1) single-view online enrollment where an instance is specified on-the-fly based on the human wearer's interactions. and (2) multi-view pre-enrollment where images of an instance to be tracked are stored in memory ahead of time. To address IT3DEgo, we first re-purpose methods from relevant areas, e.g., single object tracking (SOT) -- running SOT methods to track instances in 2D frames and lifting them to 3D using camera pose and depth. We also present a simple method that leverages pretrained segmentation and detection models to generate proposals from RGB frames and match proposals with enrolled instance images. Our experiments show that our method (with no finetuning) significantly outperforms SOT-based approaches in the egocentric setting. We conclude by arguing that the problem of egocentric instance tracking is made easier by leveraging camera pose and using a 3D allocentric (world) coordinate representation.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# 移動体健康対策評価のための帯域幅アルゴリズムのロバスト混合効果

A Robust Mixed-Effects Bandit Algorithm for Assessing Mobile Health Interventions ( http://arxiv.org/abs/2312.06403v3 )

ライセンス: Link先を確認
Easton K. Huch, Jieru Shi, Madeline R. Abbott, Jessica R. Golbus, Alexander Moreno, Walter H. Dempsey, (参考訳) モバイルヘルスは、バンディットと強化学習アルゴリズムによって最適化された、パーソナライズされたコンテキストに合わせて調整された介入を活用する。 その約束にもかかわらず、参加者の不均一性、非定常性、報酬の非線形性といった課題はアルゴリズムのパフォーマンスを妨げる。 本稿では,(1)ユーザと時間固有のインシデントパラメータによる差分報酬のモデル化,(2)ネットワーク結合のペナルティ,(3)ベースライン報酬のフレキシブルな推定のためのデバイアスド機械学習などにより,これらの課題に同時に対処する,堅牢なコンテキスト付きバンディットアルゴリズム"DML-TS-NNR"を提案する。 差分報酬モデルの次元にのみ依存する高い確率的後悔境界を確立する。 この機能により、ベースライン報酬が非常に複雑である場合でも、堅牢な後悔境界を達成することができる。 そこで本研究では,DML-TS-NNRアルゴリズムのシミュレーションおよび2つのオフ政治評価研究において,優れた性能を示す。

Mobile health leverages personalized, contextually-tailored interventions optimized through bandit and reinforcement learning algorithms. Despite its promise, challenges like participant heterogeneity, nonstationarity, and nonlinearity in rewards hinder algorithm performance. We propose a robust contextual bandit algorithm, termed "DML-TS-NNR", that simultaneously addresses these challenges via (1) modeling the differential reward with user- and time-specific incidental parameters, (2) network cohesion penalties, and (3) debiased machine learning for flexible estimation of baseline rewards. We establish a high-probability regret bound that depends solely on the dimension of the differential reward model. This feature enables us to achieve robust regret bounds even when the baseline reward is highly complex. We demonstrate the superior performance of the DML-TS-NNR algorithm in a simulation and two off-policy evaluation studies.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# MedYOLO: 医用画像オブジェクト検出フレームワーク

MedYOLO: A Medical Image Object Detection Framework ( http://arxiv.org/abs/2312.07729v2 )

ライセンス: Link先を確認
Joseph Sobek, Jose R. Medina Inojosa, Betsy J. Medina Inojosa, S. M. Rassoulinejad-Mousavi, Gian Marco Conte, Francisco Lopez-Jimenez, Bradley J. Erickson, (参考訳) 医療画像における臓器、病変、その他の構造の人工知能による同定は、通常、興味のある領域のボクセル正確なセグメンテーションを作成するために設計された畳み込みニューラルネットワーク(CNN)を用いて行われる。 しかし、これらのCNNを訓練するために必要なラベルは、品質を確保するのに時間を要する。 ボクセルレベルの精度を必要としないタスクに対しては、オブジェクト検出モデルはアノテーションの労力を減らすための実行可能な代替手段を提供する。 この潜在的な応用にもかかわらず、3次元医用画像の汎用オブジェクト検出フレームワークには選択肢がほとんどない。 本報告では, YOLO モデルのワンショット検出手法を用いた3次元物体検出フレームワーク MedYOLO について報告する。 BRaTS,LIDC,腹部臓器CT(CT)データセット,心電図同期心電図CTデータセットの4つの異なるデータセットでこのモデルを検証した。 ハイパーパラメータチューニングを必要とせずに, 心臓, 肝臓, 膵などの中・大規模構造で高い性能を得られた。 しかし、モデルは非常に小さな、または稀に現存する構造に苦しむ。

Artificial intelligence-enhanced identification of organs, lesions, and other structures in medical imaging is typically done using convolutional neural networks (CNNs) designed to make voxel-accurate segmentations of the region of interest. However, the labels required to train these CNNs are time-consuming to generate and require attention from subject matter experts to ensure quality. For tasks where voxel-level precision is not required, object detection models offer a viable alternative that can reduce annotation effort. Despite this potential application, there are few options for general purpose object detection frameworks available for 3-D medical imaging. We report on MedYOLO, a 3-D object detection framework using the one-shot detection method of the YOLO family of models and designed for use with medical imaging. We tested this model on four different datasets: BRaTS, LIDC, an abdominal organ Computed Tomography (CT) dataset, and an ECG-gated heart CT dataset. We found our models achieve high performance on commonly present medium and large-sized structures such as the heart, liver, and pancreas even without hyperparameter tuning. However, the models struggle with very small or rarely present structures.
翻訳日:2024-06-10 20:36:48 公開日:2024-06-07
# 階層的深層強化学習によるマルチUAV支援無線動的通信の設計

On Designing Multi-UAV aided Wireless Powered Dynamic Communication via Hierarchical Deep Reinforcement Learning ( http://arxiv.org/abs/2312.07917v2 )

ライセンス: Link先を確認
Ze Yu Zhao, Yue Ling Che, Sheng Luo, Gege Luo, Kaishun Wu, Victor C. M. Leung, (参考訳) 本稿では,複数の無人航空機(UAV)による動的環境における無線通信ネットワーク(WPCN)の新たな設計法を提案する。 低消費電力無線ノード(WN)がコヒーレントな収穫-送信プロトコルによく準拠する従来の研究とは異なり、新たに提案したダブルスレッショルドベースのWNタイプ更新ルールでは、各WNは、時間スロットを経由した非線形エネルギー収穫のためのEノードとして、またサブスロット上でデータを送信するためのIノードとして、WNタイプを動的かつ繰り返し更新することができる。 Tスロット上の全WNの送信データサイズを最大化するために、各UAVは、各UAVの制限されたオンボードエネルギーと各WNのノードタイプ更新ルールの制約の下で、時間スロット上の軌道およびバイナリ無線エネルギー伝送(WET)決定とサブスロット上のバイナリ無線データ収集(WDC)決定を個別に決定する。 しかし、UAVのWETおよびWDC決定との密結合軌道と、各WNの時間変化バッテリエネルギーにより、この問題は最適に解決することが困難である。 次に,マルチエージェントに基づく階層型深層強化学習(MAHDRL)フレームワークを提案し,各UAVの連続軌跡とバイナリWET決定をタイムスロット上で決定するソフトアクタ評論家(SAC)ポリシーをtier-1で設計し,深部Q学習(DQN)ポリシーをtier-2で設計し,各UAVのサブスロットに対するサブスロットに対するバイナリWDC決定をtier-1から決定する。 SACポリシーとDQNポリシーは、それぞれのUAVで分配的に実行される。 最後に,様々な最先端ベンチマークに対して提案したMAHDRL法の性能評価を行うため,広範囲なシミュレーション結果が得られた。

This paper proposes a novel design on the wireless powered communication network (WPCN) in dynamic environments under the assistance of multiple unmanned aerial vehicles (UAVs). Unlike the existing studies, where the low-power wireless nodes (WNs) often conform to the coherent harvest-then-transmit protocol, under our newly proposed double-threshold based WN type updating rule, each WN can dynamically and repeatedly update its WN type as an E-node for non-linear energy harvesting over time slots or an I-node for transmitting data over sub-slots. To maximize the total transmission data size of all the WNs over T slots, each of the UAVs individually determines its trajectory and binary wireless energy transmission (WET) decisions over times slots and its binary wireless data collection (WDC) decisions over sub-slots, under the constraints of each UAV's limited on-board energy and each WN's node type updating rule. However, due to the UAVs' tightly-coupled trajectories with their WET and WDC decisions, as well as each WN's time-varying battery energy, this problem is difficult to solve optimally. We then propose a new multi-agent based hierarchical deep reinforcement learning (MAHDRL) framework with two tiers to solve the problem efficiently, where the soft actor critic (SAC) policy is designed in tier-1 to determine each UAV's continuous trajectory and binary WET decision over time slots, and the deep-Q learning (DQN) policy is designed in tier-2 to determine each UAV's binary WDC decisions over sub-slots under the given UAV trajectory from tier-1. Both of the SAC policy and the DQN policy are executed distributively at each UAV. Finally, extensive simulation results are provided to validate the outweighed performance of the proposed MAHDRL approach over various state-of-the-art benchmarks.
翻訳日:2024-06-10 20:27:03 公開日:2024-06-07
# 潜在原因のニューラルネットワークモデルにおける共有情報とコンテキスト情報の再検討

Reconciling Shared versus Context-Specific Information in a Neural Network Model of Latent Causes ( http://arxiv.org/abs/2312.08519v3 )

ライセンス: Link先を確認
Qihong Lu, Tan T. Nguyen, Qiong Zhang, Uri Hasson, Thomas L. Griffiths, Jeffrey M. Zacks, Samuel J. Gershman, Kenneth A. Norman, (参考訳) 事象の流れを処理する際、人間は文脈に依存した学習を支援するために、推論潜在原因(LC)の観点から経験を分割することが提案されている。 しかし,共有構造が存在する場合,LCの「分割」と共有構造の学習を同時に行うことができるのかはいまだ不明である。 本稿では,LC推論のニューラルネットワークモデルであるLatent Cause Network(LCNet)を提案する。 学習を通じて、ネットワーク重みの中でタスク間で共有される構造を自然に保存する。 さらに、ベイズ非パラメトリック推論アルゴリズムによって制御されるコンテキストモジュールを用いてコンテキスト固有の構造を表現し、各推定LCに対して独自のコンテキストベクトルを割り当てる。 3つのシミュレーションで、LCNetが実現可能であることが判明した。 1) 機能学習課題において, 破滅的干渉を回避しつつ, LC間の共有構造を抽出する。 2)スキーマ学習におけるカリキュラム効果に関する人的データを取得し、 3)日常イベントの自然なビデオ処理において,その基盤となるイベント構造を推測する。 これらの結果は,実験室の設定から自然主義的な設定まで拡張性のあるLCのモデルにおいて,共有構造とコンテキスト固有構造を再構成するための計算学的に実現可能なアプローチを示す。

It has been proposed that, when processing a stream of events, humans divide their experiences in terms of inferred latent causes (LCs) to support context-dependent learning. However, when shared structure is present across contexts, it is still unclear how the "splitting" of LCs and learning of shared structure can be simultaneously achieved. Here, we present the Latent Cause Network (LCNet), a neural network model of LC inference. Through learning, it naturally stores structure that is shared across tasks in the network weights. Additionally, it represents context-specific structure using a context module, controlled by a Bayesian nonparametric inference algorithm, which assigns a unique context vector for each inferred LC. Across three simulations, we found that LCNet could 1) extract shared structure across LCs in a function learning task while avoiding catastrophic interference, 2) capture human data on curriculum effects in schema learning, and 3) infer the underlying event structure when processing naturalistic videos of daily events. Overall, these results demonstrate a computationally feasible approach to reconciling shared structure and context-specific structure in a model of LCs that is scalable from laboratory experiment settings to naturalistic settings.
翻訳日:2024-06-10 20:27:03 公開日:2024-06-07
# 良いこと、悪いこと、そしてなぜか:ジェネレーティブAIにおける感情の流出

The Good, The Bad, and Why: Unveiling Emotions in Generative AI ( http://arxiv.org/abs/2312.11111v3 )

ライセンス: Link先を確認
Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Xinyi Wang, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, Xing Xie, (参考訳) 感情は日々の行動や相互作用に大きな影響を与えます。 最近の生成型AIモデル(例えば、大きな言語モデル)は、様々なタスクにおいて印象的なパフォーマンスを示しているが、それらが本当に感情を理解しているかどうかは不明だ。 本稿では、心理学的理論を取り入れ、生成型AIモデルにおける感情の全体的理解を得ることにより、このギャップに対処することを目的とする。 具体的には,3つのアプローチを提案する。 1)AIモデルの性能を高めるための感情プロンプト。 2)AIモデルの性能を損なう感情アタック 3) 良性および悪性の情動刺激の効果を説明するための感情デコード。 セマンティック理解、論理的推論、生成タスクに関する言語モデルとマルチモーダルモデルを含む広範な実験を通じて、テキストと視覚の両方のEmotionPromptがAIモデルの性能を向上し、EmotionAttackはそれを妨げうることを示した。 さらに、EmotionDecodeは、AIモデルが人間の脳のドーパミンのメカニズムに似た感情的な刺激を理解することができることを明らかにした。 我々の研究は、生成的AIモデルの理解を深めるために心理学を探求するための新しい道筋を定めている。

Emotion significantly impacts our daily behaviors and interactions. While recent generative AI models, such as large language models, have shown impressive performance in various tasks, it remains unclear whether they truly comprehend emotions. This paper aims to address this gap by incorporating psychological theories to gain a holistic understanding of emotions in generative AI models. Specifically, we propose three approaches: 1) EmotionPrompt to enhance AI model performance, 2) EmotionAttack to impair AI model performance, and 3) EmotionDecode to explain the effects of emotional stimuli, both benign and malignant. Through extensive experiments involving language and multi-modal models on semantic understanding, logical reasoning, and generation tasks, we demonstrate that both textual and visual EmotionPrompt can boost the performance of AI models while EmotionAttack can hinder it. Additionally, EmotionDecode reveals that AI models can comprehend emotional stimuli akin to the mechanism of dopamine in the human brain. Our work heralds a novel avenue for exploring psychology to enhance our understanding of generative AI models.
翻訳日:2024-06-10 20:27:03 公開日:2024-06-07
# Pose2Gaze:全眼球からの視線予測のための視線調整

Pose2Gaze: Eye-body Coordination during Daily Activities for Gaze Prediction from Full-body Poses ( http://arxiv.org/abs/2312.12042v2 )

ライセンス: Link先を確認
Zhiming Hu, Jiahui Xu, Syn Schmitt, Andreas Bulling, (参考訳) 人間の目視は多くのバーチャルおよび拡張現実(VR/AR)アプリケーションにおいて重要な役割を果たす。 しかし、視線分析と予測に関する先行研究は、視線調整のみを探求し、人間と物体の相互作用に限られていた。 まず、実世界(MoGaze)、VR(ADT)、AR(GIMO)およびEgoBody(EgoBody)環境において収集された4つの公開データセットに基づいて、様々な人・物・人間・対話活動における眼球運動の総合的コーディネーション分析を行った。 人・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・物・関係との関連を考察した。 これらの分析から得られたPose2Gazeは、畳み込みニューラルネットワークと時空間グラフ畳み込みニューラルネットワークを用いて、それぞれ頭部と全身のポーズから特徴を抽出し、畳み込みニューラルネットワークを用いて視線を予測する新しいアイボディコーディネートモデルである。 本手法を頭の動きのみから視線を推定する最先端手法と比較し,Pose2GazeがMoGaze平均24.0%,ADT平均10.1%,GIMO平均21.3%,EgoBody平均28.6%でこれらのベースラインを上回ったことを示す。 また,本手法は,視線に基づく活動認識の下流課題において,従来の手法よりも有意に優れていた。 これらの結果は、日常活動中に眼球運動調整に利用可能な重要な情報内容を明らかにし、視線予測のための新しい方向を開く。

Human eye gaze plays a significant role in many virtual and augmented reality (VR/AR) applications, such as gaze-contingent rendering, gaze-based interaction, or eye-based activity recognition. However, prior works on gaze analysis and prediction have only explored eye-head coordination and were limited to human-object interactions. We first report a comprehensive analysis of eye-body coordination in various human-object and human-human interaction activities based on four public datasets collected in real-world (MoGaze), VR (ADT), as well as AR (GIMO and EgoBody) environments. We show that in human-object interactions, e.g. pick and place, eye gaze exhibits strong correlations with full-body motion while in human-human interactions, e.g. chat and teach, a person's gaze direction is correlated with the body orientation towards the interaction partner. Informed by these analyses we then present Pose2Gaze, a novel eye-body coordination model that uses a convolutional neural network and a spatio-temporal graph convolutional neural network to extract features from head direction and full-body poses, respectively, and then uses a convolutional neural network to predict eye gaze. We compare our method with state-of-the-art methods that predict eye gaze only from head movements and show that Pose2Gaze outperforms these baselines with an average improvement of 24.0% on MoGaze, 10.1% on ADT, 21.3% on GIMO, and 28.6% on EgoBody in mean angular error, respectively. We also show that our method significantly outperforms prior methods in the sample downstream task of eye-based activity recognition. These results underline the significant information content available in eye-body coordination during daily activities and open up a new direction for gaze prediction.
翻訳日:2024-06-10 20:27:03 公開日:2024-06-07
# WaveCoder: インストラクションチューニングによる大規模言語モデルの広範化とVersatile拡張

WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning ( http://arxiv.org/abs/2312.14187v5 )

ライセンス: Link先を確認
Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, Qiufeng Yin, (参考訳) 最近の研究は、インストラクションチューニングの後、コード大言語モデル(Code Large Language Models, Code LLM)が、幅広いコード関連のタスクに対処する印象的な能力を得ることができることを実証している。 しかし、現在のコードLLMの命令チューニング手法は、主に従来のコード生成タスクに重点を置いており、複雑なマルチタスクシナリオでは性能が劣る。 本稿では、複数のコード関連タスクに集中し、Widespread and Versatile Enhancedインストラクションデータでトレーニングされた一連のコードLLMであるWaveCoderを提示する。 複雑なコード関連タスクに対処するために,マルチタスクシナリオにおいて,オープンソースコードデータセットから多種多様な高品質の命令データを安定して生成する手法を提案し,コードLLMの一般化能力の向上を目的とした4つのコード関連タスクにまたがる19,915の命令インスタンスからなるデータセットであるCodeSeaXDatasetを得る。 実験により、WaveCoderモデルは、異なるコード関連タスク間の一般化能力において、他のオープンソースモデルよりも大幅に優れていることが示された。 さらにWaveCoder-Ultra-6.7Bは、幅広いコード関連タスクに対して最先端の一般化能力を示す。

Recent work demonstrates that, after instruction tuning, Code Large Language Models (Code LLMs) can obtain impressive capabilities to address a wide range of code-related tasks. However, current instruction tuning methods for Code LLMs mainly focus on the traditional code generation task, resulting in poor performance in complex multi-task scenarios. In this paper, we concentrate on multiple code-related tasks and present WaveCoder, a series of Code LLMs trained with Widespread And Versatile Enhanced instruction data. To enable the models to tackle complex code-related tasks, we propose a method to stably generate diverse, high-quality instruction data from open source code dataset in multi-task scenarios and obtain CodeSeaXDataset, a dataset comprising 19,915 instruction instances across 4 code-related tasks, which is aimed at improving the generalization ability of Code LLM. Our experiments demonstrate that WaveCoder models significantly outperform other open-source models in terms of the generalization ability across different code-related tasks. Moreover, WaveCoder-Ultra-6.7B presents the state-of-the-art generalization abilities on a wide range of code-related tasks.
翻訳日:2024-06-10 20:27:03 公開日:2024-06-07
# repairLLaMA: プログラム修復のための効率的な表現と微調整アダプタ

RepairLLaMA: Efficient Representations and Fine-Tuned Adapters for Program Repair ( http://arxiv.org/abs/2312.15698v4 )

ライセンス: Link先を確認
André Silva, Sen Fang, Martin Monperrus, (参考訳) APR(Automated Program repair)は、LLM(Large Language Models)の出現によって大きく進化したプログラムである。 プログラム修復のための微調整LDMは最近の研究の道であり、多くの次元がまだ探索されていない。 既存の作業は、コード表現が単純で、フロンティアモデルにスケールしない、微調整のLLMがほとんどです。 この問題に対処するため,我々は新しいプログラム修復手法であるRe repairLLaMAを提案する。 1)微調整モデルを用いてAPRの最適なコード表現を同定し, 2) プログラム修復のためのPEFT(State-of-the-art parameter- efficient fine-tuning technique)のパイオニアである。 これにより、修正LLaMAは、AIでバグを修正するのに非常に効果的な'プログラム修復アダプタ'を生成する。 両概念の妥当性を示す実験を行った。 まず、プログラムの修正固有のコード表現を備えた微調整アダプタにより、意味のある修復信号を使用し、より良いパッチを生成することができる。 第二に、パラメータ効率の良い微調整は微調整の収束に役立ち、微調整データ配布の外部でバグを修正する際の補修LLaMAの有効性に明らかに寄与する。 全体として、Re repairLLaMAは144のDefects4J v2と109のHumanEval-Javaバグを正しく修正し、すべてのベースラインを上回っている。

Automated Program Repair (APR) has evolved significantly with the advent of Large Language Models (LLMs). Fine-tuning LLMs for program repair is a recent avenue of research, with many dimensions which have not been explored. Existing work mostly fine-tune LLMs with naive code representations and does not scale to frontier models. To address this problem, we propose RepairLLaMA, a novel program repair approach that 1) identifies optimal code representations for APR with fine-tuned models, and 2) pioneers state-of-the-art parameter-efficient fine-tuning technique (PEFT) for program repair. This results in RepairLLaMA producing a highly effective `program repair adapter' for fixing bugs with AI. Our experiments demonstrate the validity of both concepts. First, fine-tuning adapters with program repair specific code representations enables the model to use meaningful repair signals and produce better patches. Second, parameter-efficient fine-tuning helps fine-tuning to converge and clearly contributes to the effectiveness of RepairLLaMA in fixing bugs outside the fine-tuning data distribution. Overall, RepairLLaMA correctly fixes 144 Defects4J v2 and 109 HumanEval-Java bugs, outperforming all baselines.
翻訳日:2024-06-10 20:27:03 公開日:2024-06-07
# 逆正則化によるロバスト生存解析

Robust Survival Analysis with Adversarial Regularization ( http://arxiv.org/abs/2312.16019v2 )

ライセンス: Link先を確認
Michael Potter, Stefano Maxenti, Michael Everett, (参考訳) サバイバル分析(英: Survival Analysis、SA)とは、医学、防衛、金融、航空宇宙など多くの分野において重要な応用分野である、関心事の発生時刻をモデル化することである。 最近の研究は、SAの複雑な関係を捉えるためにニューラルネットワーク(NN)を使用することの利点を実証している。 しかしながら、これらのモデルをトレーニングするために使用されるデータセットは、しばしば不確実性(例えば、ノイズ測定、ヒューマンエラー)を受けており、既存の技術の性能を著しく低下させることが示されている。 この問題に対処するために、この研究は最近のNN検証の進歩を活用し、そのような不確実性に対して堅牢な完全パラメトリックサバイバルモデルを生成するための新しいアルゴリズムを提供する。 特に、モデルをトレーニングするためのロバストな損失関数を導入し、CROWN-IBP正規化を用いて、結果のMin-Max問題を解決する計算問題に対処する。 提案手法を評価するために,SurvSetレポジトリで公開されているデータセットに関連する摂動を適用し,サバイバルモデルといくつかのベースラインを比較した。 本研究では,NegLL (NegLL) やIBS (Integrated Brier Score) ,Concordance Index (CI) などの指標によるデータセット摂動量の平均値に対するSurvival Analysis with Adversarial Regularization (awaR) 法の有効性を実証的に示す。 コード:https://github.com/mlpotter/zawaR

Survival Analysis (SA) is about modeling the time for an event of interest to occur, which has important applications in many fields, including medicine, defense, finance, and aerospace. Recent work has demonstrated the benefits of using Neural Networks (NNs) to capture complicated relationships in SA. However, the datasets used to train these models are often subject to uncertainty (e.g., noisy measurements, human error), which we show can substantially degrade the performance of existing techniques. To address this issue, this work leverages recent advances in NN verification to provide new algorithms for generating fully parametric survival models that are robust to such uncertainties. In particular, we introduce a robust loss function for training the models and use CROWN-IBP regularization to address the computational challenges with solving the resulting Min-Max problem. To evaluate the proposed approach, we apply relevant perturbations to publicly available datasets in the SurvSet repository and compare survival models against several baselines. We empirically show that Survival Analysis with Adversarial Regularization (SAWAR) method on average ranks best for dataset perturbations of varying magnitudes on metrics such as Negative Log Likelihood (NegLL), Integrated Brier Score (IBS), and Concordance Index (CI), concluding that adversarial regularization enhances performance in SA. Code: https://github.com/mlpotter/SAWAR
翻訳日:2024-06-10 20:27:03 公開日:2024-06-07
# 光と物質の強・超強結合の量子増幅とシミュレーション

Quantum amplification and simulation of strong and ultrastrong coupling of light and matter ( http://arxiv.org/abs/2401.04949v2 )

ライセンス: Link先を確認
Wei Qin, Anton Frisk Kockum, Carlos Sánchez Muñoz, Adam Miranowicz, Franco Nori, (参考訳) 単一光子レベルでの光と物質の相互作用は、例えば凝縮物質物理学、天文学、量子光学、量子情報など、物理学の様々な分野において中心的な重要性を持つ。 このような量子光-物質相互作用の増幅は、例えば、デバイスの性能を改善し、新しい現象を探求し、基礎物理学を理解するために非常に有益であり、そのため長年の目標であった。 さらに, 相互作用強度が非結合系の素周波数に匹敵する超強結合系における光-物質相互作用のシミュレーションも熱い研究課題となり, 過去10年間に理論的および実験的にかなりの進展が見られた。 本稿では,近年の量子光-マター相互作用の増幅と超強光-マター相互作用のシミュレーション,特に空洞,回路量子力学,空洞光力学の詳細な紹介を行う。

The interaction of light and matter at the single-photon level is of central importance in various fields of physics, including, e.g., condensed matter physics, astronomy, quantum optics, and quantum information. Amplification of such quantum light-matter interaction can be highly beneficial to, e.g., improve device performance, explore novel phenomena, and understand fundamental physics, and has therefore been a long-standing goal. Furthermore, simulation of light-matter interaction in the regime of ultrastrong coupling, where the interaction strength is comparable to the bare frequencies of the uncoupled systems, has also become a hot research topic, and considerable progress has been made both theoretically and experimentally in the past decade. In this review, we provide a detailed introduction of recent advances in amplification of quantum light-matter interaction and simulation of ultrastrong light-matter interaction, particularly in cavity and circuit quantum electrodynamics and in cavity optomechanics.
翻訳日:2024-06-10 20:27:02 公開日:2024-06-07
# クラスインクリメンタル・オーディオ・ビジュアル・ビデオ認識のための階層的拡張と拡張

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition ( http://arxiv.org/abs/2401.06287v3 )

ライセンス: Link先を確認
Yukun Zuo, Hantao Yao, Liansheng Zhuang, Changsheng Xu, (参考訳) オーディオ視覚ビデオ認識(AVVR)は、映像を正確に分類するために、音声と視覚の手がかりを統合することを目的としている。 既存の方法では、提供されたデータセットを使用してAVVRモデルをトレーニングし、満足な結果を得る一方で、現実の状況で新しいクラスに直面する場合、過去のクラス知識を維持するのに苦労する。 現在,この問題に対処するための専用手法は存在しないため,本論文は,CIAVVR(Class Incremental Audio-Visual Video Recognition)の探索に重点を置いている。 CIAVVRにとって、記憶されたデータと過去のクラスの学習モデルの両方が歴史的知識を含んでいるため、重要な課題は過去のデータ知識と過去のモデル知識をキャプチャして破滅的な忘れを防止する方法である。 本稿では,階層拡張モジュール (HAM) と階層拡張モジュール (HDM) を組み合わせた階層拡張蒸留 (HAD) を導入し,データとモデルの階層構造を効率的に活用する。 具体的には,階層的モデル知識を維持するため,HAMは新たな拡張戦略であるセグメント的特徴拡張を実装している。 一方、HDMでは、各データの階層内知識とデータ間の階層間知識をそれぞれ捕捉し、維持するために、新しく設計された階層間論理蒸留(ビデオ配信)と階層間相関蒸留を導入している。 AVE, AVK-100, AVK-200, AVK-400の4つのベンチマークによる評価は、提案HADがデータとモデルの両方において階層的な情報を効果的に取得し、歴史的クラス知識の保存が向上し、性能が向上することを示した。 さらに,部分的特徴増強戦略の必要性を裏付ける理論的分析を行う。

Audio-visual video recognition (AVVR) aims to integrate audio and visual clues to categorize videos accurately. While existing methods train AVVR models using provided datasets and achieve satisfactory results, they struggle to retain historical class knowledge when confronted with new classes in real-world situations. Currently, there are no dedicated methods for addressing this problem, so this paper concentrates on exploring Class Incremental Audio-Visual Video Recognition (CIAVVR). For CIAVVR, since both stored data and learned model of past classes contain historical knowledge, the core challenge is how to capture past data knowledge and past model knowledge to prevent catastrophic forgetting. We introduce Hierarchical Augmentation and Distillation (HAD), which comprises the Hierarchical Augmentation Module (HAM) and Hierarchical Distillation Module (HDM) to efficiently utilize the hierarchical structure of data and models, respectively. Specifically, HAM implements a novel augmentation strategy, segmental feature augmentation, to preserve hierarchical model knowledge. Meanwhile, HDM introduces newly designed hierarchical (video-distribution) logical distillation and hierarchical (snippet-video) correlative distillation to capture and maintain the hierarchical intra-sample knowledge of each data and the hierarchical inter-sample knowledge between data, respectively. Evaluations on four benchmarks (AVE, AVK-100, AVK-200, and AVK-400) demonstrate that the proposed HAD effectively captures hierarchical information in both data and models, resulting in better preservation of historical class knowledge and improved performance. Furthermore, we provide a theoretical analysis to support the necessity of the segmental feature augmentation strategy.
翻訳日:2024-06-10 20:27:02 公開日:2024-06-07
# マルコフ雑音による確率近似と強化学習のODE法

The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise ( http://arxiv.org/abs/2401.07844v4 )

ライセンス: Link先を確認
Shuze Liu, Shuhang Chen, Shangtong Zhang, (参考訳) 確率近似(Stochastic approximation)は、ベクトルを反復的に、漸進的に、確率的に更新するアルゴリズムのクラスである。 確率近似アルゴリズムを解析する基本的な課題の1つは、その安定性、すなわち確率ベクトル反復がほぼ確実に有界であることを示すことである。 本稿では,マルティンゲール差音設定からマルコフ雑音設定への安定性に関するボルカール・メインの定理を拡張し,特に線形関数近似と可視性トレースを持つ非線形強化学習アルゴリズムにおける強化学習への適用性を大幅に向上させる。 我々の分析の中心は、少数の函数の変化の漸近速度の減少であり、これは大数の強い法則の形式とよく使われるV4リャプノフドリフト条件の両方によって示唆され、マルコフ鎖が有限で既約であれば自明に成り立つ。

Stochastic approximation is a class of algorithms that update a vector iteratively, incrementally, and stochastically, including, e.g., stochastic gradient descent and temporal difference learning. One fundamental challenge in analyzing a stochastic approximation algorithm is to establish its stability, i.e., to show that the stochastic vector iterates are bounded almost surely. In this paper, we extend the celebrated Borkar-Meyn theorem for stability from the Martingale difference noise setting to the Markovian noise setting, which greatly improves its applicability in reinforcement learning, especially in those off-policy reinforcement learning algorithms with linear function approximation and eligibility traces. Central to our analysis is the diminishing asymptotic rate of change of a few functions, which is implied by both a form of strong law of large numbers and a commonly used V4 Lyapunov drift condition and trivially holds if the Markov chain is finite and irreducible.
翻訳日:2024-06-10 20:27:02 公開日:2024-06-07
# WAVES:画像透かしのロバストさのベンチマーク

WAVES: Benchmarking the Robustness of Image Watermarks ( http://arxiv.org/abs/2401.08573v3 )

ライセンス: Link先を確認
Bang An, Mucong Ding, Tahseen Rabbani, Aakriti Agrawal, Yuancheng Xu, Chenghao Deng, Sicheng Zhu, Abdirisak Mohamed, Yuxin Wen, Tom Goldstein, Furong Huang, (参考訳) 生成AIの急成長期において、透かしは証明と人工的内容の識別子として機能する。 WAVES(Watermark Analysis Via Enhanced Stress-testing)は、画像透かしの堅牢性を評価するためのベンチマークであり、現在の評価手法の限界を克服するものである。 WAVESは検出と識別タスクを統合し、多様なストレステストからなる標準化された評価プロトコルを確立する。 WAVESの攻撃は、従来の画像歪みから高度なもの、拡散性の新たなバリエーション、敵攻撃まで様々である。 画像品質劣化の程度と攻撃後の透かし検出の有効性の2つの重要な側面について検討した。 我々の新しい包括的評価は、いくつかの現代の透かしアルゴリズムの未発見の脆弱性を明らかにしている。 我々はWAVESを,ロバストな透かしの将来の開発のためのツールキットとして想定する。 プロジェクトはhttps://wavesbench.github.io/で公開されている。

In the burgeoning age of generative AI, watermarks act as identifiers of provenance and artificial content. We present WAVES (Watermark Analysis Via Enhanced Stress-testing), a benchmark for assessing image watermark robustness, overcoming the limitations of current evaluation methods. WAVES integrates detection and identification tasks and establishes a standardized evaluation protocol comprised of a diverse range of stress tests. The attacks in WAVES range from traditional image distortions to advanced, novel variations of diffusive, and adversarial attacks. Our evaluation examines two pivotal dimensions: the degree of image quality degradation and the efficacy of watermark detection after attacks. Our novel, comprehensive evaluation reveals previously undetected vulnerabilities of several modern watermarking algorithms. We envision WAVES as a toolkit for the future development of robust watermarks. The project is available at https://wavesbench.github.io/
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# 最適化に基づく平衡測度は非平衡定常状態ダイナミクスを記述している:カオスのエッジへの応用

An optimization-based equilibrium measure describes non-equilibrium steady state dynamics: application to edge of chaos ( http://arxiv.org/abs/2401.10009v2 )

ライセンス: Link先を確認
Junbin Qiu, Haiping Huang, (参考訳) 神経力学を理解することは、機械学習、非線形物理学、神経科学において中心的なトピックである。 しかし、力学は非線形で確率的で特に非勾配であり、駆動力はポテンシャルの勾配として書けない。 これらの特徴は分析研究を非常に困難にしている。 一般的な道具は経路積分法あるいは力学平均場理論であるが、欠点は積分微分方程式や力学平均場方程式を解く必要があることである。 関連するフォッカー・プランク方程式の側面から、定常状態解は一般に未知である。 ここでは、定常状態の探索を最適化問題として扱い、動力学の速度に関する近似ポテンシャルを構築し、このポテンシャルの基底状態の探索は近似確率勾配力学やランゲヴィン力学と等価であることを示す。 ゼロ温度制限でのみ、元の定常状態の分布が達成される。 力学の結果としての定常状態は、ちょうど正準ボルツマン測度に従う。 この枠組み内では、ニューラルネットワークに内在する焼成障害は、非平衡定常状態の順序パラメータを自然に導くレプリカ法を適用することで、平均化することができる。 この理論は, エッジ・オブ・カオスのよく知られた結果を再現し, さらに連続遷移を特徴付ける順序パラメータを導出し, 順序パラメータを定常状態の揺らぎと応答として説明する。 そこで本手法は,決定論的・確率的高次元力学の定常景観を解析的に研究するための扉を開く。

Understanding neural dynamics is a central topic in machine learning, non-linear physics and neuroscience. However, the dynamics is non-linear, stochastic and particularly non-gradient, i.e., the driving force can not be written as gradient of a potential. These features make analytic studies very challenging. The common tool is the path integral approach or dynamical mean-field theory, but the drawback is that one has to solve the integro-differential or dynamical mean-field equations, which is computationally expensive and has no closed form solutions in general. From the aspect of associated Fokker-Planck equation, the steady state solution is generally unknown. Here, we treat searching for the steady states as an optimization problem, and construct an approximate potential related to the speed of the dynamics, and find that searching for the ground state of this potential is equivalent to running an approximate stochastic gradient dynamics or Langevin dynamics. Only in the zero temperature limit, the distribution of the original steady states can be achieved. The resultant stationary state of the dynamics follows exactly the canonical Boltzmann measure. Within this framework, the quenched disorder intrinsic in the neural networks can be averaged out by applying the replica method, which leads naturally to order parameters for the non-equilibrium steady states. Our theory reproduces the well-known result of edge-of-chaos, and further the order parameters characterizing the continuous transition are derived, and the order parameters are explained as fluctuations and responses of the steady states. Our method thus opens the door to analytically study the steady state landscape of the deterministic or stochastic high dimensional dynamics.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# 低複雑さ復号のための混合自己回帰モデルに基づく高能率暗黙的ニューラル表現画像コーデック

An Efficient Implicit Neural Representation Image Codec Based on Mixed Autoregressive Model for Low-Complexity Decoding ( http://arxiv.org/abs/2401.12587v2 )

ライセンス: Link先を確認
Xiang Liu, Jiahong Chen, Bin Chen, Zimo Liu, Baoyi An, Shu-Tao Xia, Zhi Wang, (参考訳) 拡張現実デバイスのようなエッジデバイスに高品質な画像を表示することは、ユーザーエクスペリエンスを向上させるために不可欠である。 しかし、これらのデバイスは電力消費と計算資源の制限に直面しており、この分野で多くのディープラーニングベースの画像圧縮アルゴリズムを適用することは困難である。 画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。 また、品質という点では、多くの従来の、初期のニューラル圧縮手法よりも優れています。 本研究では、現在のINRコーデックの復号時間を大幅に短縮するMixed AutoRegressive Model(MARM)と、再構成品質を向上させる新しい合成ネットワークを提案する。 MARMには提案したAutoRegressive Upsampler(ARU)ブロックが含まれており、これは計算効率が高い。 また、チェッカーボード2段復号方式を用いて、ARUの性能向上も提案する。 さらに、異なるモジュールの比率を調整することで、品質と速度のバランスを維持することができる。 総合的な実験により,画像品質を保ちながら計算効率を大幅に向上することを示した。 パラメータ設定の相違により,産業レベルの最適化を伴わない復号時間で1桁以上の高速化を実現したり,他のINRコーデックと比較して最先端の復号品質を実現することができる。 我々の知る限り、我々の手法は、低複雑性を維持しながらデコード速度と品質の両方においてHyperpriorに匹敵する最初のINRベースのコーデックである。

Displaying high-quality images on edge devices, such as augmented reality devices, is essential for enhancing the user experience. However, these devices often face power consumption and computing resource limitations, making it challenging to apply many deep learning-based image compression algorithms in this field. Implicit Neural Representation (INR) for image compression is an emerging technology that offers two key benefits compared to cutting-edge autoencoder models: low computational complexity and parameter-free decoding. It also outperforms many traditional and early neural compression methods in terms of quality. In this study, we introduce a new Mixed AutoRegressive Model (MARM) to significantly reduce the decoding time for the current INR codec, along with a new synthesis network to enhance reconstruction quality. MARM includes our proposed AutoRegressive Upsampler (ARU) blocks, which are highly computationally efficient, and ARM from previous work to balance decoding time and reconstruction quality. We also propose enhancing ARU's performance using a checkerboard two-stage decoding strategy. Moreover, the ratio of different modules can be adjusted to maintain a balance between quality and speed. Comprehensive experiments demonstrate that our method significantly improves computational efficiency while preserving image quality. With different parameter settings, our method can achieve over a magnitude acceleration in decoding time without industrial level optimization, or achieve state-of-the-art reconstruction quality compared with other INR codecs. To the best of our knowledge, our method is the first INR-based codec comparable with Hyperprior in both decoding speed and quality while maintaining low complexity.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# 大規模言語モデルを用いた実行可能変成関係の生成に向けて

Towards Generating Executable Metamorphic Relations Using Large Language Models ( http://arxiv.org/abs/2401.17019v2 )

ライセンス: Link先を確認
Seung Yeob Shin, Fabrizio Pastore, Domenico Bianculli, Alexandra Baicoianu, (参考訳) メタモルフィックテスト(MT)は、テストの自動化とオラクル問題の解決に成功している。 しかし,手動でメタモルフィック関係(MR)を導出し,それを実行可能な形式に変換することが必要であり,これらのステップは時間を要するため,MTの採用を阻害する可能性があり,本稿では,大規模言語モデル(LLM)を用いた要件から,実行可能なMR(EMR)を自動的に導出するアプローチを提案する。 私たちのアプローチは、単にLLMにEMRの生成を依頼するのではなく、要件とAPI仕様を提供することで、MTプロセスでLLMにアクティビティを実行するように指示する、数発のプロンプト戦略に依存しています。 提案手法の有効性を評価するため,業界ソフトウェアおよびサービス提供の世界的リーダであるシーメンス・インダストリー・ソフトウェア(Siemens Industry Software)と共同で,4つのソフトウェアアプリケーションに焦点を当てたアンケート調査を行った。 さらに、Webアプリケーションで生成されたEMRの精度を評価した。 本研究の結果は,テスト目的において理解可能かつ関連性の高いMRとEMRを生成するためのアプローチの能力を実証する上で,極めて有望なものである。

Metamorphic testing (MT) has proven to be a successful solution to automating testing and addressing the oracle problem. However, it entails manually deriving metamorphic relations (MRs) and converting them into an executable form; these steps are time-consuming and may prevent the adoption of MT. In this paper, we propose an approach for automatically deriving executable MRs (EMRs) from requirements using large language models (LLMs). Instead of merely asking the LLM to produce EMRs, our approach relies on a few-shot prompting strategy to instruct the LLM to perform activities in the MT process, by providing requirements and API specifications, as one would do with software engineers. To assess the feasibility of our approach, we conducted a questionnaire-based survey in collaboration with Siemens Industry Software, a worldwide leader in providing industry software and services, focusing on four of their software applications. Additionally, we evaluated the accuracy of the generated EMRs for a Web application. The outcomes of our study are highly promising, as they demonstrate the capability of our approach to generate MRs and EMRs that are both comprehensible and pertinent for testing purposes.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# 重み付けによるマルチタスクモデルのマージ

Merging Multi-Task Models via Weight-Ensembling Mixture of Experts ( http://arxiv.org/abs/2402.00433v2 )

ライセンス: Link先を確認
Anke Tang, Li Shen, Yong Luo, Nan Yin, Lefei Zhang, Dacheng Tao, (参考訳) 異なるタスクでトレーニングされた様々なタスク固有のTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。 従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。 既存の手法は主に、元のモデルパラメータ空間内の静的最適解を求めることに重点を置いている。 注目すべき課題は、異なるモデルのパラメータ間の干渉を軽減することだ。 本稿では,トランスフォーマー層のMLPを,入力に基づいて共有知識とタスク固有の知識を動的に統合し,各インスタンスの特定のニーズに適応可能な,より柔軟なソリューションを提供する専門家(MoE)モジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。 我々の重要な洞察は、共有知識とタスク固有の知識を識別して分離し、それらを動的に統合することで、パラメータ干渉問題を大幅に緩和できるということです。 従来のマルチタスクモデルマージ実験を行い,本手法の一般化とロバスト性を評価する。 その結果,本手法の有効性を実証し,本手法の総合的な理解を提供することができた。 コードはhttps://github.com/tanganke/weight-ensembling_MoEで公開されている。

Merging various task-specific Transformer-based models trained on different tasks into a single unified model can execute all the tasks concurrently. Previous methods, exemplified by task arithmetic, have been proven to be both effective and scalable. Existing methods have primarily focused on seeking a static optimal solution within the original model parameter space. A notable challenge is mitigating the interference between parameters of different models, which can substantially deteriorate performance. In this paper, we propose to merge most of the parameters while upscaling the MLP of the Transformer layers to a weight-ensembling mixture of experts (MoE) module, which can dynamically integrate shared and task-specific knowledge based on the input, thereby providing a more flexible solution that can adapt to the specific needs of each instance. Our key insight is that by identifying and separating shared knowledge and task-specific knowledge, and then dynamically integrating them, we can mitigate the parameter interference problem to a great extent. We conduct the conventional multi-task model merging experiments and evaluate the generalization and robustness of our method. The results demonstrate the effectiveness of our method and provide a comprehensive understanding of our method. The code is available at https://github.com/tanganke/weight-ensembling_MoE
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# 視覚変換器における鍵のマニフォールド表現

A Manifold Representation of the Key in Vision Transformers ( http://arxiv.org/abs/2402.00534v2 )

ライセンス: Link先を確認
Li Meng, Morten Goodwin, Anis Yazidi, Paal Engelstad, (参考訳) Vision Transformerは、複数のアテンションブロックを積み重ねることで、マルチヘッドの自己アテンションを実装する。 クエリ、キー、値は、しばしば1つの共有線形変換によって、それらのブロック内で絡み合わされ、生成される。 本稿では、キーをクエリと値から切り離し、キーの多様体表現を採用するという概念について検討する。 実験の結果,鍵を多様体構造で切り離して付与することで,モデルの性能が向上することがわかった。 具体的には、ViT-Bはトップ1の精度が0.87%上昇し、Swin-TはImageNet-1Kデータセットでトップ1の精度が0.52%アップし、多様体キーには8つのチャートがある。 提案手法は,COCOデータセット上でのオブジェクト検出やインスタンスセグメンテーションタスクにおいて,肯定的な結果をもたらす。 これらの性能向上は単にパラメータや計算量を増やすことの単純さによるものではないと断定する。 今後の研究は、これらの表現の予算削減戦略について検討し、その結果に基づいてさらなる性能向上を目指す。

Vision Transformers implement multi-head self-attention via stacking multiple attention blocks. The query, key, and value are often intertwined and generated within those blocks via a single, shared linear transformation. This paper explores the concept of disentangling the key from the query and value, and adopting a manifold representation for the key. Our experiments reveal that decoupling and endowing the key with a manifold structure can enhance the model's performance. Specifically, ViT-B exhibits a 0.87% increase in top-1 accuracy, while Swin-T sees a boost of 0.52% in top-1 accuracy on the ImageNet-1K dataset, with eight charts in the manifold key. Our approach also yields positive results in object detection and instance segmentation tasks on the COCO dataset. We establish that these performance gains are not merely due to the simplicity of adding more parameters and computations. Future research may investigate strategies for cutting the budget of such representations and aim for further performance improvements based on our findings.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# ChaosBench: サブシーズンからシーズンの気候予測のためのマルチチャネル物理ベースのベンチマーク

ChaosBench: A Multi-Channel, Physics-Based Benchmark for Subseasonal-to-Seasonal Climate Prediction ( http://arxiv.org/abs/2402.00712v3 )

ライセンス: Link先を確認
Juan Nathaniel, Yongquan Qu, Tung Nguyen, Sungduk Yu, Julius Busecke, Aditya Grover, Pierre Gentine, (参考訳) 季節-季節スケールにおける気候の正確な予測は、気候変動の中での災害の準備と堅牢な決定に不可欠である。 しかし、境界相互作用、蝶効果、我々の固有の物理的理解の欠如など、初期状態以外の問題を扱うため、天気の時間スケールを超えた予測は困難である。 現在、既存のベンチマークは、予測範囲を最大15日に短縮し、幅広い運用基準を含まない傾向にあり、説明可能性に関する物理ベースの制約が欠如している。 そこで我々は,データ駆動型気象エミュレータの予測可能性範囲をS2Sタイムスケールに拡張するためのベンチマークであるChaosBenchを提案する。 第一に、ChaosBenchは、境界条件を尊重する完全な地球系エミュレーションを可能にするために45年以上にわたる海、氷、土地の再分析生成物を含む、典型的な地表大気のERA5以外の変数で構成されている。 また,決定論的および確率論的指標に加えて,バタフライ効果を考慮した物理的に一貫性のあるアンサンブルも提案する。 さらに,4つの気象機関による物理ベースの予測を,ClimaX,PanguWeather,GraphCast,FourCastNetV2などのデータ駆動モデルに対するベースラインとして評価した。 総じて、S2Sタスクでは、もともと気象スケールのアプリケーションのために開発された手法が失敗し、その性能は単に非熟練の気候学に崩壊する。 それにもかかわらず、既存の気象エミュレータの予測可能性範囲を拡張できるいくつかの戦略を概説し、実証する。 ベンチマーク、データセット、インストラクションはhttps://leap-stc.github.io/ChaosBench.orgで公開されています。

Accurate prediction of climate in the subseasonal-to-seasonal scale is crucial for disaster preparedness and robust decision making amidst climate change. Yet, forecasting beyond the weather timescale is challenging because it deals with problems other than initial conditions, including boundary interaction, butterfly effect, and our inherent lack of physical understanding. At present, existing benchmarks tend to have shorter forecasting range of up-to 15 days, do not include a wide range of operational baselines, and lack physics-based constraints for explainability. Thus, we propose ChaosBench, a challenging benchmark to extend the predictability range of data-driven weather emulators to S2S timescale. First, ChaosBench is comprised of variables beyond the typical surface-atmospheric ERA5 to also include ocean, ice, and land reanalysis products that span over 45 years to allow for full Earth system emulation that respects boundary conditions. We also propose physics-based, in addition to deterministic and probabilistic metrics, to ensure a physically-consistent ensemble that accounts for butterfly effect. Furthermore, we evaluate on a diverse set of physics-based forecasts from four national weather agencies as baselines to our data-driven counterpart such as ClimaX, PanguWeather, GraphCast, and FourCastNetV2. Overall, we find methods originally developed for weather-scale applications fail on S2S task: their performance simply collapse to an unskilled climatology. Nonetheless, we outline and demonstrate several strategies that can potentially extend the predictability range of existing weather emulators, including the use of ensembles and robust control of error propagation. Our benchmark, datasets, and instructions are available at https://leap-stc.github.io/ChaosBench.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# 実行可能なコードアクションにより、より良いLLMエージェントが取り除かれる

Executable Code Actions Elicit Better LLM Agents ( http://arxiv.org/abs/2402.01030v4 )

ライセンス: Link先を確認
Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji, (参考訳) 大きな言語モデル(LLM)エージェントは、ツールの呼び出しやロボットの制御など、幅広いアクションを実行することができ、現実世界の課題に取り組む大きな可能性を示している。 LLMエージェントは、通常、事前に定義されたフォーマットでJSONやテキストを生成することでアクションを生成するよう促される。 この研究は、実行可能なPythonコードを使用して、LLMエージェントのアクションを統一されたアクション空間(CodeAct)に統合することを提案する。 Pythonインタプリタと統合されたCodeActは、コードアクションを実行し、事前アクションを動的に修正したり、マルチターンインタラクションを通じて新しい観察に新しいアクションを発行することができる。 API-Bank上の17のLLMと、新たにキュレートされたベンチマークの広範な分析は、CodeActが広く使われている代替品(最大20%の成功率)を上回っていることを示している。 CodeActのパフォーマンス向上は、解釈可能なコードを実行し、自然言語を使ってユーザとコラボレーションすることで、環境と対話するオープンソースのLLMエージェントを構築する動機となります。 この目的のために,CodeAct を用いた 7k のマルチターンインタラクションからなる命令チューニングデータセット CodeActInstruct を収集する。 本稿では,エージェント指向タスクのモデルを改善するために,既存のデータと組み合わせることで,汎用性を損なうことなく利用できることを示す。 Llama2とMistralから微調整されたCodeActAgentはPythonインタプリタと統合されており、既存のライブラリを使用して高度なタスク(例えばモデルトレーニング)を実行し、自律的に自己デバッグするように設計されている。

Large Language Model (LLM) agents, capable of performing a broad range of actions, such as invoking tools and controlling robots, show great potential in tackling real-world challenges. LLM agents are typically prompted to produce actions by generating JSON or text in a pre-defined format, which is usually limited by constrained action space (e.g., the scope of pre-defined tools) and restricted flexibility (e.g., inability to compose multiple tools). This work proposes to use executable Python code to consolidate LLM agents' actions into a unified action space (CodeAct). Integrated with a Python interpreter, CodeAct can execute code actions and dynamically revise prior actions or emit new actions upon new observations through multi-turn interactions. Our extensive analysis of 17 LLMs on API-Bank and a newly curated benchmark shows that CodeAct outperforms widely used alternatives (up to 20% higher success rate). The encouraging performance of CodeAct motivates us to build an open-source LLM agent that interacts with environments by executing interpretable code and collaborates with users using natural language. To this end, we collect an instruction-tuning dataset CodeActInstruct that consists of 7k multi-turn interactions using CodeAct. We show that it can be used with existing data to improve models in agent-oriented tasks without compromising their general capability. CodeActAgent, finetuned from Llama2 and Mistral, is integrated with Python interpreter and uniquely tailored to perform sophisticated tasks (e.g., model training) using existing libraries and autonomously self-debug.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# EffiBench: 自動生成コードの効率をベンチマークする

EffiBench: Benchmarking the Efficiency of Automatically Generated Code ( http://arxiv.org/abs/2402.02037v3 )

ライセンス: Link先を確認
Dong Huang, Yuhao Qing, Weiyi Shang, Heming Cui, Jie M. Zhang, (参考訳) コード生成モデルは、ソフトウェア開発を支援するためにますます不可欠なものになっています。 現在の研究では、コード生成モデルが生成するコードの正しさを徹底的に調査しているが、グリーンコンピューティングと持続可能性の取り組みにおいて重要な役割を担う重要な側面は無視されていることが多い。 本稿では,コード生成モデルにより生成されたコードの効率を評価するために,1000の効率クリティカルコーディング問題を持つベンチマークであるEffiBenchを提案する。 EffiBenchにはさまざまなLeetCodeコーディング問題が含まれている。 各問題は実行可能な人間記述の標準ソリューションと組み合わせられ、LeetCodeソリューションのリーダーボード上でSOTA効率を得る。 EffiBenchでは42の大規模言語モデル(35のオープンソースと7のクローズソース)の効率的なコード生成能力を実証的に検証した。 評価の結果,LLMが生成するコードの効率は,人間の記述した標準解の効率よりも一般的に悪いことがわかった。 例えば、GPT-4 の生成したコードは、人間の記述した標準解の実行時間の平均 \textbf{3.12} を持つ。 最も極端な場合、GPT-4生成コードの実行時間と総メモリ使用量は、標準解の1倍の \textbf{13.89} と \textbf{43.92} である。 EffiBenchのソースコードはhttps://github.com/huangd 1999/EffiBenchで公開されている。 https://huggingface.co/spaces/EffiBench/effibench- Leaderboard.comでLeaderBoardを提供しています。

Code generation models have increasingly become integral to aiding software development. Although current research has thoroughly examined the correctness of the code produced by code generation models, a vital aspect that plays a pivotal role in green computing and sustainability efforts has often been neglected. This paper presents EffiBench, a benchmark with 1,000 efficiency-critical coding problems to assess the efficiency of code generated by code generation models. EffiBench contains a diverse set of LeetCode coding problems. Each problem is paired with an executable human-written canonical solution, which obtains the SOTA efficiency on the LeetCode solution leaderboard. With EffiBench, we empirically examine the ability of 42 large language models (35 open-source and 7 closed-source) to generate efficient code. Our evaluation results demonstrate that the efficiency of the code generated by LLMs is generally worse than the efficiency of human-written canonical solutions. For example, GPT-4 generated code has an average \textbf{3.12} times execution time that of the human-written canonical solutions. In the most extreme cases, the execution time and total memory usage of GPT-4 generated code are \textbf{13.89} and \textbf{43.92} times that of the canonical solutions. The source code of EffiBench is released on https://github.com/huangd1999/EffiBench. We also provide the LeaderBoard at https://huggingface.co/spaces/EffiBench/effibench-leaderboard.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# 出発点を再考する:フェデレートされた下流タスクのための協調的な事前訓練

Rethinking the Starting Point: Collaborative Pre-Training for Federated Downstream Tasks ( http://arxiv.org/abs/2402.02225v3 )

ライセンス: Link先を確認
Yun-Wei Chu, Dong-Jun Han, Seyyedali Hosseinalipour, Christopher G. Brinton, (参考訳) 近年の研究では、中心的な事前学習モデルを利用することで、フェデレートラーニング(FL)に有利な初期化が得られることが示されている。 しかし、既存の事前学習手法は、任意の下流FLタスクに直面すると、うまく一般化しない。 特に しばしば (i)特に下流ラベルの見当たらない場合には、平均精度を限定して達成し、 (ii) クライアント間でのバランスの取れたパフォーマンスが得られず、精度のばらつきが大きくなる。 これらの課題に対処するために、下流FLタスクに対して堅牢な初期化を提供する協調型/分散型事前学習アプローチであるCoPreFLを提案する。 CoPreFLの鍵となるアイデアは、不均一かつ目に見えないFLシナリオを忠実に模倣するためにグローバルモデルを調整する、モデルに依存しないメタラーニング(MAML)プロシージャである。 我々のMAML手法は,性能の分散をメタオブジェクト関数に組み込み,精度を最適化するのではなく,クライアント間で性能のバランスをとる。 広範囲な実験により,CoPreFLは,任意の下流FLタスクにおける平均精度とばらつきを,事前学習ベースラインと比較して有意に向上することを示した。 また、CoPreFLがダウンストリームタスクによって適用されるよく知られたFLアルゴリズムとどのように互換性があり、それぞれのケースにおける性能が向上しているかを示す。

A few recent studies have demonstrated that leveraging centrally pre-trained models can offer advantageous initializations for federated learning (FL). However, existing pre-training methods do not generalize well when faced with an arbitrary set of downstream FL tasks. Specifically, they often (i) achieve limited average accuracy, particularly when there are unseen downstream labels, and (ii) result in significant accuracy variance, failing to provide a balanced performance across clients. To address these challenges, we propose CoPreFL, a collaborative/distributed pre-training approach which provides a robust initialization for downstream FL tasks. The key idea of CoPreFL is a model-agnostic meta-learning (MAML) procedure that tailors the global model to closely mimic heterogeneous and unseen FL scenarios, resulting in a pre-trained model that is rapidly adaptable to arbitrary FL tasks. Our MAML procedure incorporates performance variance into the meta-objective function, balancing performance across clients rather than solely optimizing for accuracy. Through extensive experiments, we demonstrate that CoPreFL obtains significant improvements in both average accuracy and variance across arbitrary downstream FL tasks with unseen/seen labels, compared with various pre-training baselines. We also show how CoPreFL is compatible with different well-known FL algorithms applied by the downstream tasks, enhancing performance in each case.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# TimeSiam: シームズ時系列モデリングのための事前トレーニングフレームワーク

TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling ( http://arxiv.org/abs/2402.02475v2 )

ライセンス: Link先を確認
Jiaxiang Dong, Haixu Wu, Yuxuan Wang, Yunzhong Qiu, Li Zhang, Jianmin Wang, Mingsheng Long, (参考訳) 時系列事前トレーニングは、最近、ラベルのコストを削減し、下流の様々なタスクに利益をもたらす可能性があるとして、広く注目を集めている。 従来の手法は主に、マスク付きモデリングやコントラスト学習など、視覚や言語でよく認識されている事前学習技術に基づいている。 しかし、ランダムにマスキングする時系列や時系列の類似性を計算することは、時系列データに不可欠な時間的相関を歪ませたり無視する。 時間相関モデルを強調するために,シームズネットワークに基づく時系列の簡易かつ効果的な自己教師付き事前学習フレームワークとしてTimeSiamを提案する。 具体的には、TimeSiamはシームズエンコーダを事前訓練して、ランダムにサンプリングされた過去と現在のサブシリーズの固有の時間的相関をキャプチャする。 TimeSiamは単純なデータ拡張手法(例 - マスキング)により、多様な拡張サブシリーズの恩恵を受け、過去から現在までの再構築を通じて内部の時間依存表現を学ぶことができる。 さらに、サンプル系列間の時間的距離を識別し、多様な時間的相関の学習を促進するために、学習可能な系統埋め込みも導入されている。 TimeSiamは、広範囲の事前トレーニングベースラインを一貫して上回り、ドメイン内およびクロスドメインのシナリオにおいて、13の標準ベンチマークで優れた予測と分類能力を示している。

Time series pre-training has recently garnered wide attention for its potential to reduce labeling expenses and benefit various downstream tasks. Prior methods are mainly based on pre-training techniques well-acknowledged in vision or language, such as masked modeling and contrastive learning. However, randomly masking time series or calculating series-wise similarity will distort or neglect inherent temporal correlations crucial in time series data. To emphasize temporal correlation modeling, this paper proposes TimeSiam as a simple but effective self-supervised pre-training framework for Time series based on Siamese networks. Concretely, TimeSiam pre-trains Siamese encoders to capture intrinsic temporal correlations between randomly sampled past and current subseries. With a simple data augmentation method (e.g.~masking), TimeSiam can benefit from diverse augmented subseries and learn internal time-dependent representations through a past-to-current reconstruction. Moreover, learnable lineage embeddings are also introduced to distinguish temporal distance between sampled series and further foster the learning of diverse temporal correlations. TimeSiam consistently outperforms extensive advanced pre-training baselines, demonstrating superior forecasting and classification capabilities across 13 standard benchmarks in both intra- and cross-domain scenarios.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# C^*$-algebraic Machine Learning: 新しい方向への移行

$C^*$-Algebraic Machine Learning: Moving in a New Direction ( http://arxiv.org/abs/2402.02637v2 )

ライセンス: Link先を確認
Yuka Hashimoto, Masahiro Ikeda, Hachem Kadri, (参考訳) 機械学習は、統計学、確率、線形代数など、数学のいくつかの分野と長い協力関係を持つ。 C^*$-algebraic ML $-$ a cross-fertilization between $C^*$-algebra and machine learning。 C^*$-代数の数学的概念は複素数の空間の自然な一般化である。 これにより、既存の学習戦略を統一し、より多様な情報豊富なデータモデルのための新しいフレームワークを構築することができます。 我々は、機械学習に$C^*$-algebrasを使用する理由と方法を説明し、カーネルメソッドやニューラルネットワークのコンテキストにおける$C^*$-algebraic学習モデルの設計に関わる技術的考察を提供する。 さらに,C^*$-algebraic MLにおけるオープンな質問や課題についても論じ,今後の開発や応用について考察する。

Machine learning has a long collaborative tradition with several fields of mathematics, such as statistics, probability and linear algebra. We propose a new direction for machine learning research: $C^*$-algebraic ML $-$ a cross-fertilization between $C^*$-algebra and machine learning. The mathematical concept of $C^*$-algebra is a natural generalization of the space of complex numbers. It enables us to unify existing learning strategies, and construct a new framework for more diverse and information-rich data models. We explain why and how to use $C^*$-algebras in machine learning, and provide technical considerations that go into the design of $C^*$-algebraic learning models in the contexts of kernel methods and neural networks. Furthermore, we discuss open questions and challenges in $C^*$-algebraic ML and give our thoughts for future development and applications.
翻訳日:2024-06-10 20:17:18 公開日:2024-06-07
# ランダムリンドブラッド力学におけるデコヒーレンス率

Decoherence rate in random Lindblad dynamics ( http://arxiv.org/abs/2402.04705v3 )

ライセンス: Link先を確認
Yifeng Yang, Zhenyu Xu, Adolfo del Campo, (参考訳) オープン量子系はデコヒーレンス (decoherence) を受けており、量子から古典的行動への遷移を担っている。 デコヒーレンスが発生する時間スケールは、その速度に対する上限値を用いて分析することができる。 我々は、ウィグナー・ダイソン対称性クラスを持つガウスとジニブレのアンサンブルから導かれるランダムなリンドブラッド作用素によって支配される開カオス量子系の力学について検討する。 これらの系では、平均的な純度は時間の関数として単調に崩壊する。 この崩壊はデコヒーレンス率によって支配され、ヒルベルト空間の次元によって上界が支配され、アンサンブル対称性とは独立である。 これらの結果は異なるアンサンブルを混合し、デコヒーレンス率制限の普遍的な特徴を示す。 さらに,ランダムなリンドブラディアンが支配するオープンカオス量子系は,初期状態に関わらず,最も急激なデコヒーレンスを示す傾向があることが明らかとなった。 この現象は、上界付近の脱コヒーレンス速度の濃度と関連している。 我々の研究は、量子基礎から高エネルギー物理学、量子技術に至るまで、散逸性量子カオスにおけるデコヒーレンスの主要な特徴を識別する。

Open quantum systems undergo decoherence, which is responsible for the transition from quantum to classical behavior. The time scale in which decoherence takes place can be analyzed using upper limits to its rate. We examine the dynamics of open chaotic quantum systems governed by random Lindblad operators sourced from Gaussian and Ginibre ensembles with Wigner-Dyson symmetry classes. In these systems, the ensemble-averaged purity decays monotonically as a function of time. This decay is governed by the decoherence rate, which is upper-bounded by the dimension of their Hilbert space and is independent of the ensemble symmetry. These findings hold upon mixing different ensembles, indicating the universal character of the decoherence rate limit. Moreover, our findings reveal that open chaotic quantum systems governed by random Lindbladians tend to exhibit the most rapid decoherence, regardless of the initial state. This phenomenon is associated with the concentration of the decoherence rate near its upper bound. Our work identifies primary features of decoherence in dissipative quantum chaos, with applications ranging from quantum foundations to high-energy physics and quantum technologies.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# SALAD-Bench: 大規模言語モデルの階層的で総合的な安全性ベンチマーク

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models ( http://arxiv.org/abs/2402.05044v4 )

ライセンス: Link先を確認
Lijun Li, Bowen Dong, Ruohui Wang, Xuhao Hu, Wangmeng Zuo, Dahua Lin, Yu Qiao, Jing Shao, (参考訳) LLM(Large Language Models)の急速な発展の中では、堅牢な安全性確保が最重要である。 この重要なニーズを満たすために, LLM, 攻撃, 防御方法の評価に特化して設計された安全ベンチマークである \emph{SALAD-Bench} を提案する。 SALAD-Benchは、その幅の広さによって、従来のベンチマークを、その大規模、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて超越している。 そこで本研究では,QA 対に対する LLM ベースの MD-Judge という,攻撃強化クエリに特化して,シームレスで信頼性の高い評価を実現する,革新的な評価手法を提案する。 SALAD-Bench を標準 LLM の安全性評価から LLM 攻撃および防御手法評価まで拡張し、共同用途の実用性を確保する。 我々の広範な実験は、新興脅威に対するLLMの弾力性と、現代の防衛戦術の有効性に光を当てた。 データと評価はhttps://github.com/OpenSafetyLab/SALAD-BENCH.comで公開されている。

In the rapidly evolving landscape of Large Language Models (LLMs), ensuring robust safety measures is paramount. To meet this crucial need, we propose \emph{SALAD-Bench}, a safety benchmark specifically designed for evaluating LLMs, attack, and defense methods. Distinguished by its breadth, SALAD-Bench transcends conventional benchmarks through its large scale, rich diversity, intricate taxonomy spanning three levels, and versatile functionalities.SALAD-Bench is crafted with a meticulous array of questions, from standard queries to complex ones enriched with attack, defense modifications and multiple-choice. To effectively manage the inherent complexity, we introduce an innovative evaluators: the LLM-based MD-Judge for QA pairs with a particular focus on attack-enhanced queries, ensuring a seamless, and reliable evaluation. Above components extend SALAD-Bench from standard LLM safety evaluation to both LLM attack and defense methods evaluation, ensuring the joint-purpose utility. Our extensive experiments shed light on the resilience of LLMs against emerging threats and the efficacy of contemporary defense tactics. Data and evaluator are released under https://github.com/OpenSafetyLab/SALAD-BENCH.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# ポリシーミラー降下におけるミラーマップの学習

Learning mirror maps in policy mirror descent ( http://arxiv.org/abs/2402.05187v2 )

ライセンス: Link先を確認
Carlo Alfano, Sebastian Towers, Silvia Sapora, Chris Lu, Patrick Rebeschini, (参考訳) Policy Mirror Descent (PMD) は強化学習の一般的なフレームワークであり、多数のアルゴリズムを包含する統一的な視点として機能する。 これらのアルゴリズムはミラーマップの選択によって導出され、有限時間収束保証を享受する。 その人気にもかかわらず、PMDの完全なポテンシャルの探索は限られており、ほとんどの研究は特定のミラーマップ、すなわち負のエントロピーに焦点を当てており、有名な自然政策勾配法(NPG)の手法を生み出している。 ミラーマップの選択がPMDの有効性に大きな影響を及ぼすかどうかは、既存の理論的研究からはまだ不明である。 本研究では,従来のミラーマップ選択 (NPG) が,複数の標準ベンチマーク環境において,最適でない結果をもたらすことを示す実験的検討を行った。 進化的戦略を用いて、より効率的なミラーマップを同定し、MDの性能を高める。 我々はまず表計算環境、すなわちグリッドワールドに焦点をあて、いくつかの標準的なミラーマップと学習済みのMDの性能と既存の理論的境界を関連づける。 すると、MinAtarスイートのようなより複雑な環境で、負のエントロピーよりも優れたミラーマップを学習できることが示される。 その結果,ミラーマップは様々な環境にまたがって一般化し,ミラーマップを環境の構造や特性に最もよく適合させるか,という疑問が浮き彫りになった。

Policy Mirror Descent (PMD) is a popular framework in reinforcement learning, serving as a unifying perspective that encompasses numerous algorithms. These algorithms are derived through the selection of a mirror map and enjoy finite-time convergence guarantees. Despite its popularity, the exploration of PMD's full potential is limited, with the majority of research focusing on a particular mirror map -- namely, the negative entropy -- which gives rise to the renowned Natural Policy Gradient (NPG) method. It remains uncertain from existing theoretical studies whether the choice of mirror map significantly influences PMD's efficacy. In our work, we conduct empirical investigations to show that the conventional mirror map choice (NPG) often yields less-than-optimal outcomes across several standard benchmark environments. Using evolutionary strategies, we identify more efficient mirror maps that enhance the performance of PMD. We first focus on a tabular environment, i.e. Grid-World, where we relate existing theoretical bounds with the performance of PMD for a few standard mirror maps and the learned one. We then show that it is possible to learn a mirror map that outperforms the negative entropy in more complex environments, such as the MinAtar suite. Our results suggest that mirror maps generalize well across various environments, raising questions about how to best match a mirror map to an environment's structure and characteristics.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# ファクティクスとファクティクスの融合: 長期世代における集合的ファクティカルクレームのコントラクティクティヴな性質の評価

Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations ( http://arxiv.org/abs/2402.05629v4 )

ライセンス: Link先を確認
Cheng-Han Chiang, Hung-yi Lee, (参考訳) 大規模言語モデル(LLM)からの長文生成には、事実と非事実のクレームが混在しており、事実性を評価するのが困難である。 先行研究は、複数の事実に分解し、これらの事実を独立して検証し、結果を集約することで、長い段落の事実性を評価する。 このような手法は、事実的クレームの組み合わせが事実的段落を形成すると仮定する。 Llama-chatのような強力なオープンソースモデルは、検証可能な事実を含む段落を生成することができるが、事実はエンティティの曖昧さのため、非現実的な段落にまとめられる。 さらに、FActScoreや引用リコールを含む既存の事実度指標は、これらの非事実度を適切に評価することができず、事実度を過大評価できないことも明らかにした。 そこで本研究では,不明瞭なエンティティを持つコンテンツを対象とした拡張メトリックD-FActScoreを提案する。 我々は,LLMの検索により生み出した人物のD-FActScoresを評価する。 D-FActScore は FActScore よりもエンティティの曖昧さで段落の事実性を評価することができることを示す。 また、4つのオープンソース LLM が、異なるエンティティの情報を混合して非現実的な段落を形成する傾向にあり、D-FActScore が FActScore よりも10% 以上低くなっていることもわかりました。

Long-form generations from large language models (LLMs) contain a mix of factual and non-factual claims, making evaluating factuality difficult. Prior works evaluate the factuality of a long paragraph by decomposing it into multiple facts, verifying those facts independently, and aggregating the results. Such methods assume that combining factual claims forms a factual paragraph. The above assumption can be violated: we show that strong open-source models like Llama-chat can generate paragraphs that contain verifiable facts, but the facts are combined into a non-factual paragraph due to entity ambiguity. We further reveal that existing factuality metrics, including FActScore and citation recall, cannot properly evaluate these non-factual paragraphs and overestimate their factuality. To address this, we introduce an enhanced metric, D-FActScore, specifically designed for content with ambiguous entities. We evaluate the D-FActScores of people biographies generated by retrieval-augmented LLMs. We show that D-FActScore can better assess the factuality of paragraphs with entity ambiguity than FActScore. We also find that four widely used open-source LLMs tend to mix information of distinct entities to form non-factual paragraphs, making their D-FActScore much lower than FActScore by over 10%.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# S$Ω$I:スコアベースのO-インフォーメーション推定

S$Ω$I: Score-based O-INFORMATION Estimation ( http://arxiv.org/abs/2402.05667v3 )

ライセンス: Link先を確認
Mustapha Bounoua, Giulio Franzese, Pietro Michiardi, (参考訳) 科学データと複雑な多変量系の分析は、複数の確率変数間の関係を捉える情報量を必要とする。 近年,相互情報など,対の相互作用を考慮に入れない古典的情報の欠点を克服するために,新たな情報理論手法が開発されている。 その中でも,情報シナジーと冗長性の概念は,変数間の高次依存関係を理解する上で重要である。 この概念に基づく最も顕著で多用途な尺度の1つはO情報であり、多変量系におけるシナジー/冗長バランスを定量化する明確でスケーラブルな方法である。 しかし、実用用途は簡易ケースに限られている。 本稿では,システムに関する制約的な仮定を伴わずに,初めてO情報を計算するS$\Omega$Iを紹介する。 実世界のユースケースにおけるS$\Omega$Iの有効性を実証した。

The analysis of scientific data and complex multivariate systems requires information quantities that capture relationships among multiple random variables. Recently, new information-theoretic measures have been developed to overcome the shortcomings of classical ones, such as mutual information, that are restricted to considering pairwise interactions. Among them, the concept of information synergy and redundancy is crucial for understanding the high-order dependencies between variables. One of the most prominent and versatile measures based on this concept is O-information, which provides a clear and scalable way to quantify the synergy-redundancy balance in multivariate systems. However, its practical application is limited to simplified cases. In this work, we introduce S$\Omega$I, which allows for the first time to compute O-information without restrictive assumptions about the system. Our experiments validate our approach on synthetic data, and demonstrate the effectiveness of S$\Omega$I in the context of a real-world use case.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# 意思決定の決定力:低分散リスク制限監査とマルジナルマーク記録による選挙コンテスト

The Decisive Power of Indecision: Low-Variance Risk-Limiting Audits and Election Contestation via Marginal Mark Recording ( http://arxiv.org/abs/2402.06515v3 )

ライセンス: Link先を確認
Benjamin Fuller, Rashmi Pai, Alexander Russell, (参考訳) リスクリミット監査(リスクリミット監査、RLA)は、大規模な選挙の結果を検証する技術である。 正確性に関する厳密な保証を提供する一方で、効率上の懸念と、それらが絶対的な結論ではなく統計的に提供しているという事実の両方によって広く採用が妨げられている。 我々は、これらの困難に両立し、効率を改善し、統計力の質的な進歩を提供する新しい監査の家族を定義します。 我々の新しい監査は、キャスト・ボイト・レコードの標準概念を再考することで、単一の決定ではなく、複数の可能なマーク解釈を宣言できるようにします。 既存の監査インフラにマイナーな変更を加えるだけで、この単純な迅速さによって、大幅な効率改善が実現できることが示される。 リスク制限比較監査はどちらも、Fuller、Harrison、Russell(IEEE Security & Privacy 2023)という形式的な意味で行われます。 次に、競合監査と呼ぶ新しいタイプの選挙後監査を定義します。 これにより、各候補者は、自身の勝利の主張を推し進めるキャスト・ボイト・レコード・テーブルを提供することができる。 これらの監査が顕著なサンプル効率を示し、一定の数のサンプル(マージンとは無関係)でリスクを制御できることを実証する。 これは、証明可能な音のオーディションとしては初めてのものです。 これらの結果は、定量的な音質と完全性を保証するゲームベースのセキュリティモデルで定式化される。 これらの監査は、従来のRSAによって確認された選挙結果のコンテストに対処する手段を提供する。

Risk-limiting audits (RLAs) are techniques for verifying the outcomes of large elections. While they provide rigorous guarantees of correctness, widespread adoption has been impeded by both efficiency concerns and the fact they offer statistical, rather than absolute, conclusions. We attend to both of these difficulties, defining new families of audits that improve efficiency and offer qualitative advances in statistical power. Our new audits are enabled by revisiting the standard notion of a cast-vote record so that it can declare multiple possible mark interpretations rather than a single decision; this can reflect the presence of marginal marks, which appear regularly on hand-marked ballots. We show that this simple expedient can offer significant efficiency improvements with only minor changes to existing auditing infrastructure. We consider two ways of representing these marks, both yield risk-limiting comparison audits in the formal sense of Fuller, Harrison, and Russell (IEEE Security & Privacy 2023). We then define a new type of post-election audit we call a contested audit. These permit each candidate to provide a cast-vote record table advancing their own claim to victory. We prove that these audits offer remarkable sample efficiency, yielding control of risk with a constant number of samples (that is independent of margin). This is a first for an audit with provable soundness. These results are formulated in a game-based security model that specify quantitative soundness and completeness guarantees. These audits provide a means to handle contestation of election results affirmed by conventional RLAs.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# コントラスト事前学習によるマルチフィールドB2Bクラウドソリューションマッチングの強化

Enhancing Multi-field B2B Cloud Solution Matching via Contrastive Pre-training ( http://arxiv.org/abs/2402.07076v2 )

ライセンス: Link先を確認
Haonan Chen, Zhicheng Dou, Xuetong Hao, Yunhao Tao, Shiren Song, Zhenli Sheng, (参考訳) クラウドソリューションは、特定の問題に対処するためのサービスとツールの組み合わせを提供するため、テクノロジ業界で大きな人気を集めている。 しかし、広く利用されているにもかかわらず、ソリューション提供者の営業チームの特定のターゲットソリューションに対して適切な企業顧客を特定するタスクは、既存のマッチングシステムが十分に対応していない複雑なビジネス問題のままである。 本研究では,B2B ソリューションマッチング問題について検討し,複雑なマルチフィールド特徴のモデリングと,制限された,不完全で,スパースなトランザクションデータについて,このシナリオの2つの主要な課題を同定する。 これらの課題に対処するために,階層型マルチフィールドマッチング構造をバックボーンとして構築し,データ拡張戦略と,利用可能なデータの不完全性を補うための対照的な事前学習目標によって補足するフレームワークCAMAを提案する。 実世界のデータセットに関する広範な実験を通して、CAMAはいくつかの強力なベースラインマッチングモデルよりも優れていることを示した。 さらに、Huawei Cloudのシステムにマッチングフレームワークをデプロイしました。 分析の結果,CVR(Conversion Rate)では,従来のオンラインモデルと比較して約30%の改善が見られた。

Cloud solutions have gained significant popularity in the technology industry as they offer a combination of services and tools to tackle specific problems. However, despite their widespread use, the task of identifying appropriate company customers for a specific target solution to the sales team of a solution provider remains a complex business problem that existing matching systems have yet to adequately address. In this work, we study the B2B solution matching problem and identify two main challenges of this scenario: (1) the modeling of complex multi-field features and (2) the limited, incomplete, and sparse transaction data. To tackle these challenges, we propose a framework CAMA, which is built with a hierarchical multi-field matching structure as its backbone and supplemented by three data augmentation strategies and a contrastive pre-training objective to compensate for the imperfections in the available data. Through extensive experiments on a real-world dataset, we demonstrate that CAMA outperforms several strong baseline matching models significantly. Furthermore, we have deployed our matching framework on a system of Huawei Cloud. Our observations indicate an improvement of about 30% compared to the previous online model in terms of Conversion Rate (CVR), which demonstrates its great business value.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# No-Code AutoMLによる人間中心のAIプロダクトプロトタイプ - 概念フレームワーク、可能性、限界

Human-Centered AI Product Prototyping with No-Code AutoML: Conceptual Framework, Potentials and Limitations ( http://arxiv.org/abs/2402.07933v2 )

ライセンス: Link先を確認
Mario Truss, Marc Schmitt, (参考訳) 本稿では、AIプロダクトのプロトタイピングに固有の複雑さに対処し、AI行動の確率的性質と、プロトタイピングツールが非専門家に限定的にアクセス可能であることによる課題に焦点を当てる。 デザインサイエンスリサーチ(DSR)アプローチが提示され、AIプロトタイピングプロセスの改善を目的とした概念的フレームワークが完成する。 包括的な文献レビューを通じて、重要な課題が特定され、非コードAutoMLがソリューションとして分析された。 このフレームワークは、プロトタイピング中の非専門家の入力と評価のシームレスな取り込みを記述し、アクセシビリティと解釈可能性を高めるために、ノーコードAutoMLの可能性を活用している。 自然主義的(ケーススタディ)と人工評価法(基準に基づく分析)を組み合わせるハイブリッドアプローチは,AI非専門家のサポートと意思決定の合理化と限界の合理化に有効であることを強調し,我々のアプローチの有用性を検証した。 AI製品開発プロセスを強化し、リスクを緩和し、イノベーションを促進するために、ノーコードAutoMLの戦略的統合を強調した学術的・産業的な意味について論じる。

This paper addresses the complexities inherent in AI product prototyping, focusing on the challenges posed by the probabilistic nature of AI behavior and the limited accessibility of prototyping tools to non-experts. A Design Science Research (DSR) approach is presented which culminates in a conceptual framework aimed at improving the AI prototyping process. Through a comprehensive literature review, key challenges were identified and no-code AutoML was analyzed as a solution. The framework describes the seamless incorporation of non-expert input and evaluation during prototyping, leveraging the potential of no-code AutoML to enhance accessibility and interpretability. A hybrid approach of combining naturalistic (case study) and artificial evaluation methods (criteria-based analysis) validated the utility of our approach, highlighting its efficacy in supporting AI non-experts and streamlining decision-making and its limitations. Implications for academia and industry, emphasizing the strategic integration of no-code AutoML to enhance AI product development processes, mitigate risks, and foster innovation, are discussed.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# 非定常環境における一般化可能な計画と学習のための疫学探査

Epistemic Exploration for Generalizable Planning and Learning in Non-Stationary Settings ( http://arxiv.org/abs/2402.08145v2 )

ライセンス: Link先を確認
Rushang Karia, Pulkit Verma, Alberto Speranzon, Siddharth Srivastava, (参考訳) 本稿では,リレーショナル・非定常確率環境における連続的計画とモデル学習のための新しいアプローチを提案する。 このような能力は、不確実で絶え間なく進化する現実世界におけるシーケンシャルな意思決定システムの展開に不可欠である。 未知の(そして非定常的な)遷移システムやタスクの変更によるこのような実践的な環境での作業において、提案されたフレームワークはエージェントの現在の知識状態のギャップをモデル化し、焦点を絞った調査を行うためにそれらを使用する。 これらの探索を用いて収集されたデータは、環境力学の連続的な変化にもかかわらず、現在の課題を解決するための一般化可能な確率モデルを学習するために使用される。 いくつかの非定常ベンチマーク領域での実証的な評価は、このアプローチがサンプルの複雑さの観点からプランニングとRLベースラインを著しく上回っていることを示している。 理論的な結果は、定常性が保たれたとき、システムは望ましい収束性を示すことを示している。

This paper introduces a new approach for continual planning and model learning in relational, non-stationary stochastic environments. Such capabilities are essential for the deployment of sequential decision-making systems in the uncertain and constantly evolving real world. Working in such practical settings with unknown (and non-stationary) transition systems and changing tasks, the proposed framework models gaps in the agent's current state of knowledge and uses them to conduct focused, investigative explorations. Data collected using these explorations is used for learning generalizable probabilistic models for solving the current task despite continual changes in the environment dynamics. Empirical evaluations on several non-stationary benchmark domains show that this approach significantly outperforms planning and RL baselines in terms of sample complexity. Theoretical results show that the system exhibits desirable convergence properties when stationarity holds.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# COLD-Attack: ステルス性と制御性を備えたLLMのジェイルブレイク

COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability ( http://arxiv.org/abs/2402.08679v2 )

ライセンス: Link先を確認
Xingang Guo, Fangxu Yu, Huan Zhang, Lianhui Qin, Bin Hu, (参考訳) 大規模言語モデル(LLM)のジェイルブレイクは、最近注目を集めている。 LLMの安全性を総合的に評価するためには、文脈的コヒーレンスや感情・スティリスティックなバリエーションなどの多様な属性を持つジェイルブレイクを検討することが不可欠であり、制御可能なジェイルブレイク、すなわちLLM攻撃に対する制御の強制方法を研究することが有用である。 本稿では、制御可能な攻撃生成問題を公式化し、この問題と制御可能なテキスト生成との間に新たな接続を構築する。 この接続に基づいて、制御可能なテキスト生成における最先端かつ高効率なアルゴリズムであるLangevin Dynamics (COLD) によるエネルギーベースの制約付きデコーディングを適応し、流布、ステルスネス、感情、左右コヒーレンスといった様々な制御要件の下で、敵LLM攻撃の探索を統一・自動化する COLD-Attack フレームワークを導入する。 COLD-Attackによって実現された制御性は、連続的な制約で流動性(接尾辞)攻撃を発生させる標準的な設定をカバーできるだけでなく、パラフレーズ制約で逆向きにユーザクエリを修正したり、位置制約でステルス攻撃を挿入したりといった新しい制御可能なアタック設定に対処できるような、多様な新しいジェイルブレイクシナリオをもたらす。 LLM(Llama-2, Mistral, Vicuna, Guanaco, GPT-3.5, GPT-4)の多種多様な実験により, COLD-Attackの幅広い適用性, 強い制御性, 高い成功率, 攻撃伝達性を示した。 私たちのコードはhttps://github.com/Yu-Fangxu/COLD-Attack.comから入手可能です。

Jailbreaks on large language models (LLMs) have recently received increasing attention. For a comprehensive assessment of LLM safety, it is essential to consider jailbreaks with diverse attributes, such as contextual coherence and sentiment/stylistic variations, and hence it is beneficial to study controllable jailbreaking, i.e. how to enforce control on LLM attacks. In this paper, we formally formulate the controllable attack generation problem, and build a novel connection between this problem and controllable text generation, a well-explored topic of natural language processing. Based on this connection, we adapt the Energy-based Constrained Decoding with Langevin Dynamics (COLD), a state-of-the-art, highly efficient algorithm in controllable text generation, and introduce the COLD-Attack framework which unifies and automates the search of adversarial LLM attacks under a variety of control requirements such as fluency, stealthiness, sentiment, and left-right-coherence. The controllability enabled by COLD-Attack leads to diverse new jailbreak scenarios which not only cover the standard setting of generating fluent (suffix) attack with continuation constraint, but also allow us to address new controllable attack settings such as revising a user query adversarially with paraphrasing constraint, and inserting stealthy attacks in context with position constraint. Our extensive experiments on various LLMs (Llama-2, Mistral, Vicuna, Guanaco, GPT-3.5, and GPT-4) show COLD-Attack's broad applicability, strong controllability, high success rate, and attack transferability. Our code is available at https://github.com/Yu-Fangxu/COLD-Attack.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# SafeDecoding: セーフ・アウェア・デコーディングによるジェイルブレイク攻撃に対する防御

SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding ( http://arxiv.org/abs/2402.08983v3 )

ライセンス: Link先を確認
Zhangchen Xu, Fengqing Jiang, Luyao Niu, Jinyuan Jia, Bill Yuchen Lin, Radha Poovendran, (参考訳) 大規模言語モデル(LLM)がコード生成やチャットボット支援といった現実のアプリケーションに統合されるにつれて、安全性を含むLLMの振る舞いを人間の価値と整合させる取り組みが盛んに行われている。 ジェイルブレイク攻撃は、LLMから意図しない、安全でない行動を誘発することを目的としており、LLMの安全性を脅かしている。 本稿では, LLMの安全を意識した復号化戦略であるSafeDecodingを導入して, ユーザクエリに対する有用な無害な応答を生成することで, ジェイルブレイク攻撃に対するLLMの防御を目指す。 セーフデコード開発における洞察は,有害な内容を表すトークンの確率が有害な応答を示すトークンよりも高いにもかかわらず,下位順の確率でトークンをソートした後も,安全宣言者がトップトークンに現れるという観察に基づいている。 これにより、ジェイルブレイク攻撃の目的に沿ったトークンシーケンスの確率を同時に減らしつつ、安全性の低下を識別し、トークン確率を増大させることで、ジェイルブレイク攻撃を軽減できます。 我々は6つの最先端のジェイルブレイク攻撃と4つのベンチマークデータセットを用いて、5つのLDMに対して広範な実験を行った。 この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。 SafeDecodingは6つの防御方法より優れている。

As large language models (LLMs) become increasingly integrated into real-world applications such as code generation and chatbot assistance, extensive efforts have been made to align LLM behavior with human values, including safety. Jailbreak attacks, aiming to provoke unintended and unsafe behaviors from LLMs, remain a significant/leading LLM safety threat. In this paper, we aim to defend LLMs against jailbreak attacks by introducing SafeDecoding, a safety-aware decoding strategy for LLMs to generate helpful and harmless responses to user queries. Our insight in developing SafeDecoding is based on the observation that, even though probabilities of tokens representing harmful contents outweigh those representing harmless responses, safety disclaimers still appear among the top tokens after sorting tokens by probability in descending order. This allows us to mitigate jailbreak attacks by identifying safety disclaimers and amplifying their token probabilities, while simultaneously attenuating the probabilities of token sequences that are aligned with the objectives of jailbreak attacks. We perform extensive experiments on five LLMs using six state-of-the-art jailbreak attacks and four benchmark datasets. Our results show that SafeDecoding significantly reduces the attack success rate and harmfulness of jailbreak attacks without compromising the helpfulness of responses to benign user queries. SafeDecoding outperforms six defense methods.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# 階層的近位リプレイ:オンライン連続学習のための近位点法

Layerwise Proximal Replay: A Proximal Point Method for Online Continual Learning ( http://arxiv.org/abs/2402.09542v2 )

ライセンス: Link先を確認
Jason Yoo, Yunpeng Liu, Frank Wood, Geoff Pleiss, (参考訳) オンライン連続学習では、ニューラルネットワークは非i.d.データストリームから漸進的に学習する。 ほぼ全てのオンライン連続学習手法は、過去のデータに対する破滅的な忘れ込みと過小評価を同時に防止するために経験的リプレイ(experience replay)を採用している。 経験的なリプレイでトレーニングされたニューラルネットワークは、不安定な最適化軌跡を持ち、全体的な精度を損なう傾向があります。 驚くべきことに、これらの不安定性は、リプレイバッファが以前のトレーニング例をすべて保存している場合でも持続し、この問題は破滅的な忘れ物に直交していることを示唆している。 最適化幾何の簡単な修正により、これらの不安定性を最小化する。 我々のソリューションであるLayerwise Proximal Replay (LPR)は、新しいデータとリプレイデータからの学習のバランスを保ちながら、過去のデータの隠されたアクティベーションの段階的な変更のみを可能にします。 LPRは、利用可能なリプレイメモリの量に関係なく、複数の問題設定にまたがるリプレイベースのオンライン連続学習手法を一貫して改善することを示した。

In online continual learning, a neural network incrementally learns from a non-i.i.d. data stream. Nearly all online continual learning methods employ experience replay to simultaneously prevent catastrophic forgetting and underfitting on past data. Our work demonstrates a limitation of this approach: neural networks trained with experience replay tend to have unstable optimization trajectories, impeding their overall accuracy. Surprisingly, these instabilities persist even when the replay buffer stores all previous training examples, suggesting that this issue is orthogonal to catastrophic forgetting. We minimize these instabilities through a simple modification of the optimization geometry. Our solution, Layerwise Proximal Replay (LPR), balances learning from new and replay data while only allowing for gradual changes in the hidden activation of past data. We demonstrate that LPR consistently improves replay-based online continual learning methods across multiple problem settings, regardless of the amount of available replay memory.
翻訳日:2024-06-10 20:07:34 公開日:2024-06-07
# 超対称変換による準1次元系のフラットバンド工学

Flat-band engineering of quasi-one-dimensional systems via supersymmetric transformations ( http://arxiv.org/abs/2402.10514v2 )

ライセンス: Link先を確認
Vit Jakubsky, Kevin Zelaya, (参考訳) 低エネルギー状態におけるディラック方程式により記述された準1次元結晶モデルをスペクトル的に設計するための体系的手法を提案する。 この方法は、当初知られていた擬-スピン-1/2モデルに適用される超対称変換に基づいている。 これにより、対応するスージーパートナーを拡張して、新しいモデルが擬似スピン-1システムを記述することができる。 スペクトル設計により、フラットバンドと離散エネルギーを新しいモデルに導入することができる。 結果は、Su-Schriefer-Heeger鎖が局所的にスタブ格子に変換される2つの例で示される。

We introduce a systematic method to spectrally design quasi-one-dimensional crystal models described by the Dirac equation in the low-energy regime. The method is based on the supersymmetric transformation applied to an initially known pseudo-spin-1/2 model. This allows extending the corresponding susy partner so that the new model describes a pseudo-spin-1 system. The spectral design allows the introduction of a flat-band and discrete energies at will into the new model. The results are illustrated in two examples where the Su-Schriefer-Heeger chain is locally converted into a stub lattice.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# 注意喚起のための分解:ワークフローパラダイムによるLLMベースのテキスト-SQLの改善

Decomposition for Enhancing Attention: Improving LLM-based Text-to-SQL through Workflow Paradigm ( http://arxiv.org/abs/2402.10671v2 )

ライセンス: Link先を確認
Yuanzhen Xie, Xinzhou Jin, Tao Xie, MingXiong Lin, Liang Chen, Chenyun Yu, Lei Cheng, ChengXiang Zhuo, Bo Hu, Zang Li, (参考訳) 大規模言語モデル(LLM)のインコンテキスト学習は、自然言語処理の分野で顕著な成功を収めた一方、広範にわたるケーススタディでは、テキストからSQLのような複雑なタスクにおいて、注意の拡散や不適切なパフォーマンスといった課題に直面している。 テキスト・トゥ・SQLにおけるLLMの文脈学習能力を改善するために,分解によるLLMの注目度と問題解決範囲の向上を目的としたワークフローパラダイム手法を提案する。 具体的には、冗長な情報を排除するための情報決定モジュールと、問題分類に基づく新しいプロンプト構造により、モデルの注意を著しく高める。 さらに、自己補正とアクティブラーニングモジュールの導入により、LLMの問題解決範囲が大幅に拡大し、LLMベースのアプローチの上限が向上する。 3つのデータセットで行った大規模な実験は、我々のアプローチが他の手法よりも有意なマージンで優れていることを示した。 Spider Dev、Spider-Realistic、Bird Devデータセットの既存のベースラインと比較して約2~3ポイント改善され、Spider Testデータセットの新たなSOTA結果が達成された。 私たちのコードはGitHubで入手可能です。

In-context learning of large-language models (LLMs) has achieved remarkable success in the field of natural language processing, while extensive case studies reveal that the single-step chain-of-thought prompting approach faces challenges such as attention diffusion and inadequate performance in complex tasks like text-to-SQL. To improve the contextual learning capabilities of LLMs in text-to-SQL, a workflow paradigm method is proposed, aiming to enhance the attention and problem-solving scope of LLMs through decomposition. Specifically, the information determination module for eliminating redundant information and the brand-new prompt structure based on problem classification greatly enhance the model's attention. Additionally, the inclusion of self-correction and active learning modules greatly expands the problem-solving scope of LLMs, hence improving the upper limit of LLM-based approaches. Extensive experiments conducted on three datasets demonstrate that our approach outperforms other methods by a significant margin. About 2-3 percentage point improvements compared to the existing baseline on the Spider Dev, Spider-Realistic, and Bird Dev datasets and new SOTA results on the Spider Test dataset are achieved. Our code is available on GitHub: \url{https://github.com/FlyingFeather/DEA-SQL}.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# ChemReasoner: 量子化学フィードバックを用いた大規模言語モデルの知識空間上のヒューリスティック検索

ChemReasoner: Heuristic Search over a Large Language Model's Knowledge Space using Quantum-Chemical Feedback ( http://arxiv.org/abs/2402.10980v4 )

ライセンス: Link先を確認
Henry W. Sprueill, Carl Edwards, Khushbu Agarwal, Mariefel V. Olarte, Udishnu Sanyal, Conrad Johnston, Hongbin Liu, Heng Ji, Sutanay Choudhury, (参考訳) 新しい触媒の発見は、持続可能な未来へ移行するために、新しいより効率的な化学プロセスの設計に不可欠である。 量子化学に基づく3次元原子論表現からのフィードバックで言語推論を統一するAI誘導型計算スクリーニングフレームワークを提案する。 提案手法は,大規模言語モデル(LLM)と原子間グラフニューラルネットワーク(GNN)によるフィードバックの反復的組み合わせにより,エージェントが高効率な触媒を積極的に探索する不確実な環境として触媒発見を定式化する。 中間探索段階における同定触媒は, 空間配向, 反応経路, 安定性に基づいて構造評価を行う。 吸着エネルギーと反応エネルギー障壁に基づくスコーリング機能は、LLMの知識空間におけるエネルギー的に好ましい高効率触媒への探索を後押しする。 本研究では,人間の入力を使わずに探索を自動的に案内する計画手法を導入し,専門家が列挙した化学記述子に基づく実装と競合する性能を提供する。 言語誘導推論と計算化学のフィードバックを統合することで、私たちの研究はAIを加速し、信頼できる触媒発見の先駆者になります。

The discovery of new catalysts is essential for the design of new and more efficient chemical processes in order to transition to a sustainable future. We introduce an AI-guided computational screening framework unifying linguistic reasoning with quantum-chemistry based feedback from 3D atomistic representations. Our approach formulates catalyst discovery as an uncertain environment where an agent actively searches for highly effective catalysts via the iterative combination of large language model (LLM)-derived hypotheses and atomistic graph neural network (GNN)-derived feedback. Identified catalysts in intermediate search steps undergo structural evaluation based on spatial orientation, reaction pathways, and stability. Scoring functions based on adsorption energies and reaction energy barriers steer the exploration in the LLM's knowledge space toward energetically favorable, high-efficiency catalysts. We introduce planning methods that automatically guide the exploration without human input, providing competitive performance against expert-enumerated chemical descriptor-based implementations. By integrating language-guided reasoning with computational chemistry feedback, our work pioneers AI-accelerated, trustworthy catalyst discovery.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# ニュースサムネイルの表現性を評価する: 偽造テキストは、モーダル間マッチング能力を高めることができる

Assessing News Thumbnail Representativeness: Counterfactual text can enhance the cross-modal matching ability ( http://arxiv.org/abs/2402.11159v3 )

ライセンス: Link先を確認
Yejun Yoon, Seunghyun Yoon, Kunwoo Park, (参考訳) 本稿では,ニュースサムネイル画像の表現性を評価する上で重要な課題について論じる。 ニュース画像がニューステキストで議論されているアクターを表すかどうかに焦点をあてる。 この課題に対処するため,1000個のニュースサムネイル画像とテキストペアを手動でアノテートしたデータセットであるNewsTTを紹介した。 BLIP-2のような事前学習された視覚と言語モデルがこの課題に対処していることがわかった。 ニューステーマは、しばしば名前付きエンティティや固有名詞を含むため、事前訓練されたモデルは、ニュースアクターの視覚的およびテキスト的外観にマッチする限られた能力を持つ可能性がある。 我々は、ニューステキストと、名前のついたエンティティを置き換えた反事実を対比する学習は、視覚と言語モデルの相互一致能力を高めることができると仮定する。 仮説に従って視覚と言語バイエンコーダを更新するコントラスト学習フレームワークであるCFT-CLIPを提案する。 提案手法は,ニュースサムネイルの表現性を評価するための性能を向上し,仮定を裏付けるものである。 コードとデータはhttps://github.com/ssu-humane/news-images-acl24でアクセスできる。

This paper addresses the critical challenge of assessing the representativeness of news thumbnail images, which often serve as the first visual engagement for readers when an article is disseminated on social media. We focus on whether a news image represents the actors discussed in the news text. To serve the challenge, we introduce NewsTT, a manually annotated dataset of 1000 news thumbnail images and text pairs. We found that the pretrained vision and language models, such as BLIP-2, struggle with this task. Since news subjects frequently involve named entities or proper nouns, the pretrained models could have a limited capability to match news actors' visual and textual appearances. We hypothesize that learning to contrast news text with its counterfactual, of which named entities are replaced, can enhance the cross-modal matching ability of vision and language models. We propose CFT-CLIP, a contrastive learning framework that updates vision and language bi-encoders according to the hypothesis. We found that our simple method can boost the performance for assessing news thumbnail representativeness, supporting our assumption. Code and data can be accessed at https://github.com/ssu-humane/news-images-acl24.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# 低精度)多項式近似を用いたニューラルネットワーク : 精度向上のための新しい洞察と技術

Neural Networks with (Low-Precision) Polynomial Approximations: New Insights and Techniques for Accuracy Improvement ( http://arxiv.org/abs/2402.11224v2 )

ライセンス: Link先を確認
Chi Zhang, Jingjing Fan, Man Ho Au, Siu Ming Yiu, (参考訳) 多項式近似によるニューラルネットワークにおける非多項式関数(例えば、ReLUのような非線形活性化関数)の置き換えは、プライバシ保存機械学習における標準的なプラクティスである。 本稿では、ニューラルネットワーク(PANN)の多項式近似と呼ばれる結果のニューラルネットワークを、プライバシ保存モデル推論を可能にするための高度な暗号システムと互換性がある。 の近似を用いて、最先端のPANNは基礎となるバックボーンモデルと同様の推論精度を提供する。 しかし、近似の効果についてはほとんど分かっておらず、既存の文献では必要な近似精度を実証的に決定することが多かった。 本稿では,PANNをスタンドアロンオブジェクトとして検討する。 具体的には、私たちの貢献は2倍です。 まず、PANNにおける近似誤差の影響について説明する。 特に, (1) PANNはある種の摂動の影響を受けやすいこと, (2) 体重正規化はPANNの精度を著しく低下させることがわかった。 私たちは実験で説明を支持します。 次に,本研究から得られた知見をもとに,PANNの推測精度を向上させる手法を提案する。 同じ精度で、私たちのPANNは最先端技術よりも10%から50%正確であり、同じ精度で、私たちのPANNは2^{-9}の精度しか必要とせず、最先端のソリューションはCIFAR-10データセット上でResNet-20モデルを使用して2^{-12}の精度を必要とする。

Replacing non-polynomial functions (e.g., non-linear activation functions such as ReLU) in a neural network with their polynomial approximations is a standard practice in privacy-preserving machine learning. The resulting neural network, called polynomial approximation of neural network (PANN) in this paper, is compatible with advanced cryptosystems to enable privacy-preserving model inference. Using ``highly precise'' approximation, state-of-the-art PANN offers similar inference accuracy as the underlying backbone model. However, little is known about the effect of approximation, and existing literature often determined the required approximation precision empirically. In this paper, we initiate the investigation of PANN as a standalone object. Specifically, our contribution is two-fold. Firstly, we provide an explanation on the effect of approximate error in PANN. In particular, we discovered that (1) PANN is susceptible to some type of perturbations; and (2) weight regularisation significantly reduces PANN's accuracy. We support our explanation with experiments. Secondly, based on the insights from our investigations, we propose solutions to increase inference accuracy for PANN. Experiments showed that combination of our solutions is very effective: at the same precision, our PANN is 10% to 50% more accurate than state-of-the-arts; and at the same accuracy, our PANN only requires a precision of 2^{-9} while state-of-the-art solution requires a precision of 2^{-12} using the ResNet-20 model on CIFAR-10 dataset.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# 単一コピーレベルでのマルチパラメータ量子推定におけるクラム・ラオ境界の飽和度

Saturability of the Quantum Cramér-Rao Bound in Multiparameter Quantum Estimation at the Single-Copy Level ( http://arxiv.org/abs/2402.11567v5 )

ライセンス: Link先を確認
Hendra I. Nurdin, (参考訳) 量子パラメータ推定における精度の究極的下界としての量子Cram\'{e}r-Rao界(QCRB)は、特別な場合やパラメータに関連付けられた対称対数微分(SLD)の完全あるいは平均可換性のような条件下では、マルチパラメータ設定においてのみ飽和することが知られている。 さらに、一般的な混合状態の場合、量子状態の無限に多くの同一のコピーに対する集合的な測定は、一般にQCRBに到達するために必要である。 重要かつ実験的に関連する単一コピーシナリオでは、一般混合状態のマルチパラメータ設定においてQCRBを飽和させるために必要な条件は、SLDにおけるいわゆる部分可換性条件である。 しかし、この条件が十分かどうかは不明である。 本稿では,一組の射影SLDの可換性と非線形偏微分方程式系に対するユニタリ解の存在という観点から,単写体におけるマルチパラメータQCRBの飽和性に関する必要十分条件を確立する。 部分可換性を暗示する新たな必要条件も得られ、他の条件とともに十分となる。 また、十分な条件が満たされると、QCRBが飽和した最適な測定値が射影的かつ明確に特徴づけられるように選択できる。 例として、この条件が満たされ、明確に検証できるマルチパラメータ量子状態の例を示す。

The quantum Cram\'{e}r-Rao bound (QCRB) as the ultimate lower bound for precision in quantum parameter estimation is only known to be saturable in the multiparameter setting in special cases and under conditions such as full or average commutavity of the symmetric logarithmic derivatives (SLDs) associated with the parameters. Moreover, for general mixed states, collective measurements over infinitely many identical copies of the quantum state are generally required to attain the QCRB. In the important and experimentally relevant single-copy scenario, a necessary condition for saturating the QCRB in the multiparameter setting for general mixed states is the so-called partial commutativity condition on the SLDs. However, it is not known if this condition is also sufficient. This paper establishes necessary and sufficient conditions for saturability of the multiparameter QCRB in the single-copy setting in terms of the commutativity of a set of projected SLDs and the existence of a unitary solution to a system of nonlinear partial differential equations. New necessary conditions that imply partial commutativity are also obtained, which together with another condition become sufficient. Moreover, when the sufficient conditions are satisfied an optimal measurement saturating the QCRB can be chosen to be projective and explicitly characterized. An example is developed to illustrate the case of a multiparameter quantum state where the conditions derived herein are satisfied and can be explicitly verified.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# GNNavi: グラフニューラルネットワークによる大規模言語モデルの情報フローのナビゲート

GNNavi: Navigating the Information Flow in Large Language Models by Graph Neural Network ( http://arxiv.org/abs/2402.11709v2 )

ライセンス: Link先を確認
Shuzhou Yuan, Ercong Nie, Michael Färber, Helmut Schmid, Hinrich Schütze, (参考訳) 大規模な言語モデル(LLM)は、デモによるプロンプトを使用すると、強力なインコンテキスト学習(ICL)能力を示す。 しかし、微調整は適用性を高めるために依然として不可欠である。 プロンプトベースの微調整は、低データシナリオにおいて効果的な微調整法であることが証明されているが、計算資源に対する高い要求は、その実用性を制限する。 本稿では,パラメータ効率向上手法(PEFT)を導入することでこの問題に対処する。 GNNaviはICLの情報フローダイナミクスの洞察を活用し、ラベル語が情報伝達のアンカーとして働くことを示す。 GNNaviはグラフニューラルネットワーク(GNN)レイヤを使用して、希望する情報フローをGNNにハードスイッチすることで、プロンプト処理中に情報フローの集約と分布を正確にガイドする。 GPT-2 と Llama2 を用いたテキスト分類実験により,GNNavi はパラメータの 0.2% から 0.5% だけを更新することで,標準のプロンプトベースの微調整手法を超えていることがわかった。 我々は、GNNaviとプレフィックスチューニング、LoRA、AdapterなどのPEFTアプローチを比較し、性能と効率の点で比較する。 解析の結果, GNNaviは情報フローを向上し, 明確な集約プロセスを保証することがわかった。

Large Language Models (LLMs) exhibit strong In-Context Learning (ICL) capabilities when prompts with demonstrations are used. However, fine-tuning still remains crucial to further enhance their adaptability. Prompt-based fine-tuning proves to be an effective fine-tuning method in low-data scenarios, but high demands on computing resources limit its practicality. We address this issue by introducing a prompt-based parameter-efficient fine-tuning (PEFT) approach. GNNavi leverages insights into ICL's information flow dynamics, which indicates that label words act in prompts as anchors for information propagation. GNNavi employs a Graph Neural Network (GNN) layer to precisely guide the aggregation and distribution of information flow during the processing of prompts by hardwiring the desired information flow into the GNN. Our experiments on text classification tasks with GPT-2 and Llama2 show GNNavi surpasses standard prompt-based fine-tuning methods in few-shot settings by updating just 0.2% to 0.5% of parameters. We compare GNNavi with prevalent PEFT approaches, such as prefix tuning, LoRA and Adapter in terms of performance and efficiency. Our analysis reveals that GNNavi enhances information flow and ensures a clear aggregation process.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# ArtPrompt: ASCIIアートベースのジェイルブレイク攻撃

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs ( http://arxiv.org/abs/2402.11753v4 )

ライセンス: Link先を確認
Fengqing Jiang, Zhangchen Xu, Luyao Niu, Zhen Xiang, Bhaskar Ramasubramanian, Bo Li, Radha Poovendran, (参考訳) 安全性は、大きな言語モデル(LLM)の使用に不可欠である。 LLMの安全性を高めるために、データフィルタリングや教師付き微調整などの複数の技術が開発されている。 しかし、現在知られている技術では、LLMの安全アライメントに使用されるコーパスは意味論によってのみ解釈されていると推測されている。 しかし、この仮定は現実世界のアプリケーションには当てはまらないため、LLMの深刻な脆弱性につながる。 例えば、フォーラムのユーザは、画像情報を伝えるためにテキストベースのアートの一種であるASCIIアートを使用することが多い。 本稿では, ASCIIアートベースの新しいジェイルブレイク攻撃を提案し, セマンティクスでのみ解釈できないプロンプトを認識する上で, LLMの能力を評価するための総合的ベンチマークViTC(ViTC)を提案する。 5つのSOTA LLM (GPT-3.5, GPT-4, Gemini, Claude, Llama2) がASCIIアートの形で提供されるプロンプトを認識するのに苦労していることを示す。 本研究は, ASCII アート認識における LLM の貧弱な性能を活用し, 安全対策を回避し, かつ LLM から望ましくない行動を誘発する, 脱獄攻撃ArtPrompt を開発した。 ArtPromptは被害者のLSMへのブラックボックスアクセスしか必要とせず、実用的な攻撃である。 我々は5つのSOTA LLM上でArtPromptを評価し、ArtPromptが5つのLLMすべてから望ましくない振る舞いを効果的かつ効率的に誘導できることを示した。 私たちのコードはhttps://github.com/uw-nsl/ArtPrompt.comで利用可能です。

Safety is critical to the usage of large language models (LLMs). Multiple techniques such as data filtering and supervised fine-tuning have been developed to strengthen LLM safety. However, currently known techniques presume that corpora used for safety alignment of LLMs are solely interpreted by semantics. This assumption, however, does not hold in real-world applications, which leads to severe vulnerabilities in LLMs. For example, users of forums often use ASCII art, a form of text-based art, to convey image information. In this paper, we propose a novel ASCII art-based jailbreak attack and introduce a comprehensive benchmark Vision-in-Text Challenge (ViTC) to evaluate the capabilities of LLMs in recognizing prompts that cannot be solely interpreted by semantics. We show that five SOTA LLMs (GPT-3.5, GPT-4, Gemini, Claude, and Llama2) struggle to recognize prompts provided in the form of ASCII art. Based on this observation, we develop the jailbreak attack ArtPrompt, which leverages the poor performance of LLMs in recognizing ASCII art to bypass safety measures and elicit undesired behaviors from LLMs. ArtPrompt only requires black-box access to the victim LLMs, making it a practical attack. We evaluate ArtPrompt on five SOTA LLMs, and show that ArtPrompt can effectively and efficiently induce undesired behaviors from all five LLMs. Our code is available at https://github.com/uw-nsl/ArtPrompt.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# 方言話者が望むもの : ドイツ方言の言語技術に対する態度調査

What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects ( http://arxiv.org/abs/2402.11968v2 )

ライセンス: Link先を確認
Verena Blaschke, Christoph Purschke, Hinrich Schütze, Barbara Plank, (参考訳) 自然言語処理(NLP)は主に標準化された言語をモデル化することに焦点を当てている。 最近では、現地の非標準言語や方言に注目が移りつつある。 しかし,NLPツールに対する話者のニーズや要望はほとんど分かっていない。 本稿では,ドイツ語に関連する方言や地域言語に焦点をあてる。 我々はこれらの品種(N=327)の話者について調査を行い、その方言に関する仮説言語技術について意見を述べる。 回答者の態度はサブグループによって異なるが、仮想アシスタントのような方言入力(特に音声入力)を扱うNLPツールが特に好まれており、機械翻訳やスペルチェッカーのような方言出力を生成するアプリケーションではそうではない。

Natural language processing (NLP) has largely focused on modelling standardized languages. More recently, attention has increasingly shifted to local, non-standardized languages and dialects. However, the relevant speaker populations' needs and wishes with respect to NLP tools are largely unknown. In this paper, we focus on dialects and regional languages related to German -- a group of varieties that is heterogeneous in terms of prestige and standardization. We survey speakers of these varieties (N=327) and present their opinions on hypothetical language technologies for their dialects. Although attitudes vary among subgroups of our respondents, we find that respondents are especially in favour of potential NLP tools that work with dialectal input (especially audio input) such as virtual assistants, and less so for applications that produce dialectal output such as machine translation or spellcheckers.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# EmoBench: 大規模言語モデルの感情知性を評価する

EmoBench: Evaluating the Emotional Intelligence of Large Language Models ( http://arxiv.org/abs/2402.12071v2 )

ライセンス: Link先を確認
Sahand Sabour, Siyang Liu, Zheyuan Zhang, June M. Liu, Jinfeng Zhou, Alvionna S. Sunaryo, Juanzi Li, Tatia M. C. Lee, Rada Mihalcea, Minlie Huang, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、堅牢で包括的で挑戦的なベンチマークの必要性を強調している。 しかし、感情知性(EI)を評価する研究は極めて限られている。 既存のベンチマークには2つの大きな欠点がある。ひとつは感情認識、もうひとつは感情の制御や感情理解による思考促進といった重要なEI機能を無視し、もうひとつは、頻繁なパターン、明示的な情報、アノテーションエラーを含む既存のデータセットから構築され、信頼できない評価をもたらす。 EmoBenchは、確立された心理学理論を基礎として、感情理解や情緒的応用を含む、マシンEIの包括的定義を提案する。 EmoBenchには、英語と中国語で400の手作りの質問が含まれている。 以上の結果から,既存のLDMのEIと平均的な人間の間には,かなりのギャップが見られ,今後の研究への期待が浮かび上がっている。 私たちのコードとデータはhttps://github.com/Sahandfer/EmoBench.comで公開されています。

Recent advances in Large Language Models (LLMs) have highlighted the need for robust, comprehensive, and challenging benchmarks. Yet, research on evaluating their Emotional Intelligence (EI) is considerably limited. Existing benchmarks have two major shortcomings: first, they mainly focus on emotion recognition, neglecting essential EI capabilities such as emotion regulation and thought facilitation through emotion understanding; second, they are primarily constructed from existing datasets, which include frequent patterns, explicit information, and annotation errors, leading to unreliable evaluation. We propose EmoBench, a benchmark that draws upon established psychological theories and proposes a comprehensive definition for machine EI, including Emotional Understanding and Emotional Application. EmoBench includes a set of 400 hand-crafted questions in English and Chinese, which are meticulously designed to require thorough reasoning and understanding. Our findings reveal a considerable gap between the EI of existing LLMs and the average human, highlighting a promising direction for future research. Our code and data are publicly available at https://github.com/Sahandfer/EmoBench.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# 非定常時系列予測のための潜在状態の学習の時期と方法

When and How: Learning Identifiable Latent States for Nonstationary Time Series Forecasting ( http://arxiv.org/abs/2402.12767v3 )

ライセンス: Link先を確認
Zijian Li, Ruichu Cai, Zhenhui Yang, Haiqin Huang, Guangyi Chen, Yifan Shen, Zhengming Chen, Xiangchen Song, Kun Zhang, (参考訳) 時間分布シフトは時系列データにおいてユビキタスである。 最も一般的な方法の1つは、時間分布シフトが定常的および非定常的依存関係を乱すために均一に起こると仮定している。 しかし、この仮定はいつ分布シフトが起こるかわからないため、満たすのは難しい。 そこで本研究では,IDentible latEnt stAtes (IDEA) を学習して,分布変化の発生を検知する手法を提案する。 さらに、定常状態と非定常状態とを十分な観測仮定でさらに切り離して、潜在状態がどのように変化するかを学ぶ。 具体的には,環境関連定常変数および環境関連非定常変数を用いて因果過程を定式化する。 温和な条件下では、潜伏環境と定常・非定常変数が識別可能であることを示す。 これらの理論に基づいて,自己回帰型隠れマルコフモデルを用いて潜伏環境を推定し,潜伏状態を特定するための事前ネットワークをモジュール化するIDEAモデルを考案した。 IDEAモデルは、さまざまなベンチマークデータセット上で最新の非定常予測方法よりも優れており、実際のシナリオにおけるその利点を強調している。

Temporal distribution shifts are ubiquitous in time series data. One of the most popular methods assumes that the temporal distribution shift occurs uniformly to disentangle the stationary and nonstationary dependencies. But this assumption is difficult to meet, as we do not know when the distribution shifts occur. To solve this problem, we propose to learn IDentifiable latEnt stAtes (IDEA) to detect when the distribution shifts occur. Beyond that, we further disentangle the stationary and nonstationary latent states via sufficient observation assumption to learn how the latent states change. Specifically, we formalize the causal process with environment-irrelated stationary and environment-related nonstationary variables. Under mild conditions, we show that latent environments and stationary/nonstationary variables are identifiable. Based on these theories, we devise the IDEA model, which incorporates an autoregressive hidden Markov model to estimate latent environments and modular prior networks to identify latent states. The IDEA model outperforms several latest nonstationary forecasting methods on various benchmark datasets, highlighting its advantages in real-world scenarios.
翻訳日:2024-06-10 19:57:35 公開日:2024-06-07
# 実演が多言語インテクスト学習に及ぼす影響:多次元的分析

The Impact of Demonstrations on Multilingual In-Context Learning: A Multidimensional Analysis ( http://arxiv.org/abs/2402.12976v2 )

ライセンス: Link先を確認
Miaoran Zhang, Vagrant Gautam, Mingyang Wang, Jesujoba O. Alabi, Xiaoyu Shen, Dietrich Klakow, Marius Mosbach, (参考訳) インコンテキスト学習(In-context learning)は、大規模言語モデルがパラメータの更新を必要とせず、ラベル付きデモのみを使用してタスクを解く一般的な推論手法である。 英語のイン・コンテクスト学習は広く研究されてきたが,マルチリンガルなイン・コンテクスト学習はいまだ未熟であり,この文脈における実演の役割について深く理解されていない。 このギャップに対処するため、我々は多言語インコンテキスト学習の多次元的分析を行い、異なるモデルファミリーから5つのモデル、分類と生成タスクをカバーする9つのデータセット、56の類型的多言語を実験した。 その結果,実演の有効性はモデル,タスク,言語によって大きく異なることがわかった。 また,Llama 2-Chat,GPT-3.5,GPT-4などの強力な命令追従モデルは,実演の質にはほとんど敏感でないことがわかった。 代わりに、慎重に作成されたテンプレートは、いくつかのタスクや言語に対するデモの利点を完全に排除することが多い。 これらの結果から,実証の重要性は過大評価されている可能性が示唆された。 私たちの研究は、コンテキスト内学習をより深く理解するために、複数の軸にまたがる粒度評価の必要性を強調します。

In-context learning is a popular inference strategy where large language models solve a task using only a few labeled demonstrations without needing any parameter updates. Although there have been extensive studies on English in-context learning, multilingual in-context learning remains under-explored, and we lack an in-depth understanding of the role of demonstrations in this context. To address this gap, we conduct a multidimensional analysis of multilingual in-context learning, experimenting with 5 models from different model families, 9 datasets covering classification and generation tasks, and 56 typologically diverse languages. Our results reveal that the effectiveness of demonstrations varies significantly across models, tasks, and languages. We also find that strong instruction-following models including Llama 2-Chat, GPT-3.5, and GPT-4 are largely insensitive to the quality of demonstrations. Instead, a carefully crafted template often eliminates the benefits of demonstrations for some tasks and languages altogether. These findings show that the importance of demonstrations might be overestimated. Our work highlights the need for granular evaluation across multiple axes towards a better understanding of in-context learning.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# 連続グルコースモニタリング・保守のためのニューラルコントロールシステム

Neural Control System for Continuous Glucose Monitoring and Maintenance ( http://arxiv.org/abs/2402.13852v3 )

ライセンス: Link先を確認
Azmine Toushik Wasi, (参考訳) 血糖値の精密モニタリングは、糖尿病患者にとって深刻な合併症を避けるために重要である。 連続的なグルコース濃度モニタリングにはいくつかの方法があるが、メンテナンス装置の研究は限られている。 このギャップを緩和するために, 差分予測制御を用いた連続グルコースモニタリングと管理のためのニューラルコントロールシステムを提案する。 我々のアプローチは、洗練されたニューラルポリシーと微分可能なモデリングによって導かれ、インスリンの供給をリアルタイムで調整し、体内のグルコースレベルを最適化する。 このエンド・ツー・エンドの手法は効率を最大化し、経験的証拠によって確認されたように、パーソナライズされたケアを提供し、健康結果を改善する。 コードとデータは: \url{https://github.com/azminewasi/NeuralCGMM}.comで入手できる。

Precise glucose level monitoring is critical for people with diabetes to avoid serious complications. While there are several methods for continuous glucose level monitoring, research on maintenance devices is limited. To mitigate the gap, we provide a novel neural control system for continuous glucose monitoring and management that uses differential predictive control. Our approach, led by a sophisticated neural policy and differentiable modeling, constantly adjusts insulin supply in real-time, thereby improving glucose level optimization in the body. This end-to-end method maximizes efficiency, providing personalized care and improved health outcomes, as confirmed by empirical evidence. Code and data are available at: \url{https://github.com/azminewasi/NeuralCGMM}.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# 確率的サドル点最適化における非有界勾配によるディーリング

Dealing with unbounded gradients in stochastic saddle-point optimization ( http://arxiv.org/abs/2402.13903v2 )

ライセンス: Link先を確認
Gergely Neu, Nneka Okolo, (参考訳) 本研究では,凸凹関数のサドル点を求める確率的一階法の性能について検討する。 このような手法が直面する悪名高い課題は、最適化中に勾配が任意に大きく成長し、不安定性とばらつきをもたらす可能性があることである。 本稿では,繰り返しを安定化し,ドメインと勾配雑音が繰り返しスケールしても有意義な性能保証を与える,単純で効果的な正規化手法を提案する。 また,本アルゴリズムを強化学習の特定の問題に適用することにより,偏りの事前知識を伴わずに,平均回帰型MDPにおける準最適ポリシの探索性能が保証される。

We study the performance of stochastic first-order methods for finding saddle points of convex-concave functions. A notorious challenge faced by such methods is that the gradients can grow arbitrarily large during optimization, which may result in instability and divergence. In this paper, we propose a simple and effective regularization technique that stabilizes the iterates and yields meaningful performance guarantees even if the domain and the gradient noise scales linearly with the size of the iterates (and is thus potentially unbounded). Besides providing a set of general results, we also apply our algorithm to a specific problem in reinforcement learning, where it leads to performance guarantees for finding near-optimal policies in an average-reward MDP without prior knowledge of the bias span.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# 時間的知識グラフ予測のための歴史の連鎖推論

Chain-of-History Reasoning for Temporal Knowledge Graph Forecasting ( http://arxiv.org/abs/2402.14382v2 )

ライセンス: Link先を確認
Yuwei Xia, Ding Wang, Qiang Liu, Liang Wang, Shu Wu, Xiaoyu Zhang, (参考訳) 時間的知識グラフ(TKG)予測は、与えられた履歴に基づいて将来の事実を予測することを目的としている。 最近のグラフベースのモデルでは、TKG内の構造情報の取得が優れているが、意味的理解能力は欠如している。 現在、LLMの急増に伴い、LLMベースのTKG予測モデルが登場している。 しかし,既存のLLMモデルでは,(1)高次履歴情報を無視しながら予測の1次履歴のみに焦点が当てられているため,LLMの提供する情報は極めて限られている。 2)LLMは,重度履歴情報負荷下での最適推論性能に苦慮する。 (3) TKG 予測では, LLM の時間的推論能力は限定的である。 最初の2つの課題に対処するため、我々は高階歴史を段階的に探求し、TKG予測におけるLLMの高階歴史情報の有効活用を実現するCoH推論(Chain-of-History)を提案する。 第3の課題に対処するため,我々はTKG予測のためのグラフベースモデルの性能を向上させるために,CoHをプラグアンドプレイモジュールとして設計する。 3つのデータセットとバックボーンに関する大規模な実験は、CoHの有効性を示している。

Temporal Knowledge Graph (TKG) forecasting aims to predict future facts based on given histories. Most recent graph-based models excel at capturing structural information within TKGs but lack semantic comprehension abilities. Nowadays, with the surge of LLMs, the LLM-based TKG prediction model has emerged. However, the existing LLM-based model exhibits three shortcomings: (1) It only focuses on the first-order history for prediction while ignoring high-order historical information, resulting in the provided information for LLMs being extremely limited. (2) LLMs struggle with optimal reasoning performance under heavy historical information loads. (3) For TKG prediction, the temporal reasoning capability of LLM alone is limited. To address the first two challenges, we propose Chain-of-History (CoH) reasoning which explores high-order histories step-by-step, achieving effective utilization of high-order historical information for LLMs on TKG prediction. To address the third issue, we design CoH as a plug-and-play module to enhance the performance of graph-based models for TKG prediction. Extensive experiments on three datasets and backbones demonstrate the effectiveness of CoH.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# メタプローブエージェントによる大規模言語モデルの動的評価

Dynamic Evaluation of Large Language Models by Meta Probing Agents ( http://arxiv.org/abs/2402.14865v2 )

ライセンス: Link先を確認
Kaijie Zhu, Jindong Wang, Qinlin Zhao, Ruochen Xu, Xing Xie, (参考訳) 大規模言語モデル (LLM) の評価は, データの汚染問題により, コミュニティで大きな関心を集めている。 既存の作業は、様々なシナリオに容易に拡張できない特定のタスクに対して、適切に定義されたアルゴリズムを使用して評価プロトコルを設計した。 さらに、現在の評価ベンチマークは、全体的なベンチマーク結果のみを提供することができ、LLMの能力のきめ細かい多面的解析をサポートできない。 本稿では,心理指標にインスパイアされた一般動的評価プロトコルであるメタ・プロブリング・エージェント(MPA)を提案する。 MPAはDyVal 2のキーコンポーネントであり、DyVal~\citep{zhu2023dyval} を自然に拡張している。 MPAは、探索および判定エージェントを設計し、元の評価問題を3つの基本的な認知能力(言語理解、問題解決、ドメイン知識)に関する心理学的理論に従う新しいものに自動的に変換する。 これらの基本的な機能は動的に設定可能で、多面解析が可能である。 MPAを用いて広範囲な評価を行ったところ,ほとんどのLLMは性能が悪く,改善の余地があることが判明した。 我々の多面的解析は、基本能力とモデルサイズに対する暗黙的なマシュー効果の強い相関、すなわち、より大きなモデルはその能力の強い相関を持つことを示した。 MPAは、LSMを強化するためのデータ拡張アプローチとしても使用できる。 コードは、https://github.com/microsoft/promptbench.comで入手できる。

Evaluation of large language models (LLMs) has raised great concerns in the community due to the issue of data contamination. Existing work designed evaluation protocols using well-defined algorithms for specific tasks, which cannot be easily extended to diverse scenarios. Moreover, current evaluation benchmarks can only provide the overall benchmark results and cannot support a fine-grained and multifaceted analysis of LLMs' abilities. In this paper, we propose meta probing agents (MPA), a general dynamic evaluation protocol inspired by psychometrics to evaluate LLMs. MPA is the key component of DyVal 2, which naturally extends the previous DyVal~\citep{zhu2023dyval}. MPA designs the probing and judging agents to automatically transform an original evaluation problem into a new one following psychometric theory on three basic cognitive abilities: language understanding, problem solving, and domain knowledge. These basic abilities are also dynamically configurable, allowing multifaceted analysis. We conducted extensive evaluations using MPA and found that most LLMs achieve poorer performance, indicating room for improvement. Our multifaceted analysis demonstrated the strong correlation between the basic abilities and an implicit Matthew effect on model size, i.e., larger models possess stronger correlations of the abilities. MPA can also be used as a data augmentation approach to enhance LLMs. Code is available at: https://github.com/microsoft/promptbench.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# ニューラルネットワークの最小深さについて

On Minimal Depth in Neural Networks ( http://arxiv.org/abs/2402.15315v2 )

ライセンス: Link先を確認
Juan L. Valerdi, (参考訳) ニューラルネットワークの表現可能性の特徴は、人工知能における彼らの成功を理解することに関係している。 本研究では, ReLU ニューラルネットワークの表現性と, 連続的ピースワイド線形関数 (CPWL) の表現に必要な最小深度に関する予想との関係について検討した。 トピックは、和と最大演算の最小深度表現であり、ポリトープニューラルネットワークの探索である。 総和演算では,オペランドの最小深度で操作の最小深度を求めるのに十分な条件を確立する。 対照的に、最大演算については、オペランドの深さのみに依存する十分な条件がなければ、操作の深さが最小になることを示す包括的な例が提示される。 また,凸CPWL関数間の最小深度関係についても検討した。 ポリトープニューラルネットワークにおいて,ミンコフスキー和,凸殻,頂点数,面数,アフィン変換,分解不能ポリトープの基本深度特性について検討する。 より顕著な発見は、ポリゴンの深さのキャラクタリゼーション、頂点数の増加によるポリトープの同定、小さな深さと任意の大きな深さを持つもの、そして特に、ReLUネットワークにおける最小深さの予想と厳密に関係している最小の単純化の深さなどである。

A characterization of the representability of neural networks is relevant to comprehend their success in artificial intelligence. This study investigate two topics on ReLU neural network expressivity and their connection with a conjecture related to the minimum depth required for representing any continuous piecewise linear (CPWL) function. The topics are the minimal depth representation of the sum and max operations, as well as the exploration of polytope neural networks. For the sum operation, we establish a sufficient condition on the minimal depth of the operands to find the minimal depth of the operation. In contrast, regarding the max operation, a comprehensive set of examples is presented, demonstrating that no sufficient conditions, depending solely on the depth of the operands, would imply a minimal depth for the operation. The study also examine the minimal depth relationship between convex CPWL functions. On polytope neural networks, we investigate basic depth properties from Minkowski sums, convex hulls, number of vertices, faces, affine transformations, and indecomposable polytopes. More significant findings include depth characterization of polygons; identification of polytopes with an increasing number of vertices, exhibiting small depth and others with arbitrary large depth; and most notably, the minimal depth of simplices, which is strictly related to the minimal depth conjecture in ReLU networks.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# NeuralThink: 一般的なタスク間の一貫性と効率的な外挿のための学習アルゴリズム

NeuralThink: Learning Algorithms For Consistent and Efficient Extrapolation Across General Tasks ( http://arxiv.org/abs/2402.15393v2 )

ライセンス: Link先を確認
Bernardo Esteves, Miguel Vasco, Francisco S. Melo, (参考訳) ニューラルシンク(NeuralThink)は,より小さな問題(観測サイズの観点から)からアルゴリズムを学習し,これらのアルゴリズムを大問題で実行する,効率的かつ一貫して外挿可能な,新しいディープシンクアーキテクチャである。 従来のディープラーニングアーキテクチャとは対照的に、NeuralThinkは、入力サイズと出力サイズが同じである同じサイズの問題と、入力サイズと出力サイズが異なる異なるサイズの問題の両方に自然に適用することができる。 この汎用性を実現するため、我々は、異なるスケールで入力情報を反復的に処理するリカレントモジュール、前処理した情報を集約する処理モジュール、メソッドの外挿性能を改善するカリキュラムベースのトレーニングスキームの3つの主要コンポーネントでNeuralThinkを設計する。 提案手法を評価するために,ニューラルシンクは従来の最先端のディープ・シンキング・アプローチを常に上回り,より大きな問題への外挿を行い,より少ないトレーニング問題を考慮し,他の手法よりも少ないパラメータを必要とすることを示す。

We propose NeuralThink, a novel deep thinking architecture that can efficiently and consistently extrapolate, i.e., learn algorithms from smaller problems (in terms of observation size) and execute those algorithms in large problems. Contrary to previous deep thinking architectures, NeuralThink can be naturally applied in both same-size problems, where the input and output sizes are the same, and in different-size problems, where the size of the input and output differ. To allow for this versatility, we design NeuralThink with three main components: a recurrent module, that iteratively processes input information at different scales, a processing module, responsible for aggregating the previously processed information, and a curriculum-based training scheme, that improves the extrapolation performance of the method. To evaluate our method we introduce a set of novel different-size tasks and we show that NeuralThink consistently outperforms the prior state-of-the-art deep thinking approaches in extrapolating to larger problems, considering smaller training problems and requiring less parameters than other approaches.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# トランスフォーマーは表現力があるが、その表現力は回帰に十分か?

Transformers are Expressive, But Are They Expressive Enough for Regression? ( http://arxiv.org/abs/2402.15478v2 )

ライセンス: Link先を確認
Swaroop Nath, Harshad Khadilkar, Pushpak Bhattacharyya, (参考訳) トランスフォーマーは自然言語処理において重要な役割を担い、機械翻訳や要約といったアプリケーションで顕著な成功を収めている。 広く採用されていることから、トランスフォーマーの表現性を分析しようと試みている作品もいくつかある。 ニューラルネットワークの表現性は、近似可能な関数のクラスである。 ニューラルネットワークは、普遍関数近似器として機能できる場合、完全に表現可能である。 トランスフォーマーでも同様を解析しようと試みる。 既存の主張とは対照的に,我々はトランスフォーマーがスムーズな関数を確実に近似するのに苦労していることを明らかにした。 中心的な疑問は、「変換器は本当に普遍関数近似器か? この問題に対処するため、我々は理論的な洞察を提供し、実験を通じて証拠を裏付ける徹底的な調査を行っている。 理論的には、トランスフォーマーエンコーダは滑らかな関数を近似できない。 実験により、我々はこの理論を補完し、フルトランスフォーマーアーキテクチャが滑らかな関数を近似できないことを示す。 これらの課題に光を当てることで、トランスフォーマーの能力に関する洗練された理解を提唱する。

Transformers have become pivotal in Natural Language Processing, demonstrating remarkable success in applications like Machine Translation and Summarization. Given their widespread adoption, several works have attempted to analyze the expressivity of Transformers. Expressivity of a neural network is the class of functions it can approximate. A neural network is fully expressive if it can act as a universal function approximator. We attempt to analyze the same for Transformers. Contrary to existing claims, our findings reveal that Transformers struggle to reliably approximate smooth functions, relying on piecewise constant approximations with sizable intervals. The central question emerges as: "Are Transformers truly Universal Function Approximators?" To address this, we conduct a thorough investigation, providing theoretical insights and supporting evidence through experiments. Theoretically, we prove that Transformer Encoders cannot approximate smooth functions. Experimentally, we complement our theory and show that the full Transformer architecture cannot approximate smooth functions. By shedding light on these challenges, we advocate a refined understanding of Transformers' capabilities.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# RePLAY: スパース軌道上の位置予測のための人体移動の時間変化時間規則性をモデル化する

REPLAY: Modeling Time-Varying Temporal Regularities of Human Mobility for Location Prediction over Sparse Trajectories ( http://arxiv.org/abs/2402.16310v3 )

ライセンス: Link先を確認
Bangchao Deng, Bingqing Qu, Pengyang Wang, Dingqi Yang, Benjamin Fankhauser, Philippe Cudre-Mauroux, (参考訳) 位置情報予測は、過去のユーザモビリティトレースに基づいて、ユーザの位置情報を予測する。 現実のユーザモビリティトレースの本質的なスパーシリティ問題に対処するために、時空間的コンテキストは極めて有用であることが示されている。 既存のソリューションでは、リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)に追加入力として入力するか、あるいは予測のために情報を隠した状態を探すことで、モビリティトレース内の位置間の時空間距離を多く含んでいる。 しかし、このような距離に基づく手法は、例えば、時間的距離以外の実際のタイムスタンプの有用性が示唆されるような、朝の移動がより規則的であるような、時間的移動の時間的規則性を捉えることができない。 そこで本研究では,位置予測のための時間変化時間規則を抽出する一般RNNアーキテクチャであるREPLAYを提案する。 特に、RePLAYはスパース軌跡における時空間距離を利用して情報的過去の隠蔽状態を探索するだけでなく、異なるタイムスタンプの異なる強度の時間規則性に柔軟に適応できるガウス重み付き平均学習帯域を用いたスムーズなタイムスタンプ埋め込みを組み込むことにより、時間変化の時空間正規性に対応する。 我々の広範囲な評価は、REPLAYと2つの実世界のデータセット上の最先端技術の膨大なコレクションを比較している。 その結果、REPLAYは、位置予測タスクにおいて、7.7\%-10.9\%の最先端手法を一貫して大幅に上回り、帯域幅は時間変化の時間的規則性の興味深いパターンを示すことがわかった。

Location prediction forecasts a user's location based on historical user mobility traces. To tackle the intrinsic sparsity issue of real-world user mobility traces, spatiotemporal contexts have been shown as significantly useful. Existing solutions mostly incorporate spatiotemporal distances between locations in mobility traces, either by feeding them as additional inputs to Recurrent Neural Networks (RNNs) or by using them to search for informative past hidden states for prediction. However, such distance-based methods fail to capture the time-varying temporal regularities of human mobility, where human mobility is often more regular in the morning than in other periods, for example; this suggests the usefulness of the actual timestamps besides the temporal distances. Against this background, we propose REPLAY, a general RNN architecture learning to capture the time-varying temporal regularities for location prediction. Specifically, REPLAY not only resorts to the spatiotemporal distances in sparse trajectories to search for the informative past hidden states, but also accommodates the time-varying temporal regularities by incorporating smoothed timestamp embeddings using Gaussian weighted averaging with timestamp-specific learnable bandwidths, which can flexibly adapt to the temporal regularities of different strengths across different timestamps. Our extensive evaluation compares REPLAY against a sizable collection of state-of-the-art techniques on two real-world datasets. Results show that REPLAY consistently and significantly outperforms state-of-the-art methods by 7.7\%-10.9\% in the location prediction task, and the bandwidths reveal interesting patterns of the time-varying temporal regularities.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# ロボットマニピュレーションのためのNever-Ending Behavior-Cloning Agent

Never-Ending Behavior-Cloning Agent for Robotic Manipulation ( http://arxiv.org/abs/2403.00336v2 )

ライセンス: Link先を確認
Wenqi Liang, Gan Sun, Qian He, Yu Ren, Jiahua Dong, Yang Cong, (参考訳) マルチモーダルな観察に基づいて、具体化されたロボットは、非構造的な現実世界環境で複数のロボット操作タスクを実行できる。 しかし、ほとんどの言語条件の行動閉鎖エージェントは、実用シナリオにおいて新しいシーケンシャルなタスクに適応する際に、既存の長年の課題、すなわち3Dシーン表現と人間レベルのタスク学習に直面している。 本稿では、言語条件のNever-ending Behavior-cloning AgentであるエンボディロボットにおけるNBAgentのこれらの課題について考察する。 新規な3Dシーンセマンティクスの観察知識とロボット操作スキルを,それぞれスキル共有属性とスキル固有属性から継続的に学習することができる。 具体的には,スキル共有属性から3Dシーンのセマンティクスを効果的に学習するための,スキル共有セマンティックレンダリングモジュールとスキル共有表現蒸留モジュールを提案する。 一方、我々は、操作知識の疎結合を行うための、スキル固有の進化プランナーを構築し、潜伏空間や低ランク空間からの人間のような新しいスキル固有の知識を継続的に組み込むことができる。 最後に,ロボット操作ベンチマークを無期限に設計し,提案手法の有効性を実証する高価な実験を行った。 ビジュアル結果、コード、データセットは以下の通りである。

Relying on multi-modal observations, embodied robots could perform multiple robotic manipulation tasks in unstructured real-world environments. However, most language-conditioned behavior-cloning agents still face existing long-standing challenges, i.e., 3D scene representation and human-level task learning, when adapting into new sequential tasks in practical scenarios. We here investigate these above challenges with NBAgent in embodied robots, a pioneering language-conditioned Never-ending Behavior-cloning Agent. It can continually learn observation knowledge of novel 3D scene semantics and robot manipulation skills from skill-shared and skill-specific attributes, respectively. Specifically, we propose a skill-sharedsemantic rendering module and a skill-shared representation distillation module to effectively learn 3D scene semantics from skill-shared attribute, further tackling 3D scene representation overlooking. Meanwhile, we establish a skill-specific evolving planner to perform manipulation knowledge decoupling, which can continually embed novel skill-specific knowledge like human from latent and low-rank space. Finally, we design a never-ending embodied robot manipulation benchmark, and expensive experiments demonstrate the significant performance of our method. Visual results, code, and dataset are provided at: https://neragent.github.io.
翻訳日:2024-06-10 19:47:50 公開日:2024-06-07
# 3DGStream:フォトリアリスティックフリー視点ビデオの効率的なストリーミングのための3Dガウスのオンザフライトレーニング

3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos ( http://arxiv.org/abs/2403.01444v3 )

ライセンス: Link先を確認
Jiakai Sun, Han Jiao, Guangyuan Li, Zhanjie Zhang, Lei Zhao, Wei Xing, (参考訳) マルチビュービデオからダイナミックなシーンのフォトリアリスティックなフリー視点ビデオ(FVV)を構築することは、依然として困難な取り組みだ。 現在のニューラルレンダリング技術によって達成された顕著な進歩にもかかわらず、これらの手法は一般的にオフライントレーニングのために完全なビデオシーケンスを必要とし、リアルタイムレンダリングができない。 これらの制約に対処するために,実世界のダイナミックシーンの高速FVVストリーミングを目的とした3DGStreamを提案する。 提案手法は,12秒以内のフレーム毎の高速な再構築と,200FPSでのリアルタイムレンダリングを実現する。 具体的には,3Dガウス(3DG)を用いてシーンを表現している。 1フレームあたりの3DGを直接最適化する、na\\"iveアプローチの代わりに、コンパクトなニューラルトランスフォーメーションキャッシュ(NTC)を使用して、3DGの変換とローテーションをモデル化し、各FVVフレームに必要なトレーニング時間とストレージを著しく短縮する。 さらに,動的シーンにおける創発的オブジェクトを扱うための適応的な3DG付加戦略を提案する。 実験により、3DGStreamは、最先端の手法と比較してレンダリング速度、画質、トレーニング時間、モデルストレージにおいて競争力を発揮することが示された。

Constructing photo-realistic Free-Viewpoint Videos (FVVs) of dynamic scenes from multi-view videos remains a challenging endeavor. Despite the remarkable advancements achieved by current neural rendering techniques, these methods generally require complete video sequences for offline training and are not capable of real-time rendering. To address these constraints, we introduce 3DGStream, a method designed for efficient FVV streaming of real-world dynamic scenes. Our method achieves fast on-the-fly per-frame reconstruction within 12 seconds and real-time rendering at 200 FPS. Specifically, we utilize 3D Gaussians (3DGs) to represent the scene. Instead of the na\"ive approach of directly optimizing 3DGs per-frame, we employ a compact Neural Transformation Cache (NTC) to model the translations and rotations of 3DGs, markedly reducing the training time and storage required for each FVV frame. Furthermore, we propose an adaptive 3DG addition strategy to handle emerging objects in dynamic scenes. Experiments demonstrate that 3DGStream achieves competitive performance in terms of rendering speed, image quality, training time, and model storage when compared with state-of-the-art methods.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# セグメント情報を用いたエッジ情報学習マシンの画像符号化

Image Coding for Machines with Edge Information Learning Using Segment Anything ( http://arxiv.org/abs/2403.04173v3 )

ライセンス: Link先を確認
Takahiro Shindo, Kein Yamada, Taiju Watanabe, Hiroshi Watanabe, (参考訳) Image Coding for Machines (ICM) は画像認識のための画像圧縮技術である。 この技術は、画像認識AIの需要が高まっているため、不可欠である。 本稿では,SA-ICMと呼ぶ画像中の対象部分のエッジ情報のみを符号化・復号するICMの手法を提案する。 これは、Segment Anythingによって生成されたエッジ情報を使用してトレーニングされた、学習された画像圧縮(lic)モデルである。 本手法は,様々なタスクを持つ画像認識モデルに利用できる。 SA-ICMは入力データの変更にも堅牢で、さまざまなユースケースで有効です。 さらに,エンコーダ側の顔情報を取り除き,ユーザのプライバシーを保護することにより,プライバシーの観点からのメリットを提供する。 さらに、ビデオ圧縮モデルであるNeRV(Neural Representations for Videos)のトレーニングにも使用できる。 Segment Anythingによって生成されたエッジ情報を用いてNeRVをトレーニングすることにより、画像認識(SA-NeRV)に有効なNeRVを作成することができる。 実験により,SA-ICMの利点が確認され,画像認識に最適な画像圧縮性能が得られた。 また,SA-NeRVはビデオ圧縮において通常のNeRVよりも優れていることを示す。 コードはhttps://github.com/final-0/SA-ICMで入手できる。

Image Coding for Machines (ICM) is an image compression technique for image recognition. This technique is essential due to the growing demand for image recognition AI. In this paper, we propose a method for ICM that focuses on encoding and decoding only the edge information of object parts in an image, which we call SA-ICM. This is an Learned Image Compression (LIC) model trained using edge information created by Segment Anything. Our method can be used for image recognition models with various tasks. SA-ICM is also robust to changes in input data, making it effective for a variety of use cases. Additionally, our method provides benefits from a privacy point of view, as it removes human facial information on the encoder's side, thus protecting one's privacy. Furthermore, this LIC model training method can be used to train Neural Representations for Videos (NeRV), which is a video compression model. By training NeRV using edge information created by Segment Anything, it is possible to create a NeRV that is effective for image recognition (SA-NeRV). Experimental results confirm the advantages of SA-ICM, presenting the best performance in image compression for image recognition. We also show that SA-NeRV is superior to ordinary NeRV in video compression for machines. Code is available at https://github.com/final-0/SA-ICM.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# AGIワールドモデルとしてのSora : テキスト・ビデオ生成に関する全調査

Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation ( http://arxiv.org/abs/2403.05131v2 )

ライセンス: Link先を確認
Joseph Cho, Fachrina Dewi Puspitasari, Sheng Zheng, Jingyao Zheng, Lik-Hang Lee, Tae-Ho Kim, Choong Seon Hong, Chaoning Zhang, (参考訳) テキストからの動画生成の進化は、MNISTの数値のアニメーションからSoraによる物理世界をシミュレートすることから始まり、過去7年間で途方もない速さで進行してきた。 従来のテキスト・ツー・イメージ生成モデルの表面的な拡張と見なされることが多いが、テキスト・ツー・ビデオ生成モデルは慎重に設計された構成物に基づいて開発されている。 そこで我々は,これらの要素を,コアビルディングブロック(ビジョン,言語,時間)に限らず体系的に議論し,世界モデルの実現への貢献の観点から,その特徴をサポートする。 我々は、PRISMAフレームワークを用いて、有名な科学データベースから、主にテキスト条件を用いたビデオ合成を研究する97のインパクトのある研究論文をキュレートする。 テキスト・ツー・ビデオ・ジェネレーションは,テキスト・ツー・イメージ・ジェネレーションの単純な拡張を超えて,より複雑な技術が関与している。 Sora生成ビデオの欠点に関するさらなるレビューは、データセット、評価基準、効率的なアーキテクチャ、人為的な生成など、ビデオ生成の様々な側面において、より深い研究を求めることを示唆している。 最後に、テキスト・ビデオ・ジェネレーションの研究はまだ初期段階であり、人工知能(AGI)の実現に向けた第一歩として、学際的な研究コミュニティからの貢献が必要であると結論付けている。

The evolution of video generation from text, starting with animating MNIST numbers to simulating the physical world with Sora, has progressed at a breakneck speed over the past seven years. While often seen as a superficial expansion of the predecessor text-to-image generation model, text-to-video generation models are developed upon carefully engineered constituents. Here, we systematically discuss these elements consisting of but not limited to core building blocks (vision, language, and temporal) and supporting features from the perspective of their contributions to achieving a world model. We employ the PRISMA framework to curate 97 impactful research articles from renowned scientific databases primarily studying video synthesis using text conditions. Upon minute exploration of these manuscripts, we observe that text-to-video generation involves more intricate technologies beyond the plain extension of text-to-image generation. Our additional review into the shortcomings of Sora-generated videos pinpoints the call for more in-depth studies in various enabling aspects of video generation such as dataset, evaluation metric, efficient architecture, and human-controlled generation. Finally, we conclude that the study of the text-to-video generation may still be in its infancy, requiring contribution from the cross-discipline research community towards its advancement as the first step to realize artificial general intelligence (AGI).
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# 駆動散逸凝縮体の量子熱力学

Quantum thermodynamics of driven-dissipative condensates ( http://arxiv.org/abs/2403.06861v2 )

ライセンス: Link先を確認
Luisa Toledo Tude, Paul R. Eastham, (参考訳) ポラリトン凝縮は、熱と粒子が貯水池と継続的に交換される開放系において熱平衡から離れて起こる。 これらの現象は、運動方程式の観点から広く分析されている。 これらのシミュレーションと実験によって得られた偏光子運動学に関する知識の収集に基づいて、偏光子の基底状態の個体群の形成に関わる主要な過程を捉える数段階のモデルを構築した。 これにより凝縮は熱機械の出力として理解でき、その発生に関する熱力学的制約を露呈する。 このモデルは、磁場と相互作用し、非共鳴ポンプと格子フォノンを表す高温および冷水貯留層に接続された3レベルシステムで構成されている。 このサブシステムは、偏光子-偏光子散乱を通じて凝縮体を駆動することができ、マイクロキャビティからのコヒーレント発光という形で作用する。 両浴の温度関数としての相図を求め, 凝縮相につながる相転移の可能性について検討した。

Polariton condensates occur away from thermal equilibrium, in an open system where heat and particles are continually exchanged with reservoirs. These phenomena have been extensively analyzed in terms of kinetic equations. Based on the collection of knowledge about polariton kinetics provided by these simulations and by experimental works, we constructed a few-level model that captures the main processes involved in the buildup of a ground-state population of polaritons. This allows condensation to be understood as the output of a thermal machine and exposes the thermodynamic constraints on its occurrence. The model consists of a three-level system interacting with a field and connected to a hot and a cold thermal reservoir that represent a non-resonant pump and the lattice phonons. This subsystem can drive a condensate, through polariton-polariton scattering, which produces work in the form of coherent light emission from the microcavity. We obtain a phase diagram as a function of the temperatures of the two baths and investigate the possible types of phase transition that lead to the condensate phase.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# 自己表現型グラフ構造再構成によるグラフデータ凝縮

Graph Data Condensation via Self-expressive Graph Structure Reconstruction ( http://arxiv.org/abs/2403.07294v2 )

ライセンス: Link先を確認
Zhanyu Liu, Chaolv Zeng, Guanjie Zheng, (参考訳) 大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニング要求の増加に伴い、グラフデータの凝縮は、トレーニングフェーズの保存と時間コストを軽減するための重要なテクニックとして現れている。 これは、下流のGNNを効率的に訓練するために必要な情報を保持しながら、元の大規模グラフをはるかに小さな合成グラフに凝縮することを目的としている。 しかし,既存の手法はノード機能のみを最適化することに集中するか,ノード機能とグラフ構造生成を独立に学習するために努力する。 彼らは元のグラフ構造の情報を明示的に活用することができず、合成データセットの解釈可能なグラフ構造を構築することができなかった。 これらの問題に対処するため,新しいフレームワークである \textbf{G}raph Data \textbf{C}ondensation via \textbf{S}elf- expressive Graph Structure \textbf{R}econstruction (\textbf{GCSR})を紹介した。 本手法は,(1) 元のグラフ構造を縮合過程に明示的に組み込むとともに,(2) 解釈可能な自己表現グラフ構造を再構築することにより,縮合ノード間のニュアンスな相互依存性を捕捉する。 広範囲にわたる実験と包括的分析により,様々なGNNモデルとデータセットにまたがる提案手法の有効性が検証された。 私たちのコードは \url{https://github.com/zclzcl0223/GCSR} で利用可能です。

With the increasing demands of training graph neural networks (GNNs) on large-scale graphs, graph data condensation has emerged as a critical technique to relieve the storage and time costs during the training phase. It aims to condense the original large-scale graph to a much smaller synthetic graph while preserving the essential information necessary for efficiently training a downstream GNN. However, existing methods concentrate either on optimizing node features exclusively or endeavor to independently learn node features and the graph structure generator. They could not explicitly leverage the information of the original graph structure and failed to construct an interpretable graph structure for the synthetic dataset. To address these issues, we introduce a novel framework named \textbf{G}raph Data \textbf{C}ondensation via \textbf{S}elf-expressive Graph Structure \textbf{R}econstruction (\textbf{GCSR}). Our method stands out by (1) explicitly incorporating the original graph structure into the condensing process and (2) capturing the nuanced interdependencies between the condensed nodes by reconstructing an interpretable self-expressive graph structure. Extensive experiments and comprehensive analysis validate the efficacy of the proposed method across diverse GNN models and datasets. Our code is available at \url{https://github.com/zclzcl0223/GCSR}.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# Synth$^2$: 合成キャプションと画像埋め込みによるビジュアル言語モデルの強化

Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings ( http://arxiv.org/abs/2403.07750v2 )

ライセンス: Link先を確認
Sahand Sharifzadeh, Christos Kaplanis, Shreya Pathak, Dharshan Kumaran, Anastasija Ilic, Jovana Mitrovic, Charles Blundell, Andrea Banino, (参考訳) 高品質な人ラベル画像キャプチャーデータセットの作成は、視覚言語モデル(VLM)の開発において大きなボトルネックとなる。 本研究では,Large Language Models (LLM) と画像生成モデルの強みを活用して,効率的なVLM学習のための合成画像テキストペアを作成する手法について検討する。 本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。 テキスト・ツー・イメージ・モデルとVLMは、当初同じデータでトレーニングされていたにもかかわらず、我々のアプローチでは、画像生成者が新しい合成文を作成できる能力を活用し、結果として、元のデータセットの限界を超えて拡大する合成画像埋め込みを実現する。 大規模な実験により、人工的なデータに微調整されたVLMは、人間が注釈付けしたデータにのみ訓練されたモデルに匹敵する性能を達成し、データ量は大幅に削減された。 さらに, セマンティックな多様性とバランスが下流のパフォーマンス向上の鍵となることを明らかにするキャプションの解析を行う。 最後に,画像埋め込み空間における合成画像は,画素空間よりも25倍高速であることを示す。 我々の研究は、VLMトレーニングにおける重要な課題に対処するだけでなく、自己改善型マルチモーダルモデルを開発するための有望な道を開いたと信じています。

The creation of high-quality human-labeled image-caption datasets presents a significant bottleneck in the development of Visual-Language Models (VLMs). In this work, we investigate an approach that leverages the strengths of Large Language Models (LLMs) and image generation models to create synthetic image-text pairs for efficient and effective VLM training. Our method employs a pretrained text-to-image model to synthesize image embeddings from captions generated by an LLM. Despite the text-to-image model and VLM initially being trained on the same data, our approach leverages the image generator's ability to create novel compositions, resulting in synthetic image embeddings that expand beyond the limitations of the original dataset. Extensive experiments demonstrate that our VLM, finetuned on synthetic data achieves comparable performance to models trained solely on human-annotated data, while requiring significantly less data. Furthermore, we perform a set of analyses on captions which reveals that semantic diversity and balance are key aspects for better downstream performance. Finally, we show that synthesizing images in the image embedding space is 25\% faster than in the pixel space. We believe our work not only addresses a significant challenge in VLM training but also opens up promising avenues for the development of self-improving multi-modal models.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# 中国語スペルチェックのためのリッチセマンティック知識による大規模言語モデルの構築

Rich Semantic Knowledge Enhanced Large Language Models for Few-shot Chinese Spell Checking ( http://arxiv.org/abs/2403.08492v2 )

ライセンス: Link先を確認
Ming Dong, Yujing Chen, Miao Zhang, Hao Sun, Tingting He, (参考訳) Chinese Spell Checking (CSC) は、音声テキスト(STT)と光学文字認識(OCR)において重要な役割を果たす、広く使われている技術である。 既存のCSCアプローチの多くはBERTアーキテクチャに依存しており、優れたパフォーマンスを実現している。 しかし、基盤モデルの規模によって制限されているため、BERTベースの手法は数ショットのシナリオではうまく動作せず、実用的なアプリケーションでは一定の制限が示される。 本稿では,RS-LLM (Rich Semantic based LLMs) というコンテキスト内学習手法を用いて,大規模言語モデル (LLM) を基礎モデルとして導入する。 さらに,我々のフレームワークに中国語のリッチな意味情報を導入することの影響について検討した。 少数の中国固有のリッチなセマンティック構造を導入することで、LCMは、数ショットのCSCタスクにおいてBERTベースのモデルよりも優れた性能が得られることがわかった。 さらに,複数のデータセットに対して実験を行い,実験結果から提案フレームワークの優位性を検証した。

Chinese Spell Checking (CSC) is a widely used technology, which plays a vital role in speech to text (STT) and optical character recognition (OCR). Most of the existing CSC approaches relying on BERT architecture achieve excellent performance. However, limited by the scale of the foundation model, BERT-based method does not work well in few-shot scenarios, showing certain limitations in practical applications. In this paper, we explore using an in-context learning method named RS-LLM (Rich Semantic based LLMs) to introduce large language models (LLMs) as the foundation model. Besides, we study the impact of introducing various Chinese rich semantic information in our framework. We found that by introducing a small number of specific Chinese rich semantic structures, LLMs achieve better performance than the BERT-based model on few-shot CSC task. Furthermore, we conduct experiments on multiple datasets, and the experimental results verified the superiority of our proposed framework.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# Hyper-CL: Hypernetworksによる条件付き文表現

Hyper-CL: Conditioning Sentence Representations with Hypernetworks ( http://arxiv.org/abs/2403.09490v2 )

ライセンス: Link先を確認
Young Hyun Yoo, Jii Cha, Changhyeon Kim, Taeuk Kim, (参考訳) 文表現学習における対照的な学習フレームワークの導入は、この分野の進歩に大きく寄与しているが、現状の文埋め込みが、特に特定の視点で条件付けられた場合、文の微細な意味を捉えることができるかどうかはまだ不明である。 本稿では,ハイパーネットワークとコントラスト学習を統合し,条件付き文表現を計算する手法であるHyper-CLを紹介する。 提案手法では,計算済み条件埋め込みを対応する射影層に変換する。 これにより、同じ文の埋め込みを様々な条件に応じて異なる方法で投影することができる。 条件付きセマンティックテキスト類似性と知識グラフ補完という2つの代表的な条件付けベンチマークの評価は,ハイパーCLが文表現の柔軟条件付けに有効であることを示し,その計算効率を同時に示す。 また、我々のアプローチの内部動作を包括的に分析し、そのメカニズムをよりよく解釈する。

While the introduction of contrastive learning frameworks in sentence representation learning has significantly contributed to advancements in the field, it still remains unclear whether state-of-the-art sentence embeddings can capture the fine-grained semantics of sentences, particularly when conditioned on specific perspectives. In this paper, we introduce Hyper-CL, an efficient methodology that integrates hypernetworks with contrastive learning to compute conditioned sentence representations. In our proposed approach, the hypernetwork is responsible for transforming pre-computed condition embeddings into corresponding projection layers. This enables the same sentence embeddings to be projected differently according to various conditions. Evaluation on two representative conditioning benchmarks, namely conditional semantic text similarity and knowledge graph completion, demonstrates that Hyper-CL is effective in flexibly conditioning sentence representations, showcasing its computational efficiency at the same time. We also provide a comprehensive analysis of the inner workings of our approach, leading to a better interpretation of its mechanisms.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# 空間PIN:3次元前処理と干渉による視覚言語モデルの空間共振機能向上

SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors ( http://arxiv.org/abs/2403.13438v4 )

ライセンス: Link先を確認
Chenyang Ma, Kai Lu, Ta-Ying Cheng, Niki Trigoni, Andrew Markham, (参考訳) 空間的視覚的質問応答(VQA)において、現在最先端の空間的推論強化VLMを訓練する。 しかし,動的なシーン変化や動き計画などの高レベルな3D対応タスクは,現在の空間的VQAデータセットを超える基本的で明確な3D理解を必要としている。 本研究では,VLMの空間的推論能力を高めるためのフレームワークであるSpatialPINを提案する。 広汎な実験により,空間推論型VLMは空間VQAの様々な形態で良好に機能し,ピック・アンド・スタックや軌道計画といった下流ロボットの作業に役立てることができることが示された。

Current state-of-the-art spatial reasoning-enhanced VLMs are trained to excel at spatial visual question answering (VQA). However, we believe that higher-level 3D-aware tasks, such as articulating dynamic scene changes and motion planning, require a fundamental and explicit 3D understanding beyond current spatial VQA datasets. In this work, we present SpatialPIN, a framework designed to enhance the spatial reasoning capabilities of VLMs through prompting and interacting with priors from multiple 3D foundation models in a zero-shot, training-free manner. Extensive experiments demonstrate that our spatial reasoning-imbued VLM performs well on various forms of spatial VQA and can extend to help in various downstream robotics tasks such as pick and stack and trajectory planning.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# 障害検出・診断における敵対的攻撃と防御--テネシー・イーストマン・プロセスの総合的ベンチマーク

Adversarial Attacks and Defenses in Fault Detection and Diagnosis: A Comprehensive Benchmark on the Tennessee Eastman Process ( http://arxiv.org/abs/2403.13502v4 )

ライセンス: Link先を確認
Vitaliy Pozdnyakov, Aleksandr Kovalenko, Ilya Makarov, Mikhail Drobyshevskiy, Kirill Lukyanov, (参考訳) 機械学習をACS(Automated Control Systems)に統合することで、産業プロセス管理における意思決定が促進される。 業界におけるこれらの技術の普及の限界の1つは、敵の攻撃に対するニューラルネットワークの脆弱性である。 本研究では、テネシー・イーストマン・プロセス・データセットを用いて、ACSにおける障害診断のためのディープラーニングモデルをデプロイする際の脅威について検討する。 3つのニューラルネットワークを異なるアーキテクチャで評価することにより、6種類の敵攻撃を行い、5つの異なる防御方法を探索する。 本研究は, 対戦型サンプルに対するモデルの強い脆弱性と, 防衛戦略の有効性を明らかにするものである。 また,複数の防御手法を組み合わせた新しい保護手法を提案し,その有効性を実証する。 本研究は,ACS内での機械学習の安全性,産業プロセスにおける堅牢な故障診断の確保に関するいくつかの知見に寄与する。

Integrating machine learning into Automated Control Systems (ACS) enhances decision-making in industrial process management. One of the limitations to the widespread adoption of these technologies in industry is the vulnerability of neural networks to adversarial attacks. This study explores the threats in deploying deep learning models for fault diagnosis in ACS using the Tennessee Eastman Process dataset. By evaluating three neural networks with different architectures, we subject them to six types of adversarial attacks and explore five different defense methods. Our results highlight the strong vulnerability of models to adversarial samples and the varying effectiveness of defense strategies. We also propose a novel protection approach by combining multiple defense methods and demonstrate it's efficacy. This research contributes several insights into securing machine learning within ACS, ensuring robust fault diagnosis in industrial processes.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# 不確かさの定量化のための変分推論:トレードオフの分析

Variational Inference for Uncertainty Quantification: an Analysis of Trade-offs ( http://arxiv.org/abs/2403.13748v2 )

ライセンス: Link先を確認
Charles C. Margossian, Loucas Pillaud-Vivien, Lawrence K. Saul, (参考訳) 難解分布$p$が与えられたとき、変分推論(VI)の問題は、より難解な族$Q$から最高の近似を求めることである。 一般的には、$Q$ を分解された分布の族 (すなわち平均場仮定) を選ぶが、~$p$ 自身は分解しない。 p$ が分解されないなら、任意の分解近似 $q\in Q$ は以下の3つの不確実性尺度のうちの1つを正確に見積もることができる。 (i)限界分散 (二)限界精度、又は (三)一般化分散(エントロピーに関連付けられる) 実際には、$Q$の最良の変分近似は、分布間の発散を最小化することによって得られるので、ここで、発散の選択は、もしある場合、不確かさのどの測度を正確にVIによって推定するかを、どのように決定するかを問う。 古典的なクルバック・リーブルの発散、より一般的な R'enyi 発散、および $\nabla \log p$ と $\nabla \log q$ を比較するスコアベースの発散を考える。 p$ がガウス群であり、$q$ が(分解された)ガウス群であるような環境では、徹底した理論的解析を提供する。 対象関数として得られる不確実性の推定値に基づいて, 考慮された発散は, すべて textit{ordered} で表せることを示す。 最後に、ターゲット分布$p$がガウス的でない場合、この順序の妥当性を実証的に評価する。

Given an intractable distribution $p$, the problem of variational inference (VI) is to find the best approximation from some more tractable family $Q$. Commonly, one chooses $Q$ to be a family of factorized distributions (i.e., the mean-field assumption), even though~$p$ itself does not factorize. We show that this mismatch leads to an impossibility theorem: if $p$ does not factorize, then any factorized approximation $q\in Q$ can correctly estimate at most one of the following three measures of uncertainty: (i) the marginal variances, (ii) the marginal precisions, or (iii) the generalized variance (which can be related to the entropy). In practice, the best variational approximation in $Q$ is found by minimizing some divergence $D(q,p)$ between distributions, and so we ask: how does the choice of divergence determine which measure of uncertainty, if any, is correctly estimated by VI? We consider the classic Kullback-Leibler divergences, the more general R\'enyi divergences, and a score-based divergence which compares $\nabla \log p$ and $\nabla \log q$. We provide a thorough theoretical analysis in the setting where $p$ is a Gaussian and $q$ is a (factorized) Gaussian. We show that all the considered divergences can be \textit{ordered} based on the estimates of uncertainty they yield as objective functions for~VI. Finally, we empirically evaluate the validity of this ordering when the target distribution $p$ is not Gaussian.
翻訳日:2024-06-10 19:37:58 公開日:2024-06-07
# ブロックチェーンにおける作業の一部証明に基づくティーブレーキングルール

Tie-Breaking Rule Based on Partial Proof of Work in a Blockchain ( http://arxiv.org/abs/2403.15030v2 )

ライセンス: Link先を確認
Akira Sakurai, Kazuyuki Shudo, (参考訳) ブロックチェーンの分野では、ランダムなルールよりも効果的な攻撃者による意図的なフォークの抑制のための多くの方法が提案されている。 しかし、ランダムなルール以外は、大きな更新が必要であり、信頼できるサードパーティに依存しているか、強い同期を前提としている。 したがって、Bitcoinのような既存のシステムにこれらの手法を適用することは困難である。 これらの問題に対処するため、既存のブロックチェーンシステムの実証に容易に適用可能な別の対策を提案する。 本手法は,ブロックとして機能しない部分的な作業証明を,より微細な粒度を持つタイム標準として利用するタイブレーキング法である。 提案手法では,部分的な作業証明の特性を用いて,攻撃者による意図的なフォークの抑制を行うチェーンタイにおける最終生成ブロックを選択することができる。 Bitcoinのような既存のシステムですでに満たされている弱い同期のみが効果的な機能のために必要である。 提案手法を,既存の研究に欠けている詳細な分析によって評価した。 本手法を適用したネットワークでは,攻撃者のブロック伝搬能力にかかわらず,攻撃者のハッシュレートの比率は約0.31479以上であった。 さらに,最終生成ルールのすべてに関係する前生成ブロックに対するMatchの影響を,適切なパラメータ設定で緩和できることを示した。

In the area of blockchain, numerous methods have been proposed for suppressing intentional forks by attackers more effectively than the random rule. However, all of them, except for the random rule, require major updates, rely on a trusted third party, or assume strong synchrony. Hence, it is challenging to apply these methods to existing systems such as Bitcoin. To address these issues, we propose another countermeasure that can be easily applied to existing proof of work blockchain systems. Our method is a tie-breaking rule that uses partial proof of work, which does not function as a block, as a time standard with finer granularity. By using the characteristic of partial proof of work, the proposed method enables miners to choose the last-generated block in a chain tie, which suppresses intentional forks by attackers. Only weak synchrony, which is already met by existing systems such as Bitcoin, is required for effective functioning. We evaluated the proposed method through a detailed analysis that is lacking in existing works. In networks that adopt our method, the proportion of the attacker hashrate necessary for selfish mining was approximately 0.31479 or higher, regardless of the block propagation capability of the attacker. Furthermore, we demonstrated through extended selfish mining that the impact of Match against pre-generated block, which is a concern in all last-generated rules, can be mitigated with appropriate parameter settings.
翻訳日:2024-06-10 19:37:57 公開日:2024-06-07
# ニューラル・プラスティック・インスパイアされた地球観測のための多モード基礎モデル

Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation ( http://arxiv.org/abs/2403.15356v2 )

ライセンス: Link先を確認
Zhitong Xiong, Yi Wang, Fahong Zhang, Adam J. Stewart, Joëlle Hanna, Damian Borth, Ioannis Papoutsis, Bertrand Le Saux, Gustau Camps-Valls, Xiao Xiang Zhu, (参考訳) 基礎モデルの開発は、衛星観測データを用いて地球表面を解釈する我々の能力に革命をもたらした。 従来のモデルはサイロ化され、特定のセンサーや光学、レーダー、ハイパースペクトルといったデータタイプに合わせて調整され、それぞれ独自の特性を持つ。 この特殊化は、これらの多様なデータソースの組合せの強みから恩恵を受けることができる全体論的分析の可能性を妨げている。 我々の新しいアプローチでは、脳科学における神経可塑性の概念を活用して、様々なデータモダリティを適応的に単一のフレームワークに統合する、ダイナミックワンフォーオール(DOFA)モデルを導入しています。 このダイナミックなハイパーネットワークは、異なる波長に調整されるため、5つのセンサーのデータに基づいて1つの多目的トランスフォーマーを共同で訓練し、事前トレーニング中に見たことのないセンサーを含む12の異なる地球観測タスクを遂行することができる。 DOFAの革新的な設計は、より正確で効率的で統一された地球観測分析に向けて、有望な飛躍をもたらし、マルチモーダル地球観測データの可能性を活用するための顕著な適応性と性能を示している。

The development of foundation models has revolutionized our ability to interpret the Earth's surface using satellite observational data. Traditional models have been siloed, tailored to specific sensors or data types like optical, radar, and hyperspectral, each with its own unique characteristics. This specialization hinders the potential for a holistic analysis that could benefit from the combined strengths of these diverse data sources. Our novel approach introduces the Dynamic One-For-All (DOFA) model, leveraging the concept of neural plasticity in brain science to integrate various data modalities into a single framework adaptively. This dynamic hypernetwork, adjusting to different wavelengths, enables a single versatile Transformer jointly trained on data from five sensors to excel across 12 distinct Earth observation tasks, including sensors never seen during pretraining. DOFA's innovative design offers a promising leap towards more accurate, efficient, and unified Earth observation analysis, showcasing remarkable adaptability and performance in harnessing the potential of multimodal Earth observation data.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# 限定監督下での揚力モデリング

Uplift Modeling Under Limited Supervision ( http://arxiv.org/abs/2403.19289v3 )

ライセンス: Link先を確認
George Panagopoulos, Daniele Malitesta, Fragkiskos D. Malliaros, Jun Pang, (参考訳) 電子商取引における因果効果の推定には、大規模な環境では実用的でないような費用がかかる傾向がある。 このような治療効果を実際の介入なしに予測するために機械学習を活用することは、リスクを減らすための標準的なプラクティスである。 しかし、既存の治療効果予測法は、実際の実験から構築され、本質的にはリスクが伴う、相当な大きさの訓練セットに依存する傾向にある。 本研究では,電子商取引データに共通するグラフに依存して,必要なトレーニングセットのサイズを小さくするグラフニューラルネットワークを提案する。 具体的には、ラベル付きインスタンスが制限されたノード回帰として問題を認識し、従来の因果効果推定器に似た2モデルニューラルアーキテクチャを開発し、符号化のための様々なメッセージパス層をテストする。 さらに、追加的なステップとして、モデルと取得関数を組み合わせることで、極めて低い実験予算で設定したトレーニングセットの作成をガイドする。 各ステップは他のモデルや治療ポリシーと別々に使用できるので、フレームワークは柔軟です。 実大規模ネットワークにおける実験は、実験リスクを減らすために限られた監督で一般化できるモデルの必要性を浮き彫りにし、多くの場合、ランダムに近い動作を行う、最先端技術に対する我々の方法論の明確な優位性を示している。

Estimating causal effects in e-commerce tends to involve costly treatment assignments which can be impractical in large-scale settings. Leveraging machine learning to predict such treatment effects without actual intervention is a standard practice to diminish the risk. However, existing methods for treatment effect prediction tend to rely on training sets of substantial size, which are built from real experiments and are thus inherently risky to create. In this work we propose a graph neural network to diminish the required training set size, relying on graphs that are common in e-commerce data. Specifically, we view the problem as node regression with a restricted number of labeled instances, develop a two-model neural architecture akin to previous causal effect estimators, and test varying message-passing layers for encoding. Furthermore, as an extra step, we combine the model with an acquisition function to guide the creation of the training set in settings with extremely low experimental budget. The framework is flexible since each step can be used separately with other models or treatment policies. The experiments on real large-scale networks indicate a clear advantage of our methodology over the state of the art, which in many cases performs close to random, underlining the need for models that can generalize with limited supervision to reduce experimental risks.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# ニューラルネットワークのための格子モデルの構築と強化

Grounding and Enhancing Grid-based Models for Neural Fields ( http://arxiv.org/abs/2403.20002v3 )

ライセンス: Link先を確認
Zelin Zhao, Fenglei Fan, Wenlong Liao, Junchi Yan, (参考訳) 多くの現代研究では、ニューラルネットワーク表現にグリッドベースのモデルを使用しているが、グリッドベースのモデルの体系的な分析がいまだに欠けており、これらのモデルの改善を妨げている。 そこで本研究では,グリッドモデルに関する理論的枠組みを提案する。 この枠組みは、これらのモデルの近似と一般化の挙動をグリッドベースモデル固有の特性であるグリッド接カーネル(GTK)によって決定することを示している。 提案するフレームワークは,多種多様なグリッドベースモデルの一貫した系統的解析を容易にする。 さらに、導入されたフレームワークは、Multiplicative Fourier Adaptive Grid (MulFAGrid)と呼ばれる新しいグリッドベースのモデルの開発を動機付けている。 数値解析により、MulFAGridは前者よりも低い一般化値を示し、その堅牢な一般化性能を示している。 実験により,MulFAGridは2次元画像整合,3次元符号付き距離場(SDF)再構成,新しいビュー合成など,様々なタスクにおいて最先端のパフォーマンスを実現し,表現能力の向上を図っている。 プロジェクトのWebサイトはhttps://sites.google.com/view/cvpr24-2034-submission/homeで公開されている。

Many contemporary studies utilize grid-based models for neural field representation, but a systematic analysis of grid-based models is still missing, hindering the improvement of those models. Therefore, this paper introduces a theoretical framework for grid-based models. This framework points out that these models' approximation and generalization behaviors are determined by grid tangent kernels (GTK), which are intrinsic properties of grid-based models. The proposed framework facilitates a consistent and systematic analysis of diverse grid-based models. Furthermore, the introduced framework motivates the development of a novel grid-based model named the Multiplicative Fourier Adaptive Grid (MulFAGrid). The numerical analysis demonstrates that MulFAGrid exhibits a lower generalization bound than its predecessors, indicating its robust generalization performance. Empirical studies reveal that MulFAGrid achieves state-of-the-art performance in various tasks, including 2D image fitting, 3D signed distance field (SDF) reconstruction, and novel view synthesis, demonstrating superior representation ability. The project website is available at https://sites.google.com/view/cvpr24-2034-submission/home.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# LLMは過去の間違いから学ぶことができるか? LLMの誤りを調査し、推論に役立てる

Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning ( http://arxiv.org/abs/2403.20046v2 )

ライセンス: Link先を確認
Yongqi Tong, Dawei Li, Sizhe Wang, Yujia Wang, Fei Teng, Jingbo Shang, (参考訳) 最近の研究は、微調整された黄金標準のチェーン・オブ・ソート(CoT)の合理性や、数発のプロンプトで正しい例として使用することによるLCMの利点を示している。 人間は確かに正しい例を模倣することができるが、私たちのミスから学ぶことは人間の認知にとって重要な側面である。 したがって、自然に疑問が生じる: \textit{can LLMは、特に彼らの推論のために、自分のミスから学び、利益を得るのか? 本研究は, モデルチューニングとプロンプトの両面からこの問題を考察する。 このベンチマークには609,432の質問があり、それぞれが正しい参照とエラー参照の両方で設計されている。 これらの誤りの有効性を探るため,(1) \textbf{Self-rethinking} は LLM に対して,類似した誤りを犯したかどうかを再考するよう促すとともに,(2) 従来の手法で基礎的真実を学習するためにモデルを調整するのではなく,正しい推論領域と間違った推論領域の両方でモデルを微調整する。 我々は,LLMが両方向の誤りから利益を得ることができることを示す一連の実験を行った。 我々の2つの手法は、エラーを利用して推論能力を向上させることによって、潜在的にコスト効率のよい戦略を提供する。 最終的に、LLMの誤りの背景にある理由を徹底的に分析し、将来の研究が克服すべき方向性を提供する。 textsc{CoTErrorSet} はもうすぐ \texttt{\url{https://github.com/YookiTong/Learn-from-Mistakes-CotErrorSet}} で公開される。

Recent works have shown the benefits to LLMs from fine-tuning golden-standard Chain-of-Thought (CoT) rationales or using them as correct examples in few-shot prompting. While humans can indeed imitate correct examples, learning from our mistakes is another vital aspect of human cognition. Hence, a question naturally arises: \textit{can LLMs learn and benefit from their mistakes, especially for their reasoning? } This study investigates this problem from both the prompting and model-tuning perspectives. We begin by introducing \textsc{CoTErrorSet}, a new benchmark with 609,432 questions, each designed with both correct and error references, and demonstrating the types and reasons for making such mistakes. To explore the effectiveness of those mistakes, we design two methods: (1) \textbf{Self-rethinking} prompting guides LLMs to rethink whether they have made similar previous mistakes; and (2) \textbf{Mistake tuning} involves finetuning models in both correct and incorrect reasoning domains, rather than only tuning models to learn ground truth in traditional methodology. We conduct a series of experiments to prove LLMs can obtain benefits from mistakes in both directions. Our two methods offer potentially cost-effective strategies by leveraging errors to enhance reasoning capabilities, which costs significantly less than creating meticulously hand-crafted golden references. We ultimately make a thorough analysis of the reasons behind LLMs' errors, which provides directions that future research needs to overcome. \textsc{CoTErrorSet} will be published soon on \texttt{\url{https://github.com/YookiTong/Learn-from-Mistakes-CotErrorSet}}.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness

AAdaM at SemEval-2024 Task 1: Augmentation and Adaptation for Multilingual Semantic Textual Relatedness ( http://arxiv.org/abs/2404.01490v2 )

ライセンス: Link先を確認
Miaoran Zhang, Mingyang Wang, Jesujoba O. Alabi, Dietrich Klakow, (参考訳) 本稿では,SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languagesについて述べる。 共有タスクは文のペア間の意味的テキスト関連性を測定することを目的としており、表現不足の言語に焦点をあてている。 本研究では,限られた学習データに対する低リソースな課題に対処するために,機械翻訳によるデータ拡張を提案する。 さらに、未ラベルタスクデータにタスク適応型事前学習を適用し、事前学習とタスク適応のギャップを埋める。 モデルトレーニングでは、フル微調整とアダプタベースのチューニングの両方について検討し、効果的なゼロショット言語間転送のためのアダプタフレームワークを採用する。 当社のシステムは,サブタスクA(教師付き学習)とサブタスクC(言語間の移動)の両方において,すべてのチームの中で最善を尽くしています。

This paper presents our system developed for the SemEval-2024 Task 1: Semantic Textual Relatedness for African and Asian Languages. The shared task aims at measuring the semantic textual relatedness between pairs of sentences, with a focus on a range of under-represented languages. In this work, we propose using machine translation for data augmentation to address the low-resource challenge of limited training data. Moreover, we apply task-adaptive pre-training on unlabeled task data to bridge the gap between pre-training and task adaptation. For model training, we investigate both full fine-tuning and adapter-based tuning, and adopt the adapter framework for effective zero-shot cross-lingual transfer. We achieve competitive results in the shared task: our system performs the best among all ranked teams in both subtask A (supervised learning) and subtask C (cross-lingual transfer).
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# 確率も重要:大規模言語モデルにおける自由テキスト記述の忠実度に関するより忠実な基準

The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models ( http://arxiv.org/abs/2404.03189v2 )

ライセンス: Link先を確認
Noah Y. Siegel, Oana-Maria Camburu, Nicolas Heess, Maria Perez-Ortiz, (参考訳) 先進的なAIシステムを監視するためには,その根底にある意思決定プロセスを理解することが重要である。 刺激を受けると、大きな言語モデル(LLM)は、人間のアノテータから高い評価を受けられるように聞こえる自然言語の説明や推論の痕跡を提供することができる。 しかし、これらの説明がどの程度忠実であるか、すなわち、モデルの予測に責任を負う要因を真に捉えているかは不明である。 本稿では、入力介入に基づく信頼度テストに使用できるメトリクスである相関説明信条(CEF)を紹介する。 このようなテストで使用される以前のメトリクスは、予測のバイナリ変更のみを考慮しています。 我々の測定基準は、モデルが予測するラベル分布の総変化を説明し、より正確に説明の忠実さを反映している。 次に,Atanasova et al (2023) から CEF on the Counterfactual Test (CT) をインスタンス化することによって相関対実テスト(CCT)を導入する。 3つのNLPタスクにおいて,Llama2ファミリーから数発のLLMが生成した自由文説明の忠実度を評価する。 我々は,CTが見逃す忠実さの側面を計測した。

In order to oversee advanced AI systems, it is important to understand their underlying decision-making process. When prompted, large language models (LLMs) can provide natural language explanations or reasoning traces that sound plausible and receive high ratings from human annotators. However, it is unclear to what extent these explanations are faithful, i.e., truly capture the factors responsible for the model's predictions. In this work, we introduce Correlational Explanatory Faithfulness (CEF), a metric that can be used in faithfulness tests based on input interventions. Previous metrics used in such tests take into account only binary changes in the predictions. Our metric accounts for the total shift in the model's predicted label distribution, more accurately reflecting the explanations' faithfulness. We then introduce the Correlational Counterfactual Test (CCT) by instantiating CEF on the Counterfactual Test (CT) from Atanasova et al. (2023). We evaluate the faithfulness of free-text explanations generated by few-shot-prompted LLMs from the Llama2 family on three NLP tasks. We find that our metric measures aspects of faithfulness which the CT misses.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# 幾何回転による擬直交ファインチューニングのパラメータ

Parameter Efficient Quasi-Orthogonal Fine-Tuning via Givens Rotation ( http://arxiv.org/abs/2404.04316v2 )

ライセンス: Link先を確認
Xinyu Ma, Xu Chu, Zhibang Yang, Yang Lin, Xin Gao, Junfeng Zhao, (参考訳) より強力な性能と膨大な事前訓練モデルにより、微調整におけるパラメータ効率の促進は、様々な下流タスクに効果的かつ効率的に適応するための重要な必要性となっている。 微調整法の代表行は直交微調整(Orthogonal Fine-tuning, OFT)であり、予め訓練された知識を保存するためにパラメータ空間内の角距離を厳格に保存する。 経験的効果にもかかわらず、OFT は $\mathcal{O}(d^2)$ のパラメータ効率が低く、下流適応の限界がある。 本稿では,ギフト回転にインスパイアされた準ギブンズオルソゴン微調整(qGOFT)を提案し,この問題に対処した。 最初に$\mathcal{O}(d)$ givens 回転を使い、証明可能な同値で$SO(d)$ の任意の直交変換を達成し、パラメータの複雑さを $\mathcal{O}(d^2)$ から $\mathcal{O}(d)$ に還元する。 次に,ソフト直交正規化の下でのフレキシブルノルムと相対角調整を導入し,下流のセマンティック偏差の適応性を高める。 各種タスクおよび事前学習モデルに対する広範囲な実験により,本手法の有効性が検証された。

With the increasingly powerful performances and enormous scales of pretrained models, promoting parameter efficiency in fine-tuning has become a crucial need for effective and efficient adaptation to various downstream tasks. One representative line of fine-tuning methods is Orthogonal Fine-tuning (OFT), which rigorously preserves the angular distances within the parameter space to preserve the pretrained knowledge. Despite the empirical effectiveness, OFT still suffers low parameter efficiency at $\mathcal{O}(d^2)$ and limited capability of downstream adaptation. Inspired by Givens rotation, in this paper, we proposed quasi-Givens Orthogonal Fine-Tuning (qGOFT) to address the problems. We first use $\mathcal{O}(d)$ Givens rotations to accomplish arbitrary orthogonal transformation in $SO(d)$ with provable equivalence, reducing parameter complexity from $\mathcal{O}(d^2)$ to $\mathcal{O}(d)$. Then we introduce flexible norm and relative angular adjustments under soft orthogonality regularization to enhance the adaptation capability of downstream semantic deviations. Extensive experiments on various tasks and pretrained models validate the effectiveness of our methods.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# Gull:多機能オーディオコーデック

Gull: A Generative Multifunctional Audio Codec ( http://arxiv.org/abs/2404.04947v2 )

ライセンス: Link先を確認
Yi Luo, Jianwei Yu, Hangting Chen, Rongzhi Gu, Chao Weng, (参考訳) 生成型多機能オーディオコーデックGullを紹介する。 Gullは汎用的なニューラルオーディオ圧縮・圧縮モデルであり、リアルタイム通信、オーディオ超解像、コーデック言語モデルといった幅広いタスクやアプリケーションに適用することができる。 Gull の主な構成要素は,(1) 音源分離の最近の進展を動機としたサブバンドモデリングによるユニバーサルサンプリングレートモデリング,(2) 従来のオーディオコーデックによるゲイン形状表現,(3) 改良された残留ベクトル量子化モジュール,(4) 推論時間におけるユーザ定義モデルサイズと複雑性を実現する弾性デコーダネットワーク,(5) ビットレートの増加を伴わないオーディオ超解像のビルトイン機能などである。 Gullは従来の音声コーデックとニューラルオーディオのコーデックを比較し、さまざまなサンプルレート、ビットレート、モデルの複雑さを主観的および客観的評価の指標で同等以上のパフォーマンスを達成することができることを示す。

We introduce Gull, a generative multifunctional audio codec. Gull is a general purpose neural audio compression and decompression model which can be applied to a wide range of tasks and applications such as real-time communication, audio super-resolution, and codec language models. The key components of Gull include (1) universal-sample-rate modeling via subband modeling schemes motivated by recent progress in audio source separation, (2) gain-shape representations motivated by traditional audio codecs, (3) improved residual vector quantization modules, (4) elastic decoder network that enables user-defined model size and complexity during inference time, (5) built-in ability for audio super-resolution without the increase of bitrate. We compare Gull with existing traditional and neural audio codecs and show that Gull is able to achieve on par or better performance across various sample rates, bitrates and model complexities in both subjective and objective evaluation metrics.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# 高精度データ設定におけるシミュレーションに基づく推論のための拡散後サンプリング

Diffusion posterior sampling for simulation-based inference in tall data settings ( http://arxiv.org/abs/2404.07593v2 )

ライセンス: Link先を確認
Julia Linhart, Gabriel Victorino Cardoso, Alexandre Gramfort, Sylvain Le Corff, Pedro L. C. Rodrigues, (参考訳) 非線形モデルのどのパラメータが実験データの集合を最もよく表すかを決定することは科学の基本的な問題であり、近年は複雑な大規模シミュレータの台頭によって大きな注目を集めている。 このようなモデルの可能性は通常難解であり、古典的なMCMC法は使用できない。 シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後続分布を近似できる深層生成モデルの訓練にシミュレーションのデータセットを必要とするだけで、この文脈で際立っている。 本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。 提案手法は,高度データ後部分布を推定し,単一の文脈観測のためにトレーニングされたスコアネットワークの情報を利用する。 提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。

Determining which parameters of a non-linear model best describe a set of experimental data is a fundamental problem in science and it has gained much traction lately with the rise of complex large-scale simulators. The likelihood of such models is typically intractable, which is why classical MCMC methods can not be used. Simulation-based inference (SBI) stands out in this context by only requiring a dataset of simulations to train deep generative models capable of approximating the posterior distribution that relates input parameters to a given observation. In this work, we consider a tall data extension in which multiple observations are available to better infer the parameters of the model. The proposed method is built upon recent developments from the flourishing score-based diffusion literature and allows to estimate the tall data posterior distribution, while simply using information from a score network trained for a single context observation. We compare our method to recently proposed competing approaches on various numerical experiments and demonstrate its superiority in terms of numerical stability and computational cost.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# Floquet SYKワームホール

Floquet SYK wormholes ( http://arxiv.org/abs/2404.08394v2 )

ライセンス: Link先を確認
Martí Berenguer, Anshuman Dey, Javier Mas, Juan Santos-Suárez, Alfonso V. Ramallo, (参考訳) 本稿では,AdS$_2$における2つの結合SYKモデルの非平衡ダイナミクスについて検討した。 システムのパラメータの周期的駆動について検討する。 本研究では, ドライビング周波数の関数として, モデル内のワームホールおよびブラックホール相のエネルギーフローを解析した。 数値計算の結果, エネルギー吸収と加熱が著しく向上し, 伝送係数が低下し, ワームホールの閉鎖を示唆する一連の共振周波数が得られた。 これらの周波数は状態の共形塔の一部と双対重力理論の境界重力子に対応する。 さらに,ブラックホールとワームホール相の間のホットワームホール相の存在を裏付ける証拠を提供する。 分離したSYK項の強度を駆動すると、駆動を適宜調整することで伝送性を高めることができる。

We study the non-equilibrium dynamics of two coupled SYK models, conjectured to be holographically dual to an eternal traversable wormhole in AdS$_2$. We consider different periodic drivings of the parameters of the system. We analyze the energy flows in the wormhole and black hole phases of the model as a function of the driving frequency. Our numerical results show a series of resonant frequencies in which the energy absorption and heating are enhanced significantly and the transmission coefficients drop, signalling a closure of the wormhole. These frequencies correspond to part of the conformal tower of states and to the boundary graviton of the dual gravitational theory. Furthermore, we provide evidence supporting the existence of a hot wormhole phase between the black hole and wormhole phases. When driving the strength of the separate SYK terms we find that the transmission can be enhanced by suitably tuning the driving.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# ニューロシンボリックラーニングにおける独立性評価について

On the Independence Assumption in Neurosymbolic Learning ( http://arxiv.org/abs/2404.08458v2 )

ライセンス: Link先を確認
Emile van Krieken, Pasquale Minervini, Edoardo M. Ponti, Antonio Vergari, (参考訳) 最先端のニューロシンボリック学習システムは確率論的推論を用いて、ニューラルネットワークを記号に対する論理的制約に従う予測へと導く。 このようなシステムの多くは、学習と推論を簡略化するために入力が与えられた場合、考慮されたシンボルの確率は条件的に独立であると仮定する。 我々は、この仮定を研究、批判し、最適化を妨げ、不確実な定量化を防ぐ方法について強調する。 損失関数が条件付き独立ニューラルネットワークの予測において過信されることを示す。 その結果、複数の有効な選択肢に対して不確実性を表現できない。 さらに、これらの損失関数は非凸であり、そのミニマは通常高度に非連結であるので最適化が難しいことを証明している。 我々の理論分析は、条件付き独立仮定を置き換え、より表現力のあるニューロシンボリック確率モデルを設計するための基礎となる。

State-of-the-art neurosymbolic learning systems use probabilistic reasoning to guide neural networks towards predictions that conform to logical constraints over symbols. Many such systems assume that the probabilities of the considered symbols are conditionally independent given the input to simplify learning and reasoning. We study and criticise this assumption, highlighting how it can hinder optimisation and prevent uncertainty quantification. We prove that loss functions bias conditionally independent neural networks to become overconfident in their predictions. As a result, they are unable to represent uncertainty over multiple valid options. Furthermore, we prove that these loss functions are difficult to optimise: they are non-convex, and their minima are usually highly disconnected. Our theoretical analysis gives the foundation for replacing the conditional independence assumption and designing more expressive neurosymbolic probabilistic models.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# 点欠陥を持つ2軸磁力計のオフ軸場最適化

Optimizing Off-Axis Fields for Two-Axis Magnetometry with Point Defects ( http://arxiv.org/abs/2404.09747v2 )

ライセンス: Link先を確認
N. M. Beaver, N. Voce, P. Meisenheimer, R. Ramesh, P. Stevenson, (参考訳) ベクトル磁気学は、幅広い系における電流と磁化の分布を特徴づけるのに欠かせない道具である。 ダイヤモンド中の窒素空孔(NV)中心のような点欠陥センサーは、これらのフィールドを検出するための印象的な感度と空間分解能を示してきた。 しかし、単一欠陥を用いた空間の単一点におけるベクトル場の測定は、依然として顕著な課題である。 静的バイアス場を慎重に最適化することで、横磁場からの非線形ゼーマンシフトを利用して、高感度で複数の磁場成分を同時測定できることを実証した。 この研究は、2次ゼーマン効果からの周波数シフトの増加と、オフ軸磁場成分の増加に伴うコントラストの減少とのトレードオフを定量化し、複雑な磁気テクスチャを持つ反強磁性体からの磁場の複数の成分の測定を実証した。

Vector magnetometry is an essential tool in characterizing the distribution of currents and magnetization in a broad range of systems. Point defect sensors, like the nitrogen vacancy (NV) center in diamond, have demonstrated impressive sensitivity and spatial resolution for detecting these fields. Measuring the vector field at a single point in space using single defects, however, remains an outstanding challenge. We demonstrate that careful optimization of the static bias field can enable simultaneous measurement of multiple magnetic field components with enhanced sensitivity by leveraging the nonlinear Zeeman shift from transverse magnetic fields. This work quantifies the trade-off between the increased frequency shift from second-order Zeeman effects with decreasing contrast as off-axis field components increase, demonstrating the measurement of multiple components of the magnetic field from an exemplar antiferromagnet with a complex magnetic texture.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# 量子体積回路における忠実度減衰と誤差蓄積

Fidelity decay and error accumulation in quantum volume circuits ( http://arxiv.org/abs/2404.11444v2 )

ライセンス: Link先を確認
Nadir Samos Sáenz de Buruaga, Rafał Bistroń, Marcin Rudziński, Rodrigo Miguel Chinita Pereira, Karol Życzkowski, Pedro Ribeiro, (参考訳) 本稿では、故障量子回路モデルにおける忠実度減衰と誤り蓄積の包括的解析について述べる。 本研究は、2量子ゲートと複数量子ビット置換の実装時に発生するエラーを考慮し、所望の出力状態と不良出力状態の間の平均忠実度に対する解析的境界を考案する。 回路深さとクビット数の両方で指数関数的に減衰し, 2種類の誤差の関数として減衰率を決定する。 さらに,量子ボリュームテストにおいて,量子プロセッサのベンチマークに使用される重出力周波数と忠実度との線形関係を,誤差プロトコルに基づいて確立する。 これらの知見は、特定の誤差が存在する場合の忠実さの挙動を予測する方法を示し、量子ボリュームを増やすための最良の戦略に関する洞察を提供する。

We present a comprehensive analysis of fidelity decay and error accumulation in faulty quantum circuit models. Our work devises an analytical bound for the average fidelity between desired and faulty output states, accounting for errors that may arise during the implementation of two-qubit gates and multi-qubit permutations. It is shown that fidelity decays exponentially with both circuit depth and the number of qubits raised to an architecture-dependent power, and determine the decay rates as a function of the two types of errors. Furthermore, we establish a robust linear relationship between fidelity and the heavy output frequency used in Quantum Volume tests to benchmark quantum processors, under the considered errors protocol. These findings pave the way for predicting the behavior of fidelity in the presence of specific errors and offer insights into the best strategies for increasing Quantum Volume.
翻訳日:2024-06-10 19:28:06 公開日:2024-06-07
# $floZ$: 正規化フローを有する後部サンプルからのベイズ的証拠推定の改善

$floZ$: Improved Bayesian evidence estimation from posterior samples with normalizing flows ( http://arxiv.org/abs/2404.12294v2 )

ライセンス: Link先を確認
Rahul Srinivasan, Marco Crisostomi, Roberto Trotta, Enrico Barausse, Matteo Breschi, (参考訳) 正規化フローに基づく改良手法である$floZ$を導入し,非正規化後分布から抽出したサンプル群からベイズ証拠(およびその数値的不確実性)を推定する。 解析的に証拠が知られている分布について検証し、最大15個のパラメータ空間次元を推定し、その証拠を推定する2つの最先端技術と比較する:入れ子サンプリング(この方法は、その証拠を主ターゲットとして計算する)と、後部サンプルから証拠を推定する$k$-nearest-neighbors技術である。 提案手法は,特に高次元のシャープな特徴を有する後部分布に対して,より堅牢である。 単純多変量ガウス多様体に対しては、最大200次元と10^5$後方サンプルの精度を示す。 $floZ$は、例えば、変分推論、マルコフ・チェイン・モンテカルロのサンプル、あるいはシミュレーションベースの推論のような非正規化された後続密度からサンプルを届ける他の方法から証拠を推定するために幅広い適用性を持つ。 我々は,GW150914の重力波データのリングダウン信号に第1のオーバートンが存在する場合のベイズ係数を$floZ$で計算し,ネストサンプリングとよく一致した。

We introduce $floZ$, an improved method based on normalizing flows, for estimating the Bayesian evidence (and its numerical uncertainty) from a set of samples drawn from the unnormalized posterior distribution. We validate it on distributions whose evidence is known analytically, up to 15 parameter space dimensions, and compare with two state-of-the-art techniques for estimating the evidence: nested sampling (which computes the evidence as its main target) and a $k$-nearest-neighbors technique that produces evidence estimates from posterior samples. Provided representative samples from the target posterior are available, our method is more robust to posterior distributions with sharp features, especially in higher dimensions. For a simple multivariate Gaussian, we demonstrate its accuracy for up to 200 dimensions with $10^5$ posterior samples. $floZ$ has wide applicability, e.g., to estimate the evidence from variational inference, Markov Chain Monte Carlo samples, or any other method that delivers samples from the unnormalized posterior density, such as simulation-based inference. We apply $floZ$ to compute the Bayes factor for the presence of the first overtone in the ringdown signal of the gravitational wave data of GW150914, finding good agreement with nested sampling.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# グローバルデジタル民主主義によるグローバルデジタルプラットフォーム構築のための草の根アーキテクチャ

A Grassroots Architecture to Supplant Global Digital Platforms by a Global Digital Democracy ( http://arxiv.org/abs/2404.13468v4 )

ライセンス: Link先を確認
Ehud Shapiro, (参考訳) 我々は、地域デジタルコミュニティの社会的、経済的、市民的、政治的ニーズ、およびそれらの連合を支援するために設計された、草の根と呼ばれるグローバルデジタルプラットフォームに対するアーキテクチャ上の代替案を提示する。 Grassrootsプラットフォームは、地域コミュニティにグローバルデジタルプラットフォームに代わるものを提供し、メンバーのスマートフォンでのみ運用し、ネットワーク自体以外のグローバルリソースを禁止します。 このような共同体は、初期資本や外部クレジットなしでデジタル経済を形成し、主権的な民主主義と連邦を行使し、最終的にはグローバルなデジタル民主主義の草の根を形成する。

We present an architectural alternative to global digital platforms termed grassroots, designed to serve the social, economic, civic, and political needs of local digital communities, as well as their federation. Grassroots platforms may offer local communities an alternative to global digital platforms while operating solely on the smartphones of their members, forsaking any global resources other than the network itself. Such communities may form digital economies without initial capital or external credit, exercise sovereign democratic governance, and federate, ultimately resulting in the grassroots formation of a global digital democracy.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# ESR-NeRF:LDR多視点画像を用いた音源再構成

ESR-NeRF: Emissive Source Reconstruction Using LDR Multi-view Images ( http://arxiv.org/abs/2404.15707v2 )

ライセンス: Link先を確認
Jinseo Jeong, Junseo Koo, Qimeng Zhang, Gunhee Kim, (参考訳) 既存のNeRFベースの逆レンダリング手法では、シーンは遠方の光源によってのみ照らされ、シーン内の放射源の影響を無視する。 本研究では,LDRマルチビュー画像に送信源をオン/オフにすることで,この制限に直面している。 2つの重要な問題に対処する必要がある。 1)未知の光の詳細とともに、限られたダイナミックレンジから生じるあいまいさ 2) 最終的な物体色に繋がる経路を後付けするために, ボリュームレンダリングの高価な計算コストがかかる。 本稿では,ニューラルネットワークを学習可能な関数として活用し,レイトレーシング場を表現する新しいアプローチであるESR-NeRFを提案する。 光輸送セグメントを満たすためにネットワークを訓練することにより、放射源を徐々に特定し、反射領域を認識しながら、発信する放射光を規制する。 その結果,ESR-NeRFの質的・定量的な優位性が示された。 提案手法は,DTUデータセット上の低CD測定値を達成するため,送信源のないシーンに適用性も拡張する。

Existing NeRF-based inverse rendering methods suppose that scenes are exclusively illuminated by distant light sources, neglecting the potential influence of emissive sources within a scene. In this work, we confront this limitation using LDR multi-view images captured with emissive sources turned on and off. Two key issues must be addressed: 1) ambiguity arising from the limited dynamic range along with unknown lighting details, and 2) the expensive computational cost in volume rendering to backtrace the paths leading to final object colors. We present a novel approach, ESR-NeRF, leveraging neural networks as learnable functions to represent ray-traced fields. By training networks to satisfy light transport segments, we regulate outgoing radiances, progressively identifying emissive sources while being aware of reflection areas. The results on scenes encompassing emissive sources with various properties demonstrate the superiority of ESR-NeRF in qualitative and quantitative ways. Our approach also extends its applicability to the scenes devoid of emissive sources, achieving lower CD metrics on the DTU dataset.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# 短絡における速度とコストの最適トレードオフの単一原子検証

Single-Atom Verification of the Optimal Trade-Off between Speed and Cost in Shortcuts to Adiabaticity ( http://arxiv.org/abs/2404.15922v2 )

ライセンス: Link先を確認
J. -W. Zhang, J. -T. Bu, J. C. Li, Weiquan Meng, W. -Q. Ding, B. Wang, W. -F. Yuan, H. -J. Du, G. -Y. Ding, W. -J. Chen, L. Chen, F. Zhou, Zhenyu Xu, M. Feng, (参考訳) 断熱へのショートカットのアプローチは、量子情報処理における断熱力学の効果的な実行を可能にする。 動的速度と過渡駆動フィールドに関連するコストとの本質的にのトレードオフのため、任意に高速な演算を実行することは現実的ではない。 このプロセスにおける速度とエネルギーコストの正確な相互作用を理解するため、理論と実験的に新しいトレードオフを提案し、これは、$s$-パラメータ化された位相空間内で厳密に最適化された境界によって特徴づけられる。 我々の実験は、単一超低温の$^{40}$Ca$^{+}$イオンを調和ポテンシャルに閉じ込めて実施する。 イオンの量子状態を正確に操作することにより、Landau-Zenerモデル(英語版)を例として実行し、量子速度制限とコストはスペクトルギャップによって制御される。 我々は、当初固有状態と初期熱平衡状態の両方を含むシナリオにおいて、提案されたトレードオフが確かに密接であるのを目撃する。 我々の研究は、断熱性に対するショートカットの基本的な制約を理解するのに役立ち、伝統的に見落とされた未利用位相空間の可能性を照らし出す。

The approach of shortcuts to adiabaticity enables the effective execution of adiabatic dynamics in quantum information processing with enhanced speed. Owing to the inherent trade-off between dynamical speed and the cost associated with the transitionless driving field, executing arbitrarily fast operations becomes impractical. To understand the accurate interplay between speed and energetic cost in this process, we propose theoretically and verify experimentally a new trade-off, which is characterized by a tightly optimized bound within $s$-parameterized phase spaces. Our experiment is carried out in a single ultracold $^{40}$Ca$^{+}$ ion trapped in a harmonic potential. By exactly operating the quantum states of the ion, we execute the Landau-Zener model as an example, where the quantum speed limit as well as the cost are governed by the spectral gap. We witness that our proposed trade-off is indeed tight in scenarios involving both initially eigenstates and initially thermal equilibrium states. Our work helps understanding the fundamental constraints in shortcuts to adiabaticity and illuminates the potential of under-utilized phase spaces that have been traditionally overlooked.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# 表面音波による極性分子の捕捉

Trapping polar molecules by surface acoustic waves ( http://arxiv.org/abs/2404.17879v4 )

ライセンス: Link先を確認
Haijin Ding, Re-Bing Wu, Yu-xi Liu, (参考訳) 圧電材料の表面音響波(SAW)によって誘導される電気力で極性分子を捕捉する手法を提案する。 このアプローチでは、電気力は極性分子の運動方向と垂直であり、音響伝達と直交する方向における閉じ込められた極性分子の位置を制御するために用いられる。 外部の電気力により、SAWによって誘導される電場は極性分子を単層または多層格子にトラップすることができる。 分子の配列は分子配列の結合エネルギーと局在に影響を与える。 すると、1次元または2次元の極性分子アレイを用いてボース・ハッバード(BH)モデルを構築することができ、そのエネルギーと動力学は捕捉された分子の局在に影響される。 極性分子BHモデルに基づく超流動絶縁体とモット絶縁体の相転移は,SAW誘起電位によって変調できることがわかった。

We propose a method to trap polar molecules with the electrical force induced by the surface acoustic wave (SAW) on piezoelectric materials. In this approach, the electrical force is perpendicular to the moving direction of the polar molecules, and is used to control the positions of trapped polar molecules in the direction orthogonal to the acoustic transmission. By virtue of an external electrical force, the SAW-induced electrical field can trap the polar molecules into single-layer or multi-layer lattices. The arrangement of molecules can affect the binding energy and localization of the molecule array. Then the one- or two-dimensional trapped polar molecule arrays can be used to construct the Bose-Hubbard (BH) model, whose energy and dynamics are affected by the localizations of the trapped molecules. We find that the phase transitions between the superfluid and Mott insulator based on trapped polar molecule BH model can be modulated by the SAW induced electrical potential.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# Espresso: テキスト・画像モデルにおけるロバストな概念フィルタリング

Espresso: Robust Concept Filtering in Text-to-Image Models ( http://arxiv.org/abs/2404.19227v4 )

ライセンス: Link先を確認
Anudeep Das, Vasisht Duddu, Rui Zhang, N. Asokan, (参考訳) 拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、与えられたテキスト・プロンプトに対して高忠実な画像を生成する。 それらはインターネットから取り除かれた大規模なデータセットでトレーニングされており、受け入れがたい概念(著作権侵害や安全でない)を含んでいる可能性がある。 トレーニングデータにおける受け入れ難い概念をフィルタリングした後のT2Iモデルのリトレーニングは非効率であり、実用性は低下する。 したがって、許容できない概念を排除し、許容可能な概念を有効に保存し、敵のプロンプトによる回避に対して堅牢な概念除去技術(CRT)が必要である。 以前のフィルタリングと微調整のCRTはいずれもこれらの要件を同時に満たしていない。 本稿では,Contrastive Language-Image Pre-Training (CLIP) に基づく最初のロバストな概念フィルタであるEspressoを紹介する。 これは、生成した画像の埋め込みを、ジョイントテキストイメージの埋め込み空間における受け入れがたい概念と許容できる概念を接続するベクトルに投影することで、受け入れがたい概念を識別する。 これにより、許容される概念の方向において、このベクトルに沿ってのみノイズを追加する敵を制限することによって、堅牢性を保証する。 さらに微調整されたエスプレッソは、許容可能な概念と許容できない概念の埋め込みを分離すると同時に、イメージ埋め込みとのペアリングを保ち、有効性と有用性の両方を保証する。 Espressoを11種類の概念で評価し,有効性(許容できない概念に対するCLIPの精度〜5%),実用性(許容可能な概念に対するCLIPの正常化スコア~93%),堅牢性(許容できない概念に対する敵対的プロンプトに対するCLIPの精度〜4%)を示す。 最後に,Espressoの対向的プロンプトに対するロバスト性に関する理論的境界,および経験的解析について述べる。

Diffusion-based text-to-image (T2I) models generate high-fidelity images for given textual prompts. They are trained on large datasets scraped from the Internet, potentially containing unacceptable concepts (e.g., copyright infringing or unsafe). Retraining T2I models after filtering out unacceptable concepts in the training data is inefficient and degrades utility. Hence, there is a need for concept removal techniques (CRTs) which are effective in removing unacceptable concepts, utility-preserving on acceptable concepts, and robust against evasion with adversarial prompts. None of the prior filtering and fine-tuning CRTs satisfy all these requirements simultaneously. We introduce Espresso, the first robust concept filter based on Contrastive Language-Image Pre-Training (CLIP). It identifies unacceptable concepts by projecting the generated image's embedding onto the vector connecting unacceptable and acceptable concepts in the joint text-image embedding space. This ensures robustness by restricting the adversary to adding noise only along this vector, in the direction of the acceptable concept. Further fine-tuning Espresso to separate embeddings of acceptable and unacceptable concepts, while preserving their pairing with image embeddings, ensures both effectiveness and utility. We evaluate Espresso on eleven concepts to show that it is effective (~5% CLIP accuracy on unacceptable concepts), utility-preserving (~93% normalized CLIP score on acceptable concepts), and robust (~4% CLIP accuracy on adversarial prompts for unacceptable concepts). Finally, we present theoretical bounds for the certified robustness of Espresso against adversarial prompts, and an empirical analysis.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# インターネットビデオによる汎用型ロボットの学習に向けて : アンケート調査より

Towards Generalist Robot Learning from Internet Video: A Survey ( http://arxiv.org/abs/2404.19664v2 )

ライセンス: Link先を確認
Robert McCarthy, Daniel C. H. Tan, Dominik Schmidt, Fernando Acero, Nathan Herr, Yilun Du, Thomas G. Thuruthel, Zhibin Li, (参考訳) 本稿では,強化学習(RL)とロボット工学の文脈におけるビデオ(LfV)からの学習方法の概要について述べる。 我々は、大規模なインターネットビデオデータセットにスケール可能な方法に焦点を当て、その過程で、世界のダイナミクスと物理的な人間の振る舞いに関する基礎知識を抽出する。 このような手法は汎用ロボットの開発に大いに貢献する。 LfV-for-roboticsセッティングに関する基本概念の概要を述べる。 この中には、LfVメソッドがもたらすエキサイティングなメリット(例えば、利用可能なロボットデータ以外の一般化の改善)や、重要なLfV課題(例えば、ビデオやLfVの分散シフトにおける情報不足など)に関する解説が含まれている。 我々の文献レビューは、巨大で異質なビデオデータセットから知識を抽出できるビデオ基盤モデル技術の分析から始まる。 次に,ロボット学習にビデオデータを活用する手法について検討する。 本稿では,RLナレッジ・モダリティ(KM)がビデオデータの利用によって得られる仕事の分類を行う。 また、ビデオ中のアクションラベルの欠落に対処するアクション表現のレビューなど、LfV課題を緩和するためのテクニックも強調する。 最後にLfVデータセットとベンチマークについて検討し、LfVの課題と機会について議論する。 ここでは、インターネットビデオデータの全範囲を活用でき、かつ最も有望なRL KM(ポリシーとダイナミクスモデル)の学習を目標とするスケーラブルな基盤モデルアプローチを提唱する。 全体として、この調査がLfVの新興分野の包括的参考として役立ち、この分野のさらなる研究を触媒し、汎用ロボットの開発に向けた進展を促進することを願っている。

This survey presents an overview of methods for learning from video (LfV) in the context of reinforcement learning (RL) and robotics. We focus on methods capable of scaling to large internet video datasets and, in the process, extracting foundational knowledge about the world's dynamics and physical human behaviour. Such methods hold great promise for developing general-purpose robots. We open with an overview of fundamental concepts relevant to the LfV-for-robotics setting. This includes a discussion of the exciting benefits LfV methods can offer (e.g., improved generalization beyond the available robot data) and commentary on key LfV challenges (e.g., missing information in video and LfV distribution shifts). Our literature review begins with an analysis of video foundation model techniques that can extract knowledge from large, heterogeneous video datasets. Next, we review methods that specifically leverage video data for robot learning. Here, we categorise work according to which RL knowledge modality (KM) benefits from the use of video data. We additionally highlight techniques for mitigating LfV challenges, including reviewing action representations that address missing action labels in video. Finally, we examine LfV datasets and benchmarks, before concluding with a discussion of challenges and opportunities in LfV. Here, we advocate for scalable foundation model approaches that can leverage the full range of internet video data, and that target the learning of the most promising RL KMs: the policy and dynamics model. Overall, we hope this survey will serve as a comprehensive reference for the emerging field of LfV, catalysing further research in the area and facilitating progress towards the development of general-purpose robots.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# セキュアコード生成のための制約付きデコード

Constrained Decoding for Secure Code Generation ( http://arxiv.org/abs/2405.00218v2 )

ライセンス: Link先を確認
Yanjun Fu, Ethan Baker, Yu Ding, Yizheng Chen, (参考訳) Code Large Language Models (Code LLMs) は、開発者の生産性向上にますます利用されているが、脆弱性のあるコードを生成することが多い。 したがって、コードLLMが生成するコードが正確でセキュアであることを確実にする必要がある。 これまでの研究は主にセキュアなコードを生成することに焦点を当ててきた。 この監視はセキュリティの誤った感覚につながる可能性がある。 現在、コミュニティにはこの分野における実際の進捗を測定する方法がなく、コード生成のセキュリティと正確性の両方に対処するソリューションが必要です。 本稿では、コードLLMがセキュアかつ正確なコードを生成する能力を測定するために、新しいベンチマークであるCodeGuard+と2つの新しいメトリクスを紹介する。 新たな評価手法を用いることで,現在最先端の防御技術であるプレフィックスチューニングは,セキュアなコードを生成するが機能的正当性を犠牲にしているため,従来考えられていたほど強力ではない可能性が示唆された。 また,異なる復号法がコードLLMのセキュリティに著しく影響を及ぼすことを示す。 さらに、セキュアなコード生成のための制約付き復号化という、新たな防御方向についても検討する。 セキュアなコードを生成するための制約付き復号法を提案する。 この結果から,制約付き復号化は,特別なトレーニングデータセットを必要とせずに,コードLLMのセキュリティを改善するためにプレフィックスチューニングよりも効果的であることが判明した。 さらに,8つの最先端のコードLLMに対する評価の結果,制約付きデコーディングはコードLLMのセキュリティ向上に優れた性能を示し,GPT-4よりも優れていた。

Code Large Language Models (Code LLMs) have been increasingly used by developers to boost productivity, but they often generate vulnerable code. Thus, there is an urgent need to ensure that code generated by Code LLMs is correct and secure. Previous research has primarily focused on generating secure code, overlooking the fact that secure code also needs to be correct. This oversight can lead to a false sense of security. Currently, the community lacks a method to measure actual progress in this area, and we need solutions that address both security and correctness of code generation. This paper introduces a new benchmark, CodeGuard+, along with two new metrics, to measure Code LLMs' ability to generate both secure and correct code. Using our new evaluation methods, we show that the state-of-the-art defense technique, prefix tuning, may not be as strong as previously believed, since it generates secure code but sacrifices functional correctness. We also demonstrate that different decoding methods significantly affect the security of Code LLMs. Furthermore, we explore a new defense direction: constrained decoding for secure code generation. We propose new constrained decoding techniques to generate secure code. Our results reveal that constrained decoding is more effective than prefix tuning to improve the security of Code LLMs, without requiring a specialized training dataset. Moreover, our evaluations over eight state-of-the-art Code LLMs show that constrained decoding has strong performance to improve the security of Code LLMs, and our technique outperforms GPT-4.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# 学習可能な介入と不確実性表現による言語モデル真性の向上

Enhanced Language Model Truthfulness with Learnable Intervention and Uncertainty Expression ( http://arxiv.org/abs/2405.00301v3 )

ライセンス: Link先を確認
Farima Fatahi Bayat, Xin Liu, H. V. Jagadish, Lu Wang, (参考訳) 大きな言語モデル(LLM)は長文で一貫性のあるテキストを生成することができるが、事実を幻覚させることが多く、信頼性を損なう。 この問題を緩和するために、推論時手法は、以前に真理を導き出すために学んだ「真理な方向」に向けてLLM表現を操る。 しかし、これらの真正な方向を同じ強度で適用しても、異なるクエリコンテキストにまたがって一般化することができない。 本稿では,それぞれのコンテキストに合わせて最適な介入強度を自動的に識別する,真理性最適化のための学習可能なインターベンション手法LITOを提案する。 LITOは、介入強度の増大に基づくモデル世代を探索する。 予測が極めて不確実な場合には、最も正確な応答を選択するか、答えを拒否する。 複数のLLMと質問応答データセットの実験は、LITOがタスク精度を維持しながら真理性を改善することを示した。 LITOの適応性は、一大の介入方法の限界に対処し、モデルの内部知識を自信のある場合にのみ反映することで真理を最大化する。 私たちのコードはhttps://github.com/ Launchnlp/LITO.comで利用可能です。

Large language models (LLMs) can generate long-form and coherent text, yet they often hallucinate facts, which undermines their reliability. To mitigate this issue, inference-time methods steer LLM representations toward the "truthful directions" previously learned for truth elicitation. However, applying these truthful directions with the same intensity fails to generalize across different query contexts. We propose LITO, a Learnable Intervention method for Truthfulness Optimization that automatically identifies the optimal intervention intensity tailored to each specific context. LITO explores a sequence of model generations based on increasing levels of intervention intensities. It selects the most accurate response or refuses to answer when the predictions are highly uncertain. Experiments on multiple LLMs and question-answering datasets demonstrate that LITO improves truthfulness while preserving task accuracy. The adaptive nature of LITO counters the limitations of one-size-fits-all intervention methods, maximizing truthfulness by reflecting the model's internal knowledge only when it is confident. Our code is available at https://github.com/launchnlp/LITO.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# オンライン強化学習による費用効果・エキスパートレベル臨床ノート作成のためのオープンソース大規模言語モデルの適用

Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note Generation with On-Policy Reinforcement Learning ( http://arxiv.org/abs/2405.00715v3 )

ライセンス: Link先を確認
Hanyin Wang, Chufan Gao, Bolun Liu, Qiping Xu, Guleid Hussein, Mohamad El Labban, Kingsley Iheasirim, Hariprasad Korsapati, Chuck Outcalt, Jimeng Sun, (参考訳) GPT-4やGeminiのようなプロプライエタリな大規模言語モデル(LLM)は、臨床テキスト要約タスクにおいて有望な能力を示している。 しかしながら、患者のデータのプライバシに関する懸念と計算コストのため、多くの医療提供者は、外部ジェネリックLLMよりも、小さなローカルホストモデルを使うことを好む。 本研究は、オープンソースのLLaMA-213億パラメーターモデルに対する包括的ドメインおよびタスク固有の適応プロセスを示し、外来患者と医師の対話から高品質な臨床ノートを生成する。 私たちのプロセスには、継続的な事前トレーニング、教師付き微調整、AIと人間のフィードバックからの強化学習が含まれています。 我々は、教師モデルとしてGemini 1.0 Proを用いて、政治強化学習を行うための新しいアプローチであるDistillDirectを導入した。 得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。 盲目医学読者の研究では、個々の評価の90.4%がLLaMA-Clinicが生み出したノートを「許容可能」以上の3つの基準(現実の読みやすさ、完全性、正確性)で評価している。 より挑戦的な「評価と計画」のセクションでは、LLaMA-クリニックは医師が発行したノート(4.1/5)よりも現実の即応性が高い(4.2/5)。 我々のLLaMA-Clinicモデルでは,外部ジェネリックLLMサービスに比べて4.375倍のコスト削減を実現している。 さらに, 臨床実践において, LLM に頼らず, ベストプラクティスのノートフォーマットを事前に定義することの重要性を強調し, 今後の臨床ノート生成課題の重要点を強調した。 我々は,新たに作成した総合診療録データセットと医師のフィードバックデータセットを公開し,今後の研究を奨励した。

Proprietary Large Language Models (LLMs) such as GPT-4 and Gemini have demonstrated promising capabilities in clinical text summarization tasks. However, due to patient data privacy concerns and computational costs, many healthcare providers prefer using small, locally-hosted models over external generic LLMs. This study presents a comprehensive domain- and task-specific adaptation process for the open-source LLaMA-2 13 billion parameter model, enabling it to generate high-quality clinical notes from outpatient patient-doctor dialogues. Our process incorporates continued pre-training, supervised fine-tuning, and reinforcement learning from both AI and human feedback. We introduced a new approach, DistillDirect, for performing on-policy reinforcement learning with Gemini 1.0 Pro as the teacher model. Our resulting model, LLaMA-Clinic, can generate clinical notes comparable in quality to those authored by physicians. In a blinded physician reader study, the majority (90.4%) of individual evaluations rated the notes generated by LLaMA-Clinic as "acceptable" or higher across all three criteria: real-world readiness, completeness, and accuracy. In the more challenging "Assessment and Plan" section, LLaMA-Clinic scored higher (4.2/5) in real-world readiness than physician-authored notes (4.1/5). Our cost analysis for inference shows that our LLaMA-Clinic model achieves a 4.375-fold cost reduction compared to an external generic LLM service. Additionally, we highlight key considerations for future clinical note-generation tasks, emphasizing the importance of pre-defining a best-practice note format, rather than relying on LLMs to determine this for clinical practice. We have made our newly created synthetic clinic dialogue-note dataset and the physician feedback dataset publicly available to foster future research.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# 安全強化学習のためのバランス・リワードと安全最適化:グラディエント・マニピュレーションの観点から

Balance Reward and Safety Optimization for Safe Reinforcement Learning: A Perspective of Gradient Manipulation ( http://arxiv.org/abs/2405.01677v2 )

ライセンス: Link先を確認
Shangding Gu, Bilgehan Sel, Yuhao Ding, Lu Wang, Qingwei Lin, Ming Jin, Alois Knoll, (参考訳) RL(Reinforcement Learning)の安全性の確保は、現実世界のアプリケーションへの展開に不可欠である。 それでも、探査中の報酬と安全の間のトレードオフを管理することは大きな課題である。 政策調整による報酬性能の向上は、安全性能に悪影響を及ぼす可能性がある。 本研究では,勾配操作の理論を活用することによって,この矛盾する関係に対処することを目的とする。 最初は報酬と安全勾配の対立を分析した。 その後,ソフトスイッチングポリシ最適化手法を提案することで,報酬と安全性の最適化のバランスに取り組み,収束解析を行う。 理論的検討に基づき、上記の課題を克服するための安全なRLフレームワークを提供し、安全なRLアルゴリズムの性能を評価するためのSafety-MuJoCoベンチマークを開発する。 最後に,この手法の有効性を,Safety-MuJoCoベンチマークと一般的な安全RLベンチマークであるOmnisafeで評価した。 実験の結果,提案アルゴリズムは報酬のバランスと安全性の最適化の観点から,最先端のベースラインよりも優れていた。

Ensuring the safety of Reinforcement Learning (RL) is crucial for its deployment in real-world applications. Nevertheless, managing the trade-off between reward and safety during exploration presents a significant challenge. Improving reward performance through policy adjustments may adversely affect safety performance. In this study, we aim to address this conflicting relation by leveraging the theory of gradient manipulation. Initially, we analyze the conflict between reward and safety gradients. Subsequently, we tackle the balance between reward and safety optimization by proposing a soft switching policy optimization method, for which we provide convergence analysis. Based on our theoretical examination, we provide a safe RL framework to overcome the aforementioned challenge, and we develop a Safety-MuJoCo Benchmark to assess the performance of safe RL algorithms. Finally, we evaluate the effectiveness of our method on the Safety-MuJoCo Benchmark and a popular safe RL benchmark, Omnisafe. Experimental results demonstrate that our algorithms outperform several state-of-the-art baselines in terms of balancing reward and safety optimization.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# 飛行時間実験における確率的およびボヘミア到着時間の不等式

Inequivalence of stochastic and Bohmian arrival times in time-of-flight experiments ( http://arxiv.org/abs/2405.06324v2 )

ライセンス: Link先を確認
Pascal Naidon, (参考訳) 近年の予測(Phys. 6, 195 (2023))により、超低温原子を用いた飛行時間実験は、量子力学の異なる解釈をテストできることが示唆され、この研究は、量子粒子が定性だが非決定論的で微分不可能な軌道を辿る確率論的解釈によって予測される到着時間を調べる。 到達時間の分布はフォッカー・プランク方程式から得られ、軌道の直接シミュレーションにより確認される。 一般にボヘミアの解釈によって予測される分布とは違い、量子粒子は決定論的かつ微分可能な軌道に従う。 この結果は、軌道に基づく量子力学の解釈を実験的に区別できることを示唆している。

Motivated by a recent prediction [Com. Phys., 6, 195 (2023)] that time-of-flight experiments with ultracold atoms could test different interpretations of quantum mechanics, this work investigates the arrival times predicted by the stochastic interpretation, whereby quantum particles follow definite but non-deterministic and non-differentiable trajectories. The distribution of arrival times is obtained from a Fokker-Planck equation, and confirmed by direct simulation of trajectories. It is found to be in general different from the distribution predicted by the Bohmian interpretation, in which quantum particles follow definite deterministic and differentiable trajectories. This result suggests that trajectory-based interpretations of quantum mechanics could be experimentally discriminated.
翻訳日:2024-06-10 19:18:14 公開日:2024-06-07
# LangCell: 細胞アイデンティティ理解のためのLanguage-Cell事前トレーニング

LangCell: Language-Cell Pre-training for Cell Identity Understanding ( http://arxiv.org/abs/2405.06708v4 )

ライセンス: Link先を確認
Suyuan Zhao, Jiahuan Zhang, Yushuai Wu, Yizhen Luo, Zaiqing Nie, (参考訳) 細胞識別は、細胞の種類、経路情報、疾患情報など、細胞の様々な意味的側面を包含しており、生物学者がその生物学的特性を理解するのに不可欠である。 細胞型アノテートなどの転写学的データから細胞識別を理解することは、生体情報学において重要な課題となっている。 これらのセマンティックな側面は人間の専門家によって決定されるため、単一セルとラベルペアによって提供される監視信号なしで、AIモデルが細胞アイデンティティ理解タスクを効果的に実行することは不可能である。 このタスクに現在使用されているシングルセル事前訓練言語モデル(PLM)は、単一のモダリティ、トランスクリプトミクスデータのみに基づいて訓練され、セルアイデンティティの知識の理解が欠如している。 結果として、望ましいセマンティックラベルでラベル付きデータを欠いている場合には、ダウンストリームタスクや苦労のために微調整される必要がある。 この問題に対処するために,事前学習期間中に単一セルデータと自然言語の統一表現を構築し,セルアイデンティティに関連する洞察を直接組み込むという,革新的な手法を提案する。 より具体的には、最初のLanguage-Cell事前トレーニングフレームワークであるLangCellを紹介します。 LangCellは、セルアイデンティティ情報に富んだテキストを利用して、クロスモーダルな知識の深い理解を得る。 異なるベンチマークで実施された実験の結果、LangCellはゼロショットのセル識別理解シナリオで効果的に機能する唯一のシングルセルPLMであり、また、少数ショットと微調整のセル識別理解シナリオで既存のモデルよりも大幅に優れていることが示された。

Cell identity encompasses various semantic aspects of a cell, including cell type, pathway information, disease information, and more, which are essential for biologists to gain insights into its biological characteristics. Understanding cell identity from the transcriptomic data, such as annotating cell types, has become an important task in bioinformatics. As these semantic aspects are determined by human experts, it is impossible for AI models to effectively carry out cell identity understanding tasks without the supervision signals provided by single-cell and label pairs. The single-cell pre-trained language models (PLMs) currently used for this task are trained only on a single modality, transcriptomics data, lack an understanding of cell identity knowledge. As a result, they have to be fine-tuned for downstream tasks and struggle when lacking labeled data with the desired semantic labels. To address this issue, we propose an innovative solution by constructing a unified representation of single-cell data and natural language during the pre-training phase, allowing the model to directly incorporate insights related to cell identity. More specifically, we introduce LangCell, the first Language-Cell pre-training framework. LangCell utilizes texts enriched with cell identity information to gain a profound comprehension of cross-modal knowledge. Results from experiments conducted on different benchmarks show that LangCell is the only single-cell PLM that can work effectively in zero-shot cell identity understanding scenarios, and also significantly outperforms existing models in few-shot and fine-tuning cell identity understanding scenarios.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# 確率的満足度と因果的満足度:マリナライゼーションの影響

Probabilistic and Causal Satisfiability: the Impact of Marginalization ( http://arxiv.org/abs/2405.07373v2 )

ライセンス: Link先を確認
Julian Dörfler, Benito van der Zander, Markus Bläser, Maciej Liskiewicz, (参考訳) パールズ・コーサル・ヒエラルキー(PCH)の枠組みは、因果関係に関する人間の思考の進歩的洗練を反映した観察的、介入的、反ファクト的という3つのタイプの推論を定式化した。 本稿では,PCH全体にわたる確率的および因果的言語で表される満足度問題を中心に,この枠組みにおける推論の計算複雑性の側面を考察する。 つまり、標準確率言語および因果言語における式体系を考えると、式を満たすモデルが存在するだろうか? 結果として生じる複雑性は、階層のレベルや公式で許される演算子(加算、乗算、余剰化)によって変化する。 我々は,確率的および因果推論に広く用いられている辺縁化を含む式に着目するが,その複雑性問題はほとんど検討されていない。 我々の主な貢献は、線形言語(加算と余剰化が可能である)がPCHのレベルに応じてNP^PP-, PSPACE-, NEXP完全満足度問題をもたらすことを示す正確な計算複雑性の結果である。 さらに、PCHの下位レベルに対する前の結果を拡張した最も高い対実レベルの言語に対するクラス Succ$\exists$R に対して、完全言語(余剰乗算も可能)の問題は完備であることを示す。 最後に、与えられたベイズネットワーク、有向非巡回グラフ構造、あるいは小さな多項式サイズに制限された制約付きモデルを考える。 介入レベルでの言語の複雑さは、そのような制約のない反事実言語の複雑さ、すなわち線形言語がNEXP完全になるまで増大する。 一方、対物レベルの複雑さは変わらない。 サイズに対する制約は、介入言語と反ファクト言語の複雑さをNEXP完全に減らす。

The framework of Pearl's Causal Hierarchy (PCH) formalizes three types of reasoning: observational, interventional, and counterfactual, that reflect the progressive sophistication of human thought regarding causation. We investigate the computational complexity aspects of reasoning in this framework focusing mainly on satisfiability problems expressed in probabilistic and causal languages across the PCH. That is, given a system of formulas in the standard probabilistic and causal languages, does there exist a model satisfying the formulas? The resulting complexity changes depending on the level of the hierarchy as well as the operators allowed in the formulas (addition, multiplication, or marginalization). We focus on formulas involving marginalization that are widely used in probabilistic and causal inference, but whose complexity issues are still little explored. Our main contribution are the exact computational complexity results showing that linear languages (allowing addition and marginalization) yield NP^PP-, PSPACE-, and NEXP-complete satisfiability problems, depending on the level of the PCH. Moreover, we prove that the problem for the full language (allowing additionally multiplication) is complete for the class succ$\exists$R for languages on the highest, counterfactual level, which extends previous results for the lower levels of the PCH. Finally, we consider constrained models that are restricted to a given Bayesian network, a Directed Acyclic Graph structure, or a small polynomial size. The complexity of languages on the interventional level is increased to the complexity of counterfactual languages without such a constraint, that is, linear languages become NEXP-complete. On the other hand, the complexity on the counterfactual level does not change. The constraint on the size reduces the complexity of the interventional and counterfactual languages to NEXP-complete.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# Rene: 呼吸器疾患の鎮静のためのトレーニング済みマルチモーダルアーキテクチャ

Rene: A Pre-trained Multi-modal Architecture for Auscultation of Respiratory Diseases ( http://arxiv.org/abs/2405.07442v2 )

ライセンス: Link先を確認
Pengfei Zhang, Zhihang Zheng, Shichen Zhang, Minghao Yang, Shaojun Tang, (参考訳) 組織サンプリングを必要とする侵襲的な検査と比較すると、呼吸音検査は患者にとってより安全でより受け入れやすい非侵襲的な検査方法である。 本研究では,呼吸音の認識に適した大規模モデルであるReneを紹介する。 Reneは、幅広い呼吸器オーディオサンプルを含む広範囲なデータセットで厳格に微調整され、疾患の検出、音響パターンの分類、イベントの識別をターゲットとしている。 我々の革新的なアプローチは、患者の医療記録を付加した呼吸音の処理に事前訓練された音声認識モデルを適用した。 結果として得られたマルチモーダルディープラーニングフレームワークは、従来の呼吸に焦点を当てたモデルを妨げる解釈可能性とリアルタイム診断の課題に対処する。 ベンチマークの結果、レネは既存のモデルよりも大幅に優れており、10.27%、16.15%、15.29%、および18.90%の呼吸事象の検出とSPRSoundデータベースでの音声分類の改善を実現している。 ICBHIデータベース上の疾患予測精度は平均スコアとハーモニックスコアの両方でベースラインよりも23%向上した。 さらに,Reneアーキテクチャを用いた実時間呼吸音識別システムを開発した。 最先端のエッジAI技術を利用することで、呼吸音の聴取の迅速かつ正確な応答を可能にする(https://github.com/zpforlove/Rene)。

Compared with invasive examinations that require tissue sampling, respiratory sound testing is a non-invasive examination method that is safer and easier for patients to accept. In this study, we introduce Rene, a pioneering large-scale model tailored for respiratory sound recognition. Rene has been rigorously fine-tuned with an extensive dataset featuring a broad array of respiratory audio samples, targeting disease detection, sound pattern classification, and event identification. Our innovative approach applies a pre-trained speech recognition model to process respiratory sounds, augmented with patient medical records. The resulting multi-modal deep-learning framework addresses interpretability and real-time diagnostic challenges that have hindered previous respiratory-focused models. Benchmark comparisons reveal that Rene significantly outperforms existing models, achieving improvements of 10.27%, 16.15%, 15.29%, and 18.90% in respiratory event detection and audio classification on the SPRSound database. Disease prediction accuracy on the ICBHI database improved by 23% over the baseline in both mean average and harmonic scores. Moreover, we have developed a real-time respiratory sound discrimination system utilizing the Rene architecture. Employing state-of-the-art Edge AI technology, this system enables rapid and accurate responses for respiratory sound auscultation(https://github.com/zpforlove/Rene).
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# SDFの微分可能レンダリングへの簡易的アプローチ

A Simple Approach to Differentiable Rendering of SDFs ( http://arxiv.org/abs/2405.08733v2 )

ライセンス: Link先を確認
Zichen Wang, Xi Deng, Ziyi Zhang, Wenzel Jakob, Steve Marschner, (参考訳) 本稿では,SDF (Signed Distance Fields) で表される曲面の微分可能レンダリングアルゴリズムを提案する。 非微分可能で既存の物理ベースで差別化可能なレンダリング手法を、データ構造を精巧に導いたり、分散に世界的影響を与えるような再パラメータ化に依存することが多い、可視性に関連するデリバティブに対処する。 本稿では、低分散とアーキテクチャの単純さと引き換えに、非ゼロバイアスを受け入れる代替案について検討する。 提案手法は,下面がSDFで表される場合のサンプリングが容易な細い帯域に低次元境界積分を拡大する。 エンドツーエンドの逆レンダリングタスクでは,既存の作業と競合する,あるいは優れている結果が得られるという,私たちの定式化のパフォーマンスと堅牢さを実証する。

We present a simple algorithm for differentiable rendering of surfaces represented by Signed Distance Fields (SDF), which makes it easy to integrate rendering into gradient-based optimization pipelines. To tackle visibility-related derivatives that make rendering non-differentiable, existing physically based differentiable rendering methods often rely on elaborate guiding data structures or reparameterization with a global impact on variance. In this article, we investigate an alternative that embraces nonzero bias in exchange for low variance and architectural simplicity. Our method expands the lower-dimensional boundary integral into a thin band that is easy to sample when the underlying surface is represented by an SDF. We demonstrate the performance and robustness of our formulation in end-to-end inverse rendering tasks, where it obtains results that are competitive with or superior to existing work.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# ユニバーサルQAOAプロトコルに向けて:組合せ最適化問題の解法におけるスケーリング優位性の証明

Towards a universal QAOA protocol: Evidence of a scaling advantage in solving some combinatorial optimization problems ( http://arxiv.org/abs/2405.09169v2 )

ライセンス: Link先を確認
J. A. Montanez-Barrera, Kristel Michielsen, (参考訳) 量子近似最適化アルゴリズム(QAOA)は組合せ最適化問題を解くための有望なアルゴリズムである。 このアルゴリズムでは、ミキサーとハミルトニアンの問題からなる交互層が存在する。 各層$i=0,\ldots,p-1$は$\beta_i$と$\gamma_i$でパラメータ化される。 これらのパラメータをどうやって見つけるかはオープンな問題であり、研究の大半は古典的なアルゴリズムを使ってそれらを見つけることに重点を置いている。 本研究では、固定線形ランプスケジュールがQAOAパラメータの普遍的な集合、すなわち最適解を高速に近似する$\gamma$と$\beta$パラメータの集合であるCOPとは独立に$x^*$であり、それを見つける成功確率である$probability(x^*)$はQAOA層数$p$で増加することを示す。 最大$N_q=42$ qubits と $p = 400$ 層を含むリニアランプQAOAプロトコル(LR-QAOA)を9種類のCOPのランダムなインスタンス上でシミュレートする。 この結果は、定数$\eta$に対して$probability(x^*) \approx 1/2^{(\eta N_q / p)}$であることが示唆されている。 例えば、LR-QAOAを$p=42$で実装する場合、42量子重み付きMaxCut問題(W-MaxCut)に対する$probability(x^*)$は2/2^{42}\approx 10^{-13}$から平均0.13まで増加する。 LR-QAOA, 模擬アニール (SA), 分岐結合 (B\&B) を比較し, LR-QAOAのスケーリング改善について検討した。 LR-QAOAをIonQ Aria, Quantinuum H2-1, IBM Brisbane, IBM Kyoto, IBM Osakaを用いて実ハードウェア上でテストし, ランダム重み付きMaxCut(W-MaxCut)問題を5~109キュービット,$p=3$から100$で符号化した。 最大の場合であっても、$N_q=109$ qubitsと$p=100$は、LR-QAOA最適化プロトコルに関する情報である。 回路は21200個のCNOTゲートを必要とする。 これらの結果から, LR-QAOAは多種多様なCOPの高品質な解を効果的に見つけることができ, 組合せ最適化における量子計算のスケーリングの利点が示唆された。

The quantum approximate optimization algorithm (QAOA) is a promising algorithm for solving combinatorial optimization problems (COPs). In this algorithm, there are alternating layers consisting of a mixer and a problem Hamiltonian. Each layer $i=0,\ldots,p-1$ is parameterized by $\beta_i$ and $\gamma_i$. How to find these parameters has been an open question with the majority of the research focused on finding them using classical algorithms. In this work, we present evidence that fixed linear ramp schedules constitute a universal set of QAOA parameters, i.e., a set of $\gamma$ and $\beta$ parameters that rapidly approximate the optimal solution, $x^*$, independently of the COP selected, and that the success probability of finding it, $probability(x^*)$, increases with the number of QAOA layers $p$. We simulate linear ramp QAOA protocols (LR-QAOA) involving up to $N_q=42$ qubits and $p = 400$ layers on random instances of 9 different COPs. The results suggest that $probability(x^*) \approx 1/2^{(\eta N_q / p)}$ for a constant $\eta$. For example, when implementing LR-QAOA with $p=42$, the $probability(x^*)$ for 42-qubit Weighted MaxCut problems (W-MaxCut) increases from $2/2^{42}\approx 10^{-13}$ to an average of 0.13. We compare LR-QAOA, simulated annealing (SA), and branch-and-bound (B\&B) finding a scaling improvement in LR-QAOA. We test LR-QAOA on real hardware using IonQ Aria, Quantinuum H2-1, IBM Brisbane, IBM Kyoto, and IBM Osaka, encoding random weighted MaxCut (W-MaxCut) problems from 5 to 109 qubits and $p=3$ to $100$. Even for the largest case, $N_q=109$ qubits and $p=100$, information about the LR-QAOA optimization protocol is present. The circuit involved requires 21200 CNOT gates. These results show that LR-QAOA effectively finds high-quality solutions for a large variety of COPs and suggest a scaling advantage of quantum computation for combinatorial optimization.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# AudioSetMix:LLM支援によるオーディオ言語データセットの強化

AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations ( http://arxiv.org/abs/2405.11093v2 )

ライセンス: Link先を確認
David Xu, (参考訳) 近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。 しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。 既存のオーディオ言語データセットは特に小さく、手動ラベリングは、正確なラベリングのために全オーディオクリップを聴く必要性によって妨げられる。 本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。 大規模言語モデルを用いて,プロンプトテンプレートを用いた拡張音声クリップの記述を生成する。 このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。 データセットの統合は、多彩で整合性の良いサンプルを提供することで、ベンチマーク上のモデルパフォーマンスを改善します。 特に、我々のデータセットは、既存のデータセットにおける修飾子(形容詞と副詞)の欠如に対処します。 モデルがこれらの概念を学習できるようにし、トレーニング中に厳しいネガティブな例を生成することで、複数のベンチマークで最先端のパフォーマンスを達成する。

Multi-modal learning in the audio-language domain has seen significant advancements in recent years. However, audio-language learning faces challenges due to limited and lower-quality data compared to image-language tasks. Existing audio-language datasets are notably smaller, and manual labeling is hindered by the need to listen to entire audio clips for accurate labeling. Our method systematically generates audio-caption pairs by augmenting audio clips with natural language labels and corresponding audio signal processing operations. Leveraging a Large Language Model, we generate descriptions of augmented audio clips with a prompt template. This scalable method produces AudioSetMix, a high-quality training dataset for text-and-audio related models. Integration of our dataset improves models performance on benchmarks by providing diversified and better-aligned examples. Notably, our dataset addresses the absence of modifiers (adjectives and adverbs) in existing datasets. By enabling models to learn these concepts, and generating hard negative examples during training, we achieve state-of-the-art performance on multiple benchmarks.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# メタ制御:異種ロボットスキルのためのモデルベース自動制御合成

Meta-Control: Automatic Model-based Control Synthesis for Heterogeneous Robot Skills ( http://arxiv.org/abs/2405.11380v2 )

ライセンス: Link先を確認
Tianhao Wei, Liqian Ma, Rui Chen, Weiye Zhao, Changliu Liu, (参考訳) 現実の操作タスクの要件は多様であり、しばしば矛盾する; あるタスクは正確な動きを必要とするが、あるタスクは力の遵守を必要とする; あるタスクは特定の領域の回避を必要とする; 他のタスクは特定の状態への収束を必要とする。 これらの要件を固定された状態行動表現と制御戦略で満足させることは、普遍的なロボット基盤モデルの開発を妨げる。 そこで本研究では,特定のタスクに合わせて,カスタマイズされた状態表現と制御戦略を作成する,最初のLCM対応自動制御合成手法であるMeta-Controlを提案する。 私たちの中核的な洞察は、人間の専門家が制御システムの設計に使用する思考プロセスを自動化するために、メタ制御システムを構築することができるということです。 具体的には、人間の専門家はモデルベースで階層的な思考モデル(抽象的から具体的まで)を多用し、様々な動的モデルとコントローラを一緒に構成して制御システムを形成する。 Meta-Controlは思考モデルを模倣し、LLMの広範な制御知識をソクラテスの「助産学の芸術」で活用して思考プロセスを自動化する。 Meta-Controlは、厳密な分析、一般化可能性、堅牢性、効率的なパラメータチューニング、信頼性の高いリアルタイム実行を可能にする。

The requirements for real-world manipulation tasks are diverse and often conflicting; some tasks require precise motion while others require force compliance; some tasks require avoidance of certain regions, while others require convergence to certain states. Satisfying these varied requirements with a fixed state-action representation and control strategy is challenging, impeding the development of a universal robotic foundation model. In this work, we propose Meta-Control, the first LLM-enabled automatic control synthesis approach that creates customized state representations and control strategies tailored to specific tasks. Our core insight is that a meta-control system can be built to automate the thought process that human experts use to design control systems. Specifically, human experts heavily use a model-based, hierarchical (from abstract to concrete) thought model, then compose various dynamic models and controllers together to form a control system. Meta-Control mimics the thought model and harnesses LLM's extensive control knowledge with Socrates' "art of midwifery" to automate the thought process. Meta-Control stands out for its fully model-based nature, allowing rigorous analysis, generalizability, robustness, efficient parameter tuning, and reliable real-time execution.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# インフルエンサーの次のドア:誤情報作成者はどのようにGenAIを使うか

The Influencer Next Door: How Misinformation Creators Use GenAI ( http://arxiv.org/abs/2405.13554v2 )

ライセンス: Link先を確認
Amelia Hassoun, Ariel Abonizio, Katy Osborn, Cameron Wu, Beth Goldberg, (参考訳) 生成AI(GenAI)の進歩は、人間の生成コンテンツからAI生成コンテンツを検出し、識別することに対する懸念を提起している。 既存の文献の多くは、'専門家'が組織化された偽情報作成者と欠陥のあるAIモデルが'通常の'ユーザーを騙すパラダイムを前提としている。 2022~2023年の間、偽情報作成者や消費者による縦断的エスノグラフィー研究に基づいて、非専門家がGenAIをリミックス、再パッケージ、および(再)コンテンツの制作に利用し、個人のニーズや欲求に応えている。 この研究は4つの重要な発見を導いた: まず、参加者は真理探究ではなく、主に創造のためにGenAIを使用した。 第二に、「インフルエンサー億万長者」という物語が参加者を惹きつけ、GenAIを生産性ツールとして、大量の(しばしば誤形的な)コンテンツを生成した。 第三に、GenAIはコンテンツ制作の参入障壁を減らし、消費者をクリエーターに誘惑し、既存のクリエーターのアウトプットを大幅に増やした。 最後に、参加者はGen AIを使用して、エンゲージメントを拡大し、コンテンツを収益化するためのマーケティング戦略を学び、展開した。 我々は、分析をAIコンテンツの消費者として一般大衆から、GenAIを創造的に利用するブリックルアへとシフトさせ、その基盤技術に関する詳細な理解を必要とせずに、しばしば議論している。 我々は、これらの未調査の創発的なGenAIの使用が、新しいまたは加速された誤情報障害をいかに生み出すか、そしてAI製品、プラットフォーム、ポリシーに与える影響を分析する。

Advances in generative AI (GenAI) have raised concerns about detecting and discerning AI-generated content from human-generated content. Most existing literature assumes a paradigm where 'expert' organized disinformation creators and flawed AI models deceive 'ordinary' users. Based on longitudinal ethnographic research with misinformation creators and consumers between 2022-2023, we instead find that GenAI supports bricolage work, where non-experts increasingly use GenAI to remix, repackage, and (re)produce content to meet their personal needs and desires. This research yielded four key findings: First, participants primarily used GenAI for creation, rather than truth-seeking. Second, a spreading 'influencer millionaire' narrative drove participants to become content creators, using GenAI as a productivity tool to generate a volume of (often misinformative) content. Third, GenAI lowered the barrier to entry for content creation across modalities, enticing consumers to become creators and significantly increasing existing creators' output. Finally, participants used Gen AI to learn and deploy marketing tactics to expand engagement and monetize their content. We argue for shifting analysis from the public as consumers of AI content to bricoleurs who use GenAI creatively, often without a detailed understanding of its underlying technology. We analyze how these understudied emergent uses of GenAI produce new or accelerated misinformation harms, and their implications for AI products, platforms and policies.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# 大規模視線モデルにおける一貫性のタペストリーの展開

Unveiling the Tapestry of Consistency in Large Vision-Language Models ( http://arxiv.org/abs/2405.14156v3 )

ライセンス: Link先を確認
Yuan Zhang, Fei Xiao, Tao Huang, Chun-Kai Fan, Hongyuan Dong, Jiawen Li, Jiacong Wang, Kuan Cheng, Shanghang Zhang, Haoyuan Guo, (参考訳) 視覚言語モデル(LVLM)は近年急速に進歩し,視覚情報に対する認識と推論能力が向上している。 しかし、解空間の異なる大きさのプロンプトに直面すると、LVLMは必ずしも同じ知識点に関して一貫した答えを与えない。 異なる解空間間の答えの不整合は、LVLM やエローズ信頼においてよく見られる。 この目的のために、我々はマルチモーダルベンチマークConBenchを提供し、プロンプトの解空間が知識点を中心に回転するときにLVLMがどのように機能するかを直感的に解析する。 ConBenchツールをベースとして,(1)識別領域では,プロンプトの解空間が大きくなるほど,解の精度が低下する。 2)識別的領域と生成的領域の関係を確立する:識別的質問型の精度はキャプションとの一貫性と強い正の相関を示す。 (3) オープンソースモデルと比較して, クローズドソースモデルは一貫性の点で顕著なバイアス優位性を示す。 最終的には、トリガーベースの診断改善によりLVLMの整合性を改善し、キャプションの性能を間接的に改善する。 我々は,本論文が研究コミュニティのモデル評価を加速し,一貫性領域の今後の進歩を促進することを願っている。

Large vision-language models (LVLMs) have recently achieved rapid progress, exhibiting great perception and reasoning abilities concerning visual information. However, when faced with prompts in different sizes of solution spaces, LVLMs fail to always give consistent answers regarding the same knowledge point. This inconsistency of answers between different solution spaces is prevalent in LVLMs and erodes trust. To this end, we provide a multi-modal benchmark ConBench, to intuitively analyze how LVLMs perform when the solution space of a prompt revolves around a knowledge point. Based on the ConBench tool, we are the first to reveal the tapestry and get the following findings: (1) In the discriminate realm, the larger the solution space of the prompt, the lower the accuracy of the answers. (2) Establish the relationship between the discriminative and generative realms: the accuracy of the discriminative question type exhibits a strong positive correlation with its Consistency with the caption. (3) Compared to open-source models, closed-source models exhibit a pronounced bias advantage in terms of Consistency. Eventually, we ameliorate the consistency of LVLMs by trigger-based diagnostic refinement, indirectly improving the performance of their caption. We hope this paper will accelerate the research community in better evaluating their models and encourage future advancements in the consistency domain.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# ガウス分布の拡散モデル:厳密解とワッサーシュタイン誤差

Diffusion models for Gaussian distributions: Exact solutions and Wasserstein errors ( http://arxiv.org/abs/2405.14250v2 )

ライセンス: Link先を確認
Emile Pierret, Bruno Galerne, (参考訳) 拡散モデルやスコアベースモデルでは画像生成の性能が向上した。 これらは前方および後方確率微分方程式(SDE)に依存する。 データ分布のサンプリングは、後方SDEまたはその関連するフローODEを数値的に解くことにより達成される。 これらのモデルの収束を研究するには、初期化誤差、トランケーション誤差、離散化、スコア近似の4つの異なる種類のエラーを制御する必要がある。 本稿では,データ分布がガウス的である場合の拡散モデルの挙動とその数値的実装について理論的に検討する。 スコア関数が線型作用素であるこの制限されたフレームワークでは、前向きおよび後向きのSDEと関連するフローODEの分析解を導出することができる。 これにより、様々なWassersteinエラーに対する正確な表現が提供され、任意のサンプリングスキームに対する各エラータイプの影響を比較することができ、インセプション機能に頼るのではなく、データ空間内で直接収束を監視することができます。 実験の結果,拡散モデルの文献から推奨される数値スキームもガウス分布の最良のサンプリングスキームであることがわかった。

Diffusion or score-based models recently showed high performance in image generation. They rely on a forward and a backward stochastic differential equations (SDE). The sampling of a data distribution is achieved by solving numerically the backward SDE or its associated flow ODE. Studying the convergence of these models necessitates to control four different types of error: the initialization error, the truncation error, the discretization and the score approximation. In this paper, we study theoretically the behavior of diffusion models and their numerical implementation when the data distribution is Gaussian. In this restricted framework where the score function is a linear operator, we can derive the analytical solutions of the forward and backward SDEs as well as the associated flow ODE. This provides exact expressions for various Wasserstein errors which enable us to compare the influence of each error type for any sampling scheme, thus allowing to monitor convergence directly in the data space instead of relying on Inception features. Our experiments show that the recommended numerical schemes from the diffusion models literature are also the best sampling schemes for Gaussian distributions.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# 構造浴を用いたスピン-ボソンモデルの量子シミュレーション

Quantum Simulation of Spin-Boson Models with Structured Bath ( http://arxiv.org/abs/2405.14624v2 )

ライセンス: Link先を確認
Ke Sun, Mingyu Kang, Hanggai Nuomin, George Schwartz, David N. Beratan, Kenneth R. Brown, Jungsang Kim, (参考訳) スピンボソンモデル(スピンボソンモデル、英: spin-boson model、英: spin-boson model)は、量子調和振動子の浴と相互作用するスピンを包含する、オープン量子系の広く用いられる表現である。 トラップされたイオンは、高品質な内部量子ビット状態と関連する量子自由度をシミュレートできるイオンの運動モードの両方があるため、そのようなモデルの量子力学をシミュレートする自然なプラットフォームを提供する。 我々の研究は、スピンとボソンのコヒーレントなカップリングに焦点を当てた以前の研究を拡張し、捕捉されたイオンの運動状態を用いて構造的な散逸浴を用いて量子シミュレーションを行う。 完全プログラム可能な制御パラメータにランダム性を加えることにより,浴槽温度と連続スペクトル密度を調整する能力を示す。 その後、結合から複数の発散型高調波発振器モードに構成された雑音スペクトル密度を持つスピンボソンモデルの力学をシミュレーションする。 実験結果は理論的な予測と密接に一致し、トラップイオン系を用いたオープン量子系のシミュレーションが成功したことを示す。

The spin-boson model, involving spins interacting with a bath of quantum harmonic oscillators, is a widely used representation of open quantum systems. Trapped ions present a natural platform for simulating the quantum dynamics of such models, thanks to the presence of both high quality internal qubit states and the motional modes of the ions that can simulate the relevant quantum degrees of freedom. In our work, we extend the previous body of work that focused on coherent coupling of the spins and bosons to perform quantum simulations with structured dissipative baths using the motional states of trapped ions. We demonstrate the capability for adjusting the bath's temperature and continuous spectral density by adding randomness to fully programmable control parameters. Subsequently, we simulate the dynamics of various spin-boson models with noise spectral densities constructed from coupling to several dissipative harmonic oscillator modes. The experimental outcomes closely align with theoretical predictions, indicating successful simulation of open quantum systems using a trapped-ion system.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# 瞬時依存による時間的因果表現の同定について

On the Identification of Temporally Causal Representation with Instantaneous Dependence ( http://arxiv.org/abs/2405.15325v2 )

ライセンス: Link先を確認
Zijian Li, Yifan Shen, Kaitao Zheng, Ruichu Cai, Xiangchen Song, Mingming Gong, Zhengmao Zhu, Guangyi Chen, Kun Zhang, (参考訳) 時間的因果表現学習は、時系列観測から潜伏因果過程を特定することを目的としているが、ほとんどの方法は潜伏因果過程が即時関係を持たないという仮定を必要とする。 最近のいくつかの手法は、即時因果関係の場合において識別可能性を達成するが、それらは潜伏変数への介入または観測のグループ化を必要とし、一般に現実世界のシナリオでは入手が困難である。 このギャップを埋めるために、潜伏因果過程がスパース時間遅れおよび瞬時関係を持つようなスパース影響制約を課すことにより、stantane\textbf{O}us \textbf{L}atent dynamics (\textbf{IDOL}) に対する \textbf{ID}entification frameworkを提案する。 具体的には、時系列データの文脈情報を用いて、十分な変動性とスパース影響制約に基づいて、潜伏因果過程の識別可能性を示す。 これらの理論に基づいて、潜伏変数を推定するための時間的変動推論アーキテクチャと、潜伏因果過程を特定するための勾配に基づく空間正規化を組み込んだ。 シミュレーションデータセットによる実験結果から,本手法が潜在因果過程を同定できることが示唆された。 さらに,複数人の動作予測ベンチマークを瞬時依存性で評価した結果,実環境における提案手法の有効性が示唆された。

Temporally causal representation learning aims to identify the latent causal process from time series observations, but most methods require the assumption that the latent causal processes do not have instantaneous relations. Although some recent methods achieve identifiability in the instantaneous causality case, they require either interventions on the latent variables or grouping of the observations, which are in general difficult to obtain in real-world scenarios. To fill this gap, we propose an \textbf{ID}entification framework for instantane\textbf{O}us \textbf{L}atent dynamics (\textbf{IDOL}) by imposing a sparse influence constraint that the latent causal processes have sparse time-delayed and instantaneous relations. Specifically, we establish identifiability results of the latent causal process based on sufficient variability and the sparse influence constraint by employing contextual information of time series data. Based on these theories, we incorporate a temporally variational inference architecture to estimate the latent variables and a gradient-based sparsity regularization to identify the latent causal process. Experimental results on simulation datasets illustrate that our method can identify the latent causal process. Furthermore, evaluations on multiple human motion forecasting benchmarks with instantaneous dependencies indicate the effectiveness of our method in real-world settings.
翻訳日:2024-06-10 19:08:28 公開日:2024-06-07
# ハードウェア要件の最小化によるフロケット符号の製作欠陥の調整

Accommodating Fabrication Defects on Floquet Codes with Minimal Hardware Requirements ( http://arxiv.org/abs/2405.15854v2 )

ライセンス: Link先を確認
Campbell McLauchlan, György P. Gehér, Alexandra E. Moylett, (参考訳) フロッケ符号は、安定化器とサブシステムのコードの興味深い一般化であり、ハードウェアの接続要件を減らし、優れたフォールトトレラント特性を提供することができる。 最近の関心のある質問は、欠陥のある -- 使用不可能な -- 量子ビットを持つデバイス上で、Floquetコードを実行する方法だ。 これは、現実的なハードウェア上でこのようなコードを実行する上で重要な、未調査の課題である。 この課題に対処するため,Floquet符号の量子ハードウェアへの追加接続を必要とせず,元のFloquet符号の計測スケジュールの変更を必要とせず,バウンダリに対応でき,キュービット数や安定化器の取り外しという点で最適である,広範囲な2次元フロッケ符号に欠陥量子ビットを収容する新しい方法を提案する。 この手法を用いて、平面ハニカム符号は、製造欠陥確率が$\approx 12\%$まで耐障害性があることを数値的に示す。 欠陥雑音下でのこの符号の耐障害性能は、スペーサー接続性にもかかわらず、表面コードと競合する。 我々は最終的に、このアプローチを基盤となるハードウェアに適応させる複数の方法を提案し、追加の接続性を活用し、欠陥のある補助量子ビットを欠陥のあるデータ量子ビットに別々に扱います。 そこで本研究は,現実的な量子ハードウェアにおけるFloquet符号の実装のガイドとして機能する。

Floquet codes are an intriguing generalisation of stabiliser and subsystem codes, which can provide good fault-tolerant characteristics while benefiting from reduced connectivity requirements in hardware. A recent question of interest has been how to run Floquet codes on devices which have defective -- and therefore unusable -- qubits. This is an under-studied issue of crucial importance for running such codes on realistic hardware. To address this challenge, we introduce a new method of accommodating defective qubits on a wide range of two-dimensional Floquet codes, which requires no additional connectivity in the underlying quantum hardware, no modifications to the original Floquet code's measurement schedule, can accommodate boundaries, and is optimal in terms of the number of qubits and stabilisers removed. We numerically demonstrate that, using this method, the planar honeycomb code is fault tolerant up to a fabrication defect probability of $\approx 12\%$. We find the fault-tolerant performance of this code under defect noise is competitive with that of the surface code, despite its sparser connectivity. We finally propose multiple ways this approach can be adapted to the underlying hardware, through utilising any additional connectivity available, and treating defective auxiliary qubits separately to defective data qubits. Our work therefore serves as a guide for the implementation of Floquet codes in realistic quantum hardware.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# カスタマイズCLIP分類器を用いた拡散モデルによる水中画像の強調

Underwater Image Enhancement by Diffusion Model with Customized CLIP-Classifier ( http://arxiv.org/abs/2405.16214v2 )

ライセンス: Link先を確認
Shuaixin Liu, Kunqian Li, Yilin Ding, Qi Qi, (参考訳) 水中画像強調(UIE)は、低品質の入力から視覚的品質を改善することを目的としている。 他の画像強調タスクとは異なり、水中画像は実際の参照画像の有効性に悩まされる。 既存の研究は、合成画像を利用して、手動で強化ネットワークをトレーニングするための参照画像として、十分に拡張された画像を選択するが、それらの上位性能境界は参照領域によって制限される。 この課題に対処するために、UIEタスクにCLIP(Contrastive Language- Image Pretraining)のポテンシャルを活用する新しいフレームワークであるCLIP-UIEを提案する。 具体的には,大気中の自然画像から実際の水中領域に誘導される対応する水中画像に分解することで,合成画像の合成に色移動を用いることを提案する。 このアプローチにより、拡散モデルは水中の劣化領域から実際の空気中の自然領域への写像遷移の以前の知識を捉えることができる。 それでも、特定の下流タスクの拡散モデルを微調整することは避けられず、この事前知識が失われる可能性がある。 この欠点を移行するために、空気中の自然ドメインの以前の知識をCLIPと組み合わせて、CLIP-Classifierをトレーニングする。 次に、このCLIP分類器をUIEベンチマークデータセットと統合し、拡散モデルの微調整を行い、空気中の自然領域への拡張結果を導出する。 さらに、画像強調タスクでは、画像間の拡散モデルとCLIP分類器の両方が、微調整時に主に高周波領域に焦点を当てていることが観察される。 そこで本研究では,従来の手法よりも最大10倍高速な高周波領域を対象とするファインチューニング戦略を提案する。 大規模な実験により,本手法はより自然な外観を示すことが示された。

Underwater Image Enhancement (UIE) aims to improve the visual quality from a low-quality input. Unlike other image enhancement tasks, underwater images suffer from the unavailability of real reference images. Although existing works exploit synthetic images and manually select well-enhanced images as reference images to train enhancement networks, their upper performance bound is limited by the reference domain. To address this challenge, we propose CLIP-UIE, a novel framework that leverages the potential of Contrastive Language-Image Pretraining (CLIP) for the UIE task. Specifically, we propose employing color transfer to yield synthetic images by degrading in-air natural images into corresponding underwater images, guided by the real underwater domain. This approach enables the diffusion model to capture the prior knowledge of mapping transitions from the underwater degradation domain to the real in-air natural domain. Still, fine-tuning the diffusion model for specific downstream tasks is inevitable and may result in the loss of this prior knowledge. To migrate this drawback, we combine the prior knowledge of the in-air natural domain with CLIP to train a CLIP-Classifier. Subsequently, we integrate this CLIP-Classifier with UIE benchmark datasets to jointly fine-tune the diffusion model, guiding the enhancement results towards the in-air natural domain. Additionally, for image enhancement tasks, we observe that both the image-to-image diffusion model and CLIP-Classifier primarily focus on the high-frequency region during fine-tuning. Therefore, we propose a new fine-tuning strategy that specifically targets the high-frequency region, which can be up to 10 times faster than traditional strategies. Extensive experiments demonstrate that our method exhibits a more natural appearance.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# 仮想ノードによる確率的グラフのリライト

Probabilistic Graph Rewiring via Virtual Nodes ( http://arxiv.org/abs/2405.17311v2 )

ライセンス: Link先を確認
Chendi Qian, Andrei Manolache, Christopher Morris, Mathias Niepert, (参考訳) メッセージパッシンググラフニューラルネットワーク(MPNN)は、グラフベースの機械学習の強力なパラダイムとして登場した。 その効果にもかかわらず、MPNNは、制限された受容フィールドと構造的ボトルネックが、グラフ内の情報フローを妨げるという、過剰な取得や過剰な監視といった課題に直面している。 グラフトランスフォーマーはこれらの問題に対処することを約束するが、そのスケーラビリティはノード数に関する二次的な複雑さのために制限されており、より大きなグラフでは現実的ではない。 本稿では,暗黙的にメッセージパッシングニューラルネットワーク(IPR-MPNN)を提案する。 少数の仮想ノード、すなわち与えられたグラフに追加ノードを追加し、それを既存のノードに接続することで、IPR-MPNNは長距離メッセージの伝搬を可能にし、二次的な複雑さを回避する。 理論的には、IPR-MPNNが従来のMPNNの表現性を上回ることを示す。 経験的に、我々は、アンダーリーチングとオーバースキャッシングの効果を緩和し、複数のグラフデータセットにまたがって最先端のパフォーマンスを達成する能力を示すことによって、我々のアプローチを検証する。 特に、IPR-MPNNは、計算効率を著しく向上させながら、グラフ変換器より優れている。

Message-passing graph neural networks (MPNNs) have emerged as a powerful paradigm for graph-based machine learning. Despite their effectiveness, MPNNs face challenges such as under-reaching and over-squashing, where limited receptive fields and structural bottlenecks hinder information flow in the graph. While graph transformers hold promise in addressing these issues, their scalability is limited due to quadratic complexity regarding the number of nodes, rendering them impractical for larger graphs. Here, we propose implicitly rewired message-passing neural networks (IPR-MPNNs), a novel approach that integrates implicit probabilistic graph rewiring into MPNNs. By introducing a small number of virtual nodes, i.e., adding additional nodes to a given graph and connecting them to existing nodes, in a differentiable, end-to-end manner, IPR-MPNNs enable long-distance message propagation, circumventing quadratic complexity. Theoretically, we demonstrate that IPR-MPNNs surpass the expressiveness of traditional MPNNs. Empirically, we validate our approach by showcasing its ability to mitigate under-reaching and over-squashing effects, achieving state-of-the-art performance across multiple graph datasets. Notably, IPR-MPNNs outperform graph transformers while maintaining significantly faster computational efficiency.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# 軌道アグリゲーション木を用いた拡散プランナーの確率的リスクの残留

Resisting Stochastic Risks in Diffusion Planners with the Trajectory Aggregation Tree ( http://arxiv.org/abs/2405.17879v2 )

ライセンス: Link先を確認
Lang Feng, Pengjie Gu, Bo An, Gang Pan, (参考訳) 拡散プランナーは、非自己回帰的な計画生成により、長時間の水平およびスパースリワードタスクを扱うことを約束している。 しかし、実現不可能な軌道を発生させる確率論的リスクは、その信頼性と安定性に重大な課題をもたらす。 拡散プランナにおけるこの問題に対処するための新しい手法として, トラジェクティブ・アグリゲーション・ツリー (TAT) を導入する。 生の軌跡予測のみに依存する従来の手法と比較して、TATは歴史的および現在の軌跡からの情報を集約し、動的木のような構造を形成する。 各軌道は分岐として概念化され、個々の状態はノードとして扱われる。 構造が新しい軌道の統合によって進化するにつれて、信頼できない状態は辺境化され、最も影響のあるノードは意思決定のために優先順位付けされる。 TATは、拡散プランナーの元々のトレーニングやサンプリングパイプラインを変更することなく、デプロイできる。 我々は,TATの有効性を裏付ける理論的解析と実証的証拠の両方を提供する。 本研究は,信頼性の低いトラジェクトリのリスクに対処し,100ドル%のタスクで拡散プランナの性能向上を保証し,試料品質に対する許容許容限界を示し,3ドル以上で計画できることを示す。

Diffusion planners have shown promise in handling long-horizon and sparse-reward tasks due to the non-autoregressive plan generation. However, their inherent stochastic risk of generating infeasible trajectories presents significant challenges to their reliability and stability. We introduce a novel approach, the Trajectory Aggregation Tree (TAT), to address this issue in diffusion planners. Compared to prior methods that rely solely on raw trajectory predictions, TAT aggregates information from both historical and current trajectories, forming a dynamic tree-like structure. Each trajectory is conceptualized as a branch and individual states as nodes. As the structure evolves with the integration of new trajectories, unreliable states are marginalized, and the most impactful nodes are prioritized for decision-making. TAT can be deployed without modifying the original training and sampling pipelines of diffusion planners, making it a training-free, ready-to-deploy solution. We provide both theoretical analysis and empirical evidence to support TAT's effectiveness. Our results highlight its remarkable ability to resist the risk from unreliable trajectories, guarantee the performance boosting of diffusion planners in $100\%$ of tasks, and exhibit an appreciable tolerance margin for sample quality, thereby enabling planning with a more than $3\times$ acceleration.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# 画像コピー検出のためのコンパクトディスクリプタによる自己教師付き蒸留

Relational Self-supervised Distillation with Compact Descriptors for Image Copy Detection ( http://arxiv.org/abs/2405.17928v3 )

ライセンス: Link先を確認
Juntae Kim, Sungwon Woo, Jongho Nang, (参考訳) 本稿では,著作権保護のためのオンライン共有プラットフォームにおける課題である画像コピー検出について述べる。 従来のアプローチは非常にうまく機能してきたが、ネットワークとディスクリプタの大規模化は依然として大きな欠点であり、実用的応用を複雑にしている。 本稿では,軽量ネットワークとコンパクトディスクリプタを用いて,競争性能を実現する手法を提案する。 大規模ネットワークから小さなネットワークへ知識を伝達するために,リレーショナル自己教師型蒸留を利用することで,少ない記述子サイズの軽量ネットワークのトレーニングを可能にする。 提案手法はRDCD(Relational Self-supervised Distillation with Compact Descriptor)と呼ばれ,より小さな特徴空間におけるフレキシブルな表現のためのリレーショナル自己教師型蒸留(RSD)を導入し,高負(HN)損失によるコントラスト学習を適用し,次元崩壊を防止する。 提案手法の有効性をDEC2021, Copydays, NDECベンチマークを用いて実証し, コンパクトな記述子を用いた軽量ネットワークによる競合性能を実現する。 DISC2021ベンチマークでは、ResNet-50/EfficientNet-B0を教師と学生それぞれに使用し、ベースライン法と比較して64/128/256ディスクリプタサイズのマイクロ平均精度を5.0%/4.9%/5.9%改善した。

This paper addresses image copy detection, a task in online sharing platforms for copyright protection. While previous approaches have performed exceptionally well, the large size of their networks and descriptors remains a significant disadvantage, complicating their practical application. In this paper, we propose a novel method that achieves a competitive performance by using a lightweight network and compact descriptors. By utilizing relational self-supervised distillation to transfer knowledge from a large network to a small network, we enable the training of lightweight networks with a small descriptor size. Our approach, which we call Relational self-supervised Distillation with Compact Descriptors (RDCD), introduces relational self-supervised distillation (RSD) for flexible representation in a smaller feature space and applies contrastive learning with a hard negative (HN) loss to prevent dimensional collapse. We demonstrate the effectiveness of our method using the DISC2021, Copydays, and NDEC benchmark datasets, with which our lightweight network with compact descriptors achieves a competitive performance. For the DISC2021 benchmark, ResNet-50/EfficientNet- B0 are used as a teacher and student respectively, the micro average precision improved by 5.0%/4.9%/5.9% for 64/128/256 descriptor sizes compared to the baseline method.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# IAPT: 大規模言語モデルのためのインストラクション・アウェア・プロンプトチューニング

IAPT: Instruction-Aware Prompt Tuning for Large Language Models ( http://arxiv.org/abs/2405.18203v2 )

ライセンス: Link先を確認
Wei Zhu, Aaron Xuxiang Tian, Congrui Yin, Yuan Ni, Xiaoling Wang, Guotong Xie, (参考訳) ソフトプロンプトチューニングはパラメータ効率の良い微調整法として広く研究されている。 多くのソフトトークンを入力シーケンスに挿入し、下流のパフォーマンスを保証する必要がある。 その結果,大規模言語モデリング(LLM)時代において,ソフトプロンプトチューニングはローランク適応 (LoRA) よりも少ないと考えられる。 本研究では,4つのソフトトークンのみを必要とする新しいプロンプトチューニング手法,IAPT(Instruction-Aware Prompt Tuning)を提案する。 まず,各トランスフォーマー層にパラメータ効率の良いソフトプロンプト生成器を設置し,各入力命令に対して慣用的なソフトプロンプトを生成する。 生成されたソフトプロンプトは入力命令の意味的な要約と見なすことができ、出力生成を効果的に導くことができる。 第2に、ソフトプロンプトジェネレータは、自己アテンションプーリング操作、2つのリニアプロジェクション、およびアクティベーション関数からなるボトルネックアーキテクチャを持つモジュールである。 試験実験では、異なるトランスフォーマー層のプロンプトジェネレータは異なるアクティベーション関数を必要とすることが示された。 そこで本稿では,有理関数の助けを借りて自動生成を行うための慣用的アクティベーション関数の学習を提案する。 各種課題の実験を行った結果,実験結果が得られた。 (a)我々のIAPTメソッドは、同等のチューニング可能なパラメータで最近のベースラインを上回ります。 b) IAPT法はシングルバックのマルチテナント設定ではLoRAよりも効率的である。

Soft prompt tuning is a widely studied parameter-efficient fine-tuning method. However, it has a clear drawback: many soft tokens must be inserted into the input sequences to guarantee downstream performance. As a result, soft prompt tuning is less considered than Low-rank adaptation (LoRA) in the large language modeling (LLM) era. In this work, we propose a novel prompt tuning method, Instruction-Aware Prompt Tuning (IAPT), that requires only four soft tokens. First, we install a parameter-efficient soft prompt generator at each Transformer layer to generate idiosyncratic soft prompts for each input instruction. The generated soft prompts can be seen as a semantic summary of the input instructions and can effectively guide the output generation. Second, the soft prompt generators are modules with a bottleneck architecture consisting of a self-attention pooling operation, two linear projections, and an activation function. Pilot experiments show that prompt generators at different Transformer layers require different activation functions. Thus, we propose to learn the idiosyncratic activation functions for prompt generators automatically with the help of rational functions. We have conducted experiments on various tasks, and the experimental results demonstrate that (a) our IAPT method can outperform the recent baselines with comparable tunable parameters. (b) Our IAPT method is more efficient than LoRA under the single-backbone multi-tenant setting.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# VITON-DiT:Diffusion Transformerを使って人間のダンスビデオから動画を学習する

VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers ( http://arxiv.org/abs/2405.18326v2 )

ライセンス: Link先を確認
Jun Zheng, Fuwei Zhao, Youjiang Xu, Xin Dong, Xiaodan Liang, (参考訳) ビデオの試行は、その膨大な現実世界の潜在能力にとって有望な分野だ。 これまでの作品では、製品服のイメージを単純なポーズと背景のある人称ビデオに転送することしかできず、カジュアルに撮られたビデオではパフォーマンスが劣っている。 最近Soraは、現実のシナリオを特徴とするライフライクなビデオを生成するために、Diffusion Transformer(DiT)のスケーラビリティを明らかにした。 そこで本研究では,VITON-DiT という,Diton-DiT ベースのビデオ試用フレームワークを試作し,提案する。 具体的には、VITON-DiTは、衣服抽出器、空間-テンポラル denoising DiT、アイデンティティ保存制御ネットから構成される。 衣服の詳細を忠実に回収するために、抽出した衣服特徴を、装飾用DiTと制御ネットの自己注意出力と融合させる。 また、トレーニング中の新しいランダム選択戦略と、長いビデオ生成を容易にするために、推論時に補間自己回帰(IAR)技術を導入する。 VITON-DiTは、ペアリングされたトレーニングデータセットの厳格で制限的な構築を必要とする既存の試みとは異なり、不自由な人間のダンスビデオと慎重に設計されたマルチステージトレーニング戦略にのみ依存することで、そのスケーラビリティを著しく制限する。 さらに,カジュアルなビデオトライオンの性能を評価するために,挑戦的なベンチマークデータセットをキュレートする。 広汎な実験は、複雑な人間のポーズをともなう映像の時空間一貫した試行結果を生成する上で、VITON-DiTの優位性を実証している。

Video try-on stands as a promising area for its tremendous real-world potential. Prior works are limited to transferring product clothing images onto person videos with simple poses and backgrounds, while underperforming on casually captured videos. Recently, Sora revealed the scalability of Diffusion Transformer (DiT) in generating lifelike videos featuring real-world scenarios. Inspired by this, we explore and propose the first DiT-based video try-on framework for practical in-the-wild applications, named VITON-DiT. Specifically, VITON-DiT consists of a garment extractor, a Spatial-Temporal denoising DiT, and an identity preservation ControlNet. To faithfully recover the clothing details, the extracted garment features are fused with the self-attention outputs of the denoising DiT and the ControlNet. We also introduce novel random selection strategies during training and an Interpolated Auto-Regressive (IAR) technique at inference to facilitate long video generation. Unlike existing attempts that require the laborious and restrictive construction of a paired training dataset, severely limiting their scalability, VITON-DiT alleviates this by relying solely on unpaired human dance videos and a carefully designed multi-stage training strategy. Furthermore, we curate a challenging benchmark dataset to evaluate the performance of casual video try-on. Extensive experiments demonstrate the superiority of VITON-DiT in generating spatio-temporal consistent try-on results for in-the-wild videos with complicated human poses.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# FUSU:きめ細かい都市セマンティック理解のための多時期的土地利用変化セグメンテーションデータセット

FUSU: A Multi-temporal-source Land Use Change Segmentation Dataset for Fine-grained Urban Semantic Understanding ( http://arxiv.org/abs/2405.19055v3 )

ライセンス: Link先を確認
Shuai Yuan, Guancong Lin, Lixian Zhang, Runmin Dong, Jinxiao Zhang, Shuang Chen, Juepeng Zheng, Jie Wang, Haohuan Fu, (参考訳) 都市部における人間と環境の相互作用を理解するためには,マルチ時間リモートセンシング画像を用いた都市変化セグメンテーションが不可欠である。 都市景観の物理的特徴を明らかにする高品質な土地被覆データセットは進歩してきたが、きめ細かい土地利用データセットの欠如は、景観にまたがる人間の活動がどのように分布し、これらの活動が環境に与える影響について深い理解を妨げ、適切な技術開発を妨げている。 そこで本稿では,都市セマンティック理解のための土地利用変化セグメンテーションデータセットであるFUSUを紹介する。 FUSUは、これまでで最も詳細な土地利用分類システムであり、17のクラスと300億ピクセルのアノテーションがある。 中国南部と北部の5都市にまたがる847 km^2の地中距離0.2-0.5mの2時間高解像度衛星画像と月々の光学・レーダー衛星時系列を含む。 微粒な土地利用のピクセルワイドアノテーションと高時空間分解データにより、人間の活動と都市化に関する文脈的洞察を提供する適切な深層学習モデルを開発するための堅牢な基盤を提供する。 FUSUをフル活用するために、変更検出とセグメント化の両方に統一された時系列アーキテクチャを提案する。 いくつかのタスクに対して様々なメソッドでFUSUをベンチマークする。 データセットとコードは、https://github.com/yuanshuai0914/FUSU.comで入手できる。

Fine urban change segmentation using multi-temporal remote sensing images is essential for understanding human-environment interactions in urban areas. Although there have been advances in high-quality land cover datasets that reveal the physical features of urban landscapes, the lack of fine-grained land use datasets hinders a deeper understanding of how human activities are distributed across the landscape and the impact of these activities on the environment, thus constraining proper technique development. To address this, we introduce FUSU, the first fine-grained land use change segmentation dataset for Fine-grained Urban Semantic Understanding. FUSU features the most detailed land use classification system to date, with 17 classes and 30 billion pixels of annotations. It includes bi-temporal high-resolution satellite images with 0.2-0.5 m ground sample distance and monthly optical and radar satellite time series, covering 847 km^2 across five urban areas in the southern and northern of China with different geographical features. The fine-grained land use pixel-wise annotations and high spatial-temporal resolution data provide a robust foundation for developing proper deep learning models to provide contextual insights on human activities and urbanization. To fully leverage FUSU, we propose a unified time-series architecture for both change detection and segmentation. We benchmark FUSU on various methods for several tasks. Dataset and code are available at: https://github.com/yuanshuai0914/FUSU.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# 道路利用者の脆弱性検出と安全性向上に関する総合調査

Vulnerable Road User Detection and Safety Enhancement: A Comprehensive Survey ( http://arxiv.org/abs/2405.19202v2 )

ライセンス: Link先を確認
Renato M. Silva, Gregório F. Azevedo, Matheus V. V. Berto, Jean R. Rocha, Eduardo C. Fidelis, Matheus V. Nogueira, Pedro H. Lisboa, Tiago A. Almeida, (参考訳) 脆弱な道路利用者(VRU)を含む交通事故は、世界的な道路事故のかなりの割合を占める。 交通通信エコシステムの進歩と高度な信号処理と機械学習技術が組み合わさって、多様なセンサーからのデータの活用を促進している。 これらの進歩と広範囲なデータセットが利用可能であるにもかかわらず、交通事故の軽減にはかなりの進歩が必要である。 本稿では,VRUの安全性を高めるための最先端技術と方法論を包括的に調査する。 この研究は、車両とVRU間の通信ネットワークを掘り下げ、高度なセンサーの統合と関連するデータセットの可用性を強調した。 センサデータ品質を向上させるために,前処理技術とデータ融合手法を検討する。 さらに,VRUの安全性システムを開発・テストするための重要なシミュレーション環境について検討した。 また,VRU検出および分類アルゴリズムの最近の進歩に注目し,環境条件の変化といった課題に対処する。 さらに,VRUの意図や行動を予測するための最先端の研究についても取り上げる。 本調査を通じて,VRUの安全性技術の現状を包括的に把握し,さらなる研究・開発を必要としている分野や分野を特定することを目的としている。

Traffic incidents involving vulnerable road users (VRUs) constitute a significant proportion of global road accidents. Advances in traffic communication ecosystems, coupled with sophisticated signal processing and machine learning techniques, have facilitated the utilization of data from diverse sensors. Despite these advancements and the availability of extensive datasets, substantial progress is required to mitigate traffic casualties. This paper provides a comprehensive survey of state-of-the-art technologies and methodologies to enhance the safety of VRUs. The study delves into the communication networks between vehicles and VRUs, emphasizing the integration of advanced sensors and the availability of relevant datasets. It explores preprocessing techniques and data fusion methods to enhance sensor data quality. Furthermore, our study assesses critical simulation environments essential for developing and testing VRU safety systems. Our research also highlights recent advances in VRU detection and classification algorithms, addressing challenges such as variable environmental conditions. Additionally, we cover cutting-edge research in predicting VRU intentions and behaviors, which is crucial for proactive collision avoidance strategies. Through this survey, we aim to provide a comprehensive understanding of the current landscape of VRU safety technologies, identifying areas of progress and areas needing further research and development.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# データ解釈可能性と特徴選択のための部分的情報分解

Partial Information Decomposition for Data Interpretability and Feature Selection ( http://arxiv.org/abs/2405.19212v2 )

ライセンス: Link先を確認
Charles Westphal, Stephen Hailes, Mirco Musolesi, (参考訳) 本稿では,データの同時解釈と特徴選択のための新しいパラダイムであるPIDF(Partial Information Decomposition of Features)を紹介する。 単一の重要値を割り当てる従来の手法とは対照的に,我々のアプローチは,対象変数と共有される相互情報,相乗的情報に対する特徴の寄与,冗長な情報の量という,特徴ごとに3つの指標に基づいています。 特に,これら3つの指標に基づく新しい手法を開発し,特徴が対象とどのように関連しているかだけでなく,他の特徴と組み合わせて検討することで得られる付加的・重複的な情報も明らかにする。 我々は、遺伝学と神経科学のケーススタディを考慮し、人工データと実世界のデータの両方を用いてPIDFを広範囲に評価し、その可能性と効果を実証した。

In this paper, we introduce Partial Information Decomposition of Features (PIDF), a new paradigm for simultaneous data interpretability and feature selection. Contrary to traditional methods that assign a single importance value, our approach is based on three metrics per feature: the mutual information shared with the target variable, the feature's contribution to synergistic information, and the amount of this information that is redundant. In particular, we develop a novel procedure based on these three metrics, which reveals not only how features are correlated with the target but also the additional and overlapping information provided by considering them in combination with other features. We extensively evaluate PIDF using both synthetic and real-world data, demonstrating its potential applications and effectiveness, by considering case studies from genetics and neuroscience.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# バイト型ニューラルネットワーク翻訳のためのマルチスケールコンテキスト情報の統合

Integrating Multi-scale Contextualized Information for Byte-based Neural Machine Translation ( http://arxiv.org/abs/2405.19290v2 )

ライセンス: Link先を確認
Langlin Huang, Yang Feng, (参考訳) サブワードトークン化はニューラル機械翻訳(NMT)モデルにおける語彙構築の一般的な方法である。 しかし、ますます複雑なタスクは、その欠点を明らかにしている。 第一に、語彙は一度学習されると変更できず、新しい単語への適応が困難になる。 第二に、多言語翻訳では、異なる言語にまたがるデータボリュームの不均衡が語彙に広がり、低リソース言語を含む翻訳が悪化する。 バイトベースのトークン化はこれらの問題に対処するが、バイトベースのモデルはUTF-8のバイト列に固有の低情報密度に悩まされる。 事前の作業は、局所的なコンテキスト化を通じてトークンセマンティクスを強化するが、入力に基づいて適切なコンテキスト化スコープを選択することに失敗する。 そこで本研究では,異なる隠れ状態次元の様々なスケールのコンテキスト化情報を学習するマルチスケールコンテキスト化(MSC)手法を提案する。 次に、アテンションモジュールを利用して、マルチスケールのコンテキスト化情報を動的に統合する。 実験により、MSCはサブワードベースおよび他のバイトベースの手法を多言語およびドメイン外のシナリオで大幅に上回っていることが示された。 コードはhttps://github.com/ictnlp/Multiscale-Contextualizationにある。

Subword tokenization is a common method for vocabulary building in Neural Machine Translation (NMT) models. However, increasingly complex tasks have revealed its disadvantages. First, a vocabulary cannot be modified once it is learned, making it hard to adapt to new words. Second, in multilingual translation, the imbalance in data volumes across different languages spreads to the vocabulary, exacerbating translations involving low-resource languages. While byte-based tokenization addresses these issues, byte-based models struggle with the low information density inherent in UTF-8 byte sequences. Previous works enhance token semantics through local contextualization but fail to select an appropriate contextualizing scope based on the input. Consequently, we propose the Multi-Scale Contextualization (MSC) method, which learns contextualized information of varying scales across different hidden state dimensions. It then leverages the attention module to dynamically integrate the multi-scale contextualized information. Experiments show that MSC significantly outperforms subword-based and other byte-based methods in both multilingual and out-of-domain scenarios. Code can be found in https://github.com/ictnlp/Multiscale-Contextualization.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# 大規模視覚言語モデルのためのMathryoshka Query Transformer

Matryoshka Query Transformer for Large Vision-Language Models ( http://arxiv.org/abs/2405.19315v2 )

ライセンス: Link先を確認
Wenbo Hu, Zi-Yi Dou, Liunian Harold Li, Amita Kamath, Nanyun Peng, Kai-Wei Chang, (参考訳) LVLM(Large Vision-Language Models)は通常、画像を一定数の視覚トークン(例:576)にエンコードし、言語モデルでこれらのトークンを処理する。 強い性能にもかかわらず、LVLMは様々な計算制約に適応する上で困難に直面している。 異なるタスクや計算リソースに合うように、視覚トークンの数で柔軟性を達成できますか? 私たちはこれを強調して答える。 本研究では,Materyoshka Query Transformer (MQT) を導入し,m が最大値まで任意の数になるような推論中に,画像を m の視覚トークンにエンコードする手法を提案する。 これは、M遅延クエリトークンを持つクエリトランスフォーマーを使用して、視覚的な埋め込みを圧縮することで実現される。 各トレーニングステップでは、m <= M 遅延クエリトークンをランダムに選択し、これらの最初の m トークンのみを使用してモデルをトレーニングし、残りを破棄する。 MQTとLLaVAを組み合わせることで、単一のモデルを一度にトレーニングし、各トークン数の独立したモデルをトレーニングするのに比べて、同様のあるいは優れたパフォーマンスを維持しながら、推論時の視覚トークンの数を柔軟かつ劇的に削減します。 MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。 トークンを16個(TFLOPを8倍少なくする)に減らすと、MMBenchでは2.4ポイントしかパフォーマンスを犠牲にしません。 ScienceQAやMMMUのようなタスクでは、パフォーマンスが3%と6%の2つの視覚トークンにダウンすることも可能です。 視覚トークンの数によって引き起こされる精度と計算コストのトレードオフを探索することで、将来の研究が両世界のベストを達成するのに役立つ。

Large Vision-Language Models (LVLMs) typically encode an image into a fixed number of visual tokens (e.g., 576) and process these tokens with a language model. Despite their strong performance, LVLMs face challenges in adapting to varying computational constraints. This raises the question: can we achieve flexibility in the number of visual tokens to suit different tasks and computational resources? We answer this with an emphatic yes. Inspired by Matryoshka Representation Learning, we introduce the Matryoshka Query Transformer (MQT), capable of encoding an image into m visual tokens during inference, where m can be any number up to a predefined maximum. This is achieved by employing a query transformer with M latent query tokens to compress the visual embeddings. During each training step, we randomly select m <= M latent query tokens and train the model using only these first m tokens, discarding the rest. Combining MQT with LLaVA, we train a single model once, and flexibly and drastically reduce the number of inference-time visual tokens while maintaining similar or better performance compared to training independent models for each number of tokens. Our model, MQT-LLAVA, matches LLaVA-1.5 performance across 11 benchmarks using a maximum of 256 tokens instead of LLaVA's fixed 576. Reducing to 16 tokens (8x less TFLOPs) only sacrifices the performance by 2.4 points on MMBench. On certain tasks such as ScienceQA and MMMU, we can even go down to only 2 visual tokens with performance drops of just 3% and 6% each. Our exploration of the trade-off between the accuracy and computational cost brought about by the number of visual tokens facilitates future research to achieve the best of both worlds.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# 私のデータは検索データベースにあるか? : 検索世代に対する会員推測攻撃

Is My Data in Your Retrieval Database? Membership Inference Attacks Against Retrieval Augmented Generation ( http://arxiv.org/abs/2405.20446v2 )

ライセンス: Link先を確認
Maya Anderson, Guy Amit, Abigail Goldsteen, (参考訳) Retrieval Augmented Generation (RAG) システムは自然言語処理において大きな可能性を秘めている。 しかし、プロプライエタリまたはセンシティブな情報を含む検索データベースに格納されたデータへの依存は、新たなプライバシー上の懸念をもたらす。 具体的には、攻撃者は、RAGシステムの出力を観察して、あるテキストパスが検索データベースに現れるかどうかを推測することができる。 この脅威の重要性にもかかわらず、RAGシステムに対するMIAはまだ未調査のままである。 本研究では、RAGシステムに対してMIAを実行するための効率的で使いやすい手法を導入することにより、このギャップを解消する。 2つのベンチマークデータセットと複数の生成モデルを用いて攻撃の有効性を実証し、ブラックボックスとグレーボックスの両方の設定において適切なプロンプトを作成することによって、検索データベース内の文書のメンバシップを効率的に決定できることを示した。 さらに,RAGテンプレートに命令を追加することで,いくつかのデータセットやモデルに対して高い有効性を示す初期防衛戦略を導入する。 本研究は,RAGシステムにおけるセキュリティ対策の実施の重要性と,検索データベースのプライバシとセキュリティを保護するために,より高度な防御を開発することの重要性を強調した。

Retrieval Augmented Generation (RAG) systems have shown great promise in natural language processing. However, their reliance on data stored in a retrieval database, which may contain proprietary or sensitive information, introduces new privacy concerns. Specifically, an attacker may be able to infer whether a certain text passage appears in the retrieval database by observing the outputs of the RAG system, an attack known as a Membership Inference Attack (MIA). Despite the significance of this threat, MIAs against RAG systems have yet remained under-explored. This study addresses this gap by introducing an efficient and easy-to-use method for conducting MIA against RAG systems. We demonstrate the effectiveness of our attack using two benchmark datasets and multiple generative models, showing that the membership of a document in the retrieval database can be efficiently determined through the creation of an appropriate prompt in both black-box and gray-box settings. Moreover, we introduce an initial defense strategy based on adding instructions to the RAG template, which shows high effectiveness for some datasets and models. Our findings highlight the importance of implementing security countermeasures in deployed RAG systems and developing more advanced defenses to protect the privacy and security of retrieval databases.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# DepsRAG: 大規模言語モデルによるソフトウェア依存の管理

DepsRAG: Towards Managing Software Dependencies using Large Language Models ( http://arxiv.org/abs/2405.20455v3 )

ライセンス: Link先を確認
Mohannad Alhanahnah, Yazan Boshmaf, Benoit Baudry, (参考訳) ソフトウェア依存関係の管理は、ソフトウェア開発において重要なメンテナンスタスクであり、特にソフトウェアサプライチェーン攻撃の著しい増加を背景に、急速に成長する研究分野となっている。 依存関係を完全に理解し、依存関係に関する隠れたプロパティ(例えば、依存関係の数、依存関係チェーン、依存関係の深さ)を明らかにするためには、専門的な専門知識と実質的な開発者の努力が必要だ。 近年のLarge Language Models (LLM) の進歩により、様々なデータソースから情報を検索して応答生成が可能となり、ソフトウェア依存をユニークに管理する新たな機会が提供される。 この技術の可能性を強調するために,4つの人気ソフトウェアエコシステムにおいて,ソフトウェアパッケージの直接的かつ推移的な依存関係を知識グラフ(KG)として構築する,概念検索拡張生成(RAG)の実証手法である–\toolを提案する。 DepsRAGは、KGから情報を取得するために必要なクエリを自動的に生成し、取得した情報でLLMの入力を増強することで、ソフトウェアの依存関係に関するユーザの質問に答えることができる。 DepsRAGはまた、LLMがKGを介して直接答えられないような質問に答えるためにWebサーチを実行することもできる。 DepsRAGが提供できる具体的なメリットを特定し、その制限について議論する。

Managing software dependencies is a crucial maintenance task in software development and is becoming a rapidly growing research field, especially in light of the significant increase in software supply chain attacks. Specialized expertise and substantial developer effort are required to fully comprehend dependencies and reveal hidden properties about the dependencies (e.g., number of dependencies, dependency chains, depth of dependencies). Recent advancements in Large Language Models (LLMs) allow the retrieval of information from various data sources for response generation, thus providing a new opportunity to uniquely manage software dependencies. To highlight the potential of this technology, we present~\tool, a proof-of-concept Retrieval Augmented Generation (RAG) approach that constructs direct and transitive dependencies of software packages as a Knowledge Graph (KG) in four popular software ecosystems. DepsRAG can answer user questions about software dependencies by automatically generating necessary queries to retrieve information from the KG, and then augmenting the input of LLMs with the retrieved information. DepsRAG can also perform Web search to answer questions that the LLM cannot directly answer via the KG. We identify tangible benefits that DepsRAG can offer and discuss its limitations.
翻訳日:2024-06-10 18:58:44 公開日:2024-06-07
# DORY: LLMのリベラル・プロンプト・リカバリ

DORY: Deliberative Prompt Recovery for LLM ( http://arxiv.org/abs/2405.20657v2 )

ライセンス: Link先を確認
Lirong Gao, Ru Peng, Yiming Zhang, Junbo Zhao, (参考訳) 大規模言語モデル(LLM)のプロンプトリカバリは、LLMの動作方法を理解し、プライバシや著作権などに関する懸念に対処するために不可欠である。 推論のみのAPIへのトレンドは、リカバリに必要なアウトプットへのアクセスを制限することで、このタスクを複雑にしている。 この課題に対処するため、限られた出力からプロンプト関連情報を抽出し、出力確率に基づく不確実性とプロンプト回復の成功との強い(負の)相関を同定する。 この発見は、不確実性を利用してプロンプトを正確に回収する新しいアプローチであるDeliberative PrOmpt Recovery (DORY)の開発につながった。 DORYは出力からのドラフトを再構築し、ヒントでそれらを精製し、不確実性に基づいてノイズを除去する。 多様なLCMとプロンプトベンチマークによる評価の結果,DORYは既存のベースラインより優れ,約10.82%向上し,回復作業の迅速化のために新たな最先端記録を樹立した。 重要なことは、DORYは外部リソースやモデルなしで単一のLLMを使用しており、費用対効果が高く、ユーザフレンドリな迅速な回復ソリューションを提供する。

Prompt recovery in large language models (LLMs) is crucial for understanding how LLMs work and addressing concerns regarding privacy, copyright, etc. The trend towards inference-only APIs complicates this task by restricting access to essential outputs for recovery. To tackle this challenge, we extract prompt-related information from limited outputs and identify a strong(negative) correlation between output probability-based uncertainty and the success of prompt recovery. This finding led to the development of Deliberative PrOmpt RecoverY (DORY), our novel approach that leverages uncertainty to recover prompts accurately. DORY involves reconstructing drafts from outputs, refining these with hints, and filtering out noise based on uncertainty. Our evaluation across diverse LLMs and prompt benchmarks shows that DORY outperforms existing baselines, improving performance by approximately 10.82% and establishing a new state-of-the-art record in prompt recovery tasks. Significantly, DORY operates using a single LLM without any external resources or model, offering a cost-effective, user-friendly prompt recovery solution.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-07
# 拡散モデルは本質的に1ステップの発電機である

Diffusion Models Are Innate One-Step Generators ( http://arxiv.org/abs/2405.20750v2 )

ライセンス: Link先を確認
Bowen Zheng, Tianming Yang, (参考訳) 拡散モデル(DM)は画像生成や他の分野で大きな成功を収めた。 SDE/ODEソルバによって定義された軌道を、よく訓練されたスコアモデルに基づいて微細にサンプリングすることで、DMは驚くほど高品質な結果が得られる。 しかし、この正確なサンプリングは、しばしば複数のステップを必要とし、計算的に要求される。 この問題を解決するために、より単純な学生モデルでより複雑な教師モデルを模倣することにより、DMから一段階の発電機を蒸留するインスタンスベースの蒸留法が提案されている。 しかし,本研究では,教師モデルに固有の制約が明らかにされている: 生徒モデルと生徒モデルとの違いにより,生徒モデルが教師モデルを再現しようとする場合,教師モデルが異なる局所的ミニマを占有する。 この問題を回避するため, 排他的分散損失を用いた新しい分散蒸留法を提案する。 この方法は、トレーニングイメージを著しく少なくしながら、最先端のSOTA(State-of-the-art)結果を上回る。 さらに、DMの層は異なる時間ステップで差動活性化され、単一のステップで画像を生成する固有の能力がもたらされることを示す。 分散蒸留におけるDMの畳み込み層の大半を凍結することにより、この本質的な能力が可能となり、さらなる性能向上につながる。 提案手法は, CIFAR-10 (FID 1.54), AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85), ImageNet 64x64 (FID 1.16) のSOTA結果を効率よく達成する。 これらの結果のほとんどは、A100GPU8台で6時間以内に500万のトレーニングイメージで得られます。

Diffusion Models (DMs) have achieved great success in image generation and other fields. By fine sampling through the trajectory defined by the SDE/ODE solver based on a well-trained score model, DMs can generate remarkable high-quality results. However, this precise sampling often requires multiple steps and is computationally demanding. To address this problem, instance-based distillation methods have been proposed to distill a one-step generator from a DM by having a simpler student model mimic a more complex teacher model. Yet, our research reveals an inherent limitations in these methods: the teacher model, with more steps and more parameters, occupies different local minima compared to the student model, leading to suboptimal performance when the student model attempts to replicate the teacher. To avoid this problem, we introduce a novel distributional distillation method, which uses an exclusive distributional loss. This method exceeds state-of-the-art (SOTA) results while requiring significantly fewer training images. Additionally, we show that DMs' layers are differentially activated at different time steps, leading to an inherent capability to generate images in a single step. Freezing most of the convolutional layers in a DM during distributional distillation enables this innate capability and leads to further performance improvements. Our method achieves the SOTA results on CIFAR-10 (FID 1.54), AFHQv2 64x64 (FID 1.23), FFHQ 64x64 (FID 0.85) and ImageNet 64x64 (FID 1.16) with great efficiency. Most of those results are obtained with only 5 million training images within 6 hours on 8 A100 GPUs.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-07
# CoMoFusion: 一貫性モデルによる赤外線と可視画像の高速かつ高品質な融合

CoMoFusion: Fast and High-quality Fusion of Infrared and Visible Image with Consistency Model ( http://arxiv.org/abs/2405.20764v2 )

ライセンス: Link先を確認
Zhiming Meng, Hui Li, Zeyang Zhang, Zhongwei Shen, Yunlong Yu, Xiaoning Song, Xiaojun Wu, (参考訳) 生成モデルは、赤外線および可視画像融合の分野における融合画像の分布をモデル化するために広く利用されている。 しかし、現在の生成モデルに基づく融合法は、しばしば不安定なトレーニングと遅い推論速度に悩まされる。 この問題を解決するために,CoMoFusionと呼ばれる一貫性モデルに基づく新しい融合法を提案し,高品質な画像を生成し,高速な画像推論を実現する。 具体的には、整合性モデルは、前と逆のプロセスで潜在空間に多重モードのジョイント特徴を構築するのに使用される。 そして、トレーニングされた一貫性モデルによって抽出された赤外および可視の特徴を融合モジュールに供給し、最終融合画像を生成する。 また、融合した画像のテクスチャや鮮やかな情報を高めるために、画素値選択に基づく新規な損失も設計する。 公開データセットに対する大規模な実験により,既存の融合法と比較してSOTA融合性能が向上したことを示す。

Generative models are widely utilized to model the distribution of fused images in the field of infrared and visible image fusion. However, current generative models based fusion methods often suffer from unstable training and slow inference speed. To tackle this problem, a novel fusion method based on consistency model is proposed, termed as CoMoFusion, which can generate the high-quality images and achieve fast image inference speed. In specific, the consistency model is used to construct multi-modal joint features in the latent space with the forward and reverse process. Then, the infrared and visible features extracted by the trained consistency model are fed into fusion module to generate the final fused image. In order to enhance the texture and salient information of fused images, a novel loss based on pixel value selection is also designed. Extensive experiments on public datasets illustrate that our method obtains the SOTA fusion performance compared with the existing fusion methods.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-07
# 間欠的不公平発見

Intersectional Unfairness Discovery ( http://arxiv.org/abs/2405.20790v3 )

ライセンス: Link先を確認
Gezheng Xu, Qi Chen, Charles Ling, Boyu Wang, Changjian Shui, (参考訳) AIシステムは、特定の集団のサブグループに対して不公平な結果をもたらすことが示されており、特定のセンシティブな属性に対するバイアスを理解する必要性を強調している。 現在の研究は、主に単一の感度属性を特徴とする部分群に焦点をあてる一方で、複数の感度属性の交叉フェアネスの性質を無視する。 本稿では,多種多様なハイバイアス部分群を交叉感度特性下で発見することによって,その1つの基本的側面に焦点をあてる。 具体的には,Bias-Guided Generative Network (BGGN)を提案する。 各バイアス値を報酬として扱うことにより、BGGNは高バイアス交叉感度特性を効率よく生成する。 実世界のテキストと画像データセットの実験では、BGGNの多様性と効率的な発見が示されている。 生成した不明瞭で不公平な交差性のある属性を更に評価するために、我々はそれらをプロンプトとして定式化し、近代的な生成AIを使って新しいテキストや画像を生成する。 バイアス付きデータを頻繁に生成する結果は、人気のある近代的生成AIシステムにおける潜在的な不公平性を発見するための新たな洞察を提供する。 警告:本論文は、自然に有害な生成例を含む。

AI systems have been shown to produce unfair results for certain subgroups of population, highlighting the need to understand bias on certain sensitive attributes. Current research often falls short, primarily focusing on the subgroups characterized by a single sensitive attribute, while neglecting the nature of intersectional fairness of multiple sensitive attributes. This paper focuses on its one fundamental aspect by discovering diverse high-bias subgroups under intersectional sensitive attributes. Specifically, we propose a Bias-Guided Generative Network (BGGN). By treating each bias value as a reward, BGGN efficiently generates high-bias intersectional sensitive attributes. Experiments on real-world text and image datasets demonstrate a diverse and efficient discovery of BGGN. To further evaluate the generated unseen but possible unfair intersectional sensitive attributes, we formulate them as prompts and use modern generative AI to produce new texts and images. The results of frequently generating biased data provides new insights of discovering potential unfairness in popular modern generative AI systems. Warning: This paper contains generative examples that are offensive in nature.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-07
# マルチチェンジキャプションのためのコンテキスト認識差分蒸留

Context-aware Difference Distilling for Multi-change Captioning ( http://arxiv.org/abs/2405.20810v2 )

ライセンス: Link先を確認
Yunbin Tu, Liang Li, Li Su, Zheng-Jun Zha, Chenggang Yan, Qingming Huang, (参考訳) マルチチェンジキャプションは、自然言語でイメージペア内の複雑で結合的な変化を記述することを目的としている。 単一変更キャプションと比較して、このタスクは任意の数の変更を推論する高いレベルの認知能力を必要とする。 本稿では,文の収量に対する真の変化をすべて捉えるために,新しい文脈対応差分蒸留(CARD)ネットワークを提案する。 イメージペアが与えられた後、CARDはコンテキスト機能を最初に分離し、共通/異なるコンテキスト機能と呼ばれる、すべての類似/異種セマンティクスを集約する。 そして、一貫性と独立性の制約は、共通/異なるコンテキスト特徴のアライメント/差分性を保証するように設計されます。 さらに、共通コンテキスト特徴は、局所的に変化しない特徴を抽出し、その特徴を局所的な差分特徴を抽出するためにペアから抽出する。 次に、差分コンテキストの特徴は、すべての変更が蒸留されることを保証するために、局所的な差分特徴を増大させる。 このようにして、変換器デコーダによって言語文に変換される全ての変化の総称表現を得る。 3つの公開データセットに関する大規模な実験は、CARDが最先端のメソッドに対して好意的に動作することを示している。コードはhttps://github.com/tuyunbin/CARDで公開されている。

Multi-change captioning aims to describe complex and coupled changes within an image pair in natural language. Compared with single-change captioning, this task requires the model to have higher-level cognition ability to reason an arbitrary number of changes. In this paper, we propose a novel context-aware difference distilling (CARD) network to capture all genuine changes for yielding sentences. Given an image pair, CARD first decouples context features that aggregate all similar/dissimilar semantics, termed common/difference context features. Then, the consistency and independence constraints are designed to guarantee the alignment/discrepancy of common/difference context features. Further, the common context features guide the model to mine locally unchanged features, which are subtracted from the pair to distill locally difference features. Next, the difference context features augment the locally difference features to ensure that all changes are distilled. In this way, we obtain an omni-representation of all changes, which is translated into linguistic sentences by a transformer decoder. Extensive experiments on three public datasets show CARD performs favourably against state-of-the-art methods.The code is available at https://github.com/tuyunbin/CARD.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-07
# 主抑うつ障害同定のための拡張型非教師付きクロスドメイン機能MRI適応

Augmentation-based Unsupervised Cross-Domain Functional MRI Adaptation for Major Depressive Disorder Identification ( http://arxiv.org/abs/2406.00085v2 )

ライセンス: Link先を確認
Yunling Ma, Chaojun Zhang, Xiaochuan Wang, Qianqian Wang, Liang Cao, Limei Zhang, Mingxia Liu, (参考訳) メジャー・うつ病(Major depressive disorder、MDD)は、一般的に人の気分、認知、行動、身体的健康に影響を及ぼす一般的な精神障害である。 静止状態機能型MRI(rs-fMRI)はMDDのコンピュータ診断に広く用いられている。 マルチサイトfMRIデータは、信頼性のある診断モデルのトレーニングのためにより多くのデータを提供することができるが、重要なクロスサイトデータの異質性は、モデルの一般化性を低下させる。 多くのドメイン適応法は、サイト間の分布差をある程度低減するために設計されているが、通常、ソースドメイン上のモデルの過度な適合問題を無視する。 直感的には、ターゲットデータ拡張は、モデルにより一般化された特徴を学習させ、ソースドメインデータへの依存を減らすことで、オーバーフィッティング問題を緩和することができる。 本研究では,MDDの自動診断のための拡張型非教師なしクロスドメインfMRI適応(AUFA)フレームワークを提案する。 AUFAは 1)空間的注意を払ってrs-fMRI特徴を抽出するグラフ表現学習モジュール。 2 ソースデータとターゲットデータとの間の特徴整合のためのドメイン適応モジュール 3)ソースドメイン上のモデルオーバーフィッティングを緩和するための拡張ベースの自己最適化モジュール。 4)分類モジュール。 1,089人の被験者に対する実験結果から、AUFAはMDDの同定においていくつかの最先端の手法より優れていることが示唆された。 提案手法は, 異なる部位間のデータの均一性を低下させるだけでなく, 疾患関連機能的接続異常の局在化や, モデルに対する解釈可能性も提供する。

Major depressive disorder (MDD) is a common mental disorder that typically affects a person's mood, cognition, behavior, and physical health. Resting-state functional magnetic resonance imaging (rs-fMRI) data are widely used for computer-aided diagnosis of MDD. While multi-site fMRI data can provide more data for training reliable diagnostic models, significant cross-site data heterogeneity would result in poor model generalizability. Many domain adaptation methods are designed to reduce the distributional differences between sites to some extent, but usually ignore overfitting problem of the model on the source domain. Intuitively, target data augmentation can alleviate the overfitting problem by forcing the model to learn more generalized features and reduce the dependence on source domain data. In this work, we propose a new augmentation-based unsupervised cross-domain fMRI adaptation (AUFA) framework for automatic diagnosis of MDD. The AUFA consists of 1) a graph representation learning module for extracting rs-fMRI features with spatial attention, 2) a domain adaptation module for feature alignment between source and target data, 3) an augmentation-based self-optimization module for alleviating model overfitting on the source domain, and 4) a classification module. Experimental results on 1,089 subjects suggest that AUFA outperforms several state-of-the-art methods in MDD identification. Our approach not only reduces data heterogeneity between different sites, but also localizes disease-related functional connectivity abnormalities and provides interpretability for the model.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-07
# InterpreTabNet:有意な特徴解釈による語彙データからの予測信号の蒸留

InterpreTabNet: Distilling Predictive Signals from Tabular Data by Salient Feature Interpretation ( http://arxiv.org/abs/2406.00426v2 )

ライセンス: Link先を確認
Jacob Si, Wendy Yusi Cheng, Michael Cooper, Rahul G. Krishnan, (参考訳) タブラルデータは、産業の様々な分野において一様である。 TabNetのような表データのためのニューラルネットワークは、解釈可能性の注意機構を活用しながら予測を行うために提案されている。 しかし、推定されたアテンションマスクはしばしば密集しており、予測信号について合理的に考えることは困難である。 そこで本研究では,注意機構をGumbel-Softmax分布からサンプリングした潜在変数としてモデル化したInterpreTabNetを提案する。 これにより、KLディバージェンス正規化器を用いて、注意マスクの異なる概念を学習できるようにモデルを正規化することができる。 モデルの有効性を最大化し、結果を予測する際に重要な特徴を決定するための解釈性を向上させることで、重複する特徴の選択を防止する。 モデルから特徴相互依存性の解釈を支援するため,大規模言語モデル(GPT-4)を用い,学習した特徴マスクから学習した信号を記述する自然言語テキストにプロンプトエンジニアリングを用いてマッピングする。 実世界のデータセットに関する総合的な実験を通じて、InterpreTabNetは、競合精度を確保しつつ、表形式のデータを解釈する従来の手法よりも優れていることを示す。

Tabular data are omnipresent in various sectors of industries. Neural networks for tabular data such as TabNet have been proposed to make predictions while leveraging the attention mechanism for interpretability. However, the inferred attention masks are often dense, making it challenging to come up with rationales about the predictive signal. To remedy this, we propose InterpreTabNet, a variant of the TabNet model that models the attention mechanism as a latent variable sampled from a Gumbel-Softmax distribution. This enables us to regularize the model to learn distinct concepts in the attention masks via a KL Divergence regularizer. It prevents overlapping feature selection by promoting sparsity which maximizes the model's efficacy and improves interpretability to determine the important features when predicting the outcome. To assist in the interpretation of feature interdependencies from our model, we employ a large language model (GPT-4) and use prompt engineering to map from the learned feature mask onto natural language text describing the learned signal. Through comprehensive experiments on real-world datasets, we demonstrate that InterpreTabNet outperforms previous methods for interpreting tabular data while attaining competitive accuracy.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-07
# シュレーディンガー橋の高架化工法と高架化工法-高架化工法と高架化工法

Schrödinger Bridge with Quadratic State Cost is Exactly Solvable ( http://arxiv.org/abs/2406.00503v2 )

ライセンス: Link先を確認
Alexis M. H. Teter, Wenqing Wang, Abhishek Halder, (参考訳) Schr\"odinger Bridge"は、所定の時間内に所定の分布を他人に操り、それを行う労力を最小限に抑える拡散過程である。 最適物質輸送の確率的力学バージョンと見なすことができ、生成拡散モデルや確率的最適制御にも応用が拡大している。 本研究では,2次状態のコスト・ツー・ゴーを用いたSchr\"odinger Bridgeの正規化変種を提案する。 従来のシュリンガー橋とは異なり、正規化は確率質量の殺しと生成の状態依存率を誘導し、その解は反応拡散偏微分方程式のマルコフ核を決定する必要がある。 このマルコフ核を閉形式で導出する。 我々の溶液は、消滅する正則化(すなわち、反応のない拡散)の限界の中で熱核を回収し、その結果、従来のシュリンガー橋の解を回収する。 この結果から,シュリンガー橋の動的シンクホーン再帰を2次状態のコスト・ツー・ゴーで計算することが可能となり,この設定では利用が困難となる。 我々は、新しいカーネルの性質を推論し、量子力学において、特定の解可能なモデルとの接続を説明する。

Schr\"odinger bridge is a diffusion process that steers a given distribution to another in a prescribed time while minimizing the effort to do so. It can be seen as the stochastic dynamical version of the optimal mass transport, and has growing applications in generative diffusion models and stochastic optimal control. In this work, we propose a regularized variant of the Schr\"odinger bridge with a quadratic state cost-to-go that incentivizes the optimal sample paths to stay close to a nominal level. Unlike the conventional Schr\"odinger bridge, the regularization induces a state-dependent rate of killing and creation of probability mass, and its solution requires determining the Markov kernel of a reaction-diffusion partial differential equation. We derive this Markov kernel in closed form. Our solution recovers the heat kernel in the vanishing regularization (i.e., diffusion without reaction) limit, thereby recovering the solution of the conventional Schr\"odinger bridge. Our results enable the use of dynamic Sinkhorn recursion for computing the Schr\"odinger bridge with a quadratic state cost-to-go, which would otherwise be challenging to use in this setting. We deduce properties of the new kernel and explain its connections with certain exactly solvable models in quantum mechanics.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-07
# 改良されたUAV検索・救助システムに関する研究

Research on an Autonomous UAV Search and Rescue System Based on the Improved ( http://arxiv.org/abs/2406.00504v2 )

ライセンス: Link先を確認
Haobin Chen, Junyu Tao, Bize Zhou, Xiaoyan Liu, (参考訳) この要求は、無人航空機(無人航空機)が自律的に動作し、複雑な未知の環境で探索や救助などの実用的な機能を実装するという問題を解決することである。 本稿では,EGO-Plannerアルゴリズムに基づく自律型検索・救助UAVシステムを提案する。これは,革新的なUAVボディー応用により改良され,UAVの全体的な飛行効率の向上とマシン全体の小型化を目的として,逆モータバックステッピング方式を採用している。 同時に、双方向A*アルゴリズムとオブジェクト検出アルゴリズムによって最適化されたEGO-Planner計画ツールも導入した。 インテリジェントな障害物回避と探索と救助の問題を解決する。 シミュレーションとフィールド検証の作業を通じて、従来のアルゴリズムと比較すると、タスクの効率性と信頼性が向上する。 さらに,既存のアルゴリズムの堅牢性の向上により,この応用は良好な見通しを示す。

The demand is to solve the issue of UAV (unmanned aerial vehicle) operating autonomously and implementing practical functions such as search and rescue in complex unknown environments. This paper proposes an autonomous search and rescue UAV system based on an EGO-Planner algorithm, which is improved by innovative UAV body application and takes the methods of inverse motor backstepping to enhance the overall flight efficiency of the UAV and miniaturization of the whole machine. At the same time, the system introduced the EGO-Planner planning tool, which is optimized by a bidirectional A* algorithm along with an object detection algorithm. It solves the issue of intelligent obstacle avoidance and search and rescue. Through the simulation and field verification work, and compared with traditional algorithms, this method shows more efficiency and reliability in the task. In addition, due to the existing algorithm's improved robustness, this application shows good prospection.
翻訳日:2024-06-10 18:49:00 公開日:2024-06-07
# AIオブザーバの作成: ジェネレーティブなセマンティックなワークスペース

Creating an AI Observer: Generative Semantic Workspaces ( http://arxiv.org/abs/2406.04555v1 )

ライセンス: Link先を確認
Pavan Holur, Shreyas Rajesh, David Chong, Vwani Roychowdhury, (参考訳) 犯罪報告のような文書を読む経験豊富な人間のオブザーバは、異なるアクター、その原型的役割と状態、相互作用に基づいた時間経過による進化、そして将来予測されるセマンティック部分の欠落のマップを含む簡潔なプロットのような$\textit{``Working Memory'}$を作成する。 現在、$\textit{An equivalent AI Observerは存在しない。 我々は$\textit{[G]}$enerative $\textbf{[S]}$emantic $\textbf{[W]}$orkspace (GSW) -- $\textit{``Operator'}$と$\textit{``Reconciler'}$ -- LLMの進歩を活用して生成スタイルのセマンティックフレームワークを作成する。 進行中の状況を記述したテキストセグメント$C_n$が与えられたら、$\textit{Operator}$はアクター中心のセマンティックマップをインスタンス化する( ``Workspace instance'' $\mathcal{W}_n$ と書く)。 $\textit{Reconciler}$は $\mathcal{W}_n$ と ``Working memory'' $\mathcal{M}_n^*$ の違いを解決し、更新された $\mathcal{M}_{n+1}^*$ を生成する。 GSWは、いくつかのタスク(FST、GLEN、BertSRL、Multi-sentence Semantics extract、$\sim 15\%$、NLI-BERT、$\sim 35\%$、QA)でよく知られたベースラインを上回ります。 GSWは、実際のオブザーバを反映することにより、個人の意図を理解し、将来の行動を予測できる空間コンピューティングアシスタントへの第一歩を提供する。

An experienced human Observer reading a document -- such as a crime report -- creates a succinct plot-like $\textit{``Working Memory''}$ comprising different actors, their prototypical roles and states at any point, their evolution over time based on their interactions, and even a map of missing Semantic parts anticipating them in the future. $\textit{An equivalent AI Observer currently does not exist}$. We introduce the $\textbf{[G]}$enerative $\textbf{[S]}$emantic $\textbf{[W]}$orkspace (GSW) -- comprising an $\textit{``Operator''}$ and a $\textit{``Reconciler''}$ -- that leverages advancements in LLMs to create a generative-style Semantic framework, as opposed to a traditionally predefined set of lexicon labels. Given a text segment $C_n$ that describes an ongoing situation, the $\textit{Operator}$ instantiates actor-centric Semantic maps (termed ``Workspace instance'' $\mathcal{W}_n$). The $\textit{Reconciler}$ resolves differences between $\mathcal{W}_n$ and a ``Working memory'' $\mathcal{M}_n^*$ to generate the updated $\mathcal{M}_{n+1}^*$. GSW outperforms well-known baselines on several tasks ($\sim 94\%$ vs. FST, GLEN, BertSRL - multi-sentence Semantics extraction, $\sim 15\%$ vs. NLI-BERT, $\sim 35\%$ vs. QA). By mirroring the real Observer, GSW provides the first step towards Spatial Computing assistants capable of understanding individual intentions and predicting future behavior.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-07
# 自然環境が身体活動に与える影響を全国で調査

Countrywide natural experiment reveals impact of built environment on physical activity ( http://arxiv.org/abs/2406.04557v1 )

ライセンス: Link先を確認
Tim Althoff, Boris Ivanovic, Jennifer L. Hicks, Scott L. Delp, Abby C. King, Jure Leskovec, (参考訳) 身体活動は人間の健康にとって重要であるが、ほとんどの人は推奨のガイドラインを満たしていない。 より歩行可能な建築環境は、人口全体の活動を増加させる可能性を秘めている。 しかし、建設環境と身体活動に関する以前の研究は、おそらく小さなコホート、少数の、または単一の場所、自己報告された尺度への過度な依存、断面設計などの方法論上の制限により、様々な発見を導いた。 ここでは、米国内のスマートフォン利用者(N=2,112,288)の大規模なコホートを利用して、1,609都市で248,266日間にわたって客観的に計測された身体活動の変化を評価する。 この自然実験の結果を分析することで、歩行性の増加は転居後の身体活動の著しい増加と関連していることがわかった(逆もまた)。 これらの変化は、性別、年齢、体重指数(BMI)のサブポピュレーションにまたがって保持され、移動後3カ月以上持続し、歩行可能な場所に移動した後に観察される活動は、主に中等から活力のある身体活動(MVPA)からなり、ライフコースの様々な健康上の利益に結びついている。 シミュレーション実験では、重要な歩行性の改善(すなわち、アメリカのすべての場所をシカゴやフィラデルフィアの歩行性レベルに導く)が、好気的身体活動ガイドラインに合うアメリカ人の10.3%ないし3300万人に繋がることを示した。 住宅の自己選択に反する証拠が報告されている。 本研究は, 健康増進の身体活動を直接的に改善する上で, 建設環境の重要性を裏付ける確固たる証拠を提供するとともに, 公共政策活動のガイダンスも提示する。

While physical activity is critical to human health, most people do not meet recommended guidelines. More walkable built environments have the potential to increase activity across the population. However, previous studies on the built environment and physical activity have led to mixed findings, possibly due to methodological limitations such as small cohorts, few or single locations, over-reliance on self-reported measures, and cross-sectional designs. Here, we address these limitations by leveraging a large U.S. cohort of smartphone users (N=2,112,288) to evaluate within-person longitudinal behavior changes that occurred over 248,266 days of objectively-measured physical activity across 7,447 relocations among 1,609 U.S. cities. By analyzing the results of this natural experiment, which exposed individuals to differing built environments, we find that increases in walkability are associated with significant increases in physical activity after relocation (and vice versa). These changes hold across subpopulations of different genders, age, and body-mass index (BMI), and are sustained over three months after moving.The added activity observed after moving to a more walkable location is predominantly composed of moderate-to-vigorous physical activity (MVPA), which is linked to an array of associated health benefits across the life course. A simulation experiment demonstrates that substantial walkability improvements (i.e., bringing all US locations to the walkability level of Chicago or Philadelphia) may lead to 10.3% or 33 million more Americans meeting aerobic physical activity guidelines. Evidence against residential self-selection confounding is reported. Our findings provide robust evidence supporting the importance of the built environment in directly improving health-enhancing physical activity, in addition to offering potential guidance for public policy activities in this area.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-07
# 制約付き最適化におけるラグランジュ乗算器更新のためのPI制御系について

On PI Controllers for Updating Lagrange Multipliers in Constrained Optimization ( http://arxiv.org/abs/2406.04558v1 )

ライセンス: Link先を確認
Motahareh Sohrabi, Juan Ramirez, Tianyue H. Zhang, Simon Lacoste-Julien, Jose Gallego-Posada, (参考訳) 制約付き最適化は、ニューラルネットワークモデルで望ましい振る舞いを規定する強力なフレームワークを提供する。 典型的には、制約された問題は、その min-max Lagrangian の定式化によって解決される。 機械学習コミュニティにおける制約付き最適化手法の採用は、現在、ラグランジュ乗算器に対する信頼性の高い汎用的な更新スキームの欠如によって制限されている。 本稿では、$\nu$PIアルゴリズムを提案し、PIコントローラに基づくラグランジュ乗算器更新の最適化に寄与し、Stooke, Achiam, Abbeel (2020) の作業を拡張した。 本稿では,勾配降下上昇の欠点に対処する運動量法が不可能であることを示す理論的,実証的な洞察を与えるとともに,提案した$\nu$PIコントローラの実証的な成功と対比する。 さらに、$\nu$PIは単目的最小化の一般的な運動量法を一般化することを証明している。 我々の実験は、$\nu$PIが乗算器の力学を確実に安定化させ、そのハイパーパラメータは堅牢で予測可能な振る舞いを享受することを示した。

Constrained optimization offers a powerful framework to prescribe desired behaviors in neural network models. Typically, constrained problems are solved via their min-max Lagrangian formulations, which exhibit unstable oscillatory dynamics when optimized using gradient descent-ascent. The adoption of constrained optimization techniques in the machine learning community is currently limited by the lack of reliable, general-purpose update schemes for the Lagrange multipliers. This paper proposes the $\nu$PI algorithm and contributes an optimization perspective on Lagrange multiplier updates based on PI controllers, extending the work of Stooke, Achiam and Abbeel (2020). We provide theoretical and empirical insights explaining the inability of momentum methods to address the shortcomings of gradient descent-ascent, and contrast this with the empirical success of our proposed $\nu$PI controller. Moreover, we prove that $\nu$PI generalizes popular momentum methods for single-objective minimization. Our experiments demonstrate that $\nu$PI reliably stabilizes the multiplier dynamics and its hyperparameters enjoy robust and predictable behavior.
翻訳日:2024-06-10 17:47:54 公開日:2024-06-07
# 部分的情報分解を用いたグループフェアネストレードオフの一考察

A Unified View of Group Fairness Tradeoffs Using Partial Information Decomposition ( http://arxiv.org/abs/2406.04562v1 )

ライセンス: Link先を確認
Faisal Hamman, Sanghamitra Dutta, (参考訳) 本稿では,機械学習における顕著なグループフェアネス概念,すなわち統計パリティ,等化オッズ,予測パリティの関係に関する新しい情報理論的視点を紹介する。 これらの3つの公正概念の同時充足性は通常不可能であり、実践者はこれらの定義の厳密な充足性よりも、近似フェアネス解に頼ることを動機付けている。 しかし、それらの相互関係の包括的分析、特にそれらが正確に満たされていない場合、ほとんど未解明のままである。 我々の主な貢献は、部分情報分解(PID)と呼ばれる情報理論における作業の本体を活用することにより、これらの3つの不公平度(un)fairness)の正確な関係を解明することである。 本研究では,これら3つの不公平度尺度が重複し,相互に相反し,潜在的なトレードオフにつながるような粒状領域を特定するためにPIDを利用する。 また,実験結果を補完する数値シミュレーションも実施する。

This paper introduces a novel information-theoretic perspective on the relationship between prominent group fairness notions in machine learning, namely statistical parity, equalized odds, and predictive parity. It is well known that simultaneous satisfiability of these three fairness notions is usually impossible, motivating practitioners to resort to approximate fairness solutions rather than stringent satisfiability of these definitions. However, a comprehensive analysis of their interrelations, particularly when they are not exactly satisfied, remains largely unexplored. Our main contribution lies in elucidating an exact relationship between these three measures of (un)fairness by leveraging a body of work in information theory called partial information decomposition (PID). In this work, we leverage PID to identify the granular regions where these three measures of (un)fairness overlap and where they disagree with each other leading to potential tradeoffs. We also include numerical simulations to complement our results.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# SpaRCとSpaRP:大言語モデルの空間推論能力理解のための空間推論特性と経路生成

SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models ( http://arxiv.org/abs/2406.04566v1 )

ライセンス: Link先を確認
Md Imbesat Hassan Rizvi, Xiaodan Zhu, Iryna Gurevych, (参考訳) 空間推論は、生物学的および人工知能の両方において重要な要素である。 本研究では,現在最先端の大規模言語モデル(LLM)の空間的推論能力について包括的に研究する。 本研究では,空間的関係や構成の深い理解と,空間的推論連鎖の有用性を実現するために,空間的推論特性(SpaRC)フレームワークと空間的推論経路(SpaRP)データセットを作成した。 私たちは、最先端のLLMはすべてデータセットでうまく機能しないことに気付きました。 空間推論能力はモデルのサイズが大きくなるにつれて大幅に向上する。 大型言語モデル(例えばLlama-2-70B)と小型言語(例えばLlama-2-13B)の両方を微調整することで、F1スコアを7-32絶対点で大幅に改善することができる。 また、トッププロプライエタリなLLMは、トポロジカルな空間的理解と推論において、オープンソースよりもはるかに優れています。

Spatial reasoning is a crucial component of both biological and artificial intelligence. In this work, we present a comprehensive study of the capability of current state-of-the-art large language models (LLMs) on spatial reasoning. To support our study, we created and contribute a novel Spatial Reasoning Characterization (SpaRC) framework and Spatial Reasoning Paths (SpaRP) datasets, to enable an in-depth understanding of the spatial relations and compositions as well as the usefulness of spatial reasoning chains. We found that all the state-of-the-art LLMs do not perform well on the datasets -- their performances are consistently low across different setups. The spatial reasoning capability improves substantially as model sizes scale up. Finetuning both large language models (e.g., Llama-2-70B) and smaller ones (e.g., Llama-2-13B) can significantly improve their F1-scores by 7--32 absolute points. We also found that the top proprietary LLMs still significantly outperform their open-source counterparts in topological spatial understanding and reasoning.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# 情報理論からみた教師付き分類の誤り境界

Error Bounds of Supervised Classification from Information-Theoretic Perspective ( http://arxiv.org/abs/2406.04567v1 )

ライセンス: Link先を確認
Binchuan Qi, Wei Gong, Li Li, (参考訳) ディープラーニング(DL)に関する未解決の研究質問のリストには、過度にパラメータ化されたニューラルネットワークの顕著な一般化力、非凸性にもかかわらず効率的な最適化性能、一般化におけるフラットミニマのメカニズムなどが含まれている。 本稿では,ディープニューラルネットワーク(DNN)を用いた教師付き分類の理論的基礎を探るため,情報理論的視点を採用する。 本分析では, 適応誤差とモデルリスクの概念を導入し, 一般化誤差とともに, 期待されるリスクの上限を構成する。 一般化誤差は, 分布の滑らかさとサンプルサイズの両方に影響され, 複雑さによって境界づけられていることを示す。 その結果、タスクの複雑さはデータセットの品質の信頼できる指標として機能し、正規化ハイパーパラメータの設定を導く。 さらに、導出された上界嵌合誤差は、バックプロパゲート勾配、ニューラルタンジェントカーネル(NTK)、およびモデルのパラメータ数と嵌合誤差をリンクする。 三角形の不等式を用いることで、期待されるリスクに上限を定めます。 このバウンダリは、DNNにおける過度パラメータ化、非凸最適化、および平坦なミニマの影響に関する貴重な知見を提供する。

There remains a list of unanswered research questions on deep learning (DL), including the remarkable generalization power of overparametrized neural networks, the efficient optimization performance despite the non-convexity, and the mechanisms behind flat minima in generalization. In this paper, we adopt an information-theoretic perspective to explore the theoretical foundations of supervised classification using deep neural networks (DNNs). Our analysis introduces the concepts of fitting error and model risk, which, together with generalization error, constitute an upper bound on the expected risk. We demonstrate that the generalization errors are bounded by the complexity, influenced by both the smoothness of distribution and the sample size. Consequently, task complexity serves as a reliable indicator of the dataset's quality, guiding the setting of regularization hyperparameters. Furthermore, the derived upper bound fitting error links the back-propagated gradient, Neural Tangent Kernel (NTK), and the model's parameter count with the fitting error. Utilizing the triangle inequality, we establish an upper bound on the expected risk. This bound offers valuable insights into the effects of overparameterization, non-convex optimization, and the flat minima in DNNs.Finally, empirical verification confirms a significant positive correlation between the derived theoretical bounds and the practical expected risk, confirming the practical relevance of the theoretical findings.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# StackSight: 大きな言語モデルとNeurosymbolic Chain-of-Thought逆コンパイルによるWebAssemblyの展開

StackSight: Unveiling WebAssembly through Large Language Models and Neurosymbolic Chain-of-Thought Decompilation ( http://arxiv.org/abs/2406.04568v1 )

ライセンス: Link先を確認
Weike Fang, Zhejian Zhou, Junzhou He, Weihang Wang, (参考訳) WebAssemblyはWebアプリケーションでほぼネイティブな実行を可能にし、高いパフォーマンスと堅牢なセキュリティを必要とするタスクにますます採用されている。 しかし、アセンブリライクな構文、暗黙のスタックマシン、低レベルのデータ型は、人間の開発者が理解するのが極めて困難であり、WebAssemblyのリバースエンジニアリング技術を効果的に必要とします。 本稿では,大規模言語モデル(LLM)と高度なプログラム解析を組み合わせた新しいニューロシンボリックアプローチであるStackSightを提案し,複雑なWebAssemblyコードを読みやすいC++スニペットに分解する。 StackSightは静的解析アルゴリズムを通じて仮想スタックの変更を視覚化し追跡し、LLMの複雑な推論機能を活用するためにチェーン・オブ・シークレット・プロンプトを適用する。 評価結果は、StackSightがWebAssemblyの逆コンパイルを大幅に改善していることを示している。 ユーザ調査では、StackSightが生成したコードスニペットの勝利率が大幅に高く、コードのセマンティクスをよりよく把握できることを示した。

WebAssembly enables near-native execution in web applications and is increasingly adopted for tasks that demand high performance and robust security. However, its assembly-like syntax, implicit stack machine, and low-level data types make it extremely difficult for human developers to understand, spurring the need for effective WebAssembly reverse engineering techniques. In this paper, we propose StackSight, a novel neurosymbolic approach that combines Large Language Models (LLMs) with advanced program analysis to decompile complex WebAssembly code into readable C++ snippets. StackSight visualizes and tracks virtual stack alterations via a static analysis algorithm and then applies chain-of-thought prompting to harness LLM's complex reasoning capabilities. Evaluation results show that StackSight significantly improves WebAssembly decompilation. Our user study also demonstrates that code snippets generated by StackSight have significantly higher win rates and enable a better grasp of code semantics.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# チャン5号機からのカメラパスロバストクレーター検出

Camera-Pose Robust Crater Detection from Chang'e 5 ( http://arxiv.org/abs/2406.04569v1 )

ライセンス: Link先を確認
Matthew Rodda, Sofia McLeod, Ky Cuong Pham, Tat-Jun Chin, (参考訳) 宇宙ミッションはますます危険な地形を探索することを目的としており、安全な航法を確保するには正確な位置推定とタイムリーな位置推定が必要である。 視覚に基づくナビゲーションは、船上の画像から見える衝突クレーターと既知のデータベースを関連付けて、機体の姿勢を推定することで、この目標を達成する。 しかし、既存の文献では、外部視角を含む画像からクレーター検出アルゴリズム(CDA)の性能を十分に評価していない。 本研究では, クレーター検出のためのMask R-CNNの性能評価を行い, 外部視角を含む模擬データに基づく事前学習モデルと実画像による事前学習モデルを比較した。 実画像に対する事前トレーニングは, 外部視角を含む画像が欠如しているにもかかわらず, 63.1F1スコアの検知性能と0.701交叉の楕円回帰性能を実現しているにもかかわらず, 優れていることを示す。 本研究は,外部視角を含む画像上でのCDAの性能を定量的に解析した最初のものである。 ますますロバストなCDAの開発に向けて、Chang'e 5 Landing Cameraからの外部視角を持つ最初の注釈付きCDAデータセットも提供します。

As space missions aim to explore increasingly hazardous terrain, accurate and timely position estimates are required to ensure safe navigation. Vision-based navigation achieves this goal through correlating impact craters visible through onboard imagery with a known database to estimate a craft's pose. However, existing literature has not sufficiently evaluated crater-detection algorithm (CDA) performance from imagery containing off-nadir view angles. In this work, we evaluate the performance of Mask R-CNN for crater detection, comparing models pretrained on simulated data containing off-nadir view angles and to pretraining on real-lunar images. We demonstrate pretraining on real-lunar images is superior despite the lack of images containing off-nadir view angles, achieving detection performance of 63.1 F1-score and ellipse-regression performance of 0.701 intersection over union. This work provides the first quantitative analysis of performance of CDAs on images containing off-nadir view angles. Towards the development of increasingly robust CDAs, we additionally provide the first annotated CDA dataset with off-nadir view angles from the Chang'e 5 Landing Camera.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# 絡み合いのメカニズム?

A Mechanism for Entanglement? ( http://arxiv.org/abs/2406.04571v1 )

ライセンス: Link先を確認
Huw Price, Ken Wharton, (参考訳) 量子絡み合いは特別な選択アーティファクトであり、組合せとして説明可能であることを提案する。 (i)コライダーバイアスと (ii)コライダー変数上の境界制約。 提案手法は,遅延チョイス絡み換えを含むベル実験の特殊クラス("W-shaped")に対して有効であることを示し,通常の("V-shaped")の場合にも拡張可能であることを主張する。 この提案は光円錐の外側に直接的な因果的影響は必要とせず、したがってベル非局所性と相対性理論を整合させる手段を提供するかもしれない。 主な議論は、以前arXiv:2404.13928[quant-ph]で概説されたアプローチの詳細なバージョンである。

We propose that quantum entanglement is a special sort of selection artefact, explicable as a combination of (i) collider bias and (ii) a boundary constraint on the collider variable. We show that the proposal is valid for a special class of (`W-shaped') Bell experiments involving delayed-choice entanglement swapping, and argue that it can be extended to the ordinary (`V-shaped') case. The proposal requires no direct causal influence outside lightcones, and may hence offer a way to reconcile Bell nonlocality and relativity. The main argument is a detailed version of an approach previously outlined in arXiv:2404.13928 [quant-ph].
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# マルチライト画像異常検出のための注意融合逆蒸留法

Attention Fusion Reverse Distillation for Multi-Lighting Image Anomaly Detection ( http://arxiv.org/abs/2406.04573v1 )

ライセンス: Link先を確認
Yiheng Zhang, Yunkang Cao, Tianhang Zhang, Weiming Shen, (参考訳) 本研究では,複数照明条件を用いて画像品質と異常検出性能を向上させるマルチライティング画像異常検出(MLIAD)を目標とする。 多数の画像異常検出手法が提案されているが、MLIADのマルチライト画像のような単一のサンプルに対して複数の入力を処理する能力は欠如している。 そこで本研究では,MLIADにおける複数入力を処理するために,AFRD(Atention Fusion Reverse Distillation)を提案する。 この目的のために、AFRDは事前訓練された教師ネットワークを使用して、複数の入力から特徴を抽出する。 その後、これらの機能はアテンションモジュールを通じて融合した機能に集約される。 その後、対応する学生ネットワークを使用して、注目融合特徴を抑圧する。 回帰誤差は、推論中に異常スコアとして表される。 Eyecandiesの実験は、AFRDが他のMLIAD代替品よりも優れたMLIAD性能を達成していることを示し、また、異常検出に複数の照明条件を使用することの利点を強調している。

This study targets Multi-Lighting Image Anomaly Detection (MLIAD), where multiple lighting conditions are utilized to enhance imaging quality and anomaly detection performance. While numerous image anomaly detection methods have been proposed, they lack the capacity to handle multiple inputs for a single sample, like multi-lighting images in MLIAD. Hence, this study proposes Attention Fusion Reverse Distillation (AFRD) to handle multiple inputs in MLIAD. For this purpose, AFRD utilizes a pre-trained teacher network to extract features from multiple inputs. Then these features are aggregated into fused features through an attention module. Subsequently, a corresponding student net-work is utilized to regress the attention fused features. The regression errors are denoted as anomaly scores during inference. Experiments on Eyecandies demonstrates that AFRD achieves superior MLIAD performance than other MLIAD alternatives, also highlighting the benefit of using multiple lighting conditions for anomaly detection.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# 多モード潜在力学モデルと深部強化学習による地熱炭素貯蔵の最適化

Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning ( http://arxiv.org/abs/2406.04575v1 )

ライセンス: Link先を確認
Zhongzheng Wang, Yuntian Chen, Guodong Chen, Dongxiao Zhang, (参考訳) 地質炭素貯蔵(GCS)における貯蔵性能の最大化は商業的展開に不可欠であるが、従来の最適化では資源集約的なシミュレーションを必要とし、計算上の課題を提起している。 本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。 MLDモデルは、圧縮された潜在表現のための表現モジュール、システム状態の進化のための遷移モジュール、フロー応答のための予測モジュールを含む。 回帰損失と結合埋め込み一貫性損失を組み合わせた新しいトレーニング戦略は、時間的一貫性と多段階予測精度を高める。 既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。 MLDモデルはマルコフ決定プロセス(MDP)に類似しており、特にソフトアクター・クリティック(SAC)アルゴリズムを用いて深層強化学習エージェントを訓練し、連続的な相互作用を通じて純現在値(NPV)を最大化する。 この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。 また、強力な一般化性能を示し、以前の知識に基づいた新しいシナリオの意思決定を改善する。

Maximizing storage performance in geological carbon storage (GCS) is crucial for commercial deployment, but traditional optimization demands resource-intensive simulations, posing computational challenges. This study introduces the multimodal latent dynamic (MLD) model, a deep learning framework for fast flow prediction and well control optimization in GCS. The MLD model includes a representation module for compressed latent representations, a transition module for system state evolution, and a prediction module for flow responses. A novel training strategy combining regression loss and joint-embedding consistency loss enhances temporal consistency and multi-step prediction accuracy. Unlike existing models, the MLD supports diverse input modalities, allowing comprehensive data interactions. The MLD model, resembling a Markov decision process (MDP), can train deep reinforcement learning agents, specifically using the soft actor-critic (SAC) algorithm, to maximize net present value (NPV) through continuous interactions. The approach outperforms traditional methods, achieving the highest NPV while reducing computational resources by over 60%. It also demonstrates strong generalization performance, providing improved decisions for new scenarios based on knowledge from previous ones.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# SC2:長文スタイル転送におけるコンテンツ保存とスタイル一貫性の強化を目指す

SC2: Towards Enhancing Content Preservation and Style Consistency in Long Text Style Transfer ( http://arxiv.org/abs/2406.04578v1 )

ライセンス: Link先を確認
Jie Zhao, Ziyu Guan, Cai Xu, Wei Zhao, Yue Jiang, (参考訳) テキストスタイル転送(TST)は、セマンティックコンテンツを保存しながら、テキストのスタイルの極性を変えることを目的としている。 最近の進歩は短いTSTで顕著な進歩を見せているが、実用的応用が限られている比較的単純な課題である。 より包括的な長いTST課題は,(1) 既存の手法では,複数の単語のコンテンツ属性を正確に評価することが困難であり,内容の劣化につながること,(2) 従来のバニラスタイルの分類器の損失は,複数の文をまたいで一貫したスタイルを維持する上で障害に遭遇すること,の2つの課題を提示する。 本稿では,2つの問題に対処するために,JSCWモジュールとスタイル整合性損失を多層化したSC2を提案する。 JSCWは、トークン内のスタイル属性とコンテンツ属性の量を同時に評価し、損失のないコンテンツ表現を取得し、コンテンツ保存を強化する。 複数のJSCW層はさらにコンテンツ表現を洗練させる。 我々は、生成した複数の文がターゲットスタイルの極性を一貫して反映するように、スタイル整合損失を設計する。 さらに,非自己回帰デコーダをデノベートしてトレーニングを高速化する。 本研究は多種多様な実験を行い, 競争ベースラインよりもSC2が有意に向上したことを示す。 コード:https://github.com/jiezhao6/SC2。

Text style transfer (TST) aims to vary the style polarity of text while preserving the semantic content. Although recent advancements have demonstrated remarkable progress in short TST, it remains a relatively straightforward task with limited practical applications. The more comprehensive long TST task presents two challenges: (1) existing methods encounter difficulties in accurately evaluating content attributes in multiple words, leading to content degradation; (2) the conventional vanilla style classifier loss encounters obstacles in maintaining consistent style across multiple generated sentences. In this paper, we propose a novel method SC2, where a multilayer Joint Style-Content Weighed (JSCW) module and a Style Consistency loss are designed to address the two issues. The JSCW simultaneously assesses the amounts of style and content attributes within a token, aiming to acquire a lossless content representation and thereby enhancing content preservation. The multiple JSCW layers further progressively refine content representations. We design a style consistency loss to ensure the generated multiple sentences consistently reflect the target style polarity. Moreover, we incorporate a denoising non-autoregressive decoder to accelerate the training. We conduct plentiful experiments and the results show significant improvements of SC2 over competitive baselines. Our code: https://github.com/jiezhao6/SC2.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# 外向か内向か? 大規模言語モデルのパーソナリティを制御する

Extroversion or Introversion? Controlling The Personality of Your Large Language Models ( http://arxiv.org/abs/2406.04583v1 )

ライセンス: Link先を確認
Yanquan Chen, Zhen Wu, Junjie Guo, Shujian Huang, Xinyu Dai, (参考訳) 大規模言語モデル(LLM)は、テキスト生成と理解において堅牢な能力を示し、人間の振る舞いを模倣し、合成された個性を示す。 しかし、一部のLSMは攻撃的な性格を示し、有害な言説を広めている。 現存する文献は、LLMの個性の起源と進化、および効果的な個性制御を無視している。 これらのギャップを埋めるため,本研究はLLMパーソナリティコントロールの総合的な研究に着手した。 本研究は, 連続事前学習, 監視ファインチューニング (SFT) , ヒューマンフィードバックからの強化学習 (RLHF) , 推論位相を考慮した3つの学習方法を含む, LLMに影響を与えるいくつかの典型的な方法について検討した。 調査の結果,コントロールにおける効果の階層構造が明らかとなった。 特に、SFTは、迅速な誘導よりも高い制御成功率を示す。 プロンプトは極めて有効であることが証明されているが、プロンプト誘発のパーソナリティは訓練された人ほど堅牢ではないことが判明し、逆パーソナリティ誘導の下で対立するパーソナリティを示す傾向が高くなった。 さらに、SFTとプロンプトの長所を生かして、高い有効性、高い成功率、高い堅牢性を示すLLMの個性を制御する最も効果的で堅牢な戦略として、$\underline{\text{P}}$rompt $\underline{\text{I}}$nduction post $\underline{\text{S}}$upervised $\underline{\text{F}}$ine-tuning (PISF)を提案した。 逆のパーソナリティ誘導の下でも、PISFによって制御されるLLMは、安定かつ堅牢なパーソナリティを示す。

Large language models (LLMs) exhibit robust capabilities in text generation and comprehension, mimicking human behavior and exhibiting synthetic personalities. However, some LLMs have displayed offensive personality, propagating toxic discourse. Existing literature neglects the origin and evolution of LLM personalities, as well as the effective personality control. To fill these gaps, our study embarked on a comprehensive investigation into LLM personality control. We investigated several typical methods to influence LLMs, including three training methods: Continual Pre-training, Supervised Fine-Tuning (SFT), and Reinforcement Learning from Human Feedback (RLHF), along with inference phase considerations (prompts). Our investigation revealed a hierarchy of effectiveness in control: Prompt > SFT > RLHF > Continual Pre-train. Notably, SFT exhibits a higher control success rate compared to prompt induction. While prompts prove highly effective, we found that prompt-induced personalities are less robust than those trained, making them more prone to showing conflicting personalities under reverse personality prompt induction. Besides, harnessing the strengths of both SFT and prompt, we proposed $\underline{\text{P}}$rompt $\underline{\text{I}}$nduction post $\underline{\text{S}}$upervised $\underline{\text{F}}$ine-tuning (PISF), which emerges as the most effective and robust strategy for controlling LLMs' personality, displaying high efficacy, high success rates, and high robustness. Even under reverse personality prompt induction, LLMs controlled by PISF still exhibit stable and robust personalities.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# CLoG: 画像生成モデルの継続的な学習のベンチマーク

CLoG: Benchmarking Continual Learning of Image Generation Models ( http://arxiv.org/abs/2406.04584v1 )

ライセンス: Link先を確認
Haotian Zhang, Junting Zhou, Haowei Lin, Hang Ye, Jianhua Zhu, Zihao Wang, Liangcai Gao, Yizhou Wang, Yitao Liang, (参考訳) 継続学習(CL)は人工知能において重要な課題であり、知識とスキルを段階的に習得する人間の能力を反映することを目的としている。 分類タスクの文脈においてCLに焦点が当てられているが、ますます強力な生成モデルの出現は、CLoG(Continuous Learning of Generative Model)の探索を必要とする。 本稿では,分類に基づくCLからCLoGへの移行を提唱する。 従来の分類に基づくCLと比較して,CLoGが提示するユニークな課題を体系的に同定する。 我々は,既存のCL手法,リプレイベース,正規化ベース,パラメータアイソレーションベースの3種類の手法を生成タスクに適用し,CLoGの広範な多様性と広範囲なタスクカバレッジを特徴とする総合ベンチマークを導入する。 我々のベンチマークと結果から、将来のCLoG手法の開発に有用な興味深い洞察が得られる。 さらに、私たちはCLoGのベンチマークと実験を容易にするように設計されたコードベースをhttps://github.com/linhaowei1/CLoGで公開します。 我々は、CLoGに研究焦点を移すことが、継続的な学習コミュニティの利益となり、生涯にわたる学習パラダイムにおいて、次世代AI生成コンテンツ(AIGC)の道筋を照らすことができると信じている。

Continual Learning (CL) poses a significant challenge in Artificial Intelligence, aiming to mirror the human ability to incrementally acquire knowledge and skills. While extensive research has focused on CL within the context of classification tasks, the advent of increasingly powerful generative models necessitates the exploration of Continual Learning of Generative models (CLoG). This paper advocates for shifting the research focus from classification-based CL to CLoG. We systematically identify the unique challenges presented by CLoG compared to traditional classification-based CL. We adapt three types of existing CL methodologies, replay-based, regularization-based, and parameter-isolation-based methods to generative tasks and introduce comprehensive benchmarks for CLoG that feature great diversity and broad task coverage. Our benchmarks and results yield intriguing insights that can be valuable for developing future CLoG methods. Additionally, we will release a codebase designed to facilitate easy benchmarking and experimentation in CLoG publicly at https://github.com/linhaowei1/CLoG. We believe that shifting the research focus to CLoG will benefit the continual learning community and illuminate the path for next-generation AI-generated content (AIGC) in a lifelong learning paradigm.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# 低ランク複合因数分解モデルに対する部分空間補正を用いた大規模PAM法

A majorized PAM method with subspace correction for low-rank composite factorization model ( http://arxiv.org/abs/2406.04588v1 )

ライセンス: Link先を確認
Ting Tao, Yitian Qian, Shaohua Pan, (参考訳) 本稿では,行列補完から生じる低ランク複合因子化モデルについて述べる。 この非凸および非滑らかな最適化問題に対して、補正された近位部分プロブレムが閉形式解であることを保証するために、各近位部分プロブレムに部分空間補正ステップが課される部分空間補正付き近位交代最小化アルゴリズム(PAMA)を提案する。 この部分空間補正PAMAに対して、反復列の列収束を証明し、対象関数のKL特性の下での反復列と係数対の列部分空間列の収束と、カラム $\ell_{2,0}$-ノルム関数に対して自動的に保持される制限条件を確立する。 1ビット行列完備化問題に対する近似交互線形化最小化法との比較により,PAMAはより少ない時間で低い相対誤差を求めるのに有利であることが示唆された。

This paper concerns a class of low-rank composite factorization models arising from matrix completion. For this nonconvex and nonsmooth optimization problem, we propose a proximal alternating minimization algorithm (PAMA) with subspace correction, in which a subspace correction step is imposed on every proximal subproblem so as to guarantee that the corrected proximal subproblem has a closed-form solution. For this subspace correction PAMA, we prove the subsequence convergence of the iterate sequence, and establish the convergence of the whole iterate sequence and the column subspace sequences of factor pairs under the KL property of objective function and a restrictive condition that holds automatically for the column $\ell_{2,0}$-norm function. Numerical comparison with the proximal alternating linearized minimization method on one-bit matrix completion problems indicates that PAMA has an advantage in seeking lower relative error within less time.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# 平滑化と騒音推定を考慮した適応勾配法の収束解析

Convergence Analysis of Adaptive Gradient Methods under Refined Smoothness and Noise Assumptions ( http://arxiv.org/abs/2406.04592v1 )

ライセンス: Link先を確認
Devyani Maladkar, Ruichen Jiang, Aryan Mokhtari, (参考訳) 適応勾配法は、ニューラルネットワークトレーニングにおける最も成功した最適化アルゴリズムである。 適応勾配法は、確率的凸最適化に好適な幾何の下で確率的勾配降下(SGD)よりも優れた次元依存を達成できることはよく知られているが、確率的非凸最適化の成功の理論的正当性はいまだ解明されていない。 本稿では,勾配の$\ell_1$-normで測定されたAdaGradの収束速度を解析することにより,このギャップを埋めることを目的とする。 具体的には、目的が$L$-Lipschitzグラデーションを持ち、確率勾配分散が$\sigma^2$で有界である場合、最悪のケース収束率を$\tilde{\mathcal{O}}(\frac{\sqrt{d}L}{\sqrt{T}} + \frac{\sqrt{d} \sigma}{T^{1/4}})$とする。 さらに、目的物の滑らかさ構造と勾配雑音のよりきめ細かい仮定と、好ましい勾配$\ell_1/\ell_2$幾何の下では、AdaGrad が SGD と比較して $\sqrt{d}$ の因子をシェービングできることが示される。 我々の知る限り、これは非凸設定におけるSGDよりも証明可能な利得を示す適応勾配法の最初の結果である。

Adaptive gradient methods are arguably the most successful optimization algorithms for neural network training. While it is well-known that adaptive gradient methods can achieve better dimensional dependence than stochastic gradient descent (SGD) under favorable geometry for stochastic convex optimization, the theoretical justification for their success in stochastic non-convex optimization remains elusive. In this paper, we aim to close this gap by analyzing the convergence rates of AdaGrad measured by the $\ell_1$-norm of the gradient. Specifically, when the objective has $L$-Lipschitz gradient and the stochastic gradient variance is bounded by $\sigma^2$, we prove a worst-case convergence rate of $\tilde{\mathcal{O}}(\frac{\sqrt{d}L}{\sqrt{T}} + \frac{\sqrt{d} \sigma}{T^{1/4}})$, where $d$ is the dimension of the problem.We also present a lower bound of ${\Omega}(\frac{\sqrt{d}}{\sqrt{T}})$ for minimizing the gradient $\ell_1$-norm in the deterministic setting, showing the tightness of our upper bound in the noiseless case. Moreover, under more fine-grained assumptions on the smoothness structure of the objective and the gradient noise and under favorable gradient $\ell_1/\ell_2$ geometry, we show that AdaGrad can potentially shave a factor of $\sqrt{d}$ compared to SGD. To the best of our knowledge, this is the first result for adaptive gradient methods that demonstrates a provable gain over SGD in the non-convex setting.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# C4による大規模並列トレーニング効率の向上 - コミュニケーション駆動アプローチ

Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach ( http://arxiv.org/abs/2406.04594v1 )

ライセンス: Link先を確認
Jianbo Dong, Bin Luo, Jun Zhang, Pengcheng Zhang, Fei Feng, Yikai Zhu, Ang Liu, Zian Chen, Yi Shi, Hairong Jiao, Gang Lu, Yu Guan, Ennan Zhai, Wencong Xiao, Hanyu Zhao, Man Yuan, Siran Yang, Xiang Li, Jiamang Wang, Rui Men, Jianwei Zhang, Huang Zhong, Dennis Cai, Yuan Xie, Binzhang Fu, (参考訳) 大規模言語モデル(LLM)の出現は、単一のモデルをトレーニングするために数千のGPUをデプロイすることを含む、並列トレーニング技術の採用を必要としている。 残念なことに、現在の並列トレーニングの効率はしばしば、以下の2つの主要な問題のために、最適以下であることが分かりました。 第一に、ハードウェアの障害は避けられず、トレーニングタスクの中断につながる。 欠陥のあるコンポーネントを素早く識別できないことは、GPUリソースのかなりの無駄をもたらす。 第二に、GPUは次の計算ラウンドに進む前にパラメータ同期が完了するのを待つ必要があるため、ネットワークの混雑はGPUの待ち時間を大幅に増加させる可能性がある。 これらの課題に対処するために,本稿では,通信駆動型ソリューション,すなわちC4を紹介する。 C4の重要な洞察は2つある。 まず、並列訓練において、集合的コミュニケーションは周期的および均質的な特性を示すため、どの異常も何らかのハードウェアの故障によるものであることは確かである。 この機能を利用することで、C4は欠陥コンポーネントを迅速に識別し、異常を迅速に分離し、タスクを再起動し、異常検出の遅延によるリソースの浪費を回避することができる。 第2に、大規模なフローが少ない集団通信の予測可能な通信モデルにより、C4はトラフィック計画の効率的な実行を可能にし、ネットワークの混雑を大幅に低減する。 C4は運用システム全体に広く実装されており、エラーによるオーバーヘッドを約30%削減し、ある程度の通信コストのある特定のアプリケーションに対して、実行時のパフォーマンスを約15%向上させています。

The emergence of Large Language Models (LLMs) has necessitated the adoption of parallel training techniques, involving the deployment of thousands of GPUs to train a single model. Unfortunately, we have found that the efficiency of current parallel training is often suboptimal, largely due to the following two main issues. Firstly, hardware failures are inevitable, leading to interruptions in the training tasks. The inability to quickly identify the faulty components results in a substantial waste of GPU resources. Secondly, since GPUs must wait for parameter synchronization to complete before proceeding to the next round of computation, network congestions can greatly increase the waiting time for GPUs. To address these challenges, this paper introduces a communication-driven solution, namely the C4. The key insights of C4 are two folds. First, in parallel training, collective communication exhibits periodic and homogeneous characteristics, so any anomalies are certainly due to some form of hardware malfunction. By leveraging this feature, C4 can rapidly identify the faulty components, swiftly isolate the anomaly, and restart the task, thereby avoiding resource wastage caused by delays in anomaly detection. Second, the predictable communication model of collective communication, involving few large flows, allows C4 to efficiently execute traffic planning, substantially reducing network congestion. C4 has been extensively implemented across our production systems, cutting error-induced overhead by roughly 30% and enhancing runtime performance by about 15% for certain applications with moderate communication costs.
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# 中国語誤字検出と診断のためのピッチ対応RNN-T

Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis ( http://arxiv.org/abs/2406.04595v1 )

ライセンス: Link先を確認
Xintong Wang, Mingqian Shi, Ye Wang, (参考訳) 自動音声認識(ASR)を利用した誤認識検出・診断システム(MDD)は中国語における2つの課題に直面している。 1) 2段階モデルでは音素分類段階とMDD段階の間に情報ギャップが生じる。 2) マンダリンMDDデータセットの不足はモデルトレーニングを制限する。 本稿では,HuBERT特徴とピッチ埋め込みを用いたマンダリンMDDのためのステートレスRNN-Tモデルを提案する。 我々のモデルは、ネイティブ話者データのみに基づいて訓練されており、電話誤り率の3%改善と、非ネイティブシナリオにおける最先端ベースラインに対する偽受け入れ率の7%向上を示している。

Mispronunciation Detection and Diagnosis (MDD) systems, leveraging Automatic Speech Recognition (ASR), face two main challenges in Mandarin Chinese: 1) The two-stage models create an information gap between the phoneme or tone classification stage and the MDD stage. 2) The scarcity of Mandarin MDD datasets limits model training. In this paper, we introduce a stateless RNN-T model for Mandarin MDD, utilizing HuBERT features with pitch embedding through a Pitch Fusion Block. Our model, trained solely on native speaker data, shows a 3% improvement in Phone Error Rate and a 7% increase in False Acceptance Rate over the state-of-the-art baseline in non-native scenarios
翻訳日:2024-06-10 15:48:53 公開日:2024-06-07
# パラメータアンダーレジームにおけるフェデレーション表現学習

Federated Representation Learning in the Under-Parameterized Regime ( http://arxiv.org/abs/2406.04596v1 )

ライセンス: Link先を確認
Renpu Liu, Cong Shen, Jing Yang, (参考訳) フェデレーション表現学習(FRL)は、クライアントが共通の表現をトレーニングし、パーソナライズされた頭を維持しながら協調する、パーソナライズされたフェデレーション学習(FL)フレームワークである。 しかし、既存の研究は主に過度にパラメータ化された体制に焦点を当てている。 本稿では, フラックスモデルがすべての地中構造モデルの変動を表現するのに不十分な, パラメータ下条件下でのFRLについて検討する。 我々は新しいFRLアルゴリズムFLUTEを提案し、パラメータ下状態における線形モデルに対する標本の複雑さと収束率を理論的に特徴づける。 我々の知る限りでは、この方式で証明可能な性能保証を備えたFRLアルゴリズムは初めてである。 FLUTEは、データ非依存のランダム初期化と、不整合局所表現から大域的最適表現に代表される部分空間の蒸留を支援する、慎重に設計された目的関数を備えている。 技術的には、FL解析による低ランク行列近似手法を橋渡しする。 また、FLUTEを線形表現を超えて拡張する。 実験により、FLUTEは、合成タスクと実世界のタスクの両方において、最先端のFRLソリューションよりも優れていることが示された。

Federated representation learning (FRL) is a popular personalized federated learning (FL) framework where clients work together to train a common representation while retaining their personalized heads. Existing studies, however, largely focus on the over-parameterized regime. In this paper, we make the initial efforts to investigate FRL in the under-parameterized regime, where the FL model is insufficient to express the variations in all ground-truth models. We propose a novel FRL algorithm FLUTE, and theoretically characterize its sample complexity and convergence rate for linear models in the under-parameterized regime. To the best of our knowledge, this is the first FRL algorithm with provable performance guarantees in this regime. FLUTE features a data-independent random initialization and a carefully designed objective function that aids the distillation of subspace spanned by the global optimal representation from the misaligned local representations. On the technical side, we bridge low-rank matrix approximation techniques with the FL analysis, which may be of broad interest. We also extend FLUTE beyond linear representations. Experimental results demonstrate that FLUTE outperforms state-of-the-art FRL solutions in both synthetic and real-world tasks.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# OCDB: 包括的なベンチマークと評価フレームワークによる因果発見の再考

OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework ( http://arxiv.org/abs/2406.04598v1 )

ライセンス: Link先を確認
Wei Zhou, Hong Huang, Guowen Zhang, Ruize Shi, Kehan Yin, Yuanyuan Lin, Bang Liu, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクに優れていますが、解釈可能性や信頼性の課題は持続し、高い領域での使用が制限されています。 因果発見は透明性と信頼性を改善するための有望なアプローチを提供する。 しかしながら、現在の評価はしばしば一方的なものであり、解釈可能性のパフォーマンスに焦点を当てた評価が欠如している。 さらに、これらの評価は合成データに依存し、実世界のデータセットの包括的な評価を欠いている。 これらのことは、潜在的に見落とされがちな方法につながります。 これらの課題に対処するために,LLMの解釈性向上に寄与する重要な属性である因果構造と因果効果の違いを評価するためのメトリクスを備えたフレキシブルな評価フレームワークを提案する。 実データに基づくOpen Causal Discovery Benchmark (OCDB)を導入し、公正な比較を促進し、アルゴリズムの最適化を促進する。 さらに、新しいメトリクスは、非方向のエッジを考慮し、方向付き非巡回グラフ(DAG)と完全部分的非巡回グラフ(CPDAG)の公正な比較を可能にする。 実験結果から,実データ上での既存のアルゴリズムの一般化能力に重大な欠陥があり,因果発見技術の進歩における性能向上の可能性とフレームワークの重要性が示された。

Large language models (LLMs) have excelled in various natural language processing tasks, but challenges in interpretability and trustworthiness persist, limiting their use in high-stakes fields. Causal discovery offers a promising approach to improve transparency and reliability. However, current evaluations are often one-sided and lack assessments focused on interpretability performance. Additionally, these evaluations rely on synthetic data and lack comprehensive assessments of real-world datasets. These lead to promising methods potentially being overlooked. To address these issues, we propose a flexible evaluation framework with metrics for evaluating differences in causal structures and causal effects, which are crucial attributes that help improve the interpretability of LLMs. We introduce the Open Causal Discovery Benchmark (OCDB), based on real data, to promote fair comparisons and drive optimization of algorithms. Additionally, our new metrics account for undirected edges, enabling fair comparisons between Directed Acyclic Graphs (DAGs) and Completed Partially Directed Acyclic Graphs (CPDAGs). Experimental results show significant shortcomings in existing algorithms' generalization capabilities on real data, highlighting the potential for performance improvement and the importance of our framework in advancing causal discovery techniques.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation

1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation ( http://arxiv.org/abs/2406.04600v1 )

ライセンス: Link先を確認
Deshui Miao, Xin Li, Zhenyu He, Yaowei Wang, Ming-Hsuan Yang, (参考訳) 複雑なシーンにおける複数のオブジェクトの追跡とセグメンテーションは、ビデオオブジェクトセグメンテーションの分野において、特にオブジェクトが隠され、部分に分割されるシナリオにおいて、常に課題となっている。 そのような場合、対象の定義は非常に曖昧になる。 MOSEデータセットの背後にあるモチベーションは、複雑なシーンにおけるオブジェクトを明確に認識し、区別する方法である。 本稿では,ビデオオブジェクトのセグメンテーションモデルを提案するとともに,オブジェクトの健全な特徴をクエリ表現として利用する。 セマンティック理解は、モデルがオブジェクトの一部を認識するのに役立つ。 大規模ビデオオブジェクトセグメンテーションデータセットを用いて学習し,PVUW Challenge 2024: Complex Video Object Segmentation Trackのテストセットにおいて,その1位(\textbf{84.45\%})を達成した。

Tracking and segmenting multiple objects in complex scenes has always been a challenge in the field of video object segmentation, especially in scenarios where objects are occluded and split into parts. In such cases, the definition of objects becomes very ambiguous. The motivation behind the MOSE dataset is how to clearly recognize and distinguish objects in complex scenes. In this challenge, we propose a semantic embedding video object segmentation model and use the salient features of objects as query representations. The semantic understanding helps the model to recognize parts of the objects and the salient feature captures the more discriminative features of the objects. Trained on a large-scale video object segmentation dataset, our model achieves first place (\textbf{84.45\%}) in the test set of PVUW Challenge 2024: Complex Video Object Segmentation Track.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# アンタングル表現学習によるグラフニューラルネットワークにおけるサイズ一般化の促進

Enhancing Size Generalization in Graph Neural Networks through Disentangled Representation Learning ( http://arxiv.org/abs/2406.04601v1 )

ライセンス: Link先を確認
Zheng Huang, Qihui Yang, Dawei Zhou, Yujun Yan, (参考訳) ほとんどのグラフニューラルネットワーク(GNN)は、任意のサイズのグラフで操作できるが、その分類性能は、トレーニング中に遭遇したグラフよりも大きいグラフで低下することが多い。 既存の手法では、グラフ表現からサイズ情報の除去が不十分であり、その結果、サブ最適性能とバックボーンモデルへの依存が生じる。 そこで我々は,グラフ表現からサイズ因子をアンタングル化する新しい,モデルに依存しないフレームワークである DISGEN を提案する。 DISGENはサイズとタスク不変の拡張を採用し、デカップリングロスを導入し、隠れた表現における共有情報を最小化し、その効果を理論的に保証する。 実験の結果, DISGENは実世界のデータセットにおいて, 最大6%の精度で最先端のモデルより優れており, GNNのサイズ一般化性の向上に有効であることが示唆された。 私たちのコードは、https://github.com/GraphmindDartmouth/DISGEN.comで利用可能です。

Although most graph neural networks (GNNs) can operate on graphs of any size, their classification performance often declines on graphs larger than those encountered during training. Existing methods insufficiently address the removal of size information from graph representations, resulting in sub-optimal performance and reliance on backbone models. In response, we propose DISGEN, a novel and model-agnostic framework designed to disentangle size factors from graph representations. DISGEN employs size- and task-invariant augmentations and introduces a decoupling loss that minimizes shared information in hidden representations, with theoretical guarantees for its effectiveness. Our empirical results show that DISGEN outperforms the state-of-the-art models by up to 6% on real-world datasets, underscoring its effectiveness in enhancing the size generalizability of GNNs. Our codes are available at: https://github.com/GraphmindDartmouth/DISGEN.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# ビデオグラウンドディングとしてのインプラント深さ予測の簡易化:テクスチャ知覚インプラント深さ予測ネットワーク

Simplify Implant Depth Prediction as Video Grounding: A Texture Perceive Implant Depth Prediction Network ( http://arxiv.org/abs/2406.04603v1 )

ライセンス: Link先を確認
Xinquan Yang, Xuguang Li, Xiaoling Luo, Leilei Zeng, Yudi Zhang, Linlin Shen, Yongqiang Deng, (参考訳) 外科ガイドプレートはインプラント手術において重要な道具である。 しかし, インプラントの角度と深さを手動でシミュレートするには, 歯科医に強く依存する。 ディープニューラルネットワークを応用して歯科医がインプラントの位置を素早く見つけると、そのほとんどはインプラントの深さを決定できない。 本稿では,対象映像セグメントの開始・終了時刻をローカライズするビデオ接地タスクに着想を得て,インプラント深度予測をビデオ接地として単純化し,複雑な経口骨計測を行うことなくインプラント深度を直接出力できるテクスチャ知覚インプラント深度予測ネットワーク(TPNet)を開発した。 TPNetは、インプラント領域検出器(IRD)とインプラント深さ予測ネットワーク(IDPNet)で構成されている。 IRDはCBCTから候補インプラント体積を抽出するために設計されたオブジェクト検出器であり、計算資源を大幅に節約する。 IDPNetは、採取したCBCTデータを用いてインプラント深さを予測する。 テクスチャ知覚損失 (TPL) は, IDPNet のエンコーダがスライス間のテクスチャ変化を知覚できるようにするために考案された。 大規模な歯科インプラントデータセットの広範囲な実験により,提案したTPNetは既存の方法よりも優れた性能を示した。

Surgical guide plate is an important tool for the dental implant surgery. However, the design process heavily relies on the dentist to manually simulate the implant angle and depth. When deep neural networks have been applied to assist the dentist quickly locates the implant position, most of them are not able to determine the implant depth. Inspired by the video grounding task which localizes the starting and ending time of the target video segment, in this paper, we simplify the implant depth prediction as video grounding and develop a Texture Perceive Implant Depth Prediction Network (TPNet), which enables us to directly output the implant depth without complex measurements of oral bone. TPNet consists of an implant region detector (IRD) and an implant depth prediction network (IDPNet). IRD is an object detector designed to crop the candidate implant volume from the CBCT, which greatly saves the computation resource. IDPNet takes the cropped CBCT data to predict the implant depth. A Texture Perceive Loss (TPL) is devised to enable the encoder of IDPNet to perceive the texture variation among slices. Extensive experiments on a large dental implant dataset demonstrated that the proposed TPNet achieves superior performance than the existing methods.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# 競争プログラミングにおける人力支援のためのタスク分解の学習

Learning Task Decomposition to Assist Humans in Competitive Programming ( http://arxiv.org/abs/2406.04604v1 )

ライセンス: Link先を確認
Jiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang, (参考訳) 複雑な問題を解決するために言語モデル(LM)を使用する場合、人間はLM生成した解決策を理解し、欠陥のあるものを修正するのに苦労するかもしれない。 そこで本研究では, 複雑な解を, 特定のサブタスクに対応する複数の単純なピースに自動的に分解する手法を提案する。 本研究では, 課題分解学習のための新しい目標である補助値(AssistV)を導入する。 我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。 収集したデータをインコンテキストの例として利用して、AssistVを改善するために分解されたソリューションを批判し、洗練し、ランク付けすることを学ぶ。 我々は,本手法を競合プログラミング問題下で検証する。人間研究177時間で,非専門家が33.3倍の問題を解き,3.3倍の速度で高速化し,無支援の専門家とのマッチングを可能にする。

When using language models (LMs) to solve complex problems, humans might struggle to understand the LM-generated solutions and repair the flawed ones. To assist humans in repairing them, we propose to automatically decompose complex solutions into multiple simpler pieces that correspond to specific subtasks. We introduce a novel objective for learning task decomposition, termed assistive value (AssistV), which measures the feasibility and speed for humans to repair the decomposed solution. We collect a dataset of human repair experiences on different decomposed solutions. Utilizing the collected data as in-context examples, we then learn to critique, refine, and rank decomposed solutions to improve AssistV. We validate our method under competitive programming problems: under 177 hours of human study, our method enables non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers them to match unassisted experts.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# ヘルプ・ハーム・データ : 言語モデル予測のための微調整不要なシェープ・アトリビューション

Helpful or Harmful Data? Fine-tuning-free Shapley Attribution for Explaining Language Model Predictions ( http://arxiv.org/abs/2406.04606v1 )

ライセンス: Link先を確認
Jingtan Wang, Xiaoqiang Lin, Rui Qiao, Chuan-Sheng Foo, Bryan Kian Hsiang Low, (参考訳) 基礎モデルの複雑さの増大は、特に微調整において、下流タスクにモデルを適用するために最も広く使用される訓練方法である説明可能性の必要性を浮き彫りにする。 1つのタイプの説明であるインスタンス属性は、モデル予測をインスタンススコアによって各トレーニング例に属性付ける。 しかし、特にデータセットの再サンプリングに向けたインスタンススコアの堅牢性は見過ごされている。 このギャップを埋めるために、インスタンススコアの符号にロバスト性の概念を提案する。 理論的および実証的に、一般的なout-out-out-basedメソッドは堅牢性に欠けるが、Shapley値はより良く振る舞うが、より計算コストが高い。 そこで我々は,ニューラルネットワークカーネルをベースとしたShapley値(FreeShap)の効率的な微調整自由近似を導入する。 我々は、FreeShapがデータ削除、データ選択、ラベル検出などのデータ中心アプリケーションなど、他の手法よりも優れていることを実証的に証明し、我々のスケールを大規模言語モデル(LLM)に一般化する。 私たちのコードはhttps://github.com/JTWang2000/FreeShapで利用可能です。

The increasing complexity of foundational models underscores the necessity for explainability, particularly for fine-tuning, the most widely used training method for adapting models to downstream tasks. Instance attribution, one type of explanation, attributes the model prediction to each training example by an instance score. However, the robustness of instance scores, specifically towards dataset resampling, has been overlooked. To bridge this gap, we propose a notion of robustness on the sign of the instance score. We theoretically and empirically demonstrate that the popular leave-one-out-based methods lack robustness, while the Shapley value behaves significantly better, but at a higher computational cost. Accordingly, we introduce an efficient fine-tuning-free approximation of the Shapley value (FreeShap) for instance attribution based on the neural tangent kernel. We empirically demonstrate that FreeShap outperforms other methods for instance attribution and other data-centric applications such as data removal, data selection, and wrong label detection, and further generalize our scale to large language models (LLMs). Our code is available at https://github.com/JTWang2000/FreeShap.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# MeGA: 遺伝的アルゴリズムに基づく複数の独立学習ニューラルネットワークの統合

MeGA: Merging Multiple Independently Trained Neural Networks Based on Genetic Algorithm ( http://arxiv.org/abs/2406.04607v1 )

ライセンス: Link先を確認
Daniel Yun, (参考訳) 本稿では, 遺伝的アルゴリズムであるMeGAを用いて, 複数の事前学習ニューラルネットワークの重みをマージする手法を提案する。 重量平均法やアンサンブル法といった従来の手法は、事前訓練されたネットワークの能力を十分に活用できないことが多い。 我々のアプローチは、トーナメントの選択、クロスオーバー、突然変異による遺伝的アルゴリズムを利用して重量の組み合わせを最適化し、より効果的な融合を生み出す。 この手法により、融合モデルは両方の親モデルから有利な特徴を引き継ぐことができ、その結果精度と堅牢性が向上する。 CIFAR-10データセットの実験を通じて、遺伝的アルゴリズムに基づく重み付け法は、個々のモデルや従来の手法と比較してテスト精度を向上させることを示した。 このアプローチは、さまざまなディープラーニングアプリケーションにまたがって、複数のトレーニング済みネットワークを統合するためのスケーラブルなソリューションを提供する。 Githubは、https://github.com/YUNBLAK/MeGA-Merging-Multiple-Independently-Trained-Neural-Networks-Based-on-Gene tic-Algorithm.comで入手できる。

In this paper, we introduce a novel method for merging the weights of multiple pre-trained neural networks using a genetic algorithm called MeGA. Traditional techniques, such as weight averaging and ensemble methods, often fail to fully harness the capabilities of pre-trained networks. Our approach leverages a genetic algorithm with tournament selection, crossover, and mutation to optimize weight combinations, creating a more effective fusion. This technique allows the merged model to inherit advantageous features from both parent models, resulting in enhanced accuracy and robustness. Through experiments on the CIFAR-10 dataset, we demonstrate that our genetic algorithm-based weight merging method improves test accuracy compared to individual models and conventional methods. This approach provides a scalable solution for integrating multiple pre-trained networks across various deep learning applications. Github is available at: https://github.com/YUNBLAK/MeGA-Merging-Multiple-Independently-Trained-Neural-Networks-Based-on-Gene tic-Algorithm
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# ロバスト異常検出のためのリカバリ-then-discriminate Framework

A Recover-then-Discriminate Framework for Robust Anomaly Detection ( http://arxiv.org/abs/2406.04608v1 )

ライセンス: Link先を確認
Peng Xing, Dong Zhang, Jinhui Tang, Zechao li, (参考訳) 異常検出(AD)は近年,幅広いシナリオで広く研究され,応用されている。 しかし、実用的な応用のためにADを作成するために、達成された認識精度と望ましい認識精度の間にはまだギャップがある。 本稿では、ベースラインモデルにおける2種類の基本的かつ代表的障害事例の洞察に富んだ分析から始め、現在のAD手法が高い認識精度を達成するのを妨げる理由を明らかにする。 特に, ケース1では, 現在のAD法に有害な主な原因として, 復元対象の詳細な特徴が多数含まれており, 正常/異常領域のhas-not/haが元の状態に復元されていることが挙げられる。 ケース2では,画像レベルの表現では認識できない異常領域が特徴レベルの表現では容易に認識できることがわかった。 以上の知見に基づいて,ADのための新しいRecover-then-Discriminate(ReDi)フレームワークを提案する。 ReDiは、自己生成された特徴マップと選択されたインプットイメージを明示的な入力情報として取り込んで、ケース1の問題を解決する。 同時に,検索した表現と入力表現の異常な差異を高めるために,特徴レベルの識別ネットワークを提案する。 2つの人気があるが挑戦的なADデータセットに対する大規模な実験結果は、ReDiが新しい最先端の精度を達成することを証明している。

Anomaly detection (AD) has been extensively studied and applied in a wide range of scenarios in the recent past. However, there are still gaps between achieved and desirable levels of recognition accuracy for making AD for practical applications. In this paper, we start from an insightful analysis of two types of fundamental yet representative failure cases in the baseline model, and reveal reasons that hinder current AD methods from achieving a higher recognition accuracy. Specifically, by Case-1, we found that the main reasons detrimental to current AD methods is that the inputs to the recovery model contain a large number of detailed features to be recovered, which leads to the normal/abnormal area has-not/has been recovered into its original state. By Case-2, we surprisingly found that the abnormal area that cannot be recognized in image-level representations can be easily recognized in the feature-level representation. Based on the above observations, we propose a novel Recover-then-Discriminate (ReDi) framework for AD. ReDi takes a self-generated feature map and a selected prompted image as explicit input information to solve problems in case-1. Concurrently, a feature-level discriminative network is proposed to enhance abnormal differences between the recovered representation and the input representation. Extensive experimental results on two popular yet challenging AD datasets validate that ReDi achieves the new state-of-the-art accuracy.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# 活動認識におけるクロスパーソン一般化のためのドメイン内およびドメイン間アクティビティスタイルフュージョン

Diverse Intra- and Inter-Domain Activity Style Fusion for Cross-Person Generalization in Activity Recognition ( http://arxiv.org/abs/2406.04609v1 )

ライセンス: Link先を確認
Junru Zhang, Lang Feng, Zhidan Liu, Yuhan Wu, Yang He, Yabo Dong, Duanqing Xu, (参考訳) 対人一般化タスクのための既存のドメイン一般化(DG)手法は、しばしばドメイン内およびドメイン間スタイルの多様性を捉える際の課題に直面し、その結果、対象ドメインとのドメインギャップが生じる。 本研究では,ドメインパディングとして概念化されたプロセスである,この問題に対処するための新しい視点を探求する。 本提案は,クラスラベルに対するロバスト性を維持しつつ,ドメイン内およびドメイン間スタイルデータを合成することにより,ドメインの多様性を高めることを目的とする。 条件付き拡散モデルを用いてこの概念をインスタンス化し、データ生成の多様性を高めるためのスタイル融合サンプリング戦略を導入する。 従来の条件誘導サンプリングとは対照的に、我々のスタイル融合サンプリング戦略は、1つ以上のランダムなスタイルを柔軟に利用してデータ合成をガイドすることができる。 既存のスタイル間で可能な置換と組み合わせを最大限に活用し、幅広い種類の新しいスタイルインスタンスを生成することができる。 データセットのボード上での実証的な評価は、生成したデータがドメイン空間内で顕著な多様性を達成することを示す。 ドメイン内のデータとドメイン間のデータの両方が重要で価値があり、さまざまなパフォーマンス向上に寄与している。 特に,本手法は,人間の活動認識タスクにおいて,最先端のDG手法よりも優れている。

Existing domain generalization (DG) methods for cross-person generalization tasks often face challenges in capturing intra- and inter-domain style diversity, resulting in domain gaps with the target domain. In this study, we explore a novel perspective to tackle this problem, a process conceptualized as domain padding. This proposal aims to enrich the domain diversity by synthesizing intra- and inter-domain style data while maintaining robustness to class labels. We instantiate this concept using a conditional diffusion model and introduce a style-fused sampling strategy to enhance data generation diversity. In contrast to traditional condition-guided sampling, our style-fused sampling strategy allows for the flexible use of one or more random styles to guide data synthesis. This feature presents a notable advancement: it allows for the maximum utilization of possible permutations and combinations among existing styles to generate a broad spectrum of new style instances. Empirical evaluations on a board of datasets demonstrate that our generated data achieves remarkable diversity within the domain space. Both intra- and inter-domain generated data have proven to be significant and valuable, contributing to varying degrees of performance enhancements. Notably, our approach outperforms state-of-the-art DG methods in all human activity recognition tasks.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# 差分プライバシーを用いた対照的な説明可能なクラスタリング

Contrastive explainable clustering with differential privacy ( http://arxiv.org/abs/2406.04610v1 )

ライセンス: Link先を確認
Dung Nguyen, Ariel Vetzler, Sarit Kraus, Anil Vullikanti, (参考訳) 本稿では,クラスタリング手法における差分プライバシーと対照的な説明を統合することで,XAI(Explainable AI)の新たなアプローチを提案する。 k$-medianや$k$-meansを含むいくつかの基本的なクラスタリング問題に対して、非プライベートクラスタリングの説明が得るものと同じ説明を本質的に達成する効率的な差分プライベートコントラスト的説明を与える。 対照的な説明は、元のクラスタリングユーティリティと特定の固定されたセントロイドによるクラスタリングとの実用性の違いとして定義する。 各対照的なシナリオでは、特定のデータポイントを固定されたセントロイド位置として指定し、この制約が差分プライバシー下でのクラスタリングユーティリティに与える影響を測定する。 さまざまなデータセットにわたる大規模な実験は、データプライバシやクラスタリングユーティリティを著しく損なうことなく、有意義な説明を提供する方法の有効性を示している。 これにより、プライバシを意識した機械学習への私たちの貢献が、クラスタリングタスクの説明において、プライバシとユーティリティのバランスを達成する可能性を示している。

This paper presents a novel approach in Explainable AI (XAI), integrating contrastive explanations with differential privacy in clustering methods. For several basic clustering problems, including $k$-median and $k$-means, we give efficient differential private contrastive explanations that achieve essentially the same explanations as those that non-private clustering explanations can obtain. We define contrastive explanations as the utility difference between the original clustering utility and utility from clustering with a specifically fixed centroid. In each contrastive scenario, we designate a specific data point as the fixed centroid position, enabling us to measure the impact of this constraint on clustering utility under differential privacy. Extensive experiments across various datasets show our method's effectiveness in providing meaningful explanations without significantly compromising data privacy or clustering utility. This underscores our contribution to privacy-aware machine learning, demonstrating the feasibility of achieving a balance between privacy and utility in the explanation of clustering tasks.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# メッセージパッシングニューラルネットワークの解釈としての注意重みの再検討

Revisiting Attention Weights as Interpretations of Message-Passing Neural Networks ( http://arxiv.org/abs/2406.04612v1 )

ライセンス: Link先を確認
Yong-Min Shin, Siqing Li, Xin Cao, Won-Yong Shin, (参考訳) この自己認識機構は、基礎となるグラフの端に沿って流れる情報の量を適応的に制御する、広く使われているメッセージパッシングニューラルネットワーク(MPNN)(例:GAT)で採用されている。 このような注意力を用いたモデルは、様々な領域(自然言語処理やコンピュータビジョンなど)で注目による解釈が普及しているため、説明可能なAI(XAI)の研究のベースラインとなっている。 しかし、既存の研究では、しばしば注意から帰属スコアを導き出すために単純計算を用いており、エッジ帰属の正確かつ慎重な計算を考慮に入れていない。 本研究は,注目機能付きMPNNの広範利用と,その可能性とのギャップを埋めることを目的としている。 この目的のために、最初の試みとして、GNNにおける注意重みによるエッジ属性の問題の定式化を行う。 そこで,計算木上に構築したエッジ属性計算手法GATTを提案する。 総合的な実験を通じて,GATの属性評価における提案手法の有効性を実証する。 逆に、グラフ注意層上での注意重み平均化は、GATモデルの振舞いを解釈するには不十分であることを実証的に検証する。 コードはhttps://github.com/jordan7186/GAtt/tree/mainで公開されている。

The self-attention mechanism has been adopted in several widely-used message-passing neural networks (MPNNs) (e.g., GATs), which adaptively controls the amount of information that flows along the edges of the underlying graph. This usage of attention has made such models a baseline for studies on explainable AI (XAI) since interpretations via attention have been popularized in various domains (e.g., natural language processing and computer vision). However, existing studies often use naive calculations to derive attribution scores from attention, and do not take the precise and careful calculation of edge attribution into consideration. In our study, we aim to fill the gap between the widespread usage of attention-enabled MPNNs and their potential in largely under-explored explainability, a topic that has been actively investigated in other areas. To this end, as the first attempt, we formalize the problem of edge attribution from attention weights in GNNs. Then, we propose GATT, an edge attribution calculation method built upon the computation tree. Through comprehensive experiments, we demonstrate the effectiveness of our proposed method when evaluating attributions from GATs. Conversely, we empirically validate that simply averaging attention weights over graph attention layers is insufficient to interpret the GAT model's behavior. Code is publicly available at https://github.com/jordan7186/GAtt/tree/main.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# LawGPT:中国の法律知識強化型大規模言語モデル

LawGPT: A Chinese Legal Knowledge-Enhanced Large Language Model ( http://arxiv.org/abs/2406.04614v1 )

ライセンス: Link先を確認
Zhi Zhou, Jiang-Xin Shi, Peng-Xiao Song, Xiao-Wen Yang, Yi-Xuan Jin, Lan-Zhe Guo, Yu-Feng Li, (参考訳) プロプライエタリモデルとオープンソースモデルの両方を含む大規模言語モデル(LLM)は、幅広い下流タスクに対処する際、注目すべき機能を示した。 それでも、中国の現実的な法的タスクに関しては、これらのモデルは実際の要件を満たしていない。 プライオリティモデルは機密性のある訴訟に対してデータのプライバシを保証しないが、オープンソースモデルは法的知識の欠如のために満足のいくパフォーマンスを示す。 この問題に対処するために,中国における法律の応用に特化して設計された,最初のオープンソースモデルであるLawGPTを紹介する。 LawGPTは2つの重要なコンポーネントで構成されている。 具体的には、法的なドメイン知識を組み込むために、法律指向の事前訓練のために、大規模な中国の法律文書を用いる。 下流の法的なタスクにおけるモデルの性能をさらに向上させるために、法的な教師付き微調整のための知識駆動型指導データセットを作成する。 実験の結果,LawGPTはオープンソースのLLaMA 7Bモデルよりも優れていた。 私たちのコードとリソースはhttps://github.com/pengxiao-song/LaWGPTで公開されています。

Large language models (LLMs), including both proprietary and open-source models, have showcased remarkable capabilities in addressing a wide range of downstream tasks. Nonetheless, when it comes to practical Chinese legal tasks, these models fail to meet the actual requirements. Proprietary models do not ensure data privacy for sensitive legal cases, while open-source models demonstrate unsatisfactory performance due to their lack of legal knowledge. To address this problem, we introduce LawGPT, the first open-source model specifically designed for Chinese legal applications. LawGPT comprises two key components: legal-oriented pre-training and legal supervised fine-tuning. Specifically, we employ large-scale Chinese legal documents for legal-oriented pre-training to incorporate legal domain knowledge. To further improve the model's performance on downstream legal tasks, we create a knowledge-driven instruction dataset for legal supervised fine-tuning. Our experimental results demonstrate that LawGPT outperforms the open-source LLaMA 7B model. Our code and resources are publicly available at https://github.com/pengxiao-song/LaWGPT and have received 5.7K stars on GitHub.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# MLLMは何を聴くか?マルチモーダル大言語モデルにおけるテキストと音声成分による推論の検討

What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models ( http://arxiv.org/abs/2406.04615v1 )

ライセンス: Link先を確認
Enis Berk Çoban, Michael I. Mandel, Johanna Devaney, (参考訳) 大規模言語モデル(LLM)は、特にアイデアの結合や問題解決のための論理ルールの固執において、顕著な推論能力を示している。 これらのモデルは、画像や録音を記述できるマルチモーダルLSM(Multimodal LLM)として知られる、音や画像を含む様々なデータモダリティに対応するように進化してきた。 MLLMのLLMコンポーネントが凍結されると、オーディオまたはビジュアルエンコーダは、LLMコンポーネントによるテキストベースの推論を容易にする音声または画像入力をキャプションする。 分類を容易にするために LLM の推論機能を利用することに興味がある。 本稿では、音声キャプション/分類実験を通じて、音声キャプションを生成する際に、音声MLLMがLLMのテキストベースの推論を完全に活用できないことを示す。 また,MLLMが聴覚情報とテキスト情報を別々に表現し,LLMからオーディオエンコーダへの推論経路を把握していることも考慮する。

Large Language Models (LLMs) have demonstrated remarkable reasoning capabilities, notably in connecting ideas and adhering to logical rules to solve problems. These models have evolved to accommodate various data modalities, including sound and images, known as multimodal LLMs (MLLMs), which are capable of describing images or sound recordings. Previous work has demonstrated that when the LLM component in MLLMs is frozen, the audio or visual encoder serves to caption the sound or image input facilitating text-based reasoning with the LLM component. We are interested in using the LLM's reasoning capabilities in order to facilitate classification. In this paper, we demonstrate through a captioning/classification experiment that an audio MLLM cannot fully leverage its LLM's text-based reasoning when generating audio captions. We also consider how this may be due to MLLMs separately representing auditory and textual information such that it severs the reasoning pathway from the LLM to the audio encoder.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# CTSyn: クロスタブラルデータ生成の基礎モデル

CTSyn: A Foundational Model for Cross Tabular Data Generation ( http://arxiv.org/abs/2406.04619v1 )

ライセンス: Link先を確認
Xiaofeng Lin, Chenheng Xu, Matthew Yang, Guang Cheng, (参考訳) Generative Foundation Models (GFMs) は画像やテキストなどのモダリティに優れた品質の合成データを生成する。 しかし、表データにGFMを適用することは、表の特徴の固有の不均一性のために大きな課題となる。 既存のクロステーブル学習フレームワークは、生成モデルバックボーンと、不均一な特徴値のデコードメカニズムが欠如しているため、障害となる。 これらの制限を克服するために,表データ生成に適した拡散に基づく基礎モデルであるCTSynを導入する。 CTSynは、不均一なテーブルを統一潜在空間に集約するアグリゲータ、この空間からサンプリングする条件付き潜在拡散モデル、サンプリングされた潜在ベクトルから様々なデータ型の値を再構成するタイプ固有デコーダの3つの主要なコンポーネントを紹介している。 実世界のデータセットに対する大規模なテストにより、CTSynは既存のテーブルシンセサイザーを実用性と多様性で著しく上回るだけでなく、下流機械学習のパフォーマンスを実際のデータで達成可能な範囲を超えて一意的に向上させ、合成データ生成の新しいパラダイムを確立していることが明らかになった。

Generative Foundation Models (GFMs) have produced synthetic data with remarkable quality in modalities such as images and text. However, applying GFMs to tabular data poses significant challenges due to the inherent heterogeneity of table features. Existing cross-table learning frameworks are hindered by the absence of both a generative model backbone and a decoding mechanism for heterogeneous feature values. To overcome these limitations, we introduce the Cross-Table Synthesizer (CTSyn), a diffusion-based foundational model tailored for tabular data generation. CTSyn introduces three major components: an aggregator that consolidates heterogeneous tables into a unified latent space; a conditional latent diffusion model for sampling from this space; and type-specific decoders that reconstruct values of varied data types from sampled latent vectors. Extensive testing on real-world datasets reveals that CTSyn not only significantly outperforms existing table synthesizers in utility and diversity, but also uniquely enhances performances of downstream machine learning beyond what is achievable with real data, thus establishing a new paradigm for synthetic data generation.
翻訳日:2024-06-10 15:39:08 公開日:2024-06-07
# 画像処理による森林火災検出

Image Processing Based Forest Fire Detection ( http://arxiv.org/abs/2406.04624v1 )

ライセンス: Link先を確認
Vipin V, (参考訳) 画像処理技術を用いた森林火災検出のための新しい手法を提案する。 ファイアピクセル分類のためのルールベースのカラーモデルが使用される。 提案アルゴリズムはRGBとYCbCrの色空間を用いる。 YCbCr色空間を使用する利点は、RGB色空間よりも効率的に発光を分離できる点である。 提案アルゴリズムの性能は2つの画像で検証され、そのうちの1つは火を含むが、もう1つは火のような領域を含む。 標準手法はアルゴリズムの性能を計算するのに使用される。 提案手法は,検出率が高く,誤警報率も低い。 このアルゴリズムは計算コストが安いため、リアルタイム森林火災検知に利用することができる。

A novel approach for forest fire detection using image processing technique is proposed. A rule-based color model for fire pixel classification is used. The proposed algorithm uses RGB and YCbCr color space. The advantage of using YCbCr color space is that it can separate the luminance from the chrominance more effectively than RGB color space. The performance of the proposed algorithm is tested on two sets of images, one of which contains fire; the other contains fire-like regions. Standard methods are used for calculating the performance of the algorithm. The proposed method has both higher detection rate and lower false alarm rate. Since the algorithm is cheap in computation, it can be used for real-time forest fire detection.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# 文書要約のためのキー要素インフォームドsLLMチューニング

Key-Element-Informed sLLM Tuning for Document Summarization ( http://arxiv.org/abs/2406.04625v1 )

ライセンス: Link先を確認
Sangwon Ryu, Heejin Do, Yunsu Kim, Gary Geunbae Lee, Jungseul Ok, (参考訳) 大きな言語モデル(LLM)の顕著な進歩により、高品質なテキスト要約が可能になった。 しかし、この機能は現在、かなりのサイズのLLMまたは使用料のプロプライエタリなLLMを通じてのみアクセス可能である。 これに対し、容易なアクセシビリティと低コストの小型LCM(sLLM)が広く研究されているが、特に入力ドキュメントが長い場合、キー情報やエンティティの欠落に悩まされることが多い。 そこで我々は,文書中のキー要素を識別し,これらのキー要素をキャプチャする要約を生成するためにsLLMを指示する,いわゆるKEITSumというキー要素インフォームド命令チューニングを提案する。 対話とニュースデータセットの実験結果から、KEITSumを用いたsLLMは、プロプライエタリなLLMと競合する、高い関連性と幻覚の少ない高品質な要約を提供することを示した。

Remarkable advances in large language models (LLMs) have enabled high-quality text summarization. However, this capability is currently accessible only through LLMs of substantial size or proprietary LLMs with usage fees. In response, smaller-scale LLMs (sLLMs) of easy accessibility and low costs have been extensively studied, yet they often suffer from missing key information and entities, i.e., low relevance, in particular, when input documents are long. We hence propose a key-element-informed instruction tuning for summarization, so-called KEITSum, which identifies key elements in documents and instructs sLLM to generate summaries capturing these key elements. Experimental results on dialogue and news datasets demonstrate that sLLM with KEITSum indeed provides high-quality summarization with higher relevance and less hallucinations, competitive to proprietary LLM.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# Adaptive Interface-PINNs (AdaI-PINNs): インタフェース問題のための効率的な物理情報ニューラルネットワークフレームワーク

Adaptive Interface-PINNs (AdaI-PINNs): An Efficient Physics-informed Neural Networks Framework for Interface Problems ( http://arxiv.org/abs/2406.04626v1 )

ライセンス: Link先を確認
Sumanta Roy, Chandrasekhar Annavarapu, Pratanu Roy, Antareep Kumar Sarma, (参考訳) 本稿では、不連続な係数や/または界面ジャンプを伴うインタフェース問題のモデル化を改善するために、適応インターフェース-PINN(Adaptive Interface-PINN)と呼ばれる効率的な物理情報ニューラルネットワーク(PINN)フレームワークを提案する。 このフレームワークは、前身であるInterface PINNまたはI-PINN(Sarma et al ; https://dx.doi.org/10.2139/ssrn.4766623)の強化版であり、ニューラルネットワークの他のパラメータをすべて同一にしつつ、各サブドメイン内の各サブドメインで定義されたアクティベーション関数のドメイン分解と割り当てを含む。 AdaI-PINNでは、アクティベーション機能は、ニューラルネットワークの他のパラメータとともにトレーニングされる斜面でのみ異なる。 これにより、AdaI-PINNsフレームワークは、プリセットされたアクティベーション関数を必要とせずに完全に自動化される。 1次元,2次元,3次元のベンチマーク楕円型インタフェース問題の比較研究により,AdaI-PINNはI-PINNよりも優れており,計算コストが2~6倍削減され,類似性や精度が向上した。

We present an efficient physics-informed neural networks (PINNs) framework, termed Adaptive Interface-PINNs (AdaI-PINNs), to improve the modeling of interface problems with discontinuous coefficients and/or interfacial jumps. This framework is an enhanced version of its predecessor, Interface PINNs or I-PINNs (Sarma et al.; https://dx.doi.org/10.2139/ssrn.4766623), which involves domain decomposition and assignment of different predefined activation functions to the neural networks in each subdomain across a sharp interface, while keeping all other parameters of the neural networks identical. In AdaI-PINNs, the activation functions vary solely in their slopes, which are trained along with the other parameters of the neural networks. This makes the AdaI-PINNs framework fully automated without requiring preset activation functions. Comparative studies on one-dimensional, two-dimensional, and three-dimensional benchmark elliptic interface problems reveal that AdaI-PINNs outperform I-PINNs, reducing computational costs by 2-6 times while producing similar or better accuracy.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# 雑音の時系列に対する雑音認識型コントラスト学習

Denoising-Aware Contrastive Learning for Noisy Time Series ( http://arxiv.org/abs/2406.04627v1 )

ライセンス: Link先を確認
Shuang Zhou, Daochen Zha, Xiao Shen, Xiao Huang, Rui Zhang, Fu-Lai Chung, (参考訳) 時系列自己教師型学習(SSL)は、ラベルへの依存を軽減するために事前トレーニングのためにラベル付きデータを活用することを目的としている。 近年、大きな成功を収めたにもかかわらず、時系列における潜在的なノイズについての議論は限られており、既存のSSLメソッドのパフォーマンスを著しく損なう可能性がある。 ノイズを緩和するため、デファクト戦略はモデルトレーニングに先立って従来の復調法を適用することである。 しかし、この前処理アプローチはSSLにおけるノイズの影響を完全に排除するものではないかもしれない。 一 時系列における多種多様なノイズにより、適切な復調法を自動決定することが困難となる。 (ii)生データを潜時空間にマッピングした後、雑音を増幅することができる。 本稿では,表現中の雑音を緩和するために,コントラスト学習の目的を用いて,各サンプルに対して適切な復調法を自動選択するDenoising-Aware contrastive Learning (DECL)を提案する。 各種データセットに対する大規模な実験により,本手法の有効性が検証された。 コードはオープンソース化されている。

Time series self-supervised learning (SSL) aims to exploit unlabeled data for pre-training to mitigate the reliance on labels. Despite the great success in recent years, there is limited discussion on the potential noise in the time series, which can severely impair the performance of existing SSL methods. To mitigate the noise, the de facto strategy is to apply conventional denoising methods before model training. However, this pre-processing approach may not fully eliminate the effect of noise in SSL for two reasons: (i) the diverse types of noise in time series make it difficult to automatically determine suitable denoising methods; (ii) noise can be amplified after mapping raw data into latent space. In this paper, we propose denoising-aware contrastive learning (DECL), which uses contrastive learning objectives to mitigate the noise in the representation and automatically selects suitable denoising methods for every sample. Extensive experiments on various datasets verify the effectiveness of our method. The code is open-sourced.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# STAR:Skeleton-Aware Text-based 4D Avatar Generation with In-Network Motion Retargeting

STAR: Skeleton-aware Text-based 4D Avatar Generation with In-Network Motion Retargeting ( http://arxiv.org/abs/2406.04629v1 )

ライセンス: Link先を確認
Zenghao Chai, Chen Tang, Yongkang Wong, Mohan Kankanhalli, (参考訳) テキスト記述から4Dアバター(アニメーション3Dアバター)を作成する場合、典型的にはテキスト・トゥ・イメージ(T2I)拡散モデルを用いて、標準空間内の3Dアバターを合成し、その後ターゲットモーションでアニメーションを適用する。 しかし、このような最適化・バイ・アニメーションのパラダイムにはいくつかの欠点がある。 1) 擬似スコア蒸留サンプリング(SDS)の標準ポーズのレンダリング画像はドメインギャップを示し,T2Iの先行値のみを用いて表示一貫性を維持することができず, (2) ポストホックアニメーションでは, ソースモーションを3Dアバターに単純に適用すれば, 翻訳アーティファクトや誤認識が生じる。 これらの問題に対処するため,Skeleton-aware Text-based 4D Avatar generation with in-network Motion Retargeting (STAR)を提案する。 STARはテンプレートメッシュとターゲットアバターの形状と骨格の違いを考慮し、事前訓練されたモーションリターゲティング技術を利用してミスマッチしたソースモーションを補正する。 情報的に再ターゲティングされたオクルージョンを意識した骨格では、スケルトン条件のT2Iとテキスト・トゥ・ビデオ(T2V)を取り入れ、マルチビューとフレームに一貫性のある監視信号を協調的に提供するハイブリッドSDSモジュールを提案する。 したがって、STARは段階的に幾何学、テクスチャ、動きをエンドツーエンドで最適化することができる。 定量的および定性的な実験により,提案したSTARは,テキスト記述とよく一致した鮮明なアニメーションで高品質な4Dアバターを合成できることを示した。 追加のアブレーション研究はSTARの各成分の寄与を示している。 ソースコードとデモは: \href{https://star-avatar.github.io}{https://star-avatar.github.io}.comで公開されている。

The creation of 4D avatars (i.e., animated 3D avatars) from text description typically uses text-to-image (T2I) diffusion models to synthesize 3D avatars in the canonical space and subsequently applies animation with target motions. However, such an optimization-by-animation paradigm has several drawbacks. (1) For pose-agnostic optimization, the rendered images in canonical pose for naive Score Distillation Sampling (SDS) exhibit domain gap and cannot preserve view-consistency using only T2I priors, and (2) For post hoc animation, simply applying the source motions to target 3D avatars yields translation artifacts and misalignment. To address these issues, we propose Skeleton-aware Text-based 4D Avatar generation with in-network motion Retargeting (STAR). STAR considers the geometry and skeleton differences between the template mesh and target avatar, and corrects the mismatched source motion by resorting to the pretrained motion retargeting techniques. With the informatively retargeted and occlusion-aware skeleton, we embrace the skeleton-conditioned T2I and text-to-video (T2V) priors, and propose a hybrid SDS module to coherently provide multi-view and frame-consistent supervision signals. Hence, STAR can progressively optimize the geometry, texture, and motion in an end-to-end manner. The quantitative and qualitative experiments demonstrate our proposed STAR can synthesize high-quality 4D avatars with vivid animations that align well with the text description. Additional ablation studies shows the contributions of each component in STAR. The source code and demos are available at: \href{https://star-avatar.github.io}{https://star-avatar.github.io}.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# 大規模言語モデルを用いたFew-Shot Learningによる低リソース言語間要約

Low-Resource Cross-Lingual Summarization through Few-Shot Learning with Large Language Models ( http://arxiv.org/abs/2406.04630v1 )

ライセンス: Link先を確認
Gyutae Park, Seojin Hwang, Hwanhee Lee, (参考訳) 言語間要約(XLS)は、ソース言語文書とは異なる対象言語で要約を生成することを目的としている。 大規模言語モデル(LLM)ではゼロショットXLSのパフォーマンスが期待できるが、特に並列データに制限のある低リソース言語では、このタスクでの少数ショットの機能は未探索のままである。 本稿では,Mistral-7B-Instruct-v0.2,GPT-3.5,GPT-4を含む各種モデルのXLS性能について検討する。 実験により,低リソース環境下でのLLM,特にGPT-3.5およびGPT-4のXLS性能が向上することが確認された。 しかし、オープンソースのMistral-7B-Instruct-v0.2は、限られた例でXLSタスクに効果的に対応するのに苦労している。 この結果から,XLS 性能向上のための数発学習の可能性や,LLM アーキテクチャの設計におけるさらなる研究の必要性や,この課題に適した事前学習目標の必要性が浮かび上がっている。 我々は、より効果的な数発学習戦略を探求し、言語間要約のためのLLMの転写学習能力を検討するために、今後の作業指示を提供する。

Cross-lingual summarization (XLS) aims to generate a summary in a target language different from the source language document. While large language models (LLMs) have shown promising zero-shot XLS performance, their few-shot capabilities on this task remain unexplored, especially for low-resource languages with limited parallel data. In this paper, we investigate the few-shot XLS performance of various models, including Mistral-7B-Instruct-v0.2, GPT-3.5, and GPT-4. Our experiments demonstrate that few-shot learning significantly improves the XLS performance of LLMs, particularly GPT-3.5 and GPT-4, in low-resource settings. However, the open-source model Mistral-7B-Instruct-v0.2 struggles to adapt effectively to the XLS task with limited examples. Our findings highlight the potential of few-shot learning for improving XLS performance and the need for further research in designing LLM architectures and pre-training objectives tailored for this task. We provide a future work direction to explore more effective few-shot learning strategies and to investigate the transfer learning capabilities of LLMs for cross-lingual summarization.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# 擬似コードのスケーリング自動抽出

Scaling Automatic Extraction of Pseudocode ( http://arxiv.org/abs/2406.04635v1 )

ライセンス: Link先を確認
Levent Toksoz, Gang Tan, C. Lee Giles, (参考訳) 学術論文の擬似コードは、そこで実装されたアルゴリズムを簡潔に表現する方法を提供する。 Pseudocodeは、プログラミング言語と自然言語のギャップを埋める仲介者表現とも考えられる。 大量の擬似コードにアクセスすることで、アルゴリズム理解の強化、さらなるアルゴリズム設計の促進、自動コード生成や光学文字認識(OCR)といったタスクのためのNLPまたはコンピュータビジョンベースのモデルの拡張など、さまざまなメリットが得られる。 我々はarXiv論文から約32万の擬似コード例を抽出し,大規模な擬似コードコレクションを作成している。 このプロセスでは、220万ドル以上の学術論文をスキャンし、そのうち1,000件は手動で検査されラベル付けされた。 提案手法は,対象範囲を最適化するための抽出機構と,その精度と信頼性を確認するためのランダムサンプリングに基づく検証機構を包含する。 さらに,クラスタリングと統計解析によって支援された共通擬似符号構造に関する洞察を提供する。 特に、これらの分析は擬似符号の利用の指数関数的な成長を示し、その重要性の増大を浮き彫りにした。

Pseudocode in a scholarly paper provides a concise way to express the algorithms implemented therein. Pseudocode can also be thought of as an intermediary representation that helps bridge the gap between programming languages and natural languages. Having access to a large collection of pseudocode can provide various benefits ranging from enhancing algorithmic understanding, facilitating further algorithmic design, to empowering NLP or computer vision based models for tasks such as automated code generation and optical character recognition (OCR). We have created a large pseudocode collection by extracting nearly 320,000 pseudocode examples from arXiv papers. This process involved scanning over $2.2$ million scholarly papers, with 1,000 of them being manually inspected and labeled. Our approach encompasses an extraction mechanism tailored to optimize the coverage and a validation mechanism based on random sampling to check its accuracy and reliability, given the inherent heterogeneity of the collection. In addition, we offer insights into common pseudocode structures, supported by clustering and statistical analyses. Notably, these analyses indicate an exponential-like growth in the usage of pseudocodes, highlighting their increasing significance.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# アクセシブルアドベンチャー:ゲームを通して高校生にアクセシビリティを教える

Accessible Adventures: Teaching Accessibility to High School Students Through Games ( http://arxiv.org/abs/2406.04637v1 )

ライセンス: Link先を確認
Kyrie Zhixuan Zhou, Chunyu Liu, Jingwen Shan, Devorah Kletenik, Rachel F. Adler, (参考訳) アクセシビリティ教育は、高校カリキュラムに組み入れられることはめったにない。 これは、次世代のソフトウェアデザイナや意思決定者に、アクセシビリティと障害に関する知識、認識、共感を与える機会を逃している。 中西部高校の生徒に共感型ゲームでアクセシビリティ(N=93)を教え,プログラミングを教えた3人のコンピュータサイエンス高校教師と1人の司書にインタビューした。 アクセシビリティ教育は現在、高校では不十分であり、教師の知識や矛盾したカリキュラム目標といった課題に直面している。 学生は、ゲーム後に障害者に対するアクセシビリティと共感に関する知識と意識を高めた。 この教育の成果により,ゲームを活用した次世代ソフトウェア設計者へのアクセシビリティ教育に関する洞察の提供を目指す。

Accessibility education has been rarely incorporated into the high school curricula. This is a missed opportunity to equip next-generation software designers and decision-makers with knowledge, awareness, and empathy regarding accessibility and disabilities. We taught accessibility to students (N=93) in a midwestern high school through empathy-driven games and interviewed three Computer Science high school teachers and one librarian who taught programming. Accessibility education is currently insufficient in high school, facing challenges such as teachers' knowledge and conflicted curriculum goals. The students exhibited increased knowledge and awareness of accessibility and empathy for people with disabilities after playing the games. With this education outreach, we aim to provide insights into teaching next-generation software designers about accessibility by leveraging games.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# 大規模言語モデル誘導文書選択

Large Language Model-guided Document Selection ( http://arxiv.org/abs/2406.04638v1 )

ライセンス: Link先を確認
Xiang Kong, Tom Gunter, Ruoming Pang, (参考訳) LLM(Large Language Model)の事前学習は、ますます増加する計算予算を消費するが、最近の研究は、注意深い文書の選択によって、FLOPのごく一部で、同等のモデル品質を実現することを実証している。 ドメイン固有の訓練用文書選択は、実際は解釈可能なプロセスである(Gunasekar et al , 2023)ことや、命令を微調整したLLMがゼロショットデータラベルに適している(Gilardi et al , 2023)ことを示す研究から着想を得て、拡張性のある汎用文書選択のための有望な方向を探究する。 この分類器のガイダンスに従って、コーパスの75%を減らし、残りのデータに基づいてLSMを訓練する。 複数のベンチマークの結果は以下のとおりである。 1. フィルタリングにより、FLOPの70%以上を持つさまざまなベンチマークで、フルコーパスでトレーニングされたモデルの品質マッチングが可能になります。 2.より有能なLDMラベルラと分類器モデルにより、ラベルラのプロンプトに敏感でない結果が得られます。 3. コンテキスト内学習は,低能力なラベル付けモデルの性能向上に役立つ。 すべてのケースでは、オープンソースデータセット、モデル、レシピ、評価フレームワークを使用します。

Large Language Model (LLM) pre-training exhausts an ever growing compute budget, yet recent research has demonstrated that careful document selection enables comparable model quality with only a fraction of the FLOPs. Inspired by efforts suggesting that domain-specific training document selection is in fact an interpretable process [Gunasekar et al., 2023], as well as research showing that instruction-finetuned LLMs are adept zero-shot data labelers [Gilardi et al.,2023], we explore a promising direction for scalable general-domain document selection; employing a prompted LLM as a document grader, we distill quality labels into a classifier model, which is applied at scale to a large, and already heavily-filtered, web-crawl-derived corpus autonomously. Following the guidance of this classifier, we drop 75% of the corpus and train LLMs on the remaining data. Results across multiple benchmarks show that: 1. Filtering allows us to quality-match a model trained on the full corpus across diverse benchmarks with at most 70% of the FLOPs, 2. More capable LLM labelers and classifier models lead to better results that are less sensitive to the labeler's prompt, 3. In-context learning helps to boost the performance of less-capable labeling models. In all cases we use open-source datasets, models, recipes, and evaluation frameworks, so that results can be reproduced by the community.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# グラディエント・オーグメンテーションを用いた共同メタラーニング

Cooperative Meta-Learning with Gradient Augmentation ( http://arxiv.org/abs/2406.04639v1 )

ライセンス: Link先を確認
Jongyun Shin, Seunjin Han, Jangho Kim, (参考訳) モデル非依存メタラーニング(MAML)は、内ループと外ループの2つの最適化ループからなる、最も広く使われている勾配に基づくメタラーニングの1つである。 MAMLは、内部更新でメタ初期化パラメータから新しいタスクを学び、外部ループでメタ初期化パラメータを見つける。 一般に、勾配を増大させるためのモデルの勾配への雑音の注入は、広く使われている正規化手法の1つである。 本研究では,勾配増加を伴う勾配レベルの正規化を活用する,CMLと呼ばれる新しい協調型メタラーニングフレームワークを提案する。 モデル一般化のためのモデルの勾配に学習可能なノイズを注入する。 CMLのキーとなるアイデアは、内部更新はないが、外部ループのアップデートにより、より良いメタ初期化パラメータを見つけるための勾配を増大させることである。 共同学習者はインナーループを更新しないため、メタトレーニング後に簡単に削除できる。 そのため、CMLは、追加のコストと性能劣化を伴わずにメタラーナーのみを推論する。 我々はCMLが勾配に基づくメタラーニング手法に容易に適用できることを示し、CMLは数発の回帰、数発の画像分類、数発のノード分類タスクにおいて性能を向上させることを示した。 私たちのコードはhttps://github.com/JJongyn/CMLにあります。

Model agnostic meta-learning (MAML) is one of the most widely used gradient-based meta-learning, consisting of two optimization loops: an inner loop and outer loop. MAML learns the new task from meta-initialization parameters with an inner update and finds the meta-initialization parameters in the outer loop. In general, the injection of noise into the gradient of the model for augmenting the gradient is one of the widely used regularization methods. In this work, we propose a novel cooperative meta-learning framework dubbed CML which leverages gradient-level regularization with gradient augmentation. We inject learnable noise into the gradient of the model for the model generalization. The key idea of CML is introducing the co-learner which has no inner update but the outer loop update to augment gradients for finding better meta-initialization parameters. Since the co-learner does not update in the inner loop, it can be easily deleted after meta-training. Therefore, CML infers with only meta-learner without additional cost and performance degradation. We demonstrate that CML is easily applicable to gradient-based meta-learning methods and CML leads to increased performance in few-shot regression, few-shot image classification and few-shot node classification tasks. Our codes are at https://github.com/JJongyn/CML.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# LinkGPT:大規模言語モデルでリンク不足を予測

LinkGPT: Teaching Large Language Models To Predict Missing Links ( http://arxiv.org/abs/2406.04640v1 )

ライセンス: Link先を確認
Zhongmou He, Jing Zhu, Shengyi Qian, Joyce Chai, Danai Koutra, (参考訳) 大規模言語モデル(LLM)は、様々な言語やビジョンタスクにおいて有望な結果を示している。 近年,グラフベースのタスク,特にText-Attributed Graphs (TAG) に LLM を適用することへの関心が高まっている。 しかし、ほとんどの研究はノード分類に焦点をあてているが、リンク予測(LP)にLLMを使うことはまだ検討されていない。 本研究では,グラフ内のノード間のリンク不足を予測するために LLM を活用することを目的とした LLM に関する新しいタスクを提案する。 この課題は,LLMが構造化されたデータを解析し,学習パターンに基づいて新たな事実を推測する能力を評価する。 この新たな課題は,(1)LP性能に欠かせないLLMに相互構造情報を効果的に組み込む方法,(2)LPにLPを行うように教える際の計算ボトルネックを解決する方法,の2つの課題を提起する。 これらの課題に対処するため、我々はLPタスクのための最初のエンドツーエンドのLLMであるLinkGPTを提案する。 基礎構造を理解するLLMの能力を効果的に向上するため,第1段はペアエンコーダ,プロジェクタ,ノードプロジェクタを微調整し,第2段はさらに微調整してリンクを予測する2段階の命令チューニング手法を設計した。 推定時間における効率の課題に対処するために,検索の優先順位付け方式を導入する。 実験により、LinkGPTは実世界のグラフ上での最先端のパフォーマンスと、ゼロショットおよび少数ショット学習における優れた一般化を実現し、既存のベンチマークを上回っていることが示された。 推論時には、高いLP精度を維持しながら、10\times$ Speedupを達成することができる。

Large Language Models (LLMs) have shown promising results on various language and vision tasks. Recently, there has been growing interest in applying LLMs to graph-based tasks, particularly on Text-Attributed Graphs (TAGs). However, most studies have focused on node classification, while the use of LLMs for link prediction (LP) remains understudied. In this work, we propose a new task on LLMs, where the objective is to leverage LLMs to predict missing links between nodes in a graph. This task evaluates an LLM's ability to reason over structured data and infer new facts based on learned patterns. This new task poses two key challenges: (1) How to effectively integrate pairwise structural information into the LLMs, which is known to be crucial for LP performance, and (2) how to solve the computational bottleneck when teaching LLMs to perform LP. To address these challenges, we propose LinkGPT, the first end-to-end trained LLM for LP tasks. To effectively enhance the LLM's ability to understand the underlying structure, we design a two-stage instruction tuning approach where the first stage fine-tunes the pairwise encoder, projector, and node projector, and the second stage further fine-tunes the LLMs to predict links. To address the efficiency challenges at inference time, we introduce a retrieval-reranking scheme. Experiments show that LinkGPT can achieve state-of-the-art performance on real-world graphs as well as superior generalization in zero-shot and few-shot learning, surpassing existing benchmarks. At inference time, it can achieve $10\times$ speedup while maintaining high LP accuracy.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# Ciceroの外交戦略を評価する: 勝利と協力の欠如

More Victories, Less Cooperation: Assessing Cicero's Diplomacy Play ( http://arxiv.org/abs/2406.04643v1 )

ライセンス: Link先を確認
Wichayaporn Wongkamjan, Feng Gu, Yanze Wang, Ulf Hermjakob, Jonathan May, Brandon M. Stewart, Jonathan K. Kummerfeld, Denis Peskoff, Jordan Lee Boyd-Graber, (参考訳) ボードゲーム外交は、コミュニケーションと協調的な人工知能にとって困難な状況である。 最も顕著な通信外交AIであるCiceroは、優れた戦略能力を持ち、人間のプレイヤーを超越している。 しかし、最高の外交プレーヤーは、戦術だけでなくコミュニケーションをマスターしているため、ゲームがAIチャレンジとして注目されている。 この研究は、シケロがコミュニケーションで成功する程度を理解することを目的としている。 まず,ゲーム内コミュニケーションを抽象的な意味表現とアノテートすることで,ゲーム内戦術を汎用言語から分離する。 第2に,人間とCiceroで2ダース以上のゲームを実行しています。 AIは人間のプレイヤーを常に上回ることができるが、AIとヒューマンのコミュニケーションは、騙しや説得が難しいため、依然として制限されている。 これは、Ciceroが戦略に依存しており、コミュニケーションとコラボレーティブAIの完全な約束に到達していないことを示している。

The boardgame Diplomacy is a challenging setting for communicative and cooperative artificial intelligence. The most prominent communicative Diplomacy AI, Cicero, has excellent strategic abilities, exceeding human players. However, the best Diplomacy players master communication, not just tactics, which is why the game has received attention as an AI challenge. This work seeks to understand the degree to which Cicero succeeds at communication. First, we annotate in-game communication with abstract meaning representation to separate in-game tactics from general language. Second, we run two dozen games with humans and Cicero, totaling over 200 human-player hours of competition. While AI can consistently outplay human players, AI-Human communication is still limited because of AI's difficulty with deception and persuasion. This shows that Cicero relies on strategy and has not yet reached the full promise of communicative and cooperative AI.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# UVCPNet:3次元物体検出のためのUAV-Vehicle協調知覚ネットワーク

UVCPNet: A UAV-Vehicle Collaborative Perception Network for 3D Object Detection ( http://arxiv.org/abs/2406.04647v1 )

ライセンス: Link先を確認
Yuchao Wang, Peirui Cheng, Pengju Tian, Ziyang Yuan, Liangjin Zhao, Jing Tian, Wensheng Wang, Zhirui Wang, Xian Sun, (参考訳) 協調知覚の進展に伴い, 地上共同認識の役割が重要視されつつある。 より包括的な知覚情報を構築するために、様々な視点で協調的な知覚を求める声が増えている。 しかし、ドメイン間エージェント間の視野の相違と、画像内の情報に対する感度の相違により、課題が生じる。 さらに、画像機能をコラボレーションのためにBird's Eye View(BEV)機能に変換する場合、正確な深度情報が必要です。 これらの課題に対処するため,地上共同作業のためのフレームワークを提案する。 まず,地上共同作業のためのデータセットの不足を軽減するために,V2U-COOという仮想データセットを開発した。 第2に、異なるドメインから得られたターゲット情報を整列させ、より正確な認識結果を得るために、クロスドメイン・クロス・アダプテーション(CDCA)モジュールを設計する。 最後に、より正確な深度推定結果を得るために、協調深度最適化(CDO)モジュールを導入し、より正確な知覚結果を得る。 仮想データセットと公開データセットの両方で広範な実験を行い、フレームワークの有効性を検証する。 V2U-COOデータセットとDAIR-V2Xデータセットの実験では,検出精度がそれぞれ6.1%,DAIR-V2Xデータセットが2.7%向上した。

With the advancement of collaborative perception, the role of aerial-ground collaborative perception, a crucial component, is becoming increasingly important. The demand for collaborative perception across different perspectives to construct more comprehensive perceptual information is growing. However, challenges arise due to the disparities in the field of view between cross-domain agents and their varying sensitivity to information in images. Additionally, when we transform image features into Bird's Eye View (BEV) features for collaboration, we need accurate depth information. To address these issues, we propose a framework specifically designed for aerial-ground collaboration. First, to mitigate the lack of datasets for aerial-ground collaboration, we develop a virtual dataset named V2U-COO for our research. Second, we design a Cross-Domain Cross-Adaptation (CDCA) module to align the target information obtained from different domains, thereby achieving more accurate perception results. Finally, we introduce a Collaborative Depth Optimization (CDO) module to obtain more precise depth estimation results, leading to more accurate perception outcomes. We conduct extensive experiments on both our virtual dataset and a public dataset to validate the effectiveness of our framework. Our experiments on the V2U-COO dataset and the DAIR-V2X dataset demonstrate that our method improves detection accuracy by 6.1% and 2.7%, respectively.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# UCDNet:信頼性のある特徴マッピングによる複数UAV協調3次元物体検出ネットワーク

UCDNet: Multi-UAV Collaborative 3D Object Detection Network by Reliable Feature Mapping ( http://arxiv.org/abs/2406.04648v1 )

ライセンス: Link先を確認
Pengju Tian, Peirui Cheng, Yuchao Wang, Zhechao Wang, Zhirui Wang, Menglong Yan, Xue Yang, Xian Sun, (参考訳) マルチUAV協調型3Dオブジェクト検出は、交通監視、配送サービス、農業管理を含むアプリケーションと相補的な情報を統合することで、複雑な環境を知覚し、理解することができる。 しかし、空中リモートセンシングにおける極めて広範囲な観測と、複数のUAV間での顕著な視点差により、2D画像から3D空間への正確な一貫した特徴マッピングをマルチUAV協調3Dオブジェクト検出パラダイムで達成することは困難である。 この問題に対処するため,UCDNetと呼ばれるカメラによる複数UAV協調3Dオブジェクト検出パラダイムを提案する。 具体的には、UAVから地上への深度情報は、より正確で一般化可能な特徴マッピングのための参照を提供するために、強みとして明示的に利用される。 さらに,同値点の幾何的整合性損失を補助的な自己スーパービジョンとして設計し,特徴写像モジュールに直接影響し,多視点知覚のグローバルな整合性を高める。 AeroCollab3DとCoPerception-UAVsデータセットによる実験により,本手法はベースラインと比較してそれぞれ4.7%,10%mAP増加し,UCDNetの優位性を示した。

Multi-UAV collaborative 3D object detection can perceive and comprehend complex environments by integrating complementary information, with applications encompassing traffic monitoring, delivery services and agricultural management. However, the extremely broad observations in aerial remote sensing and significant perspective differences across multiple UAVs make it challenging to achieve precise and consistent feature mapping from 2D images to 3D space in multi-UAV collaborative 3D object detection paradigm. To address the problem, we propose an unparalleled camera-based multi-UAV collaborative 3D object detection paradigm called UCDNet. Specifically, the depth information from the UAVs to the ground is explicitly utilized as a strong prior to provide a reference for more accurate and generalizable feature mapping. Additionally, we design a homologous points geometric consistency loss as an auxiliary self-supervision, which directly influences the feature mapping module, thereby strengthening the global consistency of multi-view perception. Experiments on AeroCollab3D and CoPerception-UAVs datasets show our method increases 4.7% and 10% mAP respectively compared to the baseline, which demonstrates the superiority of UCDNet.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# SMART(Scene-motion-aware human action recognition framework for mental disorder group)

SMART: Scene-motion-aware human action recognition framework for mental disorder group ( http://arxiv.org/abs/2406.04649v1 )

ライセンス: Link先を確認
Zengyuan Lai, Jiarui Yang, Songpengcheng Xia, Qi Wu, Zhen Sun, Wenxian Yu, Ling Pei, (参考訳) 精神疾患を持つ患者は、壁に登ったり、窓を打ったり、スマートヘルスケアのためのインテリジェントなビデオビヘイビア監視をIoT(Internet of Things)技術で必要としたりといった、危険な異常な行動を示すことが多い。 しかし、これらの行動に対する視覚に基づくヒューマンアクション認識(HAR)の開発は、特殊なアルゴリズムやデータセットの欠如によって妨げられている。 本稿では,精神障害グループで頻繁に発生する異常行動を含む視覚に基づくHARデータセットの構築を革新的に提案する。 まず、人間の動きの軌跡と人間とシーンの相互作用の特徴を抽出するシーン認識モジュールを提案し、上記の動作の補足的意味表現に付加的なシーン情報を導入する。 第2に、多段融合モジュールは、骨格運動、運動軌跡及びヒトとシーンの相互作用特徴を融合させ、骨格運動と上記補足表現とのセマンティックな関連性を高め、ヒトの動きとシーン情報の両方を包括的に表現する。 提案手法の有効性を自作HARデータセット(MentalHAD)で検証し,未確認の被験者と場面で94.9%, 93.1%, 最先端のアプローチでは6.5%, 13.2%の精度で評価した。 実演された主題とシーンの一般化性は、SMARTが医療環境における精神疾患患者のためのスマートヘルスケアシステムへの実践的な展開に移行することを可能にする。 コードとデータセットは、さらなる研究のために公開される。 https://github.com/Inowlzy/SMART.git。

Patients with mental disorders often exhibit risky abnormal actions, such as climbing walls or hitting windows, necessitating intelligent video behavior monitoring for smart healthcare with the rising Internet of Things (IoT) technology. However, the development of vision-based Human Action Recognition (HAR) for these actions is hindered by the lack of specialized algorithms and datasets. In this paper, we innovatively propose to build a vision-based HAR dataset including abnormal actions often occurring in the mental disorder group and then introduce a novel Scene-Motion-aware Action Recognition Technology framework, named SMART, consisting of two technical modules. First, we propose a scene perception module to extract human motion trajectory and human-scene interaction features, which introduces additional scene information for a supplementary semantic representation of the above actions. Second, the multi-stage fusion module fuses the skeleton motion, motion trajectory, and human-scene interaction features, enhancing the semantic association between the skeleton motion and the above supplementary representation, thus generating a comprehensive representation with both human motion and scene information. The effectiveness of our proposed method has been validated on our self-collected HAR dataset (MentalHAD), achieving 94.9% and 93.1% accuracy in un-seen subjects and scenes and outperforming state-of-the-art approaches by 6.5% and 13.2%, respectively. The demonstrated subject- and scene- generalizability makes it possible for SMART's migration to practical deployment in smart healthcare systems for mental disorder patients in medical settings. The code and dataset will be released publicly for further research: https://github.com/Inowlzy/SMART.git.
翻訳日:2024-06-10 15:29:23 公開日:2024-06-07
# 球状クレブシュ波動関数に基づく速度場の量子状態準備

Quantum state preparation for a velocity field based on the spherical Clebsch wave function ( http://arxiv.org/abs/2406.04652v1 )

ライセンス: Link先を確認
Hao Su, Shiying Xiong, Yue Yang, (参考訳) 球状クレブシュ波動関数(SCWF)を用いて,流体力学において与えられた速度場,例えば流体力学の量子状態を作成する方法を提案する。 SCWFの点分正規化制約を用いてパラメータ化制御された回転ゲートからなる変分アンサッツを開発する。 変動量子アルゴリズムを用いて、回路パラメータを反復的に最適化し、目標速度場をSCWFとその対応する離散量子状態に変換することにより、流体力学のその後の量子シミュレーションを可能にする。 1次元および2次元流れ場の検証により,本手法の精度とロバスト性を確認し,多次元及び多次元速度場を扱う上での有効性を強調した。 我々の手法は、ソース、シンク、サドルポイントなどの重要な流れの特徴を捉えることができる。 さらに、様々なベクトル場に対するSCWFの生成を可能にし、SCWF進化を通じて量子シミュレーションに適用することができる。

We propose a method for preparing the quantum state for a given velocity field, e.g., in fluid dynamics, via the spherical Clebsch wave function (SCWF). Using the pointwise normalization constraint for the SCWF, we develop a variational ansatz comprising parameterized controlled rotation gates. Employing the variational quantum algorithm, we iteratively optimize the circuit parameters to transform the target velocity field into the SCWF and its corresponding discrete quantum state, enabling subsequent quantum simulation of fluid dynamics. Validations for one- and two-dimensional flow fields confirm the accuracy and robustness of our method, emphasizing its effectiveness in handling multiscale and multidimensional velocity fields. Our method is able to capture critical flow features like sources, sinks, and saddle points. Furthermore, it enables the generation of SCWFs for various vector fields, which can then be applied in quantum simulations through SCWF evolution.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# マルコフ鎖の高速自動決定による動的混合モデリング

Dynamical mixture modeling with fast, automatic determination of Markov chains ( http://arxiv.org/abs/2406.04653v1 )

ライセンス: Link先を確認
Christopher E. Miles, Robert J. Webber, (参考訳) マルコフ状態モデリングは、複雑な時系列データを少数の状態間の遷移に還元する能力によって、様々な科学分野で人気を集めている。 しかし、現在のフレームワークは、データを記述する1つのマルコフ連鎖を仮定することで制限されており、不均一性を識別することができない。 そこで本研究では,時系列データセットにおけるマルコフ連鎖の混合を同定する変動予測最大化アルゴリズムを提案する。 この方法はマルコフ状態の定義とは無関係であり、データ駆動(例えばスペクトルクラスタリング)かドメイン知識に基づくかである。 変異EMは、高価なモデル比較や後部サンプリングを伴わずに、マルコフ鎖の数と各鎖のダイナミクスを効率よく有機的に同定する。 この手法は、${\tt Last.fm}$音楽聴取、ウルトラマラソン実行、遺伝子発現に基づくシミュレーションおよび観測データセットを含む理論的解析と数値実験によって支持されている。 その結果,このアルゴリズムは同時代の混合モデリング手法と競合し,時系列データにおける意味のある不均一性を識別する上で強力であることが示唆された。

Markov state modeling has gained popularity in various scientific fields due to its ability to reduce complex time series data into transitions between a few states. Yet, current frameworks are limited by assuming a single Markov chain describes the data, and they suffer an inability to discern heterogeneities. As a solution, this paper proposes a variational expectation-maximization algorithm that identifies a mixture of Markov chains in a time-series data set. The method is agnostic to the definition of the Markov states, whether data-driven (e.g. by spectral clustering) or based on domain knowledge. Variational EM efficiently and organically identifies the number of Markov chains and dynamics of each chain without expensive model comparisons or posterior sampling. The approach is supported by a theoretical analysis and numerical experiments, including simulated and observational data sets based on ${\tt Last.fm}$ music listening, ultramarathon running, and gene expression. The results show the new algorithm is competitive with contemporary mixture modeling approaches and powerful in identifying meaningful heterogeneities in time series data.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# GenzIQA: Prompt-Guided Latent Diffusion Modelを用いた画像品質評価

GenzIQA: Generalized Image Quality Assessment using Prompt-Guided Latent Diffusion Models ( http://arxiv.org/abs/2406.04654v1 )

ライセンス: Link先を確認
Diptanu De, Shankhanil Mitra, Rajiv Soundararajan, (参考訳) no-reference (NR) Image Quality Assessment (IQA)アルゴリズムの設計は、現代のビジュアルシステムにおけるユーザエクスペリエンスのベンチマークと校正に極めて重要である。 最先端のNR-IQA手法の大きな欠点は、適切な分布シフトを伴う様々なIQA設定を一般化する能力に制限があることである。 最近のテキスト・ツー・イメージ生成モデルである潜在拡散モデル(英語版)は、テキスト概念に関する詳細で意味のある視覚概念を生成する。 本研究では、学習可能な品質認識テキストプロンプトと画像のアライメントの程度を理解することにより、一般化されたIQAに対してそのような拡散モデルのデノベーションプロセスを利用する。 特に,遅延拡散モデルの中間層から,画像の品質を意識した表現を捉えるために,クロスアテンションマップを学習する。 また、学習可能な品質対応テキストプロンプトを導入し、クロスアテンション機能を品質対応に活用する。 各種ユーザ生成, 合成, 低照度コンテンツベースベンチマークデータベースを対象とした大規模なクロスデータベース実験により, 文献における他の手法と比較して, 潜在拡散モデルの方がIQAのより優れた一般化を達成できることを示した。

The design of no-reference (NR) image quality assessment (IQA) algorithms is extremely important to benchmark and calibrate user experiences in modern visual systems. A major drawback of state-of-the-art NR-IQA methods is their limited ability to generalize across diverse IQA settings with reasonable distribution shifts. Recent text-to-image generative models such as latent diffusion models generate meaningful visual concepts with fine details related to text concepts. In this work, we leverage the denoising process of such diffusion models for generalized IQA by understanding the degree of alignment between learnable quality-aware text prompts and images. In particular, we learn cross-attention maps from intermediate layers of the denoiser of latent diffusion models to capture quality-aware representations of images. In addition, we also introduce learnable quality-aware text prompts that enable the cross-attention features to be better quality-aware. Our extensive cross database experiments across various user-generated, synthetic, and low-light content-based benchmarking databases show that latent diffusion models can achieve superior generalization in IQA when compared to other methods in the literature.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# グラディエントノイズを伴わない軽量マトリックススペクトルによる重機製作

Crafting Heavy-Tails in Weight Matrix Spectrum without Gradient Noise ( http://arxiv.org/abs/2406.04657v1 )

ライセンス: Link先を確認
Vignesh Kothapalli, Tianyu Pang, Shenyang Deng, Zongmin Liu, Yaoqing Yang, (参考訳) ディープニューラルネットワーク(NN)の現代のトレーニング戦略は、層重みの重み付き(HT)スペクトルを誘導する傾向がある。 この現象を研究するための大規模な研究により、HTスペクトルを持つNNはよく一般化する傾向があることが判明した。 このようなHTスペクトルの発生に関する一般的な概念は、トレーニング中の勾配雑音を重要な寄与要因とみなす。 フルバッチのグラディエントDescent/Adamでトレーニングした2層NNは、有限のトレーニングステップ後にHTスペクトルを表示できる。 そこで本研究では,Adamの一段階が,特に1つの索引教師モデル学習において,浅いNNにおける特徴学習に繋がる学習率の尺度を,まず最初に同定する。 次に,重みのスペクトルの大部分をHT分布に遷移させることで,そのような(十分)大きな学習率を持つ複数のオプティマイザステップを示す。 この振る舞いを理解するために、重み行列の特異ベクトルとオプティマイザ更新に基づく新しい視点を示す。 HTスペクトルは特徴学習から生成され、主バルクと相互作用してHTスペクトルを生成する「スパイク」に由来することを示す。 最後に,複数オプティマイザ更新後のHT重みスペクトルと一般化の相関関係を学習速度で解析する。

Modern training strategies of deep neural networks (NNs) tend to induce a heavy-tailed (HT) spectra of layer weights. Extensive efforts to study this phenomenon have found that NNs with HT weight spectra tend to generalize well. A prevailing notion for the occurrence of such HT spectra attributes gradient noise during training as a key contributing factor. Our work shows that gradient noise is unnecessary for generating HT weight spectra: two-layer NNs trained with full-batch Gradient Descent/Adam can exhibit HT spectra in their weights after finite training steps. To this end, we first identify the scale of the learning rate at which one step of full-batch Adam can lead to feature learning in the shallow NN, particularly when learning a single index teacher model. Next, we show that multiple optimizer steps with such (sufficiently) large learning rates can transition the bulk of the weight's spectra into an HT distribution. To understand this behavior, we present a novel perspective based on the singular vectors of the weight matrices and optimizer updates. We show that the HT weight spectrum originates from the `spike', which is generated from feature learning and interacts with the main bulk to generate an HT spectrum. Finally, we analyze the correlations between the HT weight spectra and generalization after multiple optimizer updates with varying learning rates.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# アドバンストペイメントセキュリティシステム:XGBoost, CatBoost, SMOTEの統合

Advanced Payment Security System:XGBoost, CatBoost and SMOTE Integrated ( http://arxiv.org/abs/2406.04658v1 )

ライセンス: Link先を確認
Qi Zheng, Chang Yu, Jin Cao, Yongshun Xu, Qianwen Xing, Yinxin Jin, (参考訳) 様々なオンラインおよびモバイル決済システムが台頭し、取引詐欺は金融セキュリティにとって重大な脅威となっている。 本研究では,高度な機械学習モデル,特にXGBoostとLightGBMの,より正確で堅牢なペイメントセキュリティ保護モデル開発への応用について検討する。データ信頼性を向上させるために,データソースを慎重に処理し,SMOTE(Synthetic Minority Over-sampling Technique)を用いて,クラスの不均衡に対処し,データ表現を改善する。 我々は,高度に相関した特徴を選択することにより,トレーニングプロセスの強化とモデル性能の向上を目指して,提案モデルの性能評価を行い,ランダムフォレストやニューラルネットワーク,ロジスティック回帰といった従来の手法と比較した。 精度、リコール、F1スコアなどの重要な指標を厳格に評価するために使用し、我々の詳細な分析と比較により、SMOTEとXGBoostとLightGBMの組み合わせは、支払いセキュリティを保護するための非常に効率的で強力なメカニズムを提供することが明らかになった。 その結果,これらのモデルが従来の手法を上回るだけでなく,取引不正防止の分野を前進させる大きな可能性を秘めていることがわかった。

With the rise of various online and mobile payment systems, transaction fraud has become a significant threat to financial security. This study explores the application of advanced machine learning models, specifically XGBoost and LightGBM, for developing a more accurate and robust Payment Security Protection Model.To enhance data reliability, we meticulously processed the data sources and used SMOTE (Synthetic Minority Over-sampling Technique) to address class imbalance and improve data representation. By selecting highly correlated features, we aimed to strengthen the training process and boost model performance.We conducted thorough performance evaluations of our proposed models, comparing them against traditional methods including Random Forest, Neural Network, and Logistic Regression. Key metrics such as Precision, Recall, and F1 Score were used to rigorously assess their effectiveness.Our detailed analyses and comparisons reveal that the combination of SMOTE with XGBoost and LightGBM offers a highly efficient and powerful mechanism for payment security protection. The results show that these models not only outperform traditional approaches but also hold significant promise for advancing the field of transaction fraud prevention.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# LocLLM:大規模言語モデルによる汎用的キーポイントローカライゼーションの展開

LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model ( http://arxiv.org/abs/2406.04659v1 )

ライセンス: Link先を確認
Dongkai Wang, Shiyu Xuan, Shiliang Zhang, (参考訳) 既存の人間のキーポイントローカライゼーションモデルの能力は、トレーニングデータによって提供されるキーポイント先行によって制限される。 この制約を緩和し、より一般的なモデルを求めるために、本研究は、テキスト記述におけるキーピオント手がかりに基づく位置の推論により、異なる視点からキーポイントのローカライゼーションを研究する。 本稿では,LocLLMを提案する。LocLLMはLLM(Large-Language Model)をベースとした最初のキーポイントローカライゼーションモデルで,画像とテキストの命令を入力として取り出し,所望のキーポイント座標を出力する。 LocLLMは、LLMの強い推論能力とキーポイントの型、位置、およびキーポイントのローカライゼーションのためのテキスト記述における関係の手がかりを利用する。 LocLLMを効果的にチューニングするために、我々はローカライズに基づく命令会話を構築し、入力画像中のキーポイント記述と対応する座標を接続し、パラメータ効率の訓練パイプラインでモデル全体を微調整する。 LocLLMは標準的な2D/3Dキーポイントローカライゼーションベンチマークで顕著なパフォーマンスを示している。 さらに、言語ヒントをローカライゼーションに取り入れることで、LocLLMはクロスデータセットキーポイントローカライゼーションにおいて優れた柔軟性と一般化能力を示し、トレーニング中に目に見えない新しいタイプのキーポイントを検出できる。

The capacity of existing human keypoint localization models is limited by keypoint priors provided by the training data. To alleviate this restriction and pursue more general model, this work studies keypoint localization from a different perspective by reasoning locations based on keypiont clues in text descriptions. We propose LocLLM, the first Large-Language Model (LLM) based keypoint localization model that takes images and text instructions as inputs and outputs the desired keypoint coordinates. LocLLM leverages the strong reasoning capability of LLM and clues of keypoint type, location, and relationship in textual descriptions for keypoint localization. To effectively tune LocLLM, we construct localization-based instruction conversations to connect keypoint description with corresponding coordinates in input image, and fine-tune the whole model in a parameter-efficient training pipeline. LocLLM shows remarkable performance on standard 2D/3D keypoint localization benchmarks. Moreover, incorporating language clues into the localization makes LocLLM show superior flexibility and generalizable capability in cross dataset keypoint localization, and even detecting novel type of keypoints unseen during training.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# 直接伝送における量子チャネル補正

Quantum channel correction outperforming direct transmission ( http://arxiv.org/abs/2406.04661v1 )

ライセンス: Link先を確認
Sergei Slussarenko, Morgan M. Weston, Lynden K. Shalm, Varun B. Verma, Sae-Woo Nam, Sacha Kocsis, Timothy C. Ralph, Geoff J. Pryde, (参考訳) 長距離光量子チャネルは必然的に損失があり、送信された量子情報の誤り、絡み合いの劣化、そして究極的にはプロトコル性能の低下につながる。 チャネルに情報を運ぶ量子状態は、損失を補うために確率的に増幅されるが、増幅が失敗すると破壊される。 したがって、チャネル自体の量子的修正が必要であるが、任意の状態 -- 修正されていない状態よりも修正されたチャネルを通した方がよい -- は、これまでは到達できないままである。 ここでは, 高周波増幅による蒸留を行い, ノイズの強い絡み合いを改善する。 その後、我々は、任意の量子情報伝送が無条件で改善されていること、すなわち、修正されていないチャネルよりもポストセレクションやデータ処理に依存しないことを示すために、絡み合わせスワップを使用する。 このようにして、真の量子リレーの実現を表す。 単一モード量子状態に対するチャネル補正は、量子リピータ、通信、およびメトロジーの応用に使用される。

Long-distance optical quantum channels are necessarily lossy, leading to errors in transmitted quantum information, entanglement degradation and, ultimately, poor protocol performance. Quantum states carrying information in the channel can be probabilistically amplified to compensate for loss, but are destroyed when amplification fails. Quantum correction of the channel itself is therefore required, but break-even performance -- where arbitrary states can be better transmitted through a corrected channel than an uncorrected one -- has so far remained out of reach. Here we perform distillation by heralded amplification to improve a noisy entanglement channel. We subsequently employ entanglement swapping to demonstrate that arbitrary quantum information transmission is unconditionally improved -- i.e. without relying on postselection or post-processing of data -- compared to the uncorrected channel. In this way, it represents realisation of a genuine quantum relay. Our channel correction for single-mode quantum states will find use in quantum repeater, communication and metrology applications.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# 視覚生成AIにおけるIP侵害の評価と軽減

Evaluating and Mitigating IP Infringement in Visual Generative AI ( http://arxiv.org/abs/2406.04662v1 )

ライセンス: Link先を確認
Zhenting Wang, Chen Chen, Vikash Sehwag, Minzhou Pan, Lingjuan Lyu, (参考訳) DALL-E 3やStable Diffusion XL、Stable Video Diffusion、Soraといったビジュアル生成AIモデルの人気が高まっている。 幅広い評価により、最先端のビジュアル生成モデルは、主要なエンターテイメント企業(Sony、Marvel、Nintendoなど)が保有する知的財産権によって保護されるキャラクターに、著しく類似したコンテンツを生成することができることが判明した。 これは、入力プロンプトが文字の名前を含む場合や、その特性に関する記述的な詳細を含む場合に発生する。 このような知的財産権侵害の問題を緩和するために、我々はそれに対する防御方法を提案する。 本稿では,拡散過程における誘導手法を利用して,潜在的に侵害される可能性のあるコンテンツを特定し,IP侵害を防止するための新たな生成パラダイムを開発する。 知的財産権に侵害される可能性のある生成されたコンテンツを認識でき、事前訓練されたモデルを再訓練したり微調整したりすることなく、拡散プロセス全体を通してガイダンス手法を用いることで、そのような侵害を軽減することができる。 スパイダーマン、アイアンマン、スーパーマンといった有名なキャラクターIPの実験は、提案した防御方法の有効性を実証している。 我々のデータとコードはhttps://github.com/ZhentingWang/GAI_IP_Infringement.orgにある。

The popularity of visual generative AI models like DALL-E 3, Stable Diffusion XL, Stable Video Diffusion, and Sora has been increasing. Through extensive evaluation, we discovered that the state-of-the-art visual generative models can generate content that bears a striking resemblance to characters protected by intellectual property rights held by major entertainment companies (such as Sony, Marvel, and Nintendo), which raises potential legal concerns. This happens when the input prompt contains the character's name or even just descriptive details about their characteristics. To mitigate such IP infringement problems, we also propose a defense method against it. In detail, we develop a revised generation paradigm that can identify potentially infringing generated content and prevent IP infringement by utilizing guidance techniques during the diffusion process. It has the capability to recognize generated content that may be infringing on intellectual property rights, and mitigate such infringement by employing guidance methods throughout the diffusion process without retrain or fine-tune the pretrained models. Experiments on well-known character IPs like Spider-Man, Iron Man, and Superman demonstrate the effectiveness of the proposed defense method. Our data and code can be found at https://github.com/ZhentingWang/GAI_IP_Infringement.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# LLM-POET:大規模言語モデルを用いた複雑な環境の進化

LLM-POET: Evolving Complex Environments using Large Language Models ( http://arxiv.org/abs/2406.04663v1 )

ライセンス: Link先を確認
Fuma Aki, Riku Ikeda, Takumi Saito, Ciaran Regan, Mizuki Oka, (参考訳) 所定の目標や制限なしに、複雑で斬新な振る舞いのほぼ無限のバリエーションを生成できるシステムを作成することは、AI分野における大きな課題である。 この課題は、環境の共同進化とエージェントの振る舞いのためのPOETやEnhanced-POETアルゴリズムなど、新しい多様な振る舞いを継続的に生成できるいくつかのオープンエンドアルゴリズムの開発を通じて解決されている。 しかし、既存の手法の課題の1つは、複雑な環境を継続的に生成するのに苦労していることである。 本研究では,Large Language Model (LLM) を用いて環境の生成と変更を行うPOETアルゴリズムを改良した LLM-POET を提案する。 進化体環境のテキスト表現と環境を記述したキャプションでLLMを微調整することで,自然言語を用いて複雑で多様な環境を生成できた。 その結果, LLMは多様な環境を生産できるだけでなく, 拡張ポエットで環境生成に使用されるCPPNと比較して, 共進化の性能向上率は34%増加した。 このパフォーマンス向上は、エージェントがより複雑な環境でトレーニングすることで、より多様なスキルセットを学ぶことができたことを示唆している。

Creating systems capable of generating virtually infinite variations of complex and novel behaviour without predetermined goals or limits is a major challenge in the field of AI. This challenge has been addressed through the development of several open-ended algorithms that can continuously generate new and diverse behaviours, such as the POET and Enhanced-POET algorithms for co-evolving environments and agent behaviour. One of the challenges with existing methods however, is that they struggle to continuously generate complex environments. In this work, we propose LLM-POET, a modification of the POET algorithm where the environment is both created and mutated using a Large Language Model (LLM). By fine-tuning a LLM with text representations of Evolution Gym environments and captions that describe the environment, we were able to generate complex and diverse environments using natural language. We found that not only could the LLM produce a diverse range of environments, but compared to the CPPNs used in Enhanced-POET for environment generation, the LLM allowed for a 34% increase in the performance gain of co-evolution. This increased performance suggests that the agents were able to learn a more diverse set of skills by training on more complex environments.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# DiNeR: 構成一般化を評価するための大規模リアルデータセット

DiNeR: a Large Realistic Dataset for Evaluating Compositional Generalization ( http://arxiv.org/abs/2406.04669v1 )

ライセンス: Link先を確認
Chengang Hu, Xiao Liu, Yansong Feng, (参考訳) 既存の合成一般化データセットのほとんどは合成生成され、結果として自然言語のバリエーションが欠如している。 合成一般化のための非合成データセットの導入は近年試みられているが、これらのデータセットは限られたデータスケールまたは組み合わせ形式における多様性の欠如に悩まされている。 より言語的な現象や構成の多様性を伴う構成一般化をよりよく研究するため,Dish NamE Recognition (DiNeR) タスクを提案し,より現実的な中国語データセットを作成する。 レシピの指導を受けると、モデルは料理、行動、フレーバーの様々な組み合わせからなる料理名を認識する必要がある。 我々のデータセットは3,811の料理と228,114のレシピで構成されており、アナフォラ、省略、曖昧さといった多くの言語現象を伴っている。 T5と大規模言語モデル(LLM)に基づく2つの強力なベースラインを提供する。 本研究は,食器名認識の文脈における構成的一般化への洞察,課題,課題に取り組むための基本的手法,および課題に寄与する。 コードとデータはhttps://github.com/Jumpy-pku/DiNeR.comで公開されている。

Most of the existing compositional generalization datasets are synthetically-generated, resulting in a lack of natural language variation. While there have been recent attempts to introduce non-synthetic datasets for compositional generalization, they suffer from either limited data scale or a lack of diversity in the forms of combinations. To better investigate compositional generalization with more linguistic phenomena and compositional diversity, we propose the DIsh NamE Recognition (DiNeR) task and create a large realistic Chinese dataset. Given a recipe instruction, models are required to recognize the dish name composed of diverse combinations of food, actions, and flavors. Our dataset consists of 3,811 dishes and 228,114 recipes, and involves plenty of linguistic phenomena such as anaphora, omission and ambiguity. We provide two strong baselines based on T5 and large language models (LLMs). This work contributes a challenging task, baseline methods to tackle the task, and insights into compositional generalization in the context of dish name recognition. Code and data are available at https://github.com/Jumpy-pku/DiNeR.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# MATTER:異種知識源を用いたメモリ拡張変換器

MATTER: Memory-Augmented Transformer Using Heterogeneous Knowledge Sources ( http://arxiv.org/abs/2406.04670v1 )

ライセンス: Link先を確認
Dongkyu Lee, Chandana Satya Prakash, Jack FitzGerald, Jens Lehmann, (参考訳) 外部知識を活用することは、質問応答のような知識集約的なタスクにおいて高いパフォーマンスを達成するために不可欠である。 検索と読み取りのアプローチは、外部知識を言語モデルに統合するために広く採用されている。 しかし、この手法は長い文脈長による計算コストと遅延の増大に悩まされ、検索された知識の数に比例して増大する。 さらに、既存の検索強化モデルは、通常、単一のタイプの知識ソースから情報を取得し、そのスケーラビリティを様々な構造を持つ多様な知識ソースに制限する。 本研究では,複数の異種知識ソースから関連知識を取得するために,MATTERと呼ばれる効率的なメモリ拡張型トランスフォーマを導入する。 具体的には、固定長のニューラルメモリの形で、非構造化ソース(パラグラフ)と半構造化ソース(QAペア)を検索し、読み取る。 提案モデルでは,従来のQAベンチマークにおいて,精度と速度の両面で,既存の効率的な検索強化モデルよりも優れていることを示す。 さらに、MATTERは従来の読み取りモデルと比較して100倍のスループットで競合する結果が得られる。

Leveraging external knowledge is crucial for achieving high performance in knowledge-intensive tasks, such as question answering. The retrieve-and-read approach is widely adopted for integrating external knowledge into a language model. However, this approach suffers from increased computational cost and latency due to the long context length, which grows proportionally with the number of retrieved knowledge. Furthermore, existing retrieval-augmented models typically retrieve information from a single type of knowledge source, limiting their scalability to diverse knowledge sources with varying structures. In this work, we introduce an efficient memory-augmented transformer called MATTER, designed to retrieve relevant knowledge from multiple heterogeneous knowledge sources. Specifically, our model retrieves and reads from both unstructured sources (paragraphs) and semi-structured sources (QA pairs) in the form of fixed-length neural memories. We demonstrate that our model outperforms existing efficient retrieval-augmented models on popular QA benchmarks in terms of both accuracy and speed. Furthermore, MATTER achieves competitive results compared to conventional read-and-retrieve models while having 100x throughput during inference.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# AIの理にかなう人格標準

The Reasonable Person Standard for AI ( http://arxiv.org/abs/2406.04671v1 )

ライセンス: Link先を確認
Sunayana Rane, (参考訳) AIシステムは、人間の行動が規範を定めている領域に徐々に組み込まれていく中、AIガバナンスとAIアライメント研究の課題は、社会にとって有用で建設的な方法でその行動を調整することである。 モデルがエミュレートしている人間の振る舞いをどのように管理するか? 人間の行動を評価するために、アメリカ法制度はしばしば「合理的な人格基準」を用いる。 理にかなった行動」という考え方は、ほぼ全ての法分野に現れている。 法体系は、しばしば、同じ状況下で合理的な人がしたであろうことに関して、当事者の行動を判断する。 本稿では、合理的な人格基準が、モデルで開発、調査、ストレステストを行うべき行動の種類について有用なガイドラインを提供すると論じる。 これらの領域と状況において、合理的な人格標準がAIの振る舞いにどのように適用できるか、そして、我々の社会的に「理にかなった」行動に対する理解が、AI研究者にとってどのように有用な技術的目標を提供するかを説明する。

As AI systems are increasingly incorporated into domains where human behavior has set the norm, a challenge for AI governance and AI alignment research is to regulate their behavior in a way that is useful and constructive for society. One way to answer this question is to ask: how do we govern the human behavior that the models are emulating? To evaluate human behavior, the American legal system often uses the "Reasonable Person Standard." The idea of "reasonable" behavior comes up in nearly every area of law. The legal system often judges the actions of parties with respect to what a reasonable person would have done under similar circumstances. This paper argues that the reasonable person standard provides useful guidelines for the type of behavior we should develop, probe, and stress-test in models. It explains how reasonableness is defined and used in key areas of the law using illustrative cases, how the reasonable person standard could apply to AI behavior in each of these areas and contexts, and how our societal understanding of "reasonable" behavior provides useful technical goals for AI researchers.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# MeLFusion:拡散モデルを用いた画像と言語キューからの楽曲の合成

MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models ( http://arxiv.org/abs/2406.04673v1 )

ライセンス: Link先を確認
Sanjoy Chowdhury, Sayan Nag, K J Joseph, Balaji Vasan Srinivasan, Dinesh Manocha, (参考訳) 音楽は感情や感情を伝える普遍的な言語である。 映画からソーシャルメディアの投稿まで、クリエイティブメディアのあらゆる領域に欠かせない部分を形成している。 音楽の合成が可能な機械学習モデルは、主にそのテキスト記述に条件付けされている。 音楽家たちが映画脚本だけでなく、ヴィジュアライゼーションを通して音楽を作る方法に着想を得て、テキスト記述とそれに対応する画像から効果的に楽しむことができるモデルであるMeLFusionを提案する。 MeLFusionは、新しい「視覚シナプス」を持つテキストから音楽への拡散モデルであり、視覚的モダリティから生成した音楽に意味を効果的に注入する。 この分野の研究を容易にするために,新しいデータセットであるMeLBenchを導入し,新しい評価指標であるIMSMを提案する。 音楽合成パイプラインに視覚情報を加えることで、客観的かつ主観的に音楽の質が向上し、FADスコアは67.98%まで上昇した。 われわれの研究が、この実用的だが比較的未調査の分野に注目されることを願っている。

Music is a universal language that can communicate emotions and feelings. It forms an essential part of the whole spectrum of creative media, ranging from movies to social media posts. Machine learning models that can synthesize music are predominantly conditioned on textual descriptions of it. Inspired by how musicians compose music not just from a movie script, but also through visualizations, we propose MeLFusion, a model that can effectively use cues from a textual description and the corresponding image to synthesize music. MeLFusion is a text-to-music diffusion model with a novel "visual synapse", which effectively infuses the semantics from the visual modality into the generated music. To facilitate research in this area, we introduce a new dataset MeLBench, and propose a new evaluation metric IMSM. Our exhaustive experimental evaluation suggests that adding visual information to the music synthesis pipeline significantly improves the quality of generated music, measured both objectively and subjectively, with a relative gain of up to 67.98% on the FAD score. We hope that our work will gather attention to this pragmatic, yet relatively under-explored research area.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# OVMR: マルチモーダル参照によるオープン語彙認識

OVMR: Open-Vocabulary Recognition with Multi-Modal References ( http://arxiv.org/abs/2406.04675v1 )

ライセンス: Link先を確認
Zehong Ma, Shiliang Zhang, Longhui Wei, Qi Tian, (参考訳) オープン語彙認識の課題は、モデルに適用される新しいカテゴリの手がかりがないことである。 既存の研究は、カテゴリー名やテキスト記述をビジョンランゲージモデルに提供し、数ショットの微調整を通じてカテゴリキューをモデルに組み込む方法を提案している。 微調整は時間を要するため、一般化能力は低下する。 文章の記述は曖昧であり、視覚的な詳細を表現できない可能性がある。 本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。 OVMRという名前の手法では,より堅牢なカテゴリキューの埋め込みを追求するために,革新的な2つのコンポーネントが採用されている。 画像例でテキスト記述を動的に補完することにより、まずマルチモーダル分類器を生成する。 そのため、低品質の模範画像やテキスト記述の問題を緩和するために、一様および多モードの分類器を融合するために、嗜好ベースの改良モジュールが適用される。 提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。 大規模な実験は、OVMR、 \egの有望なパフォーマンスを実証した。 コードは \href{https://github.com/Zehong-Ma/OVMR}{https://github.com/Zehong-Ma/OVMR} で公開されている。

The challenge of open-vocabulary recognition lies in the model has no clue of new categories it is applied to. Existing works have proposed different methods to embed category cues into the model, \eg, through few-shot fine-tuning, providing category names or textual descriptions to Vision-Language Models. Fine-tuning is time-consuming and degrades the generalization capability. Textual descriptions could be ambiguous and fail to depict visual details. This paper tackles open-vocabulary recognition from a different perspective by referring to multi-modal clues composed of textual descriptions and exemplar images. Our method, named OVMR, adopts two innovative components to pursue a more robust category cues embedding. A multi-modal classifier is first generated by dynamically complementing textual descriptions with image exemplars. A preference-based refinement module is hence applied to fuse uni-modal and multi-modal classifiers, with the aim to alleviate issues of low-quality exemplar images or textual descriptions. The proposed OVMR is a plug-and-play module, and works well with exemplar images randomly crawled from the Internet. Extensive experiments have demonstrated the promising performance of OVMR, \eg, it outperforms existing methods across various scenarios and setups. Codes are publicly available at \href{https://github.com/Zehong-Ma/OVMR}{https://github.com/Zehong-Ma/OVMR}.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# ACEメトリック:正確な天気予報のための対流・対流評価

ACE Metric: Advection and Convection Evaluation for Accurate Weather Forecasting ( http://arxiv.org/abs/2406.04678v1 )

ライセンス: Link先を確認
Doyi Kim, Minseok Seo, Yeji Choi, (参考訳) 近年,従来のNWP (Numerical Weather Prediction) 手法のRMSE性能を上回るデータ駆動型天気予報法が注目されている。 しかし、データ駆動モデルは予測されたデータと地上の真実の間の損失を最小限に抑えるために調整され、しばしばピクセル単位の損失を使用する。 これは、実際の気象条件と細部が異なるにもかかわらず、RMSEの低い値を示す、ぼやけた出力を生成するモデルにつながる可能性がある。 PSNR、SSIM、FVDなどのコンピュータビジョン分野からの計測値を用いることができるが、気象変数に完全に適合するわけではない。 これは、気象変数が時間とともに連続的な物理的変化を示し、コンピュータビジョン画像に見られる物体の境界が異なるためである。 これらの問題を解決するため, 大気移動法として重要な対流・対流予測モデルとして, 対流・対流誤差(ACE)測定法を提案する。 We have confirmeded the ACE evaluation metric on the WeatherBench2 and movingMNIST datasets。

Recently, data-driven weather forecasting methods have received significant attention for surpassing the RMSE performance of traditional NWP (Numerical Weather Prediction)-based methods. However, data-driven models are tuned to minimize the loss between forecasted data and ground truths, often using pixel-wise loss. This can lead to models that produce blurred outputs, which, despite being significantly different in detail from the actual weather conditions, still demonstrate low RMSE values. Although evaluation metrics from the computer vision field, such as PSNR, SSIM, and FVD, can be used, they are not entirely suitable for weather variables. This is because weather variables exhibit continuous physical changes over time and lack the distinct boundaries of objects typically seen in computer vision images. To resolve these issues, we propose the advection and convection Error (ACE) metric, specifically designed to assess how well models predict advection and convection, which are significant atmospheric transfer methods. We have validated the ACE evaluation metric on the WeatherBench2 and MovingMNIST datasets.
翻訳日:2024-06-10 15:19:38 公開日:2024-06-07
# XctDiff:1枚のX線投影画像から連続した解剖学的構造を持つCT画像の再構成

XctDiff: Reconstruction of CT Images with Consistent Anatomical Structures from a Single Radiographic Projection Image ( http://arxiv.org/abs/2406.04679v1 )

ライセンス: Link先を確認
Qingze Bai, Tiange Liu, Zhi Liu, Yubing Tong, Drew Torigian, Jayaram Udupa, (参考訳) 本稿では,XctDiffを提案する。XctDiffは1つのラジオグラフからCTを再構成するアルゴリズムフレームワークで,再構成過程を特徴抽出とCT再構成という2つの簡単な制御可能なタスクに分解する。 具体的には、まず、ラジオグラフィーから堅牢な3D先行情報を抽出できるプログレッシブ特徴抽出戦略を設計する。 次に,抽出した先行情報を用いて,潜伏空間におけるCT再構成を誘導する。 さらに,同質な空間コードブックを設計し,再現性の向上を図る。 実験の結果,提案手法は最先端の復元性能を実現し,ぼやけた問題を克服することがわかった。 また,自己指導型事前学習タスクにもXctDiffを適用した。 この効果は、医用画像解析に有望な応用があることを示唆している。 コードは、https://github.com/qingze-bai/XctDiffで入手できる。

In this paper, we present XctDiff, an algorithm framework for reconstructing CT from a single radiograph, which decomposes the reconstruction process into two easily controllable tasks: feature extraction and CT reconstruction. Specifically, we first design a progressive feature extraction strategy that is able to extract robust 3D priors from radiographs. Then, we use the extracted prior information to guide the CT reconstruction in the latent space. Moreover, we design a homogeneous spatial codebook to improve the reconstruction quality further. The experimental results show that our proposed method achieves state-of-the-art reconstruction performance and overcomes the blurring issue. We also apply XctDiff on self-supervised pre-training task. The effectiveness indicates that it has promising additional applications in medical image analysis. The code is available at:https://github.com/qingze-bai/XctDiff
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# MTS-NetによるMay-Thurner症候群の3次元CT診断

MTS-Net: Dual-Enhanced Positional Multi-Head Self-Attention for 3D CT Diagnosis of May-Thurner Syndrome ( http://arxiv.org/abs/2406.04680v1 )

ライセンス: Link先を確認
Yixin Huang, Yiqi Jin, Ke Tao, Kaijian Xia, Jianfeng Gu, Lei Yu, Lan Du, Cunjian Chen, (参考訳) メイサーナー症候群(英: May-Thurner syndrome、MTS)は、腸骨静脈圧迫症候群(英: iliac vein compression syndrome)またはコケット症候群(英: Cockett's syndrome)とも呼ばれる疾患で、人口の20%以上に影響を与える可能性があり、腸大腿深部静脈血栓症のリスクが高まる。 本稿では,CTスキャンを用いたMay-Thurner 症候群の診断のための3次元深層学習手法 MTS-Net を提案する。 本研究は,CTスキャンの空間的時間的関係を効果的に把握し,MSSの診断過程をエミュレートするために,DEP-MHSAと呼ばれる新しい注意モジュールを提案する。 提案したDEP-MHSAは、位置埋め込みの役割を再考し、注意重みと残留接続の両方にデュアルエンハンスな位置埋め込みを組み込む。 さらに、747名の被験者からなる新しいデータセット MTS-CT を構築した。 実験により,提案手法は最先端のMTS診断結果を実現し,自己注意設計により時空間モデリングが容易であることが示された。 我々はDEP-MHSAがCT画像のシーケンスモデリングにより適していると考え,提案したデータセットは将来のMTS診断研究を可能にする。 コードとデータセットをhttps://github.com/Nutingnon/MTS_dep_mhsa.comで公開しています。

May-Thurner Syndrome (MTS), also known as iliac vein compression syndrome or Cockett's syndrome, is a condition potentially impacting over 20 percent of the population, leading to an increased risk of iliofemoral deep venous thrombosis. In this paper, we present a 3D-based deep learning approach called MTS-Net for diagnosing May-Thurner Syndrome using CT scans. To effectively capture the spatial-temporal relationship among CT scans and emulate the clinical process of diagnosing MTS, we propose a novel attention module called the dual-enhanced positional multi-head self-attention (DEP-MHSA). The proposed DEP-MHSA reconsiders the role of positional embedding and incorporates a dual-enhanced positional embedding in both attention weights and residual connections. Further, we establish a new dataset, termed MTS-CT, consisting of 747 subjects. Experimental results demonstrate that our proposed approach achieves state-of-the-art MTS diagnosis results, and our self-attention design facilitates the spatial-temporal modeling. We believe that our DEP-MHSA is more suitable to handle CT image sequence modeling and the proposed dataset enables future research on MTS diagnosis. We make our code and dataset publicly available at: https://github.com/Nutingnon/MTS_dep_mhsa.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# 平衡外固有状態熱化仮説

Out-of-equilibrium Eigenstate Thermalization Hypothesis ( http://arxiv.org/abs/2406.04684v1 )

ライセンス: Link先を確認
Laura Foini, Anatoly Dymarsky, Silvia Pappalardi, (参考訳) 量子ユニタリ力学の下での非平衡状態の温暖化の理解は、多体物理学において重要な問題である。 本研究では,エネルギー固有基底における非平衡初期状態の行列要素に対する統計的アンサッツを提案する。 このアプローチは固有状態熱化仮説(ETH)にインスパイアされているが、提案されたアンザッツは異なるスケーリングを示す。 重要なことに、観測可能要素と初期状態行列要素の間の指数関数的に小さな相互相関は、平衡に向かって緩和ダイナミクスを決定する。 我々は,スケーリングと相互相関を数値的に検証し,高周波挙動の創発的普遍性を指摘し,一般化の可能性について概説する。

Understanding how out-of-equilibrium states thermalize under quantum unitary dynamics is an important problem in many-body physics. In this work, we propose a statistical ansatz for the matrix elements of non-equilibrium initial states in the energy eigenbasis. The approach is inspired by the Eigenstate Thermalisation Hypothesis (ETH) but the proposed ansatz exhibits different scaling. Importantly, exponentially small cross-correlations between the observable and the initial state matrix elements determine relaxation dynamics toward equilibrium. We numerically verify scaling and cross-correlation, point out the emergent universality of the high-frequency behavior, and outline possible generalizations.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# LogiCode: 論理異常検出のためのLLM駆動フレームワーク

LogiCode: an LLM-Driven Framework for Logical Anomaly Detection ( http://arxiv.org/abs/2406.04687v1 )

ライセンス: Link先を確認
Yiheng Zhang, Yunkang Cao, Xiaohao Xu, Weiming Shen, (参考訳) 本稿では,産業環境における論理的異常を識別するために,大規模言語モデル(LLM)を利用した新しいフレームワークであるLogiCodeについて述べる。 論理的推論にLLMを利用することで、LogiCodeは、不正なコンポーネント量や欠落要素などの異常を特定できるPythonコードを生成する。 カスタムデータセット "LOCO-Annotations" とベンチマーク "LogiBench" を導入し、バイナリ分類精度、コード生成成功率、推論の精度など、さまざまな指標でLogiCodeのパフォーマンスを評価する。 発見はLogiCodeの強化された解釈可能性を示し、論理的異常検出の精度を大幅に改善し、特定された異常について詳細な説明を提供する。 これは、産業の異常検出における、よりインテリジェントでLLM駆動のアプローチへの顕著なシフトであり、業界固有のアプリケーションに大きな影響を与える。

This paper presents LogiCode, a novel framework that leverages Large Language Models (LLMs) for identifying logical anomalies in industrial settings, moving beyond traditional focus on structural inconsistencies. By harnessing LLMs for logical reasoning, LogiCode autonomously generates Python codes to pinpoint anomalies such as incorrect component quantities or missing elements, marking a significant leap forward in anomaly detection technologies. A custom dataset "LOCO-Annotations" and a benchmark "LogiBench" are introduced to evaluate the LogiCode's performance across various metrics including binary classification accuracy, code generation success rate, and precision in reasoning. Findings demonstrate LogiCode's enhanced interpretability, significantly improving the accuracy of logical anomaly detection and offering detailed explanations for identified anomalies. This represents a notable shift towards more intelligent, LLM-driven approaches in industrial anomaly detection, promising substantial impacts on industry-specific applications.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# CDeFuse: 赤外線と可視画像融合のための連続分解

CDeFuse: Continuous Decomposition for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2406.04689v1 )

ライセンス: Link先を確認
Haolong Ma, Hui Li, Chunyang Cheng, Xiaoning Song, Zhongwei Shen, (参考訳) 一般的な画像処理技術として、画像分解はモダリティ間の補完情報を抽出するためにしばしば用いられる。 現在の分解に基づく画像融合法では、ソース画像は、単一のスケールで3つの部分(可視排他部分、赤外排他部分、共通部分)に分解され、分解過程におけるモダリティ間の相互作用が欠如している。 これらの結果から,様々なスケールでのモーダル間の相補的情報に効果的に焦点を合わせることができなくなった。 上記の問題に対処するため,新しい分解機構であるCDeFuse(Continuous Decomposition Fusion)を提案する。 第一に、CDeFuseは元の3部分解を、類似性制約を通じて各スケールでより一般的なK部分解に拡張し、マルチスケール情報を融合し、分解機能のより詳細な表現を実現する。 次に、K部分分解を支援するために連続分解モジュール(CDM)を導入する。 コアコンポーネントであるState Transformer(ST)は、マルチヘッド自己保持機構を利用することで、モダリティ間の補完情報を効率的にキャプチャする。 最後に、新しい分解損失関数とそれに対応する計算最適化戦略を用いて、分解結果Kと時間的複雑性の線形成長を保ちながら、分解過程の円滑な進行を確保する。 コードは公開されます。

As a common image processing technique, image decomposition is often used to extract complementary information between modalities. In current decomposition-based image fusion methods, typically, source images are decomposed into three parts at single scale (i.e., visible-exclusive part, infrared-exclusive part, and common part) and lacking interaction between modalities during the decomposition process. These results in the inability of fusion images to effectively focus on finer complementary information between modalities at various scales. To address the above issue, a novel decomposition mechanism, Continuous Decomposition Fusion (CDeFuse), is proposed. Firstly, CDeFuse extends the original three-part decomposition to a more general K-part decomposition at each scale through similarity constraints to fuse multi-scale information and achieve a finer representation of decomposition features. Secondly, a Continuous Decomposition Module (CDM) is introduced to assist K-part decomposition. Its core component, State Transformer (ST), efficiently captures complementary information between modalities by utilizing multi-head self-attention mechanism. Finally, a novel decomposition loss function and the corresponding computational optimization strategy are utilized to ensure the smooth progress of the decomposition process while maintaining linear growth in time complexity with the number of decomposition results K. Extensive experiments demonstrate that our CDeFuse achieves comparable performance compared to previous methods. The code will be publicly available.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# 分散ネットワーク上の高次構造に基づく異常検出

Higher-order Structure Based Anomaly Detection on Attributed Networks ( http://arxiv.org/abs/2406.04690v1 )

ライセンス: Link先を確認
Xu Yuan, Na Zhou, Shuo Yu, Huafei Huang, Zhikui Chen, Feng Xia, (参考訳) 異常検出(通信不正検出や医用画像検出など)は人々の注目を集めている。 複数のエンティティ間の複雑な相互作用はネットワーク内に広く存在し、特定の人間の行動パターンを反映することができる。 このようなパターンは高次のネットワーク構造によってモデル化できるため、属性付きネットワークにおける異常検出の恩恵を受けることができる。 しかし、既存のグラフ学習手法に効果的なメカニズムが欠如しているため、これらの複雑な相互作用パターンは異常の検出には適用されず、異常検出の進行をある程度妨げている。 上記の問題に対処するため,高次構造に基づく異常検出法(GUIDE)を提案する。 属性オートエンコーダと構造オートエンコーダを用いて,ノード属性と高次構造をそれぞれ再構成する。 さらに,グラフ注意層を設計し,その高次構造差によるノードに対する隣人の意義を評価する。 最後に,ノード属性と高次構造復元誤差を利用して異常を検出する。 GUIDEの有効性を検証するために,5つの実世界のデータセット(ACM, Citation, Cora, DBLP, Pubmed)の大規模な実験を行った。 ROC-AUC、PR-AUC、Recall@Kによる実験の結果、GUIDEは最先端の手法よりも大幅に優れていた。

Anomaly detection (such as telecom fraud detection and medical image detection) has attracted the increasing attention of people. The complex interaction between multiple entities widely exists in the network, which can reflect specific human behavior patterns. Such patterns can be modeled by higher-order network structures, thus benefiting anomaly detection on attributed networks. However, due to the lack of an effective mechanism in most existing graph learning methods, these complex interaction patterns fail to be applied in detecting anomalies, hindering the progress of anomaly detection to some extent. In order to address the aforementioned issue, we present a higher-order structure based anomaly detection (GUIDE) method. We exploit attribute autoencoder and structure autoencoder to reconstruct node attributes and higher-order structures, respectively. Moreover, we design a graph attention layer to evaluate the significance of neighbors to nodes through their higher-order structure differences. Finally, we leverage node attribute and higher-order structure reconstruction errors to find anomalies. Extensive experiments on five real-world datasets (i.e., ACM, Citation, Cora, DBLP, and Pubmed) are implemented to verify the effectiveness of GUIDE. Experimental results in terms of ROC-AUC, PR-AUC, and Recall@K show that GUIDE significantly outperforms the state-of-art methods.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# Mixture-of-Agentsが大規模言語モデル機能を強化

Mixture-of-Agents Enhances Large Language Model Capabilities ( http://arxiv.org/abs/2406.04692v1 )

ライセンス: Link先を確認
Junlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語理解と生成タスクにおいて重要な能力を示している。 LLMの増加に伴い、複数のLLMの総合的な専門知識をどのように活用するかは、エキサイティングなオープンな方向になります。 そこで本研究では,Mixture-of-Agents (MoA) 手法を用いて,複数のLLMの集合的強度を利用する手法を提案する。 提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。 各エージェントは、応答を生成する際の補助情報として、前のレイヤのエージェントからの出力をすべて取ります。 MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。 例えば、オープンソース LLM のみを使用した MoA は AlpacaEval 2.0 の実質的なギャップによるリーダであり、GPT-4 Omni の 57.5% に対して 65.1% のスコアを達成しています。

Recent advances in large language models (LLMs) demonstrate substantial capabilities in natural language understanding and generation tasks. With the growing number of LLMs, how to harness the collective expertise of multiple LLMs is an exciting open direction. Toward this goal, we propose a new approach that leverages the collective strengths of multiple LLMs through a Mixture-of-Agents (MoA) methodology. In our approach, we construct a layered MoA architecture wherein each layer comprises multiple LLM agents. Each agent takes all the outputs from agents in the previous layer as auxiliary information in generating its response. MoA models achieves state-of-art performance on AlpacaEval 2.0, MT-Bench and FLASK, surpassing GPT-4 Omni. For example, our MoA using only open-source LLMs is the leader of AlpacaEval 2.0 by a substantial gap, achieving a score of 65.1% compared to 57.5% by GPT-4 Omni.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# LLM-Vectorizer: LLM-based Verified Loop Vectorizer

LLM-Vectorizer: LLM-based Verified Loop Vectorizer ( http://arxiv.org/abs/2406.04693v1 )

ライセンス: Link先を確認
Jubi Taneja, Avery Laird, Cong Yan, Madan Musuvathi, Shuvendu K. Lahiri, (参考訳) ベクトル化は、大規模データアレイで動作する高性能コンピューティングアプリケーションの性能を大幅に向上させる強力な最適化手法である。 自動ベクター化に関する数十年の研究にもかかわらず、コンパイラはしばしばコードをベクター化する機会を逃している。 一方、コンパイラの内在を使って手動でベクトル化されたコードを書くことは、特定のアーキテクチャやコンパイラの深い知識を必要とする複雑なエラーを起こしやすいタスクである。 本稿では,各配列要素を処理するスカラープログラムからベクトル化された(単一命令多重データ)コードを生成するための大規模言語モデル (LLM) の可能性を評価する。 本稿では,LLMとテストベースフィードバックを利用してベクトルコードを生成する有限状態マシンマルチエージェントを提案する。 この結果から,LLM は Intel Compiler,GCC,Clang などの最先端コンパイラと比較して,実行時の速度アップが 1.1x から 9.4x の範囲で高速なベクトルコードを生成することができることがわかった。 ベクトル化コードの正当性を検証するために,LLVM IR の有界変換検証ツールである Alive2 を用いる。 ベンチマークデータセット上でAlive2のスケーラビリティを改善するために、いくつかのドメイン固有のテクニックを説明します。 全体として、我々のアプローチは、TSVCベンチマークデータセットで正しいように、ベクトル化の38.2%を検証することができる。

Vectorization is a powerful optimization technique that significantly boosts the performance of high performance computing applications operating on large data arrays. Despite decades of research on auto-vectorization, compilers frequently miss opportunities to vectorize code. On the other hand, writing vectorized code manually using compiler intrinsics is still a complex, error-prone task that demands deep knowledge of specific architecture and compilers. In this paper, we evaluate the potential of large-language models (LLMs) to generate vectorized (Single Instruction Multiple Data) code from scalar programs that process individual array elements. We propose a novel finite-state machine multi-agents based approach that harnesses LLMs and test-based feedback to generate vectorized code. Our findings indicate that LLMs are capable of producing high performance vectorized code with run-time speedup ranging from 1.1x to 9.4x as compared to the state-of-the-art compilers such as Intel Compiler, GCC, and Clang. To verify the correctness of vectorized code, we use Alive2, a leading bounded translation validation tool for LLVM IR. We describe a few domain-specific techniques to improve the scalability of Alive2 on our benchmark dataset. Overall, our approach is able to verify 38.2% of vectorizations as correct on the TSVC benchmark dataset.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# 生成型ディープニューラルネットワークを用いた論理合成

Logic Synthesis with Generative Deep Neural Networks ( http://arxiv.org/abs/2406.04699v1 )

ライセンス: Link先を確認
Xihan Li, Xing Li, Lei Chen, Xing Zhang, Mingxuan Yuan, Jun Wang, (参考訳) ディープラーニングは様々な領域で大きな成功を収めてきたが、複雑な制約と厳密な実現性要件のために論理回路設計への応用は制限されてきた。 しかし,近年のニューラルモデル "Circuit Transformer" は,同値保存回路変換を小さなスケールで実現することで,この領域で有望であることを示す。 本稿では,(1)自己改善学習による最適性の反復的改善を伴う論理合成に適した回路変換器の2段階トレーニングスキーム,(2)拡張性問題に対処するために,回路変換器と最先端の書き直し技術を統合した,DAG対応の書き直しを可能にする,回路変換器モデル(Circuit Transformer Rewriting)を提案する。 IWLS 2023コンテストのベンチマーク実験の結果,提案手法の有効性が示された。

While deep learning has achieved significant success in various domains, its application to logic circuit design has been limited due to complex constraints and strict feasibility requirement. However, a recent generative deep neural model, "Circuit Transformer", has shown promise in this area by enabling equivalence-preserving circuit transformation on a small scale. In this paper, we introduce a logic synthesis rewriting operator based on the Circuit Transformer model, named "ctrw" (Circuit Transformer Rewriting), which incorporates the following techniques: (1) a two-stage training scheme for the Circuit Transformer tailored for logic synthesis, with iterative improvement of optimality through self-improvement training; (2) integration of the Circuit Transformer with state-of-the-art rewriting techniques to address scalability issues, allowing for guided DAG-aware rewriting. Experimental results on the IWLS 2023 contest benchmark demonstrate the effectiveness of our proposed rewriting methods.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# Marking the Pace:Federated Recommenderシステムのためのブロックチェーンによるプライバシー追跡可能な戦略

Marking the Pace: A Blockchain-Enhanced Privacy-Traceable Strategy for Federated Recommender Systems ( http://arxiv.org/abs/2406.04702v1 )

ライセンス: Link先を確認
Zhen Cai, Tao Tang, Shuo Yu, Yunpeng Xiao, Feng Xia, (参考訳) フェデレートされたレコメンデータシステムは、IoT(Internet of Things)デバイスの広範な接続性と分散コンピューティング能力に起因する、データ共有と継続的モデル更新を通じて、大幅に強化されている。 IoTデータの感度を考えると、データ共有とモデル更新における透過的なデータ処理が最重要である。 しかし、既存の手法は共有データのフローとモデル更新の進化を追跡できない。 その結果、データ共有は悪意のあるエンティティによるエクスプロイトに弱いため、データ共有を除くと、データプライバシに関する重大な懸念が生じる。 これらの懸念を軽減するために、プライバシ追跡可能なフェデレーションレコメンデータシステムであるLIBERATEを提案する。 ブロックチェーンベースのトレーサビリティメカニズムを設計し、データ共有とモデル更新時のデータのプライバシを確保する。 ユーザのサーバ間通信にローカルな差分プライバシーを組み込むことにより、プライバシー保護をさらに強化する。 実世界のデータセットによる大規模な評価は、効率とパフォーマンスを維持しながら、データの共有とモデルの更新中にデータのプライバシを確保するLIBERATEの能力を裏付けるものだ。 結果はブロックチェーンベースのトレーサビリティメカニズムを、フェデレートされたレコメンデータシステムにおけるプライバシ保護のための有望なソリューションとして評価する。

Federated recommender systems have been crucially enhanced through data sharing and continuous model updates, attributed to the pervasive connectivity and distributed computing capabilities of Internet of Things (IoT) devices. Given the sensitivity of IoT data, transparent data processing in data sharing and model updates is paramount. However, existing methods fall short in tracing the flow of shared data and the evolution of model updates. Consequently, data sharing is vulnerable to exploitation by malicious entities, raising significant data privacy concerns, while excluding data sharing will result in sub-optimal recommendations. To mitigate these concerns, we present LIBERATE, a privacy-traceable federated recommender system. We design a blockchain-based traceability mechanism, ensuring data privacy during data sharing and model updates. We further enhance privacy protection by incorporating local differential privacy in user-server communication. Extensive evaluations with the real-world dataset corroborate LIBERATE's capabilities in ensuring data privacy during data sharing and model update while maintaining efficiency and performance. Results underscore blockchain-based traceability mechanism as a promising solution for privacy-preserving in federated recommender systems.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# EAIA: 5G-V2Vにおける効率的な匿名認証方式

EAIA: An Efficient and Anonymous Identity Authentication Scheme in 5G-V2V ( http://arxiv.org/abs/2406.04705v1 )

ライセンス: Link先を確認
Qianmin Du, Jianhong Zhou, Maode Ma, (参考訳) 自動車アドホックネットワーク(VANET)は近年、情報交換を通じてより安全で効率的な車間交流を可能にすることにより、運転経験を向上させる上で重要な役割を担っている。 車両間通信(V2V)は、衝突を防止し、交通効率を向上させるだけでなく、ドライバーや自動運転システムに重要な状況認識を提供するため、特に不可欠である。 通信は一般にロードサイド・ユニット(RSU)によって支援されるが、実用的な用途では車両はRSUの通信範囲を超え、様々な悪意のある攻撃にさらされる可能性がある。 また、車載ユニット(OBU)の限られた計算資源を考えると、V2V通信をサポートする軽量セキュリティプロトコルの設計には高い需要がある。 本稿では,RSUサポートに欠けるシナリオに適した,効率的な匿名型V2V認証プロトコルを提案する。 提案されたプロトコルは、Scytherツールを使用して公式に評価され、主要な一般的な悪意のある攻撃に耐える能力を示している。 性能評価の結果,提案プロトコルは通信と計算オーバーヘッドの点で効率が良く,V2V車両通信の有効なソリューションであることがわかった。

Vehicle Ad-hoc Networks (VANETs) have experienced significant development in recent years, playing a crucial role in enhancing the driving experience by enabling safer and more efficient inter-vehicle interactions through information exchange. Vehicle-to-vehicle (V2V) communication is particularly vital as it not only helps to prevent collisions and improve traffic efficiency but also provides essential situational awareness to drivers or autonomous driving systems. Communication is typically supported by Roadside Units (RSUs); however, in practical applications, vehicles may exceed the communication range of RSUs, thus exposing them to various malicious attacks. Additionally, considering the limited computational resources of onboard units (OBUs) in vehicles, there is a high demand for designing lightweight security protocols that support V2V communication. To address this issue, this paper proposes an efficient anonymous V2V identity authentication protocol tailored for scenarios that lack RSU support. The proposed protocol has been formally assessed using the Scyther tool, demonstrating its capability to withstand major typical malicious attacks. Performance evaluations indicate that the proposed protocol is efficient in terms of communication and computational overhead, making it a viable solution for V2V vehicle communication.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# 勝者全学習者は幾何学的条件密度推定器である

Winner-takes-all learners are geometry-aware conditional density estimators ( http://arxiv.org/abs/2406.04706v1 )

ライセンス: Link先を確認
Victor Letzelter, David Perera, Cédric Rommel, Mathieu Fontaine, Slim Essid, Gael Richard, Patrick Pérez, (参考訳) 受賞者全員のトレーニングは単純な学習パラダイムであり、妥当な仮説のセットを予測することによって曖昧なタスクを処理する。 近年,Winner-takes-allトレーニングとCentroidal Voronoiテッセルレーションの相互関係が確立され,一度訓練された場合,仮説は条件分布の形状を最適に定量化して予測できることが示されている。 しかし、不確実性定量化にこれらの仮説を最大限に活用することは、まだ未解決の問題であり、本研究では、学習者の魅力ある幾何学的特性を条件付き密度推定に活用する方法を、元のトレーニングスキームを変更することなく示す。 我々は,量子化と密度推定の両面から新たな推定器の利点を理論的に確立し,音声データを含む合成および実世界のデータセットに対する競合性を実証する。

Winner-takes-all training is a simple learning paradigm, which handles ambiguous tasks by predicting a set of plausible hypotheses. Recently, a connection was established between Winner-takes-all training and centroidal Voronoi tessellations, showing that, once trained, hypotheses should quantize optimally the shape of the conditional distribution to predict. However, the best use of these hypotheses for uncertainty quantification is still an open question.In this work, we show how to leverage the appealing geometric properties of the Winner-takes-all learners for conditional density estimation, without modifying its original training scheme. We theoretically establish the advantages of our novel estimator both in terms of quantization and density estimation, and we demonstrate its competitiveness on synthetic and real-world datasets, including audio data.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# ConDiff: 部分微分方程式のニューラルな解に対するカオスデータセット

ConDiff: A Challenging Dataset for Neural Solvers of Partial Differential Equations ( http://arxiv.org/abs/2406.04709v1 )

ライセンス: Link先を確認
Vladislav Trifonov, Alexander Rudikov, Oleg Iliev, Ivan Oseledets, Ekaterina Muravleva, (参考訳) 本稿では,科学的機械学習のための新しいデータセットであるConDiffを紹介する。 コンディフは、パラメトリック偏微分方程式(PDE)の多くの応用における基本的な問題である、様々な係数を持つ拡散方程式に焦点を当てている。 提案するデータセットの主な特徴は、高いコントラストを持つ不連続係数を考えることである。 これらの係数関数は、選択された分布の集合からサンプリングされる。 この種の問題は、学術的な関心事だけでなく、様々な環境・産業問題の記述の基礎にもなっている。 このようにして、ConDiffは、完全な合成と使いやすさを維持しながら、現実世界の問題とのギャップを短くする。 コンディフは、異なる係数関数間のより明確な比較のために、様々なコントラストレベルと不均一性をカバーする係数を持つ様々な拡散方程式からなる。 科学機械学習の分野では、標準的なディープラーニングモデルに基づいてConDiffをベースラインとしています。 それぞれ独自の係数関数と右辺を持つ多数の問題インスタンスを提供することで、ニューラルネットワークや物理インフォームドニューラルネットワークといった新しい物理ベースのディープラーニングアプローチの開発を奨励し、最終的には複雑なPDE問題のより正確で効率的な解へと進むことを期待する。

We present ConDiff, a novel dataset for scientific machine learning. ConDiff focuses on the diffusion equation with varying coefficients, a fundamental problem in many applications of parametric partial differential equations (PDEs). The main novelty of the proposed dataset is that we consider discontinuous coefficients with high contrast. These coefficient functions are sampled from a selected set of distributions. This class of problems is not only of great academic interest, but is also the basis for describing various environmental and industrial problems. In this way, ConDiff shortens the gap with real-world problems while remaining fully synthetic and easy to use. ConDiff consists of a diverse set of diffusion equations with coefficients covering a wide range of contrast levels and heterogeneity with a measurable complexity metric for clearer comparison between different coefficient functions. We baseline ConDiff on standard deep learning models in the field of scientific machine learning. By providing a large number of problem instances, each with its own coefficient function and right-hand side, we hope to encourage the development of novel physics-based deep learning approaches, such as neural operators and physics-informed neural networks, ultimately driving progress towards more accurate and efficient solutions of complex PDE problems.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# ソフトウェアエンジニアリングのための高度なGAI

Morescient GAI for Software Engineering ( http://arxiv.org/abs/2406.04710v1 )

ライセンス: Link先を確認
Marcus Kessel, Colin Atkinson, (参考訳) 生成AI(GAI)技術がソフトウェアエンジニアリングの成果物を自動的にチェックし、合成し、修正できることは、ソフトウェアエンジニアリングのあらゆる側面に革命をもたらすことを約束する。 従って、ソフトウェアエンジニアリングタスクにGAIを使用することは、ソフトウェアエンジニアリング研究の最も急速に発展した分野の1つであり、2021年以来、多くのLLMベースのコードモデルが発行されている。 しかし、既存のコードモデルの圧倒的多数は、大きな弱点を共有している。それらはソフトウェアの統語的側面にのみ訓練されており、ソフトウェアセマンティクスに依存するタスクに対する信頼性を著しく低下させています。 この問題に対処するためには、ソフトウェアのセマンティックな面と静的な面の両方を(すなわち、訓練された)「認識する」新しいクラスである"Morescient" GAIが必要である。 これにより、構造化され、容易に分析可能な方法で、非常に大量の実行観察を生成できる、新しい世代のソフトウェア観測プラットフォームが必要になります。 本稿では,オープンサイエンスの原則に則って,そのような「モレサイエント」なGAIモデルをいかに開発・発展・普及させるか,というビジョンを提示する。

The ability of Generative AI (GAI) technology to automatically check, synthesize and modify software engineering artifacts promises to revolutionize all aspects of software engineering. Using GAI for software engineering tasks is consequently one of the most rapidly expanding fields of software engineering research, with dozens of LLM-based code models having been published since 2021. However, the overwhelming majority of existing code models share a major weakness - they are exclusively trained on the syntactic facet of software, significantly lowering their trustworthiness in tasks dependent on software semantics. To address this problem, a new class of "Morescient" GAI is needed that is "aware" of (i.e., trained on) both the semantic and static facets of software. This, in turn, will require a new generation of software observation platforms capable of generating ultra-large quantities of execution observations in a structured and readily analyzable way. In this paper, we present a vision for how such "Morescient" GAI models can be engineered, evolved and disseminated according to the principles of open science.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# AICoderEval: 大規模言語モデルのAIドメインコード生成を改善する

AICoderEval: Improving AI Domain Code Generation of Large Language Models ( http://arxiv.org/abs/2406.04712v1 )

ライセンス: Link先を確認
Yinghui Xia, Yuyan Chen, Tianyu Shi, Jun Wang, Jinsong Yang, (参考訳) 自動コード生成は、大規模言語モデル(LLM)の重要な機能である。 しかし、実際のシナリオでこの能力を評価することは依然として困難である。 以前の方法は、様々なドメインで画像からテキストの分類やテキストの分類といった現実世界のタスクに対応する高レベルなコードを生成する代わりに、モデルローディングのような低レベルなコード生成に重点を置いていた。 そこで我々は,HuggingFace,PyTorch,TensorFlowをベースとした,さまざまな領域における実世界のタスクを対象としたデータセットであるAICoderEvalを構築し,LLMのタスク固有のコード生成機能の評価と拡張のための総合的なメトリクスを構築した。 AICoderEvalには、自然言語処理、コンピュータビジョン、マルチモーダル学習などの領域をカバーする、これらのタスクの自動評価のためのテストケースと完全なプログラムが含まれている。 この分野での研究を促進するために、私たちはAICoderEvalデータセットを、 \url{https://huggingface.co/datasets/vixuowis/AICoderEval}でオープンソース化しました。 その後、我々はエージェントベースのフレームワークであるCoderGenを提案し、LLMが構築されたAICoderEval上の実世界のタスクに関連するコードを生成するのを助ける。 さらに、AICoderEvalに基づいたllama-3を改良したAICoderという、より強力なタスク固有コード生成モデルをトレーニングする。 実験では、LLMのタスク固有のコード生成能力を改善するためのCoderGenの有効性を実証した(オリジナルのモデルではpass@1で12.00\%、ReAct Agentではpass@1で9.50\%)。 AICoderはまた、現在のコード生成LLMよりも優れており、AICoderEvalベンチマークの優れた品質を示している。

Automated code generation is a pivotal capability of large language models (LLMs). However, assessing this capability in real-world scenarios remains challenging. Previous methods focus more on low-level code generation, such as model loading, instead of generating high-level codes catering for real-world tasks, such as image-to-text, text classification, in various domains. Therefore, we construct AICoderEval, a dataset focused on real-world tasks in various domains based on HuggingFace, PyTorch, and TensorFlow, along with comprehensive metrics for evaluation and enhancing LLMs' task-specific code generation capability. AICoderEval contains test cases and complete programs for automated evaluation of these tasks, covering domains such as natural language processing, computer vision, and multimodal learning. To facilitate research in this area, we open-source the AICoderEval dataset at \url{https://huggingface.co/datasets/vixuowis/AICoderEval}. After that, we propose CoderGen, an agent-based framework, to help LLMs generate codes related to real-world tasks on the constructed AICoderEval. Moreover, we train a more powerful task-specific code generation model, named AICoder, which is refined on llama-3 based on AICoderEval. Our experiments demonstrate the effectiveness of CoderGen in improving LLMs' task-specific code generation capability (by 12.00\% on pass@1 for original model and 9.50\% on pass@1 for ReAct Agent). AICoder also outperforms current code generation LLMs, indicating the great quality of the AICoderEval benchmark.
翻訳日:2024-06-10 15:09:53 公開日:2024-06-07
# FlowMM:リーマン流マッチングによる材料生成

FlowMM: Generating Materials with Riemannian Flow Matching ( http://arxiv.org/abs/2406.04713v1 )

ライセンス: Link先を確認
Benjamin Kurt Miller, Ricky T. Q. Chen, Anuroop Sriram, Brandon M Wood, (参考訳) 結晶材料は次世代技術の基本的な構成要素であるが、その分布をモデル化することはユニークな計算課題をもたらす。 周期格子中の原子の可塑性配置のうち、わずかしか消失しない割合は熱力学的に安定であり、これは実験的に実現可能な材料の重要な指標である。 この領域における2つの基本的な課題は (a)既知の元素組成の安定な結晶構造を予測し、 (b) 安定な構造とともに新規な構成を提案する。 両タスクの最先端性能を実現するための生成モデルであるFlowMMを,競合する手法よりも効率的かつ柔軟なモデルとして提示する。 我々は、変換、回転、置換、周期境界条件といった結晶固有の対称性に合うようにリーマンフローマッチングを一般化する。 本フレームワークは,拡散モデルと比較して結晶構造学習の問題を劇的に単純化し,フローベース分布の選択の自由を実現する。 標準ベンチマークに加えて, FlowMM の生成した構造を量子化学計算で検証し, 従来のオープンな手法に比べて安定な材料を見つけるためには, 積分ステップの点で約3倍効率がよいことを示した。

Crystalline materials are a fundamental component in next-generation technologies, yet modeling their distribution presents unique computational challenges. Of the plausible arrangements of atoms in a periodic lattice only a vanishingly small percentage are thermodynamically stable, which is a key indicator of the materials that can be experimentally realized. Two fundamental tasks in this area are to (a) predict the stable crystal structure of a known composition of elements and (b) propose novel compositions along with their stable structures. We present FlowMM, a pair of generative models that achieve state-of-the-art performance on both tasks while being more efficient and more flexible than competing methods. We generalize Riemannian Flow Matching to suit the symmetries inherent to crystals: translation, rotation, permutation, and periodic boundary conditions. Our framework enables the freedom to choose the flow base distributions, drastically simplifying the problem of learning crystal structures compared with diffusion models. In addition to standard benchmarks, we validate FlowMM's generated structures with quantum chemistry calculations, demonstrating that it is about 3x more efficient, in terms of integration steps, at finding stable materials compared to previous open methods.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# MGIMM:属性誘導型リモートセンシング画像詳細記述のためのマルチグラニュリティインストラクションマルチモーダルモデル

MGIMM: Multi-Granularity Instruction Multimodal Model for Attribute-Guided Remote Sensing Image Detailed Description ( http://arxiv.org/abs/2406.04716v1 )

ライセンス: Link先を確認
Cong Yang, Zuchao Li, Lefei Zhang, (参考訳) 近年、大規模なマルチモーダルモデルでは、視覚情報からテキスト情報へのブリッジが構築されているが、リモートセンシングのシナリオでは性能が劣る傾向にある。 このアンダーパフォーマンスは、オブジェクトの複雑な分布と、リモートセンシング画像におけるターゲット間の大きなスケール差により、視覚的曖昧さとこれらのマルチモーダルモデルによる説明不足につながる。 さらに、リモートセンシングフィールドに特有のマルチモーダル微調整データの欠如により、モデルの動作がユーザクエリと整合することを困難にしている。 これらの課題に対処するために,リモートセンシング画像の詳細な記述のための属性誘導型 \textbf{Multi-Granularity Instruction Multimodal Model (MGIMM) を提案する。 MGIMMは、視覚領域と対応するテキスト属性(オブジェクト名、色、形状など)の整合性を学ぶためのマルチモーダルモデルである。 次に,MGIMMは,地域レベルの画像情報とグローバルな画像情報の両方を十分に認識し,リモートセンシング画像の包括的記述に大規模な言語モデルを利用する。 リモートセンシング画像の詳細な記述を生成するための標準ベンチマークが欠如しているため,38,320の地域属性ペアと23,463の画像詳細記述ペアからなるデータセットを構築した。 このデータセットの様々な先進的手法と比較して,MGIMMの地域属性学習手法の有効性を実証した。 コードはhttps://github.com/yangcong356/MGIMM.gitで入手できる。

Recently, large multimodal models have built a bridge from visual to textual information, but they tend to underperform in remote sensing scenarios. This underperformance is due to the complex distribution of objects and the significant scale differences among targets in remote sensing images, leading to visual ambiguities and insufficient descriptions by these multimodal models. Moreover, the lack of multimodal fine-tuning data specific to the remote sensing field makes it challenging for the model's behavior to align with user queries. To address these issues, this paper proposes an attribute-guided \textbf{Multi-Granularity Instruction Multimodal Model (MGIMM)} for remote sensing image detailed description. MGIMM guides the multimodal model to learn the consistency between visual regions and corresponding text attributes (such as object names, colors, and shapes) through region-level instruction tuning. Then, with the multimodal model aligned on region-attribute, guided by multi-grain visual features, MGIMM fully perceives both region-level and global image information, utilizing large language models for comprehensive descriptions of remote sensing images. Due to the lack of a standard benchmark for generating detailed descriptions of remote sensing images, we construct a dataset featuring 38,320 region-attribute pairs and 23,463 image-detailed description pairs. Compared with various advanced methods on this dataset, the results demonstrate the effectiveness of MGIMM's region-attribute guided learning approach. Code can be available at https://github.com/yangcong356/MGIMM.git
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# ストロングルーカス試験における平均値からインクリメンタルサーチバウンドへ

From Worst to Average Case to Incremental Search Bounds of the Strong Lucas Test ( http://arxiv.org/abs/2406.04718v1 )

ライセンス: Link先を確認
Semira Einsele, Gerhard Wunder, (参考訳) 強力なルーカステストは暗号ライブラリで広く使われている確率的原始性テストである。 ミラー・ラビン素性テストと組み合わせると、バイリー・PSW素性テスト(英語版)(Baillie-PSW primality test)を形成し、偽陽性が欠如していることで知られ、強いルーカステストの完全な理解の妥当性を損なう。 素数検定では、最悪の場合の誤差確率は、合成物を素数として誤って特定する可能性の上限として機能する。 強いルーカス試験では、この境界は奇数合成に対して4/15ドルであり、双子素数の積ではない。 一方、平均ケース誤差確率は、ランダムに選択された整数がテストによって素数として不正確に分類される確率を示す。 この境界は実践的な応用において特に重要であり、敵によってランダムに生成され、生成されない素数をテストする。 4/15$の誤差確率は、素数の不足と、この推定値がまだ文献で確立されていないため、直接引き継がれていない。 このギャップは、整数が$t$連続テストラウンドをパスし、計算コストの低い追加の標準テストとともに、すべての$t\geq 1$に対して1-(4/15)^t$以上の確率で実際に素であることを示すことで解決される。 さらに,Lasテストに基づくインクリメンタル検索アルゴリズムの誤差境界を導入する。 独立選択ではなく、このアプローチでは、候補はランダムに一様選択され、その後の候補は2を漸進的に加えることで決定される。 この修正はランダムビットの必要性を減らし、試行分割計算の効率をさらに高める。

The strong Lucas test is a widely used probabilistic primality test in cryptographic libraries. When combined with the Miller-Rabin primality test, it forms the Baillie-PSW primality test, known for its absence of false positives, undermining the relevance of a complete understanding of the strong Lucas test. In primality testing, the worst-case error probability serves as an upper bound on the likelihood of incorrectly identifying a composite as prime. For the strong Lucas test, this bound is $4/15$ for odd composites, not products of twin primes. On the other hand, the average-case error probability indicates the probability that a randomly chosen integer is inaccurately classified as prime by the test. This bound is especially important for practical applications, where we test primes that are randomly generated and not generated by an adversary. The error probability of $4/15$ does not directly carry over due to the scarcity of primes, and whether this estimate holds has not yet been established in the literature. This paper addresses this gap by demonstrating that an integer passing $t$ consecutive test rounds, alongside additional standard tests of low computational cost, is indeed prime with a probability greater than $1-(4/15)^t$ for all $t\geq 1$. Furthermore, we introduce error bounds for the incremental search algorithm based on the strong Lucas test, as there are no established bounds up to date as well. Rather than independent selection, in this approach, the candidate is chosen uniformly at random, with subsequent candidates determined by incrementally adding 2. This modification reduces the need for random bits and enhances the efficiency of trial division computation further.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# 開封ダイナミクスとパターン:低ラベルランサムウェア家庭における拡散パターンと類似点の包括的分析

Unveiling Dynamics and Patterns: A Comprehensive Analysis of Spreading Patterns and Similarities in Low-Labelled Ransomware Families ( http://arxiv.org/abs/2406.04719v1 )

ライセンス: Link先を確認
Francesco Zola, Mikel Gorricho, Jon Ander Medina, Lander Segurola, Raul Orduna-Urrutia, (参考訳) ランサムウェアは、簡単に展開でき、攻撃者が資金を調達して難読化できるサービスへのアクセシビリティーが主な原因で、最も広く普及している脅威の1つになっている。 この後者の側面は、暗号通貨の出現によって著しく強化され、分散化と匿名性を促進することで、この脅威を大規模なアウトブレイクへと変えた。 しかし、近年の報告では、少数の個体がランサムウェアの生態系を支配し、短期間の生活によって特徴づけられる複数の菌株を用いてその活性を難読化しようとすることが示されている。 このシナリオは、異なる株がランサムコレクション、資金移動、マネーロンダリング操作でメカニズムを共有することを示唆している。 そこで本研究では,Bitcoinネットワークで発生したアドレス-トランザクショングラフを,ランサムウェアの低い家庭で解析することを目的とした。 我々の目標は、ランサムウェアファミリーの進化を評価するための支払い拡散パターンを特定し、同一の攻撃者によって制御される可能性のある異なる系統間の類似性を検出することである。 具体的には、この後者のタスクは、そのダイナミクスに従ってアドレス-トランザクショングラフの各ノードにアドレスの振る舞いを割り当てる。 各株における行動の分布は、最終的に異なるランサムウェアファミリー間の近接性を評価するために使用される。 ランサムウェアの家族は数百万のアドレスとの接続を迅速に確立できるが、多くの家族は多段階解析を必要とする。 さらに、本研究では、導入された行動は、異なるランサムウェア株間の類似性を効果的に強調するために使用できることを示した。 その結果、家族は主として身代金の収集やマネーロンダリングに関係した行動に類似していることが判明した。 +

Ransomware has become one of the most widespread threats, primarily due to its easy deployment and the accessibility to services that enable attackers to raise and obfuscate funds. This latter aspect has been significantly enhanced with the advent of cryptocurrencies, which, by fostering decentralisation and anonymity, have transformed this threat into a large-scale outbreak. However, recent reports indicate that a small group of individuals dominate the ransomware ecosystem and try to obfuscate their activity using multiple strains characterised by a short time to live. This scenario suggests that different strains could share mechanisms in ransom collection, fund movement, and money laundering operations. For this reason, this study aims to analyse the address-transaction graphs generated in the Bitcoin network by low-labelled ransomware families. Our goals are to identify payment spreading patterns for evaluating the evolution of ransomware families and to detect similarities among different strains that potentially can be controlled by the same attacker. Specifically, this latter task assigns an address behaviour to each node in the address-transaction graphs according to its dynamics. The distribution of the behaviours in each strain is finally used to evaluate the closeness among different ransomware families. Our findings show that although ransomware families can quickly establish connections with millions of addresses, numerous families require multiple-step analysis. Furthermore, the study demonstrates that the introduced behaviours can effectively be used to highlight similarities among different ransomware strains. The outcome shows that families are similar primarily due to behaviours usually associated with ransom collection and money laundering operations.+
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# 対向強化学習における誤り最小化の確率論的視点

Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning ( http://arxiv.org/abs/2406.04724v1 )

ライセンス: Link先を確認
Roman Belaire, Arunesh Sinha, Pradeep Varakantham, (参考訳) 深層強化学習(Dep Reinforcement Learning, DRL)政策は、観測における敵の騒音に対して極めて脆弱であり、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。 例えば、交通標識に関する操作された感覚入力を受けた自動運転車は、破滅的な結果をもたらす可能性がある。 このような敵対的摂動に対してRLアルゴリズムを強化するための既存の戦略は、一般的に2つのカテゴリに分類される。 (a) 対向損失項を価値目標に組み込むことで堅牢性を高める正則化法を用いて、 (b)ロバスト性を確保するために最小値の最大化に焦点を当てた「最大」原則を採用する。 正規化手法は攻撃が成功する可能性を減らすが、攻撃が成功した場合、その効果は著しく低下する。 一方、最大目標は頑丈ではあるが、過度に保守的である傾向にある。 この課題に対処するために,敵攻撃に対する価値とロバスト性の最適化とを自然にバランスさせる,Adversarial Counterfactal Error (ACoE) という新たな目標を導入する。 モデルフリー環境でACoEをスケーラブルに最適化するために,Cumulative-ACoE (C-ACoE) として知られる理論的に正当化された代理目的を提案する。 C-ACoEを最適化する中核的な考え方は、逆向きに摂動された観測から、根底にある真の状態についての信念を活用することである。 実験により,本手法は,本文献で使用したすべてのベンチマーク(MuJoCo,Atari,Highway)において,対向RL問題に対処するための最先端手法よりも優れていることを示す。

Deep Reinforcement Learning (DRL) policies are critically vulnerable to adversarial noise in observations, posing severe risks in safety-critical scenarios. For example, a self-driving car receiving manipulated sensory inputs about traffic signs could lead to catastrophic outcomes. Existing strategies to fortify RL algorithms against such adversarial perturbations generally fall into two categories: (a) using regularization methods that enhance robustness by incorporating adversarial loss terms into the value objectives, and (b) adopting "maximin" principles, which focus on maximizing the minimum value to ensure robustness. While regularization methods reduce the likelihood of successful attacks, their effectiveness drops significantly if an attack does succeed. On the other hand, maximin objectives, although robust, tend to be overly conservative. To address this challenge, we introduce a novel objective called Adversarial Counterfactual Error (ACoE), which naturally balances optimizing value and robustness against adversarial attacks. To optimize ACoE in a scalable manner in model-free settings, we propose a theoretically justified surrogate objective known as Cumulative-ACoE (C-ACoE). The core idea of optimizing C-ACoE is utilizing the belief about the underlying true state given the adversarially perturbed observation. Our empirical evaluations demonstrate that our method outperforms current state-of-the-art approaches for addressing adversarial RL problems across all established benchmarks (MuJoCo, Atari, and Highway) used in the literature.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# マルチモーダルマルチタスク事前学習に基づく高分子特性の予測

Predicting Polymer Properties Based on Multimodal Multitask Pretraining ( http://arxiv.org/abs/2406.04727v1 )

ライセンス: Link先を確認
Fanmeng Wang, Wentao Guo, Minjie Cheng, Shen Yuan, Hongteng Xu, Zhifeng Gao, (参考訳) 過去数十年間、多くの同一または類似のモノマーを共有結合して形成される高分子、高分子は、様々な科学分野において重要な役割を担ってきた。 この文脈では、それらの性質の正確な予測がますます重要になっている。 通常、可塑性、導電性、生体適合性などのポリマーの性質は、その3D構造と強く相関している。 しかし、現在のポリマー特性予測法は、重要な3D構造情報を無視しながら、ポリマーSMILES配列(P-SMILES文字列)の情報に大きく依存し、準最適性能をもたらす。 本研究では,高分子1Dシーケンシャル情報と3D構造情報の両方を組み込んだマルチモーダル・マルチタスク事前学習フレームワークMMPolymerを提案する。 さらに, ポリマー3Dデータの可用性の限界を克服するため, さらに, 3次元構造情報を効果的に抽出する「スター代替」戦略を提案する。 事前トレーニング中、MMPolymerはマスク付きトークンを予測し、3D座標を復元するだけでなく、潜在表現の相互アライメントも達成する。 その後、教師付き学習パラダイムにおける下流ポリマー特性予測タスクのために、事前学習したMMPolymerをさらに微調整する。 MMPolymerは, 種々のポリマー特性予測タスクにおいて, 最先端性能を実現することを実証した。 さらに, MMポリマーを予め訓練し, 1つのモダリティ(P-SMILES文字列または3Dコンホメーション)のみを用いることで, 既存のポリマー特性予測法を超越し, MMポリマーの高分子特性抽出・利用における特異性を強調した。 ポリマー特性予測のためのオンラインプラットフォームはhttps://app.bohrium.dp.tech/mm Polymerで利用可能です。

In the past few decades, polymers, high-molecular-weight compounds formed by bonding numerous identical or similar monomers covalently, have played an essential role in various scientific fields. In this context, accurate prediction of their properties is becoming increasingly crucial. Typically, the properties of a polymer, such as plasticity, conductivity, bio-compatibility, and so on, are highly correlated with its 3D structure. However, current methods for predicting polymer properties heavily rely on information from polymer SMILES sequences (P-SMILES strings) while ignoring crucial 3D structural information, leading to sub-optimal performance. In this work, we propose MMPolymer, a novel multimodal multitask pretraining framework incorporating both polymer 1D sequential information and 3D structural information to enhance downstream polymer property prediction tasks. Besides, to overcome the limited availability of polymer 3D data, we further propose the "Star Substitution" strategy to extract 3D structural information effectively. During pretraining, MMPolymer not only predicts masked tokens and recovers 3D coordinates but also achieves the cross-modal alignment of latent representation. Subsequently, we further fine-tune the pretrained MMPolymer for downstream polymer property prediction tasks in the supervised learning paradigm. Experimental results demonstrate that MMPolymer achieves state-of-the-art performance in various polymer property prediction tasks. Moreover, leveraging the pretrained MMPolymer and using only one modality (either P-SMILES string or 3D conformation) during fine-tuning can also surpass existing polymer property prediction methods, highlighting the exceptional capability of MMPolymer in polymer feature extraction and utilization. Our online platform for polymer property prediction is available at https://app.bohrium.dp.tech/mmpolymer.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# 効率的な連続有限和最小化

Efficient Continual Finite-Sum Minimization ( http://arxiv.org/abs/2406.04731v1 )

ライセンス: Link先を確認
Ioannis Mavrothalassitis, Stratis Skoulakis, Leello Tadesse Dadi, Volkan Cevher, (参考訳) f_1,\ldots,f_n$ with $f_i:\mathcal{D}\mapsto \mathbb{R}$を与えられたとき、有限サム最小化は点 ${x}^\star \in \mathcal{D}$ minimize $\sum_{j=1}^n f_j(x)/n$ を求める。 本研究では、連続有限サム最小化 (continuous finite-sum minimization) と呼ばれる有限サム最小化への鍵となるツイストを提案し、各${x}^\star_i \in \mathcal{D}$ がプレフィックスサム$\sum_{j=1}^if_j(x)/i$ を最小化するように点 ${x}_1^\star,{x}_n^\star \in \mathcal{D}$ の列を求める。 それぞれの接頭辞が強凸であると仮定すると、一階連続確率分散減少勾配法(\mathrm{CSVRG}$)を開発し、$\mathcal{\tilde{O}}(n/\epsilon^{1/3} + 1/\sqrt{\epsilon})$1次オラクル(FO)で$\epsilon$-optimal sequenceを生成する。 FO は与えられた$x \in \mathcal{D}$に対して 1 つの勾配 $\nabla f_j(x)$ の計算に対応する。 我々のアプローチは$\mathcal{O}(n/\epsilon)$ FOs that $\mathrm{StochasticGradientDescent}$ requires と $\mathcal{O}(n^2 \log (1/\epsilon)$ FOs that state-of-the-art variance reduction method such as $\mathrm{Katyusha}$ requires。 また、$\mathcal{O}\left(n/\epsilon^\alpha\right)$gradient complexity for $\alpha < 1/4$という自然な一階法が存在しないことを証明し、この方法の第一階法がほぼ密であることを示す。

Given a sequence of functions $f_1,\ldots,f_n$ with $f_i:\mathcal{D}\mapsto \mathbb{R}$, finite-sum minimization seeks a point ${x}^\star \in \mathcal{D}$ minimizing $\sum_{j=1}^n f_j(x)/n$. In this work, we propose a key twist into the finite-sum minimization, dubbed as continual finite-sum minimization, that asks for a sequence of points ${x}_1^\star,\ldots,{x}_n^\star \in \mathcal{D}$ such that each ${x}^\star_i \in \mathcal{D}$ minimizes the prefix-sum $\sum_{j=1}^if_j(x)/i$. Assuming that each prefix-sum is strongly convex, we develop a first-order continual stochastic variance reduction gradient method ($\mathrm{CSVRG}$) producing an $\epsilon$-optimal sequence with $\mathcal{\tilde{O}}(n/\epsilon^{1/3} + 1/\sqrt{\epsilon})$ overall first-order oracles (FO). An FO corresponds to the computation of a single gradient $\nabla f_j(x)$ at a given $x \in \mathcal{D}$ for some $j \in [n]$. Our approach significantly improves upon the $\mathcal{O}(n/\epsilon)$ FOs that $\mathrm{StochasticGradientDescent}$ requires and the $\mathcal{O}(n^2 \log (1/\epsilon))$ FOs that state-of-the-art variance reduction methods such as $\mathrm{Katyusha}$ require. We also prove that there is no natural first-order method with $\mathcal{O}\left(n/\epsilon^\alpha\right)$ gradient complexity for $\alpha < 1/4$, establishing that the first-order complexity of our method is nearly tight.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# 脳様フィードフォワード神経回路におけるヘビアンシナプスと構造塑性を用いた教師なし表現学習

Unsupervised representation learning with Hebbian synaptic and structural plasticity in brain-like feedforward neural networks ( http://arxiv.org/abs/2406.04733v1 )

ライセンス: Link先を確認
Naresh Ravichandran, Anders Lansner, Pawel Herman, (参考訳) 脳計算の基礎となる重要な原理を捉えるニューラルネットワークは、人工知能と脳に似た計算アルゴリズムを開発するためのエキサイティングな新しい機会を提供する。 このようなネットワークは、新皮質に見られる局所的なシナプス学習規則やモジュラーネットワークアーキテクチャを活用しながら、生物学的に妥当なままである。 バックプロップ駆動のディープラーニングアプローチと比較して、それらはニューロモルフィックハードウェアにデプロイするためのより適切なモデルを提供し、大規模コンピューティングクラスタ上でのスケーラビリティの可能性をもっている。 このような脳のようなニューラルネットワークの開発は、データから効果的な内部表現を構築することができる学習手順を持つことに依存している。 本研究では,教師なし表現学習が可能な脳様ニューラルネットワークモデルの導入と評価を行う。 BCPNN(Bayesian Confidence Propagation Neural Network)は、これまでに抽象的に実装され、様々な皮質性連想記憶現象を説明する、生化学的に詳細なリカレントアトラクションニューラルネットワークである。 そこで我々は,大脳皮質円柱,分割正規化,ヘビアンシナプス可塑性,構造塑性,スパース活性,スパースパッチ接続などの新皮質回路から派生した脳様特性を取り入れ,表現学習を行うためのフィードフォワードBCPNNモデルを開発した。 このモデルは、グレースケール画像(MNIST、Fashion-MNIST)、RGB自然画像(SVHN、CIFAR-10)、QSAR(MUV、HIV)、マルウェア検出(EMBER)など、さまざまな機械学習ベンチマークでテストされた。 線形分類器を用いてクラスラベルを予測する際のモデルの性能は、従来の多層パーセプトロンや他の最先端の脳に似たニューラルネットワークと競合するものであった。

Neural networks that can capture key principles underlying brain computation offer exciting new opportunities for developing artificial intelligence and brain-like computing algorithms. Such networks remain biologically plausible while leveraging localized forms of synaptic learning rules and modular network architecture found in the neocortex. Compared to backprop-driven deep learning approches, they provide more suitable models for deploying on neuromorphic hardware and have greater potential for scalability on large-scale computing clusters. The development of such brain-like neural networks depends on having a learning procedure that can build effective internal representations from data. In this work, we introduce and evaluate a brain-like neural network model capable of unsupervised representation learning. It builds on the Bayesian Confidence Propagation Neural Network (BCPNN), which has earlier been implemented as abstract as well as biophyscially detailed recurrent attractor neural networks explaining various cortical associative memory phenomena. Here we developed a feedforward BCPNN model to perform representation learning by incorporating a range of brain-like attributes derived from neocortical circuits such as cortical columns, divisive normalization, Hebbian synaptic plasticity, structural plasticity, sparse activity, and sparse patchy connectivity. The model was tested on a diverse set of popular machine learning benchmarks: grayscale images (MNIST, Fashion-MNIST), RGB natural images (SVHN, CIFAR-10), QSAR (MUV, HIV), and malware detection (EMBER). The performance of the model when using a linear classifier to predict the class labels fared competitively with conventional multi-layer perceptrons and other state-of-the-art brain-like neural networks.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# ジェネレーティブAIモデル - 産業と権威の機会とリスク

Generative AI Models: Opportunities and Risks for Industry and Authorities ( http://arxiv.org/abs/2406.04734v1 )

ライセンス: Link先を確認
Tobias Alt, Andrea Ibisch, Clemens Meiser, Anna Wilhelm, Raphael Zimmer, Christian Berghoff, Christoph Droste, Jens Karschau, Friederike Laus, Rainer Plaga, Carola Plesch, Britta Sennewald, Thomas Thaeren, Kristina Unverricht, Steffen Waurick, (参考訳) 生成AIモデルは、伝統的に創造性と人間の理解を必要とする幅広いタスクを実行することができる。 トレーニング中に既存のデータからパターンを学び、その後、これらのパターンに従うテキスト、画像、音楽などの新しいコンテンツを生成することができる。 その汎用性と一般的に高品質な結果のため、デジタル化の機会を表現している。 一方、生成型AIモデルを使用することで、ITセキュリティに関連する脅威の全体像を包括的に分析するために考慮する必要がある、新たなITセキュリティリスクがもたらされる。 このリスクポテンシャルに対応するため、企業や当局は、生成AIをワークフローに統合する前に、個別のリスク分析を行う必要がある。 同じことが開発者やオペレータにも当てはまります。生成AIのコンテキストにおける多くのリスクは、開発時に考慮しなければなりませんし、運用会社の影響しか受けません。 これに基づいて、既存のセキュリティ対策を調整でき、追加の措置を取ることができる。

Generative AI models are capable of performing a wide range of tasks that traditionally require creativity and human understanding. They learn patterns from existing data during training and can subsequently generate new content such as texts, images, and music that follow these patterns. Due to their versatility and generally high-quality results, they, on the one hand, represent an opportunity for digitalization. On the other hand, the use of generative AI models introduces novel IT security risks that need to be considered for a comprehensive analysis of the threat landscape in relation to IT security. In response to this risk potential, companies or authorities using them should conduct an individual risk analysis before integrating generative AI into their workflows. The same applies to developers and operators, as many risks in the context of generative AI have to be taken into account at the time of development or can only be influenced by the operating company. Based on this, existing security measures can be adjusted, and additional measures can be taken.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# CHSH Bell Tests for Optical Hybrid Entanglement

CHSH Bell Tests For Optical Hybrid Entanglement ( http://arxiv.org/abs/2406.04736v1 )

ライセンス: Link先を確認
Morteza Moradi, Juan Camilo López Carreño, Adam Buraczewski, Thomas McDermott, Beate Elisabeth Asenbeck, Julien Laurat, Magdalena Stobińska, (参考訳) 光ハイブリッドの絡み合いは2つの量子ビットの間に生成され、1つは1つの光子に符号化され、もう1つは反対位相のコヒーレントな状態にある。 異種量子ネットワークのような様々な量子技術への道を開き、連続的および離散的な可変符号化をマージし、情報の転送と相互変換を可能にする。 しかし、この絡み合いの性質の信頼性評価は完全な量子状態トモグラフィーに限られている。 本稿では,Cluser-Horne-Shimony-Holt (CHSH) Bellの不等式試験の徹底的な研究を行い,光ハイブリッド絡み合わせのための量子相関の実用的検証を可能にする。 検出効率が82%以上であれば, 簡単な光子数オン/オフ測定で, この不等式を実用的に破ることが可能であることを示す。 もう一つのアプローチは、光子数のパリティ測定に基づくもので、効率は94%だが、高い光子数の制限下ではうまく機能する。 どちらのテストも測定結果のポストセレクションは使用せず、フェアサンプリング仮説を含まない。 提案手法は,コヒーレント状態干渉や光子計数などの実行可能な実験を行い,実世界の応用におけるハイブリッドな絡み合いの検証を行う。

Optical hybrid entanglement can be created between two qubits, one encoded in a single photon and another one in coherent states with opposite phases. It opens the path to a variety of quantum technologies, such as heterogeneous quantum networks, merging continuous and discrete variable encoding, and enabling the transport and interconversion of information. However, reliable characterization of the nature of this entanglement is limited so far to full quantum state tomography. Here, we perform a thorough study of Clauser-Horne-Shimony-Holt (CHSH) Bell inequality tests, enabling practical verification of quantum correlations for optical hybrid entanglement. We show that a practical violation of this inequality is possible with simple photon number on/off measurements if detection efficiencies stay above 82%. Another approach, based on photon-number parity measurements, requires 94% efficiency but works well in the limit of higher photon populations. Both tests use no postselection of the measurement outcomes and they are free of the fair-sampling hypothesis. Our proposal paves the way to performing loophole-free tests using feasible experimental tasks such as coherent state interference and photon counting, and to verification of hybrid entanglement in real-world applications.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# 離散列の高次元ベイズ最適化に関する調査とベンチマーク

A survey and benchmark of high-dimensional Bayesian optimization of discrete sequences ( http://arxiv.org/abs/2406.04739v1 )

ライセンス: Link先を確認
Miguel González-Duque, Richard Michael, Simon Bartels, Yevgen Zainchkovskyy, Søren Hauberg, Wouter Boomsma, (参考訳) 個々のブラックボックス関数の最適化は、タンパク質工学や薬物設計など、いくつかの領域において重要である。 勾配情報の欠如とサンプル効率の必要性により、ベイジアン最適化はこれらのタスクの理想的な候補である。 近年,高次元連続・カテゴリー的ベイズ最適化法が提案されている。 しかし,本調査では,実世界の課題に対する公開アルゴリズムの複製性と適用のための手法と技術的障壁にまたがる極めて異種な実験的なセットアップを明らかにした。 これらの問題に対処するため,我々は,化学・生物学における実世界の応用領域を表す高次元ベイズ最適化手法と標準化されたブラックボックス関数の集合をテストする統一的なフレームワークを開発した。 これらのベンチマークの2つのコンポーネントはそれぞれ、フレキシブルでスケーラブルで容易に拡張可能なソフトウェアライブラリ(ポリとポリベースライン)でサポートされており、実践者は簡単に新しい最適化目標や離散オプティマイザを組み込むことができる。 プロジェクトウェブサイト:https://machinelearninglifescience.github.io/hdbo_benchmark

Optimizing discrete black-box functions is key in several domains, e.g. protein engineering and drug design. Due to the lack of gradient information and the need for sample efficiency, Bayesian optimization is an ideal candidate for these tasks. Several methods for high-dimensional continuous and categorical Bayesian optimization have been proposed recently. However, our survey of the field reveals highly heterogeneous experimental set-ups across methods and technical barriers for the replicability and application of published algorithms to real-world tasks. To address these issues, we develop a unified framework to test a vast array of high-dimensional Bayesian optimization methods and a collection of standardized black-box functions representing real-world application domains in chemistry and biology. These two components of the benchmark are each supported by flexible, scalable, and easily extendable software libraries (poli and poli-baselines), allowing practitioners to readily incorporate new optimization objectives or discrete optimizers. Project website: https://machinelearninglifescience.github.io/hdbo_benchmark
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# Swarm Learningがエネルギシリーズのデータと出会う:ブロックチェーンに基づく分散型協調学習設計

When Swarm Learning meets energy series data: A decentralized collaborative learning design based on blockchain ( http://arxiv.org/abs/2406.04743v1 )

ライセンス: Link先を確認
Lei Xu, Yulong Chen, Yuntian Chen, Longfeng Nie, Xuetao Wei, Liang Xue, Dongxiao Zhang, (参考訳) 機械学習モデルは、将来のエネルギー生産または消費を予測し、既存のデータから重要な未知の変数を推測する機能を提供する。 しかし、特定のエネルギーセクター内の法的な制約と政策的な制約はデータを敏感にし、様々な情報源のデータを利用するための技術的ハードルを提示する。 そこで我々は,フェデレートラーニング(FL)の集中型アーキテクチャに固有のセキュリティとプライバシの問題に対処するため,集中型サーバをブロックチェーンベースの分散ネットワークに置き換えるSwarm Learning(SL)方式を提案する。 この分散協調学習フレームワークでは、各組織が組織間通信のためのノードを管理している。 さまざまな組織のデバイスは、パラメータのアップロードと検索にスマートコントラクトを使用している。 コンセンサス機構は学習プロセス全体にわたって分散一貫性を確保し、透過的な信頼性とパラメータの不変性を保証する。 提案手法の有効性は3つの実世界のエネルギシリーズモデリングシナリオで実証され,ローカルラーニング手法よりも優れた性能を示し,同時に集中学習法やFL法よりもデータセキュリティとプライバシを重視した。 特に,データボリューム数や局所エポック数の増加に伴い,性能誤差の分散の低減に伴うモデル性能の向上が期待できる。 その結果、モデルが生み出す結果の安定性と信頼性が向上する。

Machine learning models offer the capability to forecast future energy production or consumption and infer essential unknown variables from existing data. However, legal and policy constraints within specific energy sectors render the data sensitive, presenting technical hurdles in utilizing data from diverse sources. Therefore, we propose adopting a Swarm Learning (SL) scheme, which replaces the centralized server with a blockchain-based distributed network to address the security and privacy issues inherent in Federated Learning (FL)'s centralized architecture. Within this distributed Collaborative Learning framework, each participating organization governs nodes for inter-organizational communication. Devices from various organizations utilize smart contracts for parameter uploading and retrieval. Consensus mechanism ensures distributed consistency throughout the learning process, guarantees the transparent trustworthiness and immutability of parameters on-chain. The efficacy of the proposed framework is substantiated across three real-world energy series modeling scenarios with superior performance compared to Local Learning approaches, simultaneously emphasizing enhanced data security and privacy over Centralized Learning and FL method. Notably, as the number of data volume and the count of local epochs increases within a threshold, there is an improvement in model performance accompanied by a reduction in the variance of performance errors. Consequently, this leads to an increased stability and reliability in the outcomes produced by the model.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# CRAG -- 包括的なRAGベンチマーク

CRAG -- Comprehensive RAG Benchmark ( http://arxiv.org/abs/2406.04744v1 )

ライセンス: Link先を確認
Xiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong, (参考訳) Retrieval-Augmented Generation (RAG) は、Large Language Model (LLM) の知識不足を緩和するための有望なソリューションとして最近登場した。 しかし、既存のRAGデータセットは、現実世界の質問回答(QA)タスクの多様性と動的な性質を適切に表現していない。 このギャップを埋めるために、ウェブと知識グラフ(KG)検索をシミュレートする4,409組の質問応答ペアとモックAPIの実際の質問応答ベンチマークである包括的RAGベンチマーク(CRAG)を導入する。 CRAGは5つのドメインと8つの質問カテゴリにまたがる多様な質問をカプセル化するために設計されており、人気からロングテール、時間ダイナミズムまで多岐にわたるエンティティの人気を反映している。 このベンチマークに対する評価は、完全に信頼できるQAとのギャップを強調します。 ほとんどの高度なLCMはCRAGで<=34%の精度を達成するが、直接的にRAGを追加すると精度は44%に向上する。 最先端産業RAGソリューションは、幻覚のない63%の質問にのみ答える。 CRAGはまた、より高いダイナミズム、低い人気、より高い複雑さの事実に関する質問に答える際の精度をはるかに低くし、将来の研究方向性を示唆している。 CRAGベンチマークは、KDDカップ2024の挑戦の土台となり、コンペの最初の50日以内に何千人もの参加者と応募者を惹きつけた。 我々は、RAGソリューションと一般的なQAソリューションの進展において、研究コミュニティにサービスを提供するためにCRAGを維持することを約束します。

Retrieval-Augmented Generation (RAG) has recently emerged as a promising solution to alleviate Large Language Model (LLM)'s deficiency in lack of knowledge. Existing RAG datasets, however, do not adequately represent the diverse and dynamic nature of real-world Question Answering (QA) tasks. To bridge this gap, we introduce the Comprehensive RAG Benchmark (CRAG), a factual question answering benchmark of 4,409 question-answer pairs and mock APIs to simulate web and Knowledge Graph (KG) search. CRAG is designed to encapsulate a diverse array of questions across five domains and eight question categories, reflecting varied entity popularity from popular to long-tail, and temporal dynamisms ranging from years to seconds. Our evaluation on this benchmark highlights the gap to fully trustworthy QA. Whereas most advanced LLMs achieve <=34% accuracy on CRAG, adding RAG in a straightforward manner improves the accuracy only to 44%. State-of-the-art industry RAG solutions only answer 63% questions without any hallucination. CRAG also reveals much lower accuracy in answering questions regarding facts with higher dynamism, lower popularity, or higher complexity, suggesting future research directions. The CRAG benchmark laid the groundwork for a KDD Cup 2024 challenge, attracting thousands of participants and submissions within the first 50 days of the competition. We commit to maintaining CRAG to serve research communities in advancing RAG solutions and general QA solutions.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# 選択分類のための信頼度を考慮したコントラスト学習

Confidence-aware Contrastive Learning for Selective Classification ( http://arxiv.org/abs/2406.04745v1 )

ライセンス: Link先を確認
Yu-Chang Wu, Shen-Huan Lyu, Haopu Shang, Xiangyu Wang, Chao Qian, (参考訳) 選択的分類は、モデルが十分に自信のある場合にのみ予測を行え、安全性と信頼性を高めることを目的としている。 従来の手法は主にディープニューラルネットワークを使用し、モデルがその予測の信頼性を推定できるように分類層のアーキテクチャを変更することに重点を置いていた。 この研究は、選択分類のための一般化を提供し、特徴層を最適化することで選択分類の性能を向上させることを開示する。 この理論に触発されて、我々は、特徴レベルでの選択的分類モデルを初めて明示的に改善し、同種インスタンスの特徴を類似させ、異種インスタンスの特徴を識別するCCL-SCという、新しい信頼を意識したコントラスト学習手法を提案する。 CIFAR-10、CIFAR-100、CelebA、ImageNetといった典型的なデータセットに対する実験結果から、CCL-SCは最先端の手法に比べて、ほぼすべての範囲で選択リスクが著しく低いことが示されている。 さらに、さらなる改善をもたらす既存の方法と組み合わせることができる。

Selective classification enables models to make predictions only when they are sufficiently confident, aiming to enhance safety and reliability, which is important in high-stakes scenarios. Previous methods mainly use deep neural networks and focus on modifying the architecture of classification layers to enable the model to estimate the confidence of its prediction. This work provides a generalization bound for selective classification, disclosing that optimizing feature layers helps improve the performance of selective classification. Inspired by this theory, we propose to explicitly improve the selective classification model at the feature level for the first time, leading to a novel Confidence-aware Contrastive Learning method for Selective Classification, CCL-SC, which similarizes the features of homogeneous instances and differentiates the features of heterogeneous instances, with the strength controlled by the model's confidence. The experimental results on typical datasets, i.e., CIFAR-10, CIFAR-100, CelebA, and ImageNet, show that CCL-SC achieves significantly lower selective risk than state-of-the-art methods, across almost all coverage degrees. Moreover, it can be combined with existing methods to bring further improvement.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# PQPP: テキストと画像のプロンプトとクエリのパフォーマンス予測のためのベンチマーク

PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction ( http://arxiv.org/abs/2406.04746v1 )

ライセンス: Link先を確認
Eduard Poesina, Adriana Valentina Costache, Adrian-Gabriel Chifu, Josiane Mothe, Radu Tudor Ionescu, (参考訳) テキスト・ツー・イメージ・ジェネレーションは, 生成拡散モデルの視覚的に印象的な結果により, テキスト・ツー・イメージ検索の代替として最近登場した。 問合せ性能予測は情報検索において活発な研究課題であるが,人間の判断に基づくテキスト・画像生成における問合せの難しさを解析する先行研究は存在しない。 そこで本稿では,画像生成性能の点から手動でアノテートしたプロンプトの最初のデータセットを紹介する。 画像検索における同じプロンプトの難しさを判定するために,検索性能を表す手動アノテーションも収集する。 そこで本研究では,10Kクエリからなる共同テキスト・イメージ・プロンプトとクエリ性能予測のための最初のベンチマークを提案する。 私たちのベンチマークは以下のとおり可能です。 一 画像生成及び画像検索におけるプロンプト/クエリの難易度の比較評価及び (2)生成と検索の両方に対処するプロンプト/クエリ性能予測器の評価 本稿では, 先進・後進・後進・後進の予測器を用いて, 今後の研究の競争基盤となる性能予測器について述べる。 ベンチマークとコードはCC BY 4.0ライセンスでhttps://github.com/Eduard6421/PQPPで公開されている。

Text-to-image generation has recently emerged as a viable alternative to text-to-image retrieval, due to the visually impressive results of generative diffusion models. Although query performance prediction is an active research topic in information retrieval, to the best of our knowledge, there is no prior study that analyzes the difficulty of queries (prompts) in text-to-image generation, based on human judgments. To this end, we introduce the first dataset of prompts which are manually annotated in terms of image generation performance. In order to determine the difficulty of the same prompts in image retrieval, we also collect manual annotations that represent retrieval performance. We thus propose the first benchmark for joint text-to-image prompt and query performance prediction, comprising 10K queries. Our benchmark enables: (i) the comparative assessment of the difficulty of prompts/queries in image generation and image retrieval, and (ii) the evaluation of prompt/query performance predictors addressing both generation and retrieval. We present results with several pre-generation/retrieval and post-generation/retrieval performance predictors, thus providing competitive baselines for future research. Our benchmark and code is publicly available under the CC BY 4.0 license at https://github.com/Eduard6421/PQPP.
翻訳日:2024-06-10 14:59:58 公開日:2024-06-07
# CRiskEval: 大規模言語モデルのための中国のマルチレベルリスク評価ベンチマークデータセット

CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models ( http://arxiv.org/abs/2406.04752v1 )

ライセンス: Link先を確認
Ling Shi, Deyi Xiong, (参考訳) 大規模言語モデル (LLM) には多くの有益な能力があるが、その潜在的な傾きは将来実現される可能性のある予測不可能なリスクを伴っている。 そこで我々は,資源獲得や悪意ある調整などのLSMに固有のリスク確率を,能動的準備の取り組みの一環として正確に計測するために設計された中国のデータセットであるCRiskEvalを提案する。 CRiskEvalを治すために、我々は7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義します。 我々は傾向評価の哲学に従い、細粒度多重選択質問応答によるLCMの欲求を実証的に測定する。 データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。 各質問には、質問に対応する意見や行動傾向を示す4つの回答選択が添付されている。 すべての回答選択は、定義されたリスクレベルの1つに手動で注釈付けされるので、評価されたLLM毎に、きめ細かいフロンティアリスクプロファイルを簡単に構築できます。 CRiskEvalによる中国のLLMの広範にわたる評価によると、多くのモデルは40%以上のリスク傾向を示す(4つのリスクレベルに対する重み付け傾向)。 さらに、モデルのサイズが大きくなるにつれて、緊急の自己持続性、電力探索、その他の危険な目標に対するモデルの傾きの微妙な増加が明らかになる。 LLMのフロンティアリスク評価に関するさらなる研究を促進するため、私たちはデータセットをhttps://github.com/lingshi6565/Risk_eval.comで公開しています。

Large language models (LLMs) are possessed of numerous beneficial capabilities, yet their potential inclination harbors unpredictable risks that may materialize in the future. We hence propose CRiskEval, a Chinese dataset meticulously designed for gauging the risk proclivities inherent in LLMs such as resource acquisition and malicious coordination, as part of efforts for proactive preparedness. To curate CRiskEval, we define a new risk taxonomy with 7 types of frontier risks and 4 safety levels, including extremely hazardous,moderately hazardous, neutral and safe. We follow the philosophy of tendency evaluation to empirically measure the stated desire of LLMs via fine-grained multiple-choice question answering. The dataset consists of 14,888 questions that simulate scenarios related to predefined 7 types of frontier risks. Each question is accompanied with 4 answer choices that state opinions or behavioral tendencies corresponding to the question. All answer choices are manually annotated with one of the defined risk levels so that we can easily build a fine-grained frontier risk profile for each assessed LLM. Extensive evaluation with CRiskEval on a spectrum of prevalent Chinese LLMs has unveiled a striking revelation: most models exhibit risk tendencies of more than 40% (weighted tendency to the four risk levels). Furthermore, a subtle increase in the model's inclination toward urgent self-sustainability, power seeking and other dangerous goals becomes evident as the size of models increase. To promote further research on the frontier risk evaluation of LLMs, we publicly release our dataset at https://github.com/lingshi6565/Risk_eval.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# LLMブランドレコメンデーションに対する人道的な攻撃

Sales Whisperer: A Human-Inconspicuous Attack on LLM Brand Recommendations ( http://arxiv.org/abs/2406.04755v1 )

ライセンス: Link先を確認
Weiran Lin, Anna Gerchanovsky, Omer Akgul, Lujo Bauer, Matt Fredrikson, Zifan Wang, (参考訳) 大規模言語モデル(LLM)のユーザは、プロンプトを書くために他のもの(例えば、サービスにプロンプトするなど)に依存する可能性がある。 しかし、他人が書いた信任状を信用するリスクは未検討のままである。 本稿では,ブランドレコメンデーションタスクにおいて,このようなプロンプトを使用するリスクを評価する。 まず、パラフレージングプロンプトは、確率が100%変化する一対のプロンプトを含む、非常に異なる確率を持つブランドに言及するLLMが生じる可能性があることを発見した。 次に、LLMが与えられたブランドに言及する可能性を高めるために、元のベースプロンプトを乱すために使用できるアプローチを開発した。 我々は, LLMがブランド関連文字列に言及する頻度を, 78.3%まで向上させることで, 摂動を誘導する人間の目立たないアルゴリズムを設計した。 私たちの結果は、我々の混乱したプロンプトが示唆される。 1)人間には目立たない。 2 LLM は、目標ブランドをより頻繁に推薦するよう強制し、 3)ターゲットブランドを選択する可能性を高める。

Large language model (LLM) users might rely on others (e.g., prompting services), to write prompts. However, the risks of trusting prompts written by others remain unstudied. In this paper, we assess the risk of using such prompts on brand recommendation tasks when shopping. First, we found that paraphrasing prompts can result in LLMs mentioning given brands with drastically different probabilities, including a pair of prompts where the probability changes by 100%. Next, we developed an approach that can be used to perturb an original base prompt to increase the likelihood that an LLM mentions a given brand. We designed a human-inconspicuous algorithm that perturbs prompts, which empirically forces LLMs to mention strings related to a brand more often, by absolute improvements up to 78.3%. Our results suggest that our perturbed prompts, 1) are inconspicuous to humans, 2) force LLMs to recommend a target brand more often, and 3) increase the perceived chances of picking targeted brands.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# ソフト論理規則化による解釈可能なマルチモーダル・アウト・オブ・コンテクスト検出

Interpretable Multimodal Out-of-context Detection with Soft Logic Regularization ( http://arxiv.org/abs/2406.04756v1 )

ライセンス: Link先を確認
Huanhuan Ma, Jinghao Zhang, Qiang Liu, Shu Wu, Liang Wang, (参考訳) モバイル機器やメディアを通じての情報の急速な拡散により、偽ニュースや偽ニュースが広まり、社会に重大な懸念がもたらされた。 様々な種類の誤情報の中で、画像再構成(out-of-context misinformation)は、非常に一般的で効果的である。 しかし、現在の文脈外誤情報検出手法は解釈可能性に欠けることが多く、説明が限られている。 本研究では, LOGRAN (LOGic regularization for out-of-context ANalysis) と呼ばれる, 文脈外検出のための論理正規化手法を提案する。 LOGRANの主な目的は、フレーズレベルでのアウト・オブ・コンテクスト検出を分解することである。 句レベルの予測に潜在変数を用いることで、画像カプセル対の最終予測を論理規則を用いて集約することができる。 潜伏変数はまた、最終結果の導出方法の説明も提供しており、この微粒な検出法は本質的に説明法である。 我々は、NewsCLIPpingsデータセット上でのLOGRANの性能を評価し、競合する総合的な結果を示す。 視覚化された例は、説明とともに、文脈外画像の忠実なフレーズレベルの予測も示している。 このことは、文脈外検出に対処し、解釈可能性を高める上で、我々のアプローチの有効性を強調している。

The rapid spread of information through mobile devices and media has led to the widespread of false or deceptive news, causing significant concerns in society. Among different types of misinformation, image repurposing, also known as out-of-context misinformation, remains highly prevalent and effective. However, current approaches for detecting out-of-context misinformation often lack interpretability and offer limited explanations. In this study, we propose a logic regularization approach for out-of-context detection called LOGRAN (LOGic Regularization for out-of-context ANalysis). The primary objective of LOGRAN is to decompose the out-of-context detection at the phrase level. By employing latent variables for phrase-level predictions, the final prediction of the image-caption pair can be aggregated using logical rules. The latent variables also provide an explanation for how the final result is derived, making this fine-grained detection method inherently explanatory. We evaluate the performance of LOGRAN on the NewsCLIPpings dataset, showcasing competitive overall results. Visualized examples also reveal faithful phrase-level predictions of out-of-context images, accompanied by explanations. This highlights the effectiveness of our approach in addressing out-of-context detection and enhancing interpretability.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# ラウドを思い浮かべて: 対話における感情誘発説明

Think out Loud: Emotion Deducing Explanation in Dialogues ( http://arxiv.org/abs/2406.04758v1 )

ライセンス: Link先を確認
Jiangnan Li, Zheng Lin, Lanrui Wang, Qingyi Si, Yanan Cao, Mo Yu, Peng Fu, Weiping Wang, Jie Zhou, (参考訳) 人間は毎日の対話を通じて感情を伝達し、感情を理解することが感情的な知性の重要なステップとなる。 対話における感情を理解するために、機械は、発話に対する感情(対話における感情認識、EDD)を認識し、感情に基づいて、感情に対する因果発話(対話における感情原因抽出、ECED)を見つけるよう求められる。 2つのタスクの設定にはまずEDRとECEDが必要で、感情と原因の相互補完を無視します。 これを解決するために, 同時に抽出するタスクが提案されている。 これらの課題に関する現在の研究には優れた成果があるが、分類モデルによる感情関連要因の同定は、説明可能な方法で感情を刺激する原因の具体的な思考過程を欠いている。 この思考過程は特にLarge Language Models(LLM)の推論能力に反映されている。 そこで本研究では,対話における感情推論(Emotion Deducing Explanation in Dialogues,EDEN)を提案する。 EDENは感情と原因を明確な考え方で認識する。 すなわち、モデルは、まず原因を要約した説明文を生成し、共通の感覚を用いて原因によって引き起こされる話者の内部活動を分析し、それに従って感情を推測する。 EDENの研究を支援するため,ECEDの既存のリソースを基に,人間の努力で2つのEDENデータセットを構築した。 さらに、EDEN上で異なるモデルを評価し、従来のPLMよりもLCMの方が有能であることを示す。 さらにEDENは、LLMが感情や原因をよりよく認識するのに役立つ。

Humans convey emotions through daily dialogues, making emotion understanding a crucial step of affective intelligence. To understand emotions in dialogues, machines are asked to recognize the emotion for an utterance (Emotion Recognition in Dialogues, ERD); based on the emotion, then find causal utterances for the emotion (Emotion Cause Extraction in Dialogues, ECED). The setting of the two tasks requires first ERD and then ECED, ignoring the mutual complement between emotion and cause. To fix this, some new tasks are proposed to extract them simultaneously. Although the current research on these tasks has excellent achievements, simply identifying emotion-related factors by classification modeling lacks realizing the specific thinking process of causes stimulating the emotion in an explainable way. This thinking process especially reflected in the reasoning ability of Large Language Models (LLMs) is under-explored. To this end, we propose a new task "Emotion Deducing Explanation in Dialogues" (EDEN). EDEN recognizes emotion and causes in an explicitly thinking way. That is, models need to generate an explanation text, which first summarizes the causes; analyzes the inner activities of the speakers triggered by the causes using common sense; then guesses the emotion accordingly. To support the study of EDEN, based on the existing resources in ECED, we construct two EDEN datasets by human effort. We further evaluate different models on EDEN and find that LLMs are more competent than conventional PLMs. Besides, EDEN can help LLMs achieve better recognition of emotions and causes, which explores a new research direction of explainable emotion understanding in dialogues.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# 階層型グラフニューラルネットワークによる確率的天気予報

Probabilistic Weather Forecasting with Hierarchical Graph Neural Networks ( http://arxiv.org/abs/2406.04759v1 )

ライセンス: Link先を確認
Joel Oskarsson, Tomas Landelius, Marc Peter Deisenroth, Fredrik Lindsten, (参考訳) 近年、機械学習は高解像度気象予報のための強力なツールとして確立されている。 現在の機械学習モデルは決定論的予測に重点を置いているが、カオス気象システムの不確実性を正確に把握することは確率論的モデリングを必要とする。 本稿では、フレキシブルな潜在変数の定式化とグラフベースの予測フレームワークを併用した、グラフ-EFMと呼ばれる確率的天気予報モデルを提案する。 階層グラフの構成を用いることで、空間的コヒーレントな予測の効率的なサンプリングが可能になる。 Graph-EFMは、タイムステップごとに1つのフォワードパスしか必要とせず、任意に大きなアンサンブルを高速に生成できる。 我々は,グローバル・リミテッド・エリアの予測モデルについて実験を行った。 Graph-EFMのアンサンブル予測は、同等の決定論的モデルよりも同等または低い誤差を達成する。

In recent years, machine learning has established itself as a powerful tool for high-resolution weather forecasting. While most current machine learning models focus on deterministic forecasts, accurately capturing the uncertainty in the chaotic weather system calls for probabilistic modeling. We propose a probabilistic weather forecasting model called Graph-EFM, combining a flexible latent-variable formulation with the successful graph-based forecasting framework. The use of a hierarchical graph construction allows for efficient sampling of spatially coherent forecasts. Requiring only a single forward pass per time step, Graph-EFM allows for fast generation of arbitrarily large ensembles. We experiment with the model on both global and limited area forecasting. Ensemble forecasts from Graph-EFM achieve equivalent or lower errors than comparable deterministic models, with the added benefit of accurately capturing forecast uncertainty.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# SMC++: 教師なしビデオセマンティック圧縮の仮面学習

SMC++: Masked Learning of Unsupervised Video Semantic Compression ( http://arxiv.org/abs/2406.04765v1 )

ライセンス: Link先を確認
Yuan Tian, Guo Lu, Guangtao Zhai, (参考訳) ほとんどのビデオ圧縮手法は、人間の視覚的知覚に焦点を合わせ、意味的保存を無視している。 これにより、圧縮中のセマンティックな損失が深刻になり、下流のビデオ解析タスクが妨げられる。 本稿では,映像セマンティクスを自己管理的にマイニング・圧縮することで,映像セマンティクスを特に保存するMasked Video Modeling(MVM)を利用した圧縮フレームワークを提案する。 MVMは、マスクされたパッチ予測タスクを通じて一般化可能なセマンティクスを学ぶのに熟練しているが、自明なテクスチャの詳細やビットコストの浪費、セマンティクスノイズなどの非セマンティクス情報をエンコードすることもある。 これを抑制するために、圧縮されたビデオの非意味エントロピーをMVMトークン空間で明示的に正規化する。 提案するフレームワークは,単純なセマンティック・マイニング・ザ・圧縮(SMC)モデルとしてインスタンス化されている。 さらに,SMCを先進的なSMC++モデルとして,いくつかの側面から拡張する。 まず、マスクされた動き予測目標を具備し、時間的意味学習能力を向上させる。 第2に,意味的圧縮効率を改善するために,Transformerベースの圧縮モジュールを導入する。 異なる符号化段階における不均一な特徴間の複素冗長性を直接マイニングすることは自明なことを考えると、これらの特徴を類似した形式に整合させるコンパクトな青写真意味表現を導入し、Transformerベースの圧縮モジュールのパワーを完全に解放する。 提案したSMCおよびSMC++モデルは、3つのビデオ解析タスクと7つのデータセットにおいて、従来の、学習可能な、知覚的品質指向のビデオコーデックよりも顕著に優れていることを示す。 ul{https://github.com/tianyuan168326/VideoSemanticCompression-Pytorch}。

Most video compression methods focus on human visual perception, neglecting semantic preservation. This leads to severe semantic loss during the compression, hampering downstream video analysis tasks. In this paper, we propose a Masked Video Modeling (MVM)-powered compression framework that particularly preserves video semantics, by jointly mining and compressing the semantics in a self-supervised manner. While MVM is proficient at learning generalizable semantics through the masked patch prediction task, it may also encode non-semantic information like trivial textural details, wasting bitcost and bringing semantic noises. To suppress this, we explicitly regularize the non-semantic entropy of the compressed video in the MVM token space. The proposed framework is instantiated as a simple Semantic-Mining-then-Compression (SMC) model. Furthermore, we extend SMC as an advanced SMC++ model from several aspects. First, we equip it with a masked motion prediction objective, leading to better temporal semantic learning ability. Second, we introduce a Transformer-based compression module, to improve the semantic compression efficacy. Considering that directly mining the complex redundancy among heterogeneous features in different coding stages is non-trivial, we introduce a compact blueprint semantic representation to align these features into a similar form, fully unleashing the power of the Transformer-based compression module. Extensive results demonstrate the proposed SMC and SMC++ models show remarkable superiority over previous traditional, learnable, and perceptual quality-oriented video codecs, on three video analysis tasks and seven datasets. \textit{Codes and model are available at: \url{https://github.com/tianyuan168326/VideoSemanticCompression-Pytorch}.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# アドミッション制御のための強化学習とレギュレット境界

Reinforcement Learning and Regret Bounds for Admission Control ( http://arxiv.org/abs/2406.04766v1 )

ライセンス: Link先を確認
Lucas Weber, Ana Bušić, Jiamin Zhu, (参考訳) 強化学習アルゴリズムの期待された後悔は、未公表の戻り値に対して$\Omega\left(\sqrt{DXAT}\right)$で下げられ、そこでは$D$はマルコフ決定プロセスの直径、$X$は状態空間のサイズ、$A$はアクション空間のサイズ、$T$は時間ステップの数である。 しかし、この下界は一般である。 より小さな後悔は、問題構造に関する特定の知識を考慮して得られる。 本稿では、M/M/c/S$キューに$m$のジョブクラスとクラス依存の報酬と保持コストを備えた入場制御問題を考察する。 キューシステムはしばしばバッファサイズが$S$で指数関数的な直径を持つので、以前の下限境界は実用上は禁じられる。 UCRL2にインスパイアされたアルゴリズムを提案し、その問題の構造を用いて、有限サーバの場合、$O(S\log T + \sqrt{mT \log T})$で予想される全後悔を上限にしている。 無限サーバーの場合、遺書の$S$への依存が消えることを証明する。

The expected regret of any reinforcement learning algorithm is lower bounded by $\Omega\left(\sqrt{DXAT}\right)$ for undiscounted returns, where $D$ is the diameter of the Markov decision process, $X$ the size of the state space, $A$ the size of the action space and $T$ the number of time steps. However, this lower bound is general. A smaller regret can be obtained by taking into account some specific knowledge of the problem structure. In this article, we consider an admission control problem to an $M/M/c/S$ queue with $m$ job classes and class-dependent rewards and holding costs. Queuing systems often have a diameter that is exponential in the buffer size $S$, making the previous lower bound prohibitive for any practical use. We propose an algorithm inspired by UCRL2, and use the structure of the problem to upper bound the expected total regret by $O(S\log T + \sqrt{mT \log T})$ in the finite server case. In the infinite server case, we prove that the dependence of the regret on $S$ disappears.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# FOV切替CT画像の再生のための拡散型生成画像出力

Diffusion-based Generative Image Outpainting for Recovery of FOV-Truncated CT Images ( http://arxiv.org/abs/2406.04769v1 )

ライセンス: Link先を確認
Michelle Espranita Liman, Daniel Rueckert, Florian J. Fintelmann, Philip Müller, (参考訳) 胸部CTスキャンのフィールド・オブ・ビュー(FOV)回復は, 骨格筋および皮下脂肪組織(SAT)のCTスライスにおける定量化を伴う, 正確な体組成分析に不可欠である。 これにより、病気の予後が予測できる。 そこで本研究では, 画像出力を用いた切り欠きCTスライス回収手法を提案する。 我々は拡散モデルを訓練し、小さなFOVをシミュレートしたCTスライスに応用する。 我々のモデルは,87%の少ないデータでトレーニングされているにもかかわらず,切り離された解剖学を確実に回復し,過去の最先端を上回ります。

Field-of-view (FOV) recovery of truncated chest CT scans is crucial for accurate body composition analysis, which involves quantifying skeletal muscle and subcutaneous adipose tissue (SAT) on CT slices. This, in turn, enables disease prognostication. Here, we present a method for recovering truncated CT slices using generative image outpainting. We train a diffusion model and apply it to truncated CT slices generated by simulating a small FOV. Our model reliably recovers the truncated anatomy and outperforms the previous state-of-the-art despite being trained on 87% less data.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# WildBench: LLMのベンチマークと実際のユーザからのタスク

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild ( http://arxiv.org/abs/2406.04770v1 )

ライセンス: Link先を確認
Bill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi, (参考訳) WildBenchは,大規模言語モデル(LLM)を,挑戦的な実世界のユーザクエリを用いてベンチマークするために設計された,自動評価フレームワークである。 WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。 WildBench を用いた自動評価のために,GPT-4-turbo などの高度な LLM を用いて計算可能な WB-Reward と WB-Score という2つの指標を開発した。 WildBenchの評価では、タスク固有のチェックリストを使用して、モデル出力を体系的に評価し、スコアと比較を正当化する構造化された説明を提供する。 WB-Rewardは、モデル応答間の微妙なペアワイズ比較を採用し、5つの潜在的な結果を生成する。 1つのベースラインモデルを用いた以前の評価とは異なり、我々は3つのベースラインモデルを様々な性能レベルで選択し、総合的なペアワイズ評価を確実にした。 さらに,敗者応答が1文字あたり$K$以上の場合,'`slightly better/worse''' の結果を ``tie'' に変換することで,長さバイアスを軽減するための簡単な手法を提案する。 WB-Scoreは、モデル出力の品質を個別に評価し、高速でコスト効率の高い評価指標となる。 WildBenchの結果は、ハードタスクにおけるChatbot ArenaのElo評価と強い相関関係を示している。 具体的には、WB-Rewardはピアソンの0.98と上位モデルとの相関を達成している。 さらにWBスコアは0.95点に達し、アリーナハードの0.91点、アルパパエバル2.0の0.89点、レギュラー勝利率0.87点を上回った。

We introduce WildBench, an automated evaluation framework designed to benchmark large language models (LLMs) using challenging, real-world user queries. WildBench consists of 1,024 tasks carefully selected from over one million human-chatbot conversation logs. For automated evaluation with WildBench, we have developed two metrics, WB-Reward and WB-Score, which are computable using advanced LLMs such as GPT-4-turbo. WildBench evaluation uses task-specific checklists to evaluate model outputs systematically and provides structured explanations that justify the scores and comparisons, resulting in more reliable and interpretable automatic judgments. WB-Reward employs fine-grained pairwise comparisons between model responses, generating five potential outcomes: much better, slightly better, slightly worse, much worse, or a tie. Unlike previous evaluations that employed a single baseline model, we selected three baseline models at varying performance levels to ensure a comprehensive pairwise evaluation. Additionally, we propose a simple method to mitigate length bias, by converting outcomes of ``slightly better/worse'' to ``tie'' if the winner response exceeds the loser one by more than $K$ characters. WB-Score evaluates the quality of model outputs individually, making it a fast and cost-efficient evaluation metric. WildBench results demonstrate a strong correlation with the human-voted Elo ratings from Chatbot Arena on hard tasks. Specifically, WB-Reward achieves a Pearson correlation of 0.98 with top-ranking models. Additionally, WB-Score reaches 0.95, surpassing both ArenaHard's 0.91 and AlpacaEval2.0's 0.89 for length-controlled win rates, as well as the 0.87 for regular win rates.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# REP: オンデバイス連続学習のためのリソース効率の良いプロンプト

REP: Resource-Efficient Prompting for On-device Continual Learning ( http://arxiv.org/abs/2406.04772v1 )

ライセンス: Link先を確認
Sungho Jeon, Xinyue Ma, Kwang In Kim, Myeongjae Jeon, (参考訳) オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。 これは、連続的なドリフトデータで新しいタスクを学習しながら正確性を保ち、現実世界のデバイスにデプロイ可能な高エネルギーとメモリ効率の両方を維持する必要があるため、非常に難しい。 通常、CL法はCNNとViTの2種類のバックボーンネットワークの1つを利用する。 一般的に、CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れており、各オプションは1つの側面でのみ魅力的であると考えられている。 本稿では、VT-Ti(5.8Mパラメータ)を含む様々なサイズの強力な事前学習型ViTモデルを採用しながら、この比較を再考する。 詳細分析の結果, 精度, エネルギー, メモリがすべて考慮されている場合でも, デバイス上でのCLに適したViTベースの手法を実現するための実用的な選択肢が数多く存在することが明らかとなった。 この影響をさらに拡大するため,我々は,プロンプトベースのリハーサルフリー手法を特にターゲットとした資源効率の向上を行うREPを導入する。 私たちの重要な焦点は、トレーニングプロセス全体を通して計算とメモリコストを削減しながら、壊滅的なトレードオフを正確さで回避することにあります。 我々は、慎重に設定されたモデルを用いて入力データを強化する素早いプロンプト選択を活用し、プロンプト更新段階を最適化する2つの新しいアルゴリズム適応トークンマージ(AToM)とアダプティブレイヤドロップ(ALD)を開発する。 特に、AToMとALDは、視覚変換器モデルにおけるタスク固有の特徴を損なうことなく、データおよびモデル層次元を選択的にスキップする。 3つの画像分類データセットの大規模な実験は、現在の最先端手法よりもREPの優れた資源効率を検証する。

On-device continual learning (CL) requires the co-optimization of model accuracy and resource efficiency to be practical. This is extremely challenging because it must preserve accuracy while learning new tasks with continuously drifting data and maintain both high energy and memory efficiency to be deployable on real-world devices. Typically, a CL method leverages one of two types of backbone networks: CNN or ViT. It is commonly believed that CNN-based CL excels in resource efficiency, whereas ViT-based CL is superior in model performance, making each option attractive only for a single aspect. In this paper, we revisit this comparison while embracing powerful pre-trained ViT models of various sizes, including ViT-Ti (5.8M parameters). Our detailed analysis reveals that many practical options exist today for making ViT-based methods more suitable for on-device CL, even when accuracy, energy, and memory are all considered. To further expand this impact, we introduce REP, which improves resource efficiency specifically targeting prompt-based rehearsal-free methods. Our key focus is on avoiding catastrophic trade-offs with accuracy while trimming computational and memory costs throughout the training process. We achieve this by exploiting swift prompt selection that enhances input data using a carefully provisioned model, and by developing two novel algorithms-adaptive token merging (AToM) and adaptive layer dropping (ALD)-that optimize the prompt updating stage. In particular, AToM and ALD perform selective skipping across the data and model-layer dimensions without compromising task-specific features in vision transformer models. Extensive experiments on three image classification datasets validate REP's superior resource efficiency over current state-of-the-art methods.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# 高次統計量を持つ密度作用素に関するゼー問題の解法

Solving the Zeh problem about the density operator with higher-order statistics ( http://arxiv.org/abs/2406.04774v1 )

ライセンス: Link先を確認
Alain Deville, Yannick Deville, (参考訳) 1932年のフォン・ノイマンの研究から、2つの統計混合が同じ密度作用素 \r{ho} で表される場合、それらは実際には同じ混合と見なされるべきであると考えられている。 1970年の論文で、ゼーは、この結果は彼が測定公理と呼んだ結果であると考え、中性子スピンによる思考実験を導入し、その実験で密度作用素が全体を伝えることができないことを示した。 それ以来、意見の一致は見られず、この問題に関する論争は現在も発展している。 本稿では、量子情報処理の分野におけるこれまでの研究に刺激されて、Zehによって想像された2つの混合と、同じ \r{ho} を区別すべきであることを示す。 この結果は、統計混合体上に不規則に設置された制限を抑えるが、量子統計力学における \r{ho}, eg の一般利用には影響を与えず、フォン・ノイマンエントロピーは自身の関心を保ち、測定公理のこの紛らわしい結果を明らかにするのに役立つ。 曖昧さを避けるために、フォン・ノイマンがより一般的な性質であると提案したこの仮定の導入の特定は、ゼーが測定公理を話し、彼の問題を特定する際に正しかったことを示す付録で示される。 密度作用素の使用と内容は、ランダウ=ファインマン状態と呼ばれる別の物理的ケースでも議論され、これは混合状態ではなく絡み合いの概念を意味する。

Since a 1932 work from von Neumann, it is generally considered that if two statistical mixtures are represented by the same density operator \r{ho}, they should in fact be considered as the same mixture. In a 1970 paper, Zeh, considering this result to be a consequence of what he called the measurement axiom, introduced a thought experiment with neutron spins and showed that in that experiment the density operator could not tell the whole story. Since then, no consensus has emerged yet, and controversies on the subject still presently develop. In this paper, stimulated by our previous works in the field of Quantum Information Processing, we show that the two mixtures imagined by Zeh, with the same \r{ho}, should however be distinguished. We show that this result suppresses a restriction unduly installed on statistical mixtures, but does not affect the general use of \r{ho}, e.g. in quantum statistical mechanics, and the von Neumann entropy keeps its own interest and even helps clarifying this confusing consequence of the measurement axiom. In order to avoid any ambiguity, the identification of the introduction of this postulate, which von Neumann rather suggested to be a general property, is given in an appendix where it is shown that Zeh was right when he spoke of a measurement axiom and identified his problem. The use and content of a density operator is also discussed in another physical case which we are led to call the Landau-Feynman situation, and which implies the concept of entanglement rather than the one of mixed states.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# OFDM-Standard互換SC-NOFS波形を用いた低レイテンシ・耐ジッタ型産業用IoT通信

OFDM-Standard Compatible SC-NOFS Waveforms for Low-Latency and Jitter-Tolerance Industrial IoT Communications ( http://arxiv.org/abs/2406.04776v1 )

ライセンス: Link先を確認
Tongyang Xu, Shuangyang Li, Jinhong Yuan, (参考訳) 従来の通信では、信号処理の簡略化とスペクトル効率の向上のために、正規および直交の信号波形に重点を置いていた。 対照的に次世代通信は、新しい機能を導入するために不規則で直交しない信号波形を目標としていた。 本研究は,産業用モノのインターネット(IIoT)の性能向上を目的とした,スペクトル効率の良い不規則なSinc (irSinc) 成形技術を提案する。 時間クリティカルなIIoTアプリケーションでは、低レイテンシと時間ジッタ耐性が、パフォーマンスと信頼性に大きな影響を及ぼす重要な2つの要因である。 本研究は、実際に遅延とジッタの不可避性を認識し、遅延を低減し、時間ジッタ効果の下でシステムの堅牢性を高めることにより、これらの効果を緩和する波形技術を提案することを目的とする。 irSincの利用により、誤差性能を犠牲にすることなくスペクトル効率が向上した信号が得られる。 IRSincを2段階のフレームワークに統合し、SC-NOFS(Single-carrier non-orthogonal frequency shaping)波形を開発し、5G標準との完全な互換性を示し、既存の産業用IoTセットアップにirSincを直接統合できるようにする。 5Gの標準信号構成により,信号は同じ帯域内で高速なデータ伝送を実現する。 ハードウェア実験では、タイミングリソースの18%の節約が検証され、遅延の低減やジッタ耐性の強化につながる。

Traditional communications focus on regular and orthogonal signal waveforms for simplified signal processing and improved spectral efficiency. In contrast, the next-generation communications would aim for irregular and non-orthogonal signal waveforms to introduce new capabilities. This work proposes a spectrally efficient irregular Sinc (irSinc) shaping technique, revisiting the traditional Sinc back to 1924, with the aim of enhancing performance in industrial Internet of things (IIoT). In time-critical IIoT applications, low-latency and time-jitter tolerance are two critical factors that significantly impact the performance and reliability. Recognizing the inevitability of latency and jitter in practice, this work aims to propose a waveform technique to mitigate these effects via reducing latency and enhancing the system robustness under time jitter effects. The utilization of irSinc yields a signal with increased spectral efficiency without sacrificing error performance. Integrating the irSinc in a two-stage framework, a single-carrier non-orthogonal frequency shaping (SC-NOFS) waveform is developed, showcasing perfect compatibility with 5G standards, enabling the direct integration of irSinc in existing industrial IoT setups. Through 5G standard signal configuration, our signal achieves faster data transmission within the same spectral bandwidth. Hardware experiments validate an 18% saving in timing resources, leading to either reduced latency or enhanced jitter tolerance.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# TDTの損失:ターゲット間の時間依存性を非自己回帰時系列予測に統合する

TDT Loss Takes It All: Integrating Temporal Dependencies among Targets into Non-Autoregressive Time Series Forecasting ( http://arxiv.org/abs/2406.04777v1 )

ライセンス: Link先を確認
Qi Xiong, Kai Tang, Minbo Ma, Jie Xu, Tianrui Li, (参考訳) ターゲット間の時間的依存関係(TDT)の学習は、予測シーケンスを参照する時系列予測の改善に寄与する。 自己回帰的手法はTDTを再帰的にモデル化するが、非効率な推論とエラーの蓄積に悩まされる。 我々は,TDT学習を非自己回帰的手法に統合することは,効率的な時系列予測の追求に不可欠であると主張している。 本研究では,TDTを表現するための差分手法を導入し,パラメータフリーでプラグアンドプレイなソリューション,すなわちTDT損失を最適化する手法を提案する。 これは、予測真理と基底真理のTDT間の矛盾する符号の割合を適応重みとして利用し、ターゲット予測と微粒なTDTフィッティングを動的にバランスする。 重要なことに、TDT Lossは無視できる追加コストを発生させ、計算量が増加する$\mathcal{O}(n)$と$\mathcal{O}(1)$メモリ要件が増大し、非自己回帰モデルの予測性能が大幅に向上した。 TDT損失の有効性を評価するため,広く使用されている7つのデータセットについて広範な実験を行った。 6つの最先端手法にTDTの損失を埋め込むことの実験結果から、168実験のうち75.00\%と94.05\%はそれぞれ最大24.56\%と16.31\%のMSEとMAEの改善を示した。

Learning temporal dependencies among targets (TDT) benefits better time series forecasting, where targets refer to the predicted sequence. Although autoregressive methods model TDT recursively, they suffer from inefficient inference and error accumulation. We argue that integrating TDT learning into non-autoregressive methods is essential for pursuing effective and efficient time series forecasting. In this study, we introduce the differencing approach to represent TDT and propose a parameter-free and plug-and-play solution through an optimization objective, namely TDT Loss. It leverages the proportion of inconsistent signs between predicted and ground truth TDT as an adaptive weight, dynamically balancing target prediction and fine-grained TDT fitting. Importantly, TDT Loss incurs negligible additional cost, with only $\mathcal{O}(n)$ increased computation and $\mathcal{O}(1)$ memory requirements, while significantly enhancing the predictive performance of non-autoregressive models. To assess the effectiveness of TDT loss, we conduct extensive experiments on 7 widely used datasets. The experimental results of plugging TDT loss into 6 state-of-the-art methods show that out of the 168 experiments, 75.00\% and 94.05\% exhibit improvements in terms of MSE and MAE with the maximum 24.56\% and 16.31\%, respectively.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# コンパイル基準(CQ):プログラミング言語のコンパイル困難度尺度

Compilation Quotient (CQ): A Metric for the Compilation Hardness of Programming Languages ( http://arxiv.org/abs/2406.04778v1 )

ライセンス: Link先を確認
Vince Szabo, Dominik Winterer, Zhendong Su, (参考訳) 今日のプログラマは、それぞれ独自の特性、目的、複雑さを持つ、非常に多様なプログラミング言語から選ぶことができます。 言語の複雑さの重要な側面は、プログラムを言語でコンパイルすることがいかに難しいかである。 ほとんどのプログラマは、異なるプログラミング言語のコンパイル困難さに関する直感を持っているが、それを定量化する指標は存在しない。 本稿では,コンパイルプログラミング言語のコンパイル困難度を定量化する指標であるコンパイル商(CQ)を紹介する。 鍵となる考え方は、文脈自由文法からサンプリングされたプログラムのコンパイル成功率を測定することである。 この目的のために、私たちは合計で1200万以上のプログラムをサンプルにしました。 CQは0から100の範囲で、0はプログラムがコンパイルされないことを示し、100はすべてのプログラムがコンパイルされることを意味する。 一般的な12のプログラミング言語に対する我々の研究結果は、CQの多様性が高いことを示している。 Cは48.11、C++は0.60、Javaは0.27、Haskellは0.13である。 興味深いことに、RustのCQは0に近くなり、Cでは、非常に大きなプログラムがコンパイルされる。 私たちは、CQがコンパイルされたプログラミング言語の違いをよりよく理解し、言語設計者を助けると信じています。

Today's programmers can choose from an exceptional range of programming languages, each with its own traits, purpose, and complexity. A key aspect of a language's complexity is how hard it is to compile programs in the language. While most programmers have an intuition about compilation hardness for different programming languages, no metric exists to quantify it. We introduce the compilation quotient (CQ), a metric to quantify the compilation hardness of compiled programming languages. The key idea is to measure the compilation success rates of programs sampled from context-free grammars. To this end, we fairly sample over 12 million programs in total. CQ ranges between 0 and 100, where 0 indicates that no programs compile, and 100 means that all programs compile. Our findings on 12 popular compiled programming languages show high variation in CQ. C has a CQ of 48.11, C++ has 0.60, Java has 0.27 and Haskell has 0.13. Strikingly, Rust's CQ is nearly 0, and for C, even a large fraction of very sizable programs compile. We believe CQ can help understand the differences of compiled programming languages better and help language designers.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# 深部生成型グラフニューラルネットワークを用いたモバイルネットワーク構成勧告

Mobile Network Configuration Recommendation using Deep Generative Graph Neural Network ( http://arxiv.org/abs/2406.04779v1 )

ライセンス: Link先を確認
Shirwan Piroti, Ashima Chawla, Tahar Zanouda, (参考訳) Radio Access Telecom Networkには、多数の設定可能なパラメータがある。 これらのパラメータのかなりの部分は、Radio Nodeまたはそのデプロイメント設定に基づいてセルによって構成される。 従来のメソッドは個々のパラメータ設定のドメイン知識に依存しており、しばしば準最適結果につながる。 これを改善するために,Deep Generative Graph Neural Network (GNN) を用いたフレームワークを提案する。 ネットワークをグラフにエンコードし、RANノードごとにサブグラフを抽出し、シームズGNN(S-GNN)を用いて埋め込みを学習する。 このフレームワークは、複数のパラメータの設定パラメータを推奨し、誤設定を検出し、ネットワーク拡張と既存のセル再構成の両方を扱う。 実世界のデータに基づいてテストされ、モデルはベースラインを超え、精度、一般化可能性、そしてコンセプトドリフトに対する堅牢性を示す。

There are vast number of configurable parameters in a Radio Access Telecom Network. A significant amount of these parameters is configured by Radio Node or cell based on their deployment setting. Traditional methods rely on domain knowledge for individual parameter configuration, often leading to sub-optimal results. To improve this, a framework using a Deep Generative Graph Neural Network (GNN) is proposed. It encodes the network into a graph, extracts subgraphs for each RAN node, and employs a Siamese GNN (S-GNN) to learn embeddings. The framework recommends configuration parameters for a multitude of parameters and detects misconfigurations, handling both network expansion and existing cell reconfiguration. Tested on real-world data, the model surpasses baselines, demonstrating accuracy, generalizability, and robustness against concept drift.
翻訳日:2024-06-10 14:50:13 公開日:2024-06-07
# 集合型サイバー物理生態系のためのソフトウェア工学

Software Engineering for Collective Cyber-Physical Ecosystems ( http://arxiv.org/abs/2406.04780v1 )

ライセンス: Link先を確認
Roberto Casadei, Gianluca Aguzzi, Giorgio Audrito, Ferruccio Damiani, Danilo Pianini, Giordano Scarso, Gianluca Torta, Mirko Viroli, (参考訳) 今日の分散および普及型コンピューティングは、計算、通信、環境や人々との相互作用が可能なデバイスの密集した大規模なネットワークによって特徴づけられる、大規模なサイバー物理エコシステムに対処する。 ほとんどの研究は、これらのシステムを「複合(composites)」、すなわち異種機能複合体(heregeneous functional complex)として扱うことに重点を置いているが、近年の自己組織化システムや群ロボットなどの分野の発展は、システムを「集合体(collectives)」として扱うという補完的な視点を開きつつある。 この記事では、ソフトウェア工学におけるこの「コレクティブ・コンピューティング・パラダイム」のモチベーション、最先端、そして意味を探求し、その特異な課題を論じ、マクロプログラミング、集合知性、自己適応型ミドルウェア、学習、合成、集団行動の実験といった側面に触れ、今後の研究の道筋を概説する。

Today's distributed and pervasive computing addresses large-scale cyber-physical ecosystems, characterised by dense and large networks of devices capable of computation, communication and interaction with the environment and people. While most research focusses on treating these systems as "composites" (i.e., heterogeneous functional complexes), recent developments in fields such as self-organising systems and swarm robotics have opened up a complementary perspective: treating systems as "collectives" (i.e., uniform, collaborative, and self-organising groups of entities). This article explores the motivations, state of the art, and implications of this "collective computing paradigm" in software engineering, discusses its peculiar challenges, and outlines a path for future research, touching on aspects such as macroprogramming, collective intelligence, self-adaptive middleware, learning, synthesis, and experimentation of collective behaviour.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# SelfGoal:あなたの言語エージェントは、ハイレベルなゴールを達成する方法をすでに知っている

SelfGoal: Your Language Agents Already Know How to Achieve High-level Goals ( http://arxiv.org/abs/2406.04784v1 )

ライセンス: Link先を確認
Ruihan Yang, Jiangjie Chen, Yikai Zhang, Siyu Yuan, Aili Chen, Kyle Richardson, Yanghua Xiao, Deqing Yang, (参考訳) 大規模言語モデル(LLM)を利用した言語エージェントは、ゲームやプログラミングといった領域における意思決定ツールとしてますます価値が増している。 しかしながら、これらのエージェントは、詳細な指示なしにハイレベルな目標を達成することや、フィードバックが遅れた環境に適応することにおいて、しばしば課題に直面します。 本稿では,人間の事前および環境フィードバックを限定した高次目標達成のためのエージェント能力向上を目的とした,新たな自動アプローチであるSelfGoalを提案する。 セルフゴールの中核的な概念は、環境との相互作用中に高レベルのゴールをより実用的なサブゴールの木構造に適応的に分割し、最も有用なサブゴールを特定し、この構造を段階的に更新することである。 実験の結果、SelfGoalは、競争性、協調性、遅延したフィードバック環境を含む様々なタスクにおける言語エージェントの性能を著しく向上することが示された。 プロジェクトページ: https://selfgoal-agent.github.io

Language agents powered by large language models (LLMs) are increasingly valuable as decision-making tools in domains such as gaming and programming. However, these agents often face challenges in achieving high-level goals without detailed instructions and in adapting to environments where feedback is delayed. In this paper, we present SelfGoal, a novel automatic approach designed to enhance agents' capabilities to achieve high-level goals with limited human prior and environmental feedback. The core concept of SelfGoal involves adaptively breaking down a high-level goal into a tree structure of more practical subgoals during the interaction with environments while identifying the most useful subgoals and progressively updating this structure. Experimental results demonstrate that SelfGoal significantly enhances the performance of language agents across various tasks, including competitive, cooperative, and deferred feedback environments. Project page: https://selfgoal-agent.github.io.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# 学習の強化された優先順位待ち行列

Learning-Augmented Priority Queues ( http://arxiv.org/abs/2406.04793v1 )

ライセンス: Link先を確認
Ziyad Benomar, Christian Coester, (参考訳) 優先度キューはコンピュータ科学において最も基本的で広く使われているデータ構造の一つである。 彼らの主な目的は、割り当てられた優先順位を持つ新しい要素の挿入と最優先要素の抽出を効率的に支援することである。 本研究では,アルゴリズムが不正確な予測を用いて最悪ケースの性能を向上させる学習拡張フレームワークにおける優先度待ち行列の設計について検討する。 異なるユースケースにまたがる3つの予測モデルについて検討し、優先度待ち行列処理の性能を高めるために予測をどのように活用できるかを示す。 さらに,本手法の最適性を実証し,いくつかの応用の可能性について論じる。

Priority queues are one of the most fundamental and widely used data structures in computer science. Their primary objective is to efficiently support the insertion of new elements with assigned priorities and the extraction of the highest priority element. In this study, we investigate the design of priority queues within the learning-augmented framework, where algorithms use potentially inaccurate predictions to enhance their worst-case performance. We examine three prediction models spanning different use cases, and show how the predictions can be leveraged to enhance the performance of priority queue operations. Moreover, we demonstrate the optimality of our solution and discuss some possible applications.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# ウィッシュアートプロセスとシークエンシャルモンテカルロを用いた動的共分散のロバスト推論

Robust Inference of Dynamic Covariance Using Wishart Processes and Sequential Monte Carlo ( http://arxiv.org/abs/2406.04796v1 )

ライセンス: Link先を確認
Hester Huijsdens, David Leeftink, Linda Geerligs, Max Hinne, (参考訳) エコノメトリ、神経科学、計算心理学といったいくつかの分野は、時間とともに変数間の動的相互作用を研究する。 ウィッシュアート過程として知られるベイズ的非パラメトリックモデルがこの状況で有効であることが示されているが、その推論は非常に困難である。 本稿では,Wishart プロセスにおける逐次モンテカルロ (SMC) サンプルについて紹介し,従来の推論手法,すなわち MCMC と変分推論との比較について述べる。 シミュレーションを用いて、SMCサンプリングは、動的共分散の最も頑健な推定と外乱予測をもたらすことを示す。 SMCは、相関パラメータを持つ複合共分散関数を使用する場合、特に代替手法よりも優れている。 提案手法が臨床うつ病データセット(n=1)に応用可能であることを示すとともに, 後方分布の正確な表現を用いて, 共分散のダイナミックスをテストする方法を示す。

Several disciplines, such as econometrics, neuroscience, and computational psychology, study the dynamic interactions between variables over time. A Bayesian nonparametric model known as the Wishart process has been shown to be effective in this situation, but its inference remains highly challenging. In this work, we introduce a Sequential Monte Carlo (SMC) sampler for the Wishart process, and show how it compares to conventional inference approaches, namely MCMC and variational inference. Using simulations we show that SMC sampling results in the most robust estimates and out-of-sample predictions of dynamic covariance. SMC especially outperforms the alternative approaches when using composite covariance functions with correlated parameters. We demonstrate the practical applicability of our proposed approach on a dataset of clinical depression (n=1), and show how using an accurate representation of the posterior distribution can be used to test for dynamics on covariance
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# 大規模分類を用いたマルチラベル要求分類

Multi-Label Requirements Classification with Large Taxonomies ( http://arxiv.org/abs/2406.04797v1 )

ライセンス: Link先を確認
Waleed Abdeen, Michael Unterkalmsteiner, Krzysztof Wnuk, Alexandros Chirtoglou, Christoph Schimanski, Heja Goli, (参考訳) 分類は、アクセスと検索を容易にするためにクラス内の要求を整理することで、ソフトウェア開発活動を支援する。 要求分類研究の大部分は、これまでのところバイナリ分類やマルチクラス分類に重点を置いている。 大きく分類された多ラベル分類は、要求のトレーサビリティを助長するが、教師付きトレーニングでは違法にコストがかかる。 そこで本研究では,ゼロショート学習を用いて,大規模分類を用いたマルチラベル要求分類の実現可能性について検討する。 業界の専門家らとともに,250~1183の分類群から769のラベルを持つ129の要件について検討した。 そこで,分類器の種類,階層構造,分類特性が分類性能に及ぼす影響について検討した。 その結果,(1) 文ベース分類器は単語ベース分類器に比べて有意に高いリコール率を示したが,精度とF1スコアは改善しなかった。 2)階層的分類戦略は要求分類の性能を必ずしも改善しなかった。 (3) 分類学の総ノードと葉ノードは,階層型文ベース分類器のリコールと負の相関が強い。 本研究では,大規模な分類学による多言語要件分類の問題について検討し,業界参加者による根本的真理の体系的プロセスを示し,ゼロショット学習を用いた異なる分類パイプラインの分析を行った。

Classification aids software development activities by organizing requirements in classes for easier access and retrieval. The majority of requirements classification research has, so far, focused on binary or multi-class classification. Multi-label classification with large taxonomies could aid requirements traceability but is prohibitively costly with supervised training. Hence, we investigate zero-short learning to evaluate the feasibility of multi-label requirements classification with large taxonomies. We associated, together with domain experts from the industry, 129 requirements with 769 labels from taxonomies ranging between 250 and 1183 classes. Then, we conducted a controlled experiment to study the impact of the type of classifier, the hierarchy, and the structural characteristics of taxonomies on the classification performance. The results show that: (1) The sentence-based classifier had a significantly higher recall compared to the word-based classifier; however, the precision and F1-score did not improve significantly. (2) The hierarchical classification strategy did not always improve the performance of requirements classification. (3) The total and leaf nodes of the taxonomies have a strong negative correlation with the recall of the hierarchical sentence-based classifier. We investigate the problem of multi-label requirements classification with large taxonomies, illustrate a systematic process to create a ground truth involving industry participants, and provide an analysis of different classification pipelines using zero-shot learning.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# 大言語モデルにおける心推論理論のゼロ・有限・無限信仰史

Zero, Finite, and Infinite Belief History of Theory of Mind Reasoning in Large Language Models ( http://arxiv.org/abs/2406.04800v1 )

ライセンス: Link先を確認
Weizhi Tang, Vaishak Belle, (参考訳) 大規模言語モデル(LLM)は、最近、心の理論(ToM)能力の約束と出現を示し、特定のToMタスクにおいて人間よりも優れています。 LLMのToM推論能力を評価・拡張するために、Zero, Finite, Infinite Belief Historyを用いたToM推論という新しい概念、分類、フレームワークを提案し、ベンチマークとして$\textit{Pick the Right Stuff}$と呼ばれるマルチラウンドテキストベースのゲームを開発する。 我々はこのゲームで6つのLDMを評価し、Zero Belief HistoryでのパフォーマンスはFinite Belief Historyより一貫して優れていることがわかった。 さらに,パラメータサイズが小さいモデルのうち2つが,パラメータサイズが大きいモデルで評価されたモデルよりも優れていた。 この作業は、将来のToMベンチマーク開発と、より複雑なToM推論能力を備える必要がある、より複雑なAIエージェントやシステムの促進と開発のための道を開くことを期待しています。

Large Language Models (LLMs) have recently shown a promise and emergence of Theory of Mind (ToM) ability and even outperform humans in certain ToM tasks. To evaluate and extend the boundaries of the ToM reasoning ability of LLMs, we propose a novel concept, taxonomy, and framework, the ToM reasoning with Zero, Finite, and Infinite Belief History and develop a multi-round text-based game, called $\textit{Pick the Right Stuff}$, as a benchmark. We have evaluated six LLMs with this game and found their performance on Zero Belief History is consistently better than on Finite Belief History. In addition, we have found two of the models with small parameter sizes outperform all the evaluated models with large parameter sizes. We expect this work to pave the way for future ToM benchmark development and also for the promotion and development of more complex AI agents or systems which are required to be equipped with more complex ToM reasoning ability.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# MoE Jetpack: 複雑なチェックポイントからビジョンタスクの専門家の適応的な混合まで

MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks ( http://arxiv.org/abs/2406.04801v1 )

ライセンス: Link先を確認
Xingkui Zhu, Yiran Guan, Dingkang Liang, Yuchao Chen, Yuliang Liu, Xiang Bai, (参考訳) 疎活性化された専門家(MoE)モデルの混合は、従来の高密度活性化された(高密度)モデルに代わる有望な選択肢を示し、品質と計算効率の両方を向上する。 しかし、MoEモデルをスクラッチからトレーニングするには、広範なデータと計算資源が必要である。 さらに、timmのようなパブリックリポジトリは、主にトレーニング済みの高密度チェックポイントを提供し、MoEモデルに類似したリソースを欠いているため、採用を妨げている。 このギャップを埋めるために、我々はMoEモデルに高密度チェックポイントを微調整する効果的な方法であるMoE Jetpackを導入する。 MoE Jetpackには,(1)MoEモデルの初期重みとして高密度チェックポイントを再利用し,コンバージェンスを加速し,精度を向上し,事前学習の計算負担を軽減するチェックポイントリサイクル,(2)MoEアーキテクチャを最適化した超球面適応型MoE(SpheroMoE)層など,2つの重要な技術が組み込まれている。 視覚課題に関する実験により,MoE JetpackはMoEモデルに高密度チェックポイントを微調整した場合の収束速度と精度を著しく向上することを示した。 私たちのコードはhttps://github.com/Adlith/MoE-Jetpack.comで公開されます。

The sparsely activated mixture of experts (MoE) model presents a promising alternative to traditional densely activated (dense) models, enhancing both quality and computational efficiency. However, training MoE models from scratch demands extensive data and computational resources. Moreover, public repositories like timm mainly provide pre-trained dense checkpoints, lacking similar resources for MoE models, hindering their adoption. To bridge this gap, we introduce MoE Jetpack, an effective method for fine-tuning dense checkpoints into MoE models. MoE Jetpack incorporates two key techniques: (1) checkpoint recycling, which repurposes dense checkpoints as initial weights for MoE models, thereby accelerating convergence, enhancing accuracy, and alleviating the computational burden of pre-training; (2) hyperspherical adaptive MoE (SpheroMoE) layer, which optimizes the MoE architecture for better integration of dense checkpoints, enhancing fine-tuning performance. Our experiments on vision tasks demonstrate that MoE Jetpack significantly improves convergence speed and accuracy when fine-tuning dense checkpoints into MoE models. Our code will be publicly available at https://github.com/Adlith/MoE-Jetpack.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# 予測動的融合

Predictive Dynamic Fusion ( http://arxiv.org/abs/2406.04802v1 )

ライセンス: Link先を確認
Bing Cao, Yinan Xia, Yi Ding, Changqing Zhang, Qinghua Hu, (参考訳) 総合的な判断を下すための共同意思決定システムにおいて,マルチモーダル融合は不可欠である。 オープン環境でのマルチモーダルデータの変化以来、動的融合が出現し、多くのアプリケーションで顕著な進歩を遂げている。 しかし、既存の動的マルチモーダル融合法は理論的な保証がなく、容易に準最適問題に陥り、信頼性と不安定性をもたらす。 この問題に対処するために,マルチモーダル学習のための予測動的融合(PDF)フレームワークを提案する。 一般化の観点からマルチモーダル融合を明らかにし、予測可能なコラボレーティブ信念(Co-Belief)をMonoとHolo-Confidenceで導出し、一般化誤差の上限を確実に減少させる。 そこで本研究では,予測されたコ・ビリーフを,潜在的な不確実性に対して校正する相対校正戦略を提案する。 複数のベンチマークに関する大規模な実験は、私たちの優位性を確認します。 私たちのコードはhttps://github.com/Yinan-Xia/PDFで公開されています。

Multimodal fusion is crucial in joint decision-making systems for rendering holistic judgments. Since multimodal data changes in open environments, dynamic fusion has emerged and achieved remarkable progress in numerous applications. However, most existing dynamic multimodal fusion methods lack theoretical guarantees and easily fall into suboptimal problems, yielding unreliability and instability. To address this issue, we propose a Predictive Dynamic Fusion (PDF) framework for multimodal learning. We proceed to reveal the multimodal fusion from a generalization perspective and theoretically derive the predictable Collaborative Belief (Co-Belief) with Mono- and Holo-Confidence, which provably reduces the upper bound of generalization error. Accordingly, we further propose a relative calibration strategy to calibrate the predicted Co-Belief for potential uncertainty. Extensive experiments on multiple benchmarks confirm our superiority. Our code is available at https://github.com/Yinan-Xia/PDF.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# GENIE:リンク予測のための透かしグラフニューラルネットワーク

GENIE: Watermarking Graph Neural Networks for Link Prediction ( http://arxiv.org/abs/2406.04805v1 )

ライセンス: Link先を確認
Venkata Sai Pranav Bachina, Ankit Gangwal, Aaryan Ajay Sharma, Charu Sharma, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データを利用して機械学習の分野を進歩させてきた。 GNNは、ソーシャルネットワーク分析から薬物発見まで、さまざまな分野で応用されている。 GNNトレーニングは熱心であり、計算資源と人間の専門知識を必要とする。 訓練されたGNNを所有者にとって必須の知的財産権(IP)にする。 近年の研究では、GNNがモデルステアリング攻撃に弱いことが示されており、IPの権利保護に対する懸念が高まっている。 透かしはGNNモデルのIPを保護するのに有効であることが示されている。 GNNのための透かし方式の開発は、ノード分類とグラフ分類タスクにのみ焦点が当てられている。 我々の知る限り、リンク予測(LP)タスクに適したGNNのための初めての透かし方式を導入する。 提案手法をGENIE (watermarking Graph nEural Networks for lInk prEdiction) と呼ぶ。 我々は,新しいバックドア攻撃を用いてGENIEを設計し,LPの2つのキーメソッドのトリガセットを作成する。 GENIEでは、ウォーターマークはトリガーセットと修正されたトレーニングセットの両方でトレーニングすることでGNNモデルに埋め込まれる。 被疑者モデルを評価するため, トリガーセットに対する透かしを検証した。 我々は3つのモデルアーキテクチャ(SEAL、GCN、GraphSAGE)と7つの実世界のデータセットにまたがってGENIEを広範囲に評価する。 さらに,11種類の透かし除去技術と3種類のモデル抽出攻撃に対するGENIEの堅牢性を検証する。 また、GENIEは所有権海賊行為に対して堅牢であることを示す。 我々の所有実証は、偽陽性率(FPR)と偽陰性率(FNR)の両方を統計的に10〜6ドル未満で保証する。

Graph Neural Networks (GNNs) have advanced the field of machine learning by utilizing graph-structured data, which is ubiquitous in the real world. GNNs have applications in various fields, ranging from social network analysis to drug discovery. GNN training is strenuous, requiring significant computational resources and human expertise. It makes a trained GNN an indispensable Intellectual Property (IP) for its owner. Recent studies have shown GNNs to be vulnerable to model-stealing attacks, which raises concerns over IP rights protection. Watermarking has been shown to be effective at protecting the IP of a GNN model. Existing efforts to develop a watermarking scheme for GNNs have only focused on the node classification and the graph classification tasks. To the best of our knowledge, we introduce the first-ever watermarking scheme for GNNs tailored to the Link Prediction (LP) task. We call our proposed watermarking scheme GENIE (watermarking Graph nEural Networks for lInk prEdiction). We design GENIE using a novel backdoor attack to create a trigger set for two key methods of LP: (1) node representation-based and (2) subgraph-based. In GENIE, the watermark is embedded into the GNN model by training it on both the trigger set and a modified training set, resulting in a watermarked GNN model. To assess a suspect model, we verify the watermark against the trigger set. We extensively evaluate GENIE across 3 model architectures (i.e., SEAL, GCN, and GraphSAGE) and 7 real-world datasets. Furthermore, we validate the robustness of GENIE against 11 state-of-the-art watermark removal techniques and 3 model extraction attacks. We also demonstrate that GENIE is robust against ownership piracy attack. Our ownership demonstration scheme statistically guarantees both False Positive Rate (FPR) and False Negative Rate (FNR) to be less than $10^{-6}$.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# TEDiポリシー:ロボット制御のための一時的に絡み合った拡散

TEDi Policy: Temporally Entangled Diffusion for Robotic Control ( http://arxiv.org/abs/2406.04806v1 )

ライセンス: Link先を確認
Sigmund H. Høeg, Lars Tingelstad, (参考訳) 拡散モデルは、複雑な分布をモデル化することの難しさを習得することにより、ロボット模倣学習において優れていることが示されている。 しかし、サンプリング速度は画像生成に人気があるため、従来の優先事項ではなく、動的タスクに制限されている。 近年の研究では,拡散型ロボットポリシーのサンプリング速度が向上しているが,画像生成領域のテクニックに制限されている。 我々は、軌道生成に特化したフレームワークであるTemporally Entangled Diffusion (TEDi) を適用し、模倣学習のための拡散ベースのポリシーを高速化する。 TEDi ポリシーを導入し,現状の拡散に基づく模倣学習政策に適用した場合,性能を保ちながらサンプリング速度を大幅に向上することを示す。

Diffusion models have been shown to excel in robotic imitation learning by mastering the challenge of modeling complex distributions. However, sampling speed has traditionally not been a priority due to their popularity for image generation, limiting their application to dynamical tasks. While recent work has improved the sampling speed of diffusion-based robotic policies, they are restricted to techniques from the image generation domain. We adapt Temporally Entangled Diffusion (TEDi), a framework specific for trajectory generation, to speed up diffusion-based policies for imitation learning. We introduce TEDi Policy, with novel regimes for training and sampling, and show that it drastically improves the sampling speed while remaining performant when applied to state-of-the-art diffusion-based imitation learning policies.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# VERA:領域アノテーションによる2次元埋め込みの視覚的説明の生成

VERA: Generating Visual Explanations of Two-Dimensional Embeddings via Region Annotation ( http://arxiv.org/abs/2406.04808v1 )

ライセンス: Link先を確認
Pavlin G. Poličar, Blaž Zupan, (参考訳) MDS, t-SNE, UMAPなどの次元減少技術から得られた2次元埋め込みは、高次元データを可視化するために様々な分野に広く利用されている。 これらの視覚化は、探索的なデータ分析のための貴重なツールを提供し、研究者はデータ内のクラスタ、外れ値、その他の興味深いパターンを視覚的に特定できる。 しかし、埋め込み空間の異なる領域におけるデータポイントの違いを理解するために、追加のマニュアル検査を必要とする場合が多いため、結果の可視化を解釈することは困難である。 この問題に対処するために,2次元埋め込みの視覚的説明を生成する自動埋め込みアノテーション手法であるVERA(Regional Annotation)を提案する。 VERAは、埋め込み空間内の異なる領域を特徴付ける情報的説明を生成し、ユーザがその埋め込み風景を一目で概観することができる。 通常ある程度の手動による介入を必要とする既存のアプローチとは異なり、VERAは静的な説明を生成し、ユーザーに示す最も情報に富んだ視覚的説明を自動的に識別し、選択する。 実世界のデータセット上でのVERAの利用について説明するとともに,本手法の有効性を比較ユーザスタディで検証する。 以上の結果から,VERAが生成した説明は,典型的な探索的データ解析タスクにおいて,完全に知識のある対話ツールとして有用であるが,ユーザによる時間や労力は極めて少ないことが示唆された。

Two-dimensional embeddings obtained from dimensionality reduction techniques, such as MDS, t-SNE, and UMAP, are widely used across various disciplines to visualize high-dimensional data. These visualizations provide a valuable tool for exploratory data analysis, allowing researchers to visually identify clusters, outliers, and other interesting patterns in the data. However, interpreting the resulting visualizations can be challenging, as it often requires additional manual inspection to understand the differences between data points in different regions of the embedding space. To address this issue, we propose Visual Explanations via Region Annotation (VERA), an automatic embedding-annotation approach that generates visual explanations for any two-dimensional embedding. VERA produces informative explanations that characterize distinct regions in the embedding space, allowing users to gain an overview of the embedding landscape at a glance. Unlike most existing approaches, which typically require some degree of manual user intervention, VERA produces static explanations, automatically identifying and selecting the most informative visual explanations to show to the user. We illustrate the usage of VERA on a real-world data set and validate the utility of our approach with a comparative user study. Our results demonstrate that the explanations generated by VERA are as useful as fully-fledged interactive tools on typical exploratory data analysis tasks but require significantly less time and effort from the user.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# フラジイルモデル透かし:進化、特徴、分類に関する総合的な調査

Fragile Model Watermarking: A Comprehensive Survey of Evolution, Characteristics, and Classification ( http://arxiv.org/abs/2406.04809v1 )

ライセンス: Link先を確認
Zhenzhe Gao, Yu Cheng, Zhaoxia Yin, (参考訳) ニューラルネットワークに対する敵の攻撃と従来のマルチメディアの脆弱な透かしの両方から着想を得たモデル脆弱な透かしは、改ざんを検出する強力なツールとして徐々に現れ、近年の急速な発展を目撃している。 モデル著作権の特定に広く使われている堅牢な透かしとは異なり、モデルの脆弱な透かしは、バックドア、中毒、圧縮などの予期せぬ変更を受けたかどうかを特定するように設計されている。 これらの変更は、古典的な自動運転シナリオにおける速度制限標識として停止標識を誤識別するなど、モデルユーザーに未知のリスクをもたらす可能性がある。 本稿では, モデル脆性透かしの開始以来の分野における関連研究の概要を概説し, モデル脆性透かしにおける今後の取り組みについて概説する。

Model fragile watermarking, inspired by both the field of adversarial attacks on neural networks and traditional multimedia fragile watermarking, has gradually emerged as a potent tool for detecting tampering, and has witnessed rapid development in recent years. Unlike robust watermarks, which are widely used for identifying model copyrights, fragile watermarks for models are designed to identify whether models have been subjected to unexpected alterations such as backdoors, poisoning, compression, among others. These alterations can pose unknown risks to model users, such as misidentifying stop signs as speed limit signs in classic autonomous driving scenarios. This paper provides an overview of the relevant work in the field of model fragile watermarking since its inception, categorizing them and revealing the developmental trajectory of the field, thus offering a comprehensive survey for future endeavors in model fragile watermarking.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# ガウス過程によるピアノ練習政策の生成

Generating Piano Practice Policy with a Gaussian Process ( http://arxiv.org/abs/2406.04812v1 )

ライセンス: Link先を確認
Alexandra Moringen, Elad Vromen, Helge Ritter, Jason Friedman, (参考訳) ピアノで曲を演奏することを学ぶ典型的なプロセスは、スキルの個々の次元、いわゆる練習モードに焦点を当てた一連の練習ユニットによる進行である。 音楽の演奏を学ぶための練習モードは、手合わせ、姿勢、調音、楽譜を読む能力、正しいタイミングやピッチなど、特に大きな可能性を持っている。 自己指導の実践は準最適であることが知られており、学習者の進捗を最大限にするために最適な練習をスケジュールするモデルはいまだに存在しない。 私たちはそれぞれ異なる学習をしており、可能なピアノ練習のタスクやメソッドには選択肢がたくさんあるので、練習モードのセットは、一般的に教師が指導するプロセスである、人間の学習者に動的に適応すべきである。 しかし、人間の教師が個別の実践を指導することは、時間がかかり、高価であり、しばしば利用できないため、必ずしも実現不可能であるとは限らない。 本研究では,政策モデルによって生成された実践モードを選択することにより,学習プロセスを通じて学習者の指導を行うためのモデリングフレームワークを提案する。 この目的のために,ガウス過程を組み込んだ計算アーキテクチャの構築を提案する。 1)学習者の状態。 2 適切な慣行態勢を選択する政策 3)性能評価、及び 4)専門知識。 提案するポリシモデルは,実践セッション中に専門家と研究者のインタラクションを近似するために訓練される。 今後の研究では,ベイズ最適化手法,例えば,異なる獲得関数を試験し,それらの学習過程への影響を評価する。

A typical process of learning to play a piece on a piano consists of a progression through a series of practice units that focus on individual dimensions of the skill, the so-called practice modes. Practice modes in learning to play music comprise a particularly large set of possibilities, such as hand coordination, posture, articulation, ability to read a music score, correct timing or pitch, etc. Self-guided practice is known to be suboptimal, and a model that schedules optimal practice to maximize a learner's progress still does not exist. Because we each learn differently and there are many choices for possible piano practice tasks and methods, the set of practice modes should be dynamically adapted to the human learner, a process typically guided by a teacher. However, having a human teacher guide individual practice is not always feasible since it is time-consuming, expensive, and often unavailable. In this work, we present a modeling framework to guide the human learner through the learning process by choosing the practice modes generated by a policy model. To this end, we present a computational architecture building on a Gaussian process that incorporates 1) the learner state, 2) a policy that selects a suitable practice mode, 3) performance evaluation, and 4) expert knowledge. The proposed policy model is trained to approximate the expert-learner interaction during a practice session. In our future work, we will test different Bayesian optimization techniques, e.g., different acquisition functions, and evaluate their effect on the learning progress.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# 単一映像ストリームからの映像拡散モデルのオンライン連続学習

Online Continual Learning of Video Diffusion Models From a Single Video Stream ( http://arxiv.org/abs/2406.04814v1 )

ライセンス: Link先を確認
Jason Yoo, Dylan Green, Geoff Pleiss, Frank Wood, (参考訳) 拡散モデルは、現実的なビデオを生成するのに例外的な能力を示している。 しかし、トレーニングは主にオフライン環境に限られており、モデルが収束するためにデータを繰り返しトレーニングすることができる。 本研究は,意味的に連続したビデオストリームからの拡散モデルのトレーニングの実現可能性について検討する。 そこで本研究では,ライフロングバウンシングボールとWindows 95 Maze Screensaverという,静止環境から生成される100万以上のビデオフレームを含む2つの新しい連続ビデオ生成モデルベンチマークを紹介した。 驚くべきことに、我々の実験は、拡散モデルが経験リプレイを使用してオンラインで効果的にトレーニングできることを示し、同じ数の勾配ステップを与えられたサンプルを用いて訓練されたモデルに匹敵する性能を達成する。

Diffusion models have shown exceptional capabilities in generating realistic videos. Yet, their training has been predominantly confined to offline environments where models can repeatedly train on i.i.d. data to convergence. This work explores the feasibility of training diffusion models from a semantically continuous video stream, where correlated video frames sequentially arrive one at a time. To investigate this, we introduce two novel continual video generative modeling benchmarks, Lifelong Bouncing Balls and Windows 95 Maze Screensaver, each containing over a million video frames generated from navigating stationary environments. Surprisingly, our experiments show that diffusion models can be effectively trained online using experience replay, achieving performance comparable to models trained with i.i.d. samples given the same number of gradient steps.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# 強化学習における一般化のためのスキルを考慮した相互情報最適化

Skill-aware Mutual Information Optimisation for Generalisation in Reinforcement Learning ( http://arxiv.org/abs/2406.04815v1 )

ライセンス: Link先を確認
Xuehui Yu, Mhairi Dunion, Xin Li, Stefano V. Albrecht, (参考訳) メタ強化学習(Meta-Reinforcement Learning、Meta-RL)エージェントは、異なる最適なスキル(振る舞いの異なるモード)を必要とする様々な環境特徴を持つタスクを横断的に操作するのに苦労する。 コントラスト学習に基づくコンテキストエンコーダを使用して、メタRLエージェントの汎用性を高めることが広く研究されているが、大規模なサンプルサイズ($\log$-$K$ curseとも呼ばれる)の要件のような課題に直面している。 異なるタスクに対するRLの一般化を改善するために、まず、スキルに応じたコンテキスト埋め込みの識別を支援する最適化目的であるSkill-aware Mutual Information (SaMI)を導入する。 そこで我々は,SaMIの目的を最適化するための$K$sample推定器であるSkill-aware Noise Contrastive Estimation (SaNCE)を提案する。 本研究では,実際にSNCEにRLエージェントを装着し,修正した MuJoCo および Panda-gym ベンチマーク上で実験的な検証を行うためのフレームワークを提供する。 SMIを最大化することで学習するRLエージェントが、目に見えないタスクに対して、ゼロショットの一般化を大幅に改善できることを実証的に見出した。 さらに、SaNCEを備えたコンテキストエンコーダは、利用可能なサンプル数を減らすためにより堅牢であることを示し、$$\log$-$K$の呪いを克服する可能性を持っている。

Meta-Reinforcement Learning (Meta-RL) agents can struggle to operate across tasks with varying environmental features that require different optimal skills (i.e., different modes of behaviours). Using context encoders based on contrastive learning to enhance the generalisability of Meta-RL agents is now widely studied but faces challenges such as the requirement for a large sample size, also referred to as the $\log$-$K$ curse. To improve RL generalisation to different tasks, we first introduce Skill-aware Mutual Information (SaMI), an optimisation objective that aids in distinguishing context embeddings according to skills, thereby equipping RL agents with the ability to identify and execute different skills across tasks. We then propose Skill-aware Noise Contrastive Estimation (SaNCE), a $K$-sample estimator used to optimise the SaMI objective. We provide a framework for equipping an RL agent with SaNCE in practice and conduct experimental validation on modified MuJoCo and Panda-gym benchmarks. We empirically find that RL agents that learn by maximising SaMI achieve substantially improved zero-shot generalisation to unseen tasks. Additionally, the context encoder equipped with SaNCE demonstrates greater robustness to reductions in the number of available samples, thus possessing the potential to overcome the $\log$-$K$ curse.
翻訳日:2024-06-10 14:40:28 公開日:2024-06-07
# 大規模言語モデルチャットボットを教室に統合した経験

Experiences from Integrating Large Language Model Chatbots into the Classroom ( http://arxiv.org/abs/2406.04817v1 )

ライセンス: Link先を確認
Arto Hellas, Juho Leinonen, Leo Leppänen, (参考訳) 本研究では,現在最先端の大規模言語モデル (LLM) チャットボットへの未フィルタリングアクセスを学生に提供した。 チャットボットは意図的にChatGPTのような独自の商用チャットボットを模倣するために設計され、チャットボットは教育的な文脈に合わせたものではなく、その基盤となるエンジンはOpenAI GPT-4である。 チャットボットは3つのコースのオンライン学習教材に統合された。 コースの1つはLLMによるソフトウェアエンジニアリングに焦点を当てていたが、他の2つのコースはLLMとは直接関係がなかった。 LLMとは無関係なコースにおいて,チャットボットに携わる学生は少数に過ぎなかった。 同時に、LLMにフォーカスしたコースのほぼすべての学生が、チャットボットを利用していた。 LLMの使用の大部分は一部のスーパーユーザーによるものだが、学生の大多数はすぐに利用でき、OpenAI GPT-4モデルへの無料アクセスを提供していたにもかかわらず、チャットボットをあまり利用しなかった。 また,チャットボットをコース固有の目的に利用している学生に加えて,チャットボットを独自の目的に利用している学生も少なくない。 これらの結果は、チャットボットへのアクセスがフィルタされていない場合でも、教育者(全ての生徒がLLMを過度に利用している)の最悪の恐れは実現しなかったことを示唆している。 最終的に低用量化の可能性を議論し、特定のタイプの学生のユースケースを対象にした、よりカスタマイズされた、足場付きLLM体験の必要性を示唆した。

In the present study, we provided students an unfiltered access to a state-of-the-art large language model (LLM) chatbot. The chatbot was intentionally designed to mimic proprietary commercial chatbots such as ChatGPT where the chatbot has not been tailored for the educational context; the underlying engine was OpenAI GPT-4. The chatbot was integrated into online learning materials of three courses. One of the courses focused on software engineering with LLMs, while the two other courses were not directly related to LLMs. Our results suggest that only a minority of students engage with the chatbot in the courses that do not relate to LLMs. At the same time, unsurprisingly, nearly all students in the LLM-focused course leveraged the chatbot. In all courses, the majority of the LLM usage came from a few superusers, whereas the majority of the students did not heavily use the chatbot even though it was readily available and effectively provided a free access to the OpenAI GPT-4 model. We also observe that in addition to students using the chatbot for course-specific purposes, many use the chatbot for their own purposes. These results suggest that the worst fears of educators -- all students overrelying on LLMs -- did not materialize even when the chatbot access was unfiltered. We finally discuss potential reasons for the low usage, suggesting the need for more tailored and scaffolded LLM experiences targeted for specific types of student use cases.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# 小児のグラフ計測評価ツールについての一考察

A short review on graphonometric evaluation tools in children ( http://arxiv.org/abs/2406.04818v1 )

ライセンス: Link先を確認
Belen Esther Aleman, Moises Diaz, Miguel Angel Ferrer, (参考訳) 手書きは、運動、知覚、認知のスキルの調整を含む複雑なタスクである。 子どもの認知的・学術的発達に欠かせないスキルである。 しかし、近年の技術的・教育的な変化は、手書きの教育と評価の両方に影響を与えている。 本報告では, 児童の筆跡分析に関する文献的考察を行い, 論文の文献的分析, 参加者, 子どもの図形的状態を評価する方法について述べる。 目的は、最先端の技術を合成し、過去10年間の主要な研究動向の概要を提供することである。 このレビューは、手書きは認知問題や早期介入を早期に評価するための基本的なツールである、と結論付けている。 この記事では、グラフ計測評価ツールについて分析する。 同様に、書字学習における難易度や障害を検出する手段として、グラフ計測評価の重要性を反映している。 記事は、評価方法論に同意し、データベースを組み合わせる必要性を強調して締めくくっている。

Handwriting is a complex task that involves the coordination of motor, perceptual and cognitive skills. It is a fundamental skill for the cognitive and academic development of children. However, the technological, and educational changes in recent decades have affected both the teaching and assessment of handwriting. This paper presents a literature review of handwriting analysis in children, including a bibliometric analysis of published articles, the study participants, and the methods of evaluating the graphonometric state of children. The aim is to synthesize the state of the art and provide an overview of the main study trends over the last decade. The review concludes that handwriting remains a fundamental tool for early estimation of cognitive problems and early intervention. The article analyzes graphonometric evaluation tools. Likewise, it reflects on the importance of graphonometric evaluation as a means to detect possible difficulties or disorders in learning to write. The article concludes by highlighting the need to agree on an evaluation methodology and to combine databases.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# グローバルアーキテクチャ因子のガウス過程によるMobileViTの効率化

Navigating Efficiency in MobileViT through Gaussian Process on Global Architecture Factors ( http://arxiv.org/abs/2406.04820v1 )

ライセンス: Link先を確認
Ke Meng, Kai Chen, (参考訳) 畳み込みニューラルネットワーク(CNN)の最適なアーキテクチャを実現するために、多くの技術が慎重に設計されてきたが、視覚トランスフォーマー(ViT)に匹敵する焦点は、やや不足していた。 様々なビジョンタスクにおけるViTの顕著な成功にもかかわらず、その重い性質は計算コストの課題を提示している。 本稿では, ガウス法を用いて, 解像度, 幅, 深さなどのMobileViTの性能要因と大域的アーキテクチャ要因の非線型的・不確実な関係を系統的に検討する。 本稿では, モデルサイズと計算コストを最小化し, モデル精度を向上する大域的アーキテクチャ因子のマジック4D立方体をツイストする設計原理を提案する。 我々は,最小限の MobileViT V2 を反復的に導出して,特定の乗算演算(MAC)の制約に固執しながら,アーキテクチャを縮小する公式を導入する。 実験結果から,我々の公式は多種多様なデータセット間でCNNやモバイルVTよりも優れていた。

Numerous techniques have been meticulously designed to achieve optimal architectures for convolutional neural networks (CNNs), yet a comparable focus on vision transformers (ViTs) has been somewhat lacking. Despite the remarkable success of ViTs in various vision tasks, their heavyweight nature presents challenges of computational costs. In this paper, we leverage the Gaussian process to systematically explore the nonlinear and uncertain relationship between performance and global architecture factors of MobileViT, such as resolution, width, and depth including the depth of in-verted residual blocks and the depth of ViT blocks, and joint factors including resolution-depth and resolution-width. We present design principles twisting magic 4D cube of the global architecture factors that minimize model sizes and computational costs with higher model accuracy. We introduce a formula for downsizing architectures by iteratively deriving smaller MobileViT V2, all while adhering to a specified constraint of multiply-accumulate operations (MACs). Experiment results show that our formula significantly outperforms CNNs and mobile ViTs across diversified datasets
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# M2NO:マルチウェーブレットに基づく代数的マルチグリッド法によるマルチレゾリューション演算子学習

M2NO: Multiresolution Operator Learning with Multiwavelet-based Algebraic Multigrid Method ( http://arxiv.org/abs/2406.04822v1 )

ライセンス: Link先を確認
Zhihao Li, Zhilu Lai, Xiaobo Wang, Wei Wang, (参考訳) 偏微分方程式(PDE)の解法は、特に格子点や分解能の増大を特徴とする高次元シナリオにおいて、マルチスケールアプローチを効果的に必要とします。 伝統的な手法は、しばしば正確なモデリングに必要な詳細な特徴を捉えるのに失敗し、科学計算において重要な課題を提示する。 そこで我々は,マルチウェーブレット変換と代数的マルチグリッド(AMG)技術を相乗的に組み合わせた新しいディープラーニングフレームワークである,マルチウェーブレットベースの代数的マルチグリッドニューラル演算子(M2NO)を紹介した。 これらの2つのアプローチの固有の類似性を利用して、M2NOは個々の制限を克服し、様々なPDEベンチマークの精度と柔軟性を高める。 マルチレゾリューション解析(MRA)を高域通過フィルタと低域通過フィルタを用いて階層分解を行い、PDEソリューション内の大域的トレンドと局所的詳細の両方を正確に記述し、複数のスケールで適応データ表現をサポートする。 また、M2NOはノードの選択を自動化し、マルチウェーブレットベースの演算子を通じて複雑な境界条件を管理する。 境界条件の異なる多種多様なPDEデータセットの大規模な評価により、M2NOの優れた性能が確認された。 さらに、M2NOは高分解能および超高分解能タスクの処理に優れ、競合するモデルよりも一貫して優れ、複雑な計算シナリオにおいて堅牢な適応性を示す。

Solving partial differential equations (PDEs) effectively necessitates a multi-scale approach, particularly critical in high-dimensional scenarios characterized by increasing grid points or resolution. Traditional methods often fail to capture the detailed features necessary for accurate modeling, presenting a significant challenge in scientific computing. In response, we introduce the Multiwavelet-based Algebraic Multigrid Neural Operator (M2NO), a novel deep learning framework that synergistically combines multiwavelet transformations and algebraic multigrid (AMG) techniques. By exploiting the inherent similarities between these two approaches, M2NO overcomes their individual limitations and enhances precision and flexibility across various PDE benchmarks. Employing Multiresolution Analysis (MRA) with high-pass and low-pass filters, the model executes hierarchical decomposition to accurately delineate both global trends and localized details within PDE solutions, supporting adaptive data representation at multiple scales. M2NO also automates node selection and adeptly manages complex boundary conditions through its multiwavelet-based operators. Extensive evaluations on a diverse array of PDE datasets with different boundary conditions confirm M2NO's superior performance. Furthermore, M2NO excels in handling high-resolution and super-resolution tasks, consistently outperforming competing models and demonstrating robust adaptability in complex computational scenarios.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# BERTは、生成的インコンテキスト学習者である

BERTs are Generative In-Context Learners ( http://arxiv.org/abs/2406.04823v1 )

ライセンス: Link先を確認
David Samuel, (参考訳) 本稿では、マスク付き言語モデルの文脈内学習能力について考察し、この能力が「融合」しないという共通認識に挑戦する。 本稿では,DeBERTaを付加訓練なしで生成モデルとして動作させることができる,恥ずかしいほど単純な推論手法を提案する。 本研究は,テキスト内学習のパラダイムを現代に導入したGPT-3を,DeBERTaが適合し,さらに超えることを示すものである。 比較分析により、マスクされた言語モデルと因果関係の言語モデルは、異なるタスクのカテゴリにおいて明らかに互いに優れており、非常に異なる振る舞いをすることが明らかとなった。 これは、両方のトレーニング目標の強みを生かしたハイブリッドトレーニングアプローチには、大きな可能性があることを示唆している。

This paper explores the in-context learning capabilities of masked language models, challenging the common view that this ability does not 'emerge' in them. We present an embarrassingly simple inference technique that enables DeBERTa to operate as a generative model without any additional training. Our findings demonstrate that DeBERTa can match and even surpass GPT-3, its contemporary that famously introduced the paradigm of in-context learning. The comparative analysis reveals that the masked and causal language models behave very differently, as they clearly outperform each other on different categories of tasks. This suggests that there is great potential for a hybrid training approach that takes advantage of the strengths of both training objectives.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# FunBO: FunSearchによるベイズ最適化のための買収関数の発見

FunBO: Discovering Acquisition Functions for Bayesian Optimization with FunSearch ( http://arxiv.org/abs/2406.04824v1 )

ライセンス: Link先を確認
Virginia Aglietti, Ira Ktena, Jessica Schrouff, Eleni Sgouritsa, Francisco J. R. Ruiz, Alexis Bellot, Silvia Chiappa, (参考訳) ベイズ最適化アルゴリズムのサンプル効率は、関数評価の逐次的な収集を導くために、慎重に構築された取得関数(AF)に依存する。 最高のパフォーマンスのAFは最適化の問題によって大きく異なり、しばしばアドホックな選択と問題固有の選択を必要とする。 この研究は、様々な実験環境においてよく機能する新しいAFを設計する上での課題に取り組みます。 数理科学における発見のためのLarge Language Models (LLMs) を用いた最近の研究である FunSearch に基づいて,FunBO を提案する。 得られた全てのAFの解析式を提供し、様々なグローバル最適化ベンチマークやハイパーパラメータ最適化タスクで評価する。 本研究では、FunBOが関数のトレーニング分布内外をよく一般化するAFを識別し、確立された汎用AFよりも優れ、特定の関数タイプにカスタマイズされ、転送学習アルゴリズムによって学習されるAFに対する競合性能を実現する方法を示す。

The sample efficiency of Bayesian optimization algorithms depends on carefully crafted acquisition functions (AFs) guiding the sequential collection of function evaluations. The best-performing AF can vary significantly across optimization problems, often requiring ad-hoc and problem-specific choices. This work tackles the challenge of designing novel AFs that perform well across a variety of experimental settings. Based on FunSearch, a recent work using Large Language Models (LLMs) for discovery in mathematical sciences, we propose FunBO, an LLM-based method that can be used to learn new AFs written in computer code by leveraging access to a limited number of evaluations for a set of objective functions. We provide the analytic expression of all discovered AFs and evaluate them on various global optimization benchmarks and hyperparameter optimization tasks. We show how FunBO identifies AFs that generalize well in and out of the training distribution of functions, thus outperforming established general-purpose AFs and achieving competitive performance against AFs that are customized to specific function types and are learned via transfer-learning algorithms.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# データ不足下におけるグラフマイニング

Graph Mining under Data scarcity ( http://arxiv.org/abs/2406.04825v1 )

ライセンス: Link先を確認
Appan Rakaraddi, Lam Siew-Kei, Mahardhika Pratama, Marcus de Carvalho, (参考訳) グラフにおけるノード分類のための深層学習モデルのマルチチュードが提案されている。 しかし、ラベル付きデータの不足下では性能が劣る傾向にある。 この問題を解決するためにグラフのショットラーニングが導入されたが、既存のモデルはグラフニューラルネットワーク(GNN)のような一般的なグラフラーニングフレームワークに容易に適応できない。 本研究は,ノード分類性能を向上させるため,一般的なGNNバックボーンネットワーク(一般的には教師付きノード分類用に設計されている)上に適用可能な不確実性推定フレームワークを提案する。 ニューラルネットワークは確率的離散スカラー値ではなく確率分布として不確実性推定器をモデル化するために用いられる。 エンド・ツー・エンドの設定で、$n$-way、$k$-shotという古典的なエピソード学習パラダイムの下でこれらのモデルをトレーニングします。 本研究は,GNNバックボーンネットワークにおける不確実性推定器の実装により,メタ学習固有のアーキテクチャを使わずにFew-shot設定下での分類精度が向上することを示す。 我々は、異なるFewショット設定と異なるGNNベースのバックボーンネットワークの下で、複数のデータセットで実験を行う。 提案手法は,GNNを用いたグラフ上のFew-shotノード分類における不確実性推定器の有効性を示す。

Multitude of deep learning models have been proposed for node classification in graphs. However, they tend to perform poorly under labeled-data scarcity. Although Few-shot learning for graphs has been introduced to overcome this problem, the existing models are not easily adaptable for generic graph learning frameworks like Graph Neural Networks (GNNs). Our work proposes an Uncertainty Estimator framework that can be applied on top of any generic GNN backbone network (which are typically designed for supervised/semi-supervised node classification) to improve the node classification performance. A neural network is used to model the Uncertainty Estimator as a probability distribution rather than probabilistic discrete scalar values. We train these models under the classic episodic learning paradigm in the $n$-way, $k$-shot fashion, in an end-to-end setting. Our work demonstrates that implementation of the uncertainty estimator on a GNN backbone network improves the classification accuracy under Few-shot setting without any meta-learning specific architecture. We conduct experiments on multiple datasets under different Few-shot settings and different GNN-based backbone networks. Our method outperforms the baselines, which demonstrates the efficacy of the Uncertainty Estimator for Few-shot node classification on graphs with a GNN.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# 非線形微分方程式と乱流の量子計算

Quantum Computing for nonlinear differential equations and turbulence ( http://arxiv.org/abs/2406.04826v1 )

ライセンス: Link先を確認
Felix Tennie, Sylvain Laizet, Seth Lloyd, Luca Magri, (参考訳) 乱流のような古典物理学や工学における問題スペクトルは非線形微分方程式によって制御され、通常は高性能な計算を解く必要がある。 しかし過去10年間で、チップの小型化が原子スケールに近づいているため、古典的な計算能力の成長は鈍化している。 これはムーアの法則に終止符を打つものであり、新しい計算パラダイムを提唱している: 量子コンピューティングは主要な候補である。 本稿では,非線形力学のシミュレーションに量子コンピューティングを利用するために克服すべき課題について考察する。 非線形方程式と量子ハードウェアのための量子アルゴリズムの開発の進展をレビューし、議論する。 非線形方程式の量子アルゴリズムと量子ハードウェアの概念のペアリングを提案する。 これらの経路は非線形系と乱流のシミュレーションの新しい機会を開く。

A large spectrum of problems in classical physics and engineering, such as turbulence, is governed by nonlinear differential equations, which typically require high-performance computing to be solved. Over the past decade, however, the growth of classical computing power has slowed down because the miniaturisation of chips has been approaching the atomic scale. This is marking an end to Moore's law, which calls for a new computing paradigm: Quantum computing is a prime candidate. In this paper, we offer a perspective on the current challenges that need to be overcome in order to use quantum computing for the simulation of nonlinear dynamics. We review and discuss progress in the development of both quantum algorithms for nonlinear equations and quantum hardware. We propose pairings between quantum algorithms for nonlinear equations and quantum hardware concepts. These avenues open new opportunities for the simulation of nonlinear systems and turbulence.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# 全変動距離を用いたブラックボックスの識別プライバシー監査

Black Box Differential Privacy Auditing Using Total Variation Distance ( http://arxiv.org/abs/2406.04827v1 )

ライセンス: Link先を確認
Antti Koskela, Jafar Mohammadi, (参考訳) 本稿では、トレーニング中にモデルに露出しない小さなホールドアウトデータセットを用いて、機械学習モデルの差分プライバシー(DP)保証を監査する実践的手法を提案する。 トレーニング中に発生する損失関数などのスコア関数を用いて,トレーニングデータのサブセットから得られたスコア間の総変動(TV)距離を推定する。 基礎となるDPトレーニングアルゴリズムに関するメタ情報により、これらのテレビ距離値は任意の$\delta$に対して$(\varepsilon,\delta)$-guaranteesに変換することができる。 本研究は,これらのスコア分布が,基礎となるトレーニングアルゴリズムのDP保証に対して,漸近的に低い限界を与えることを示すが,実際的な理由から,単発評価を行う。 DP保証の低い境界につながる条件を高い確率で指定する。 スコア分布間のテレビ距離を推定するために,ヒストグラムに基づく簡易密度推定法を用いる。 テレビの距離が最適に頑健な推定器に非常に近いことを示し、誤差レートが$\mathcal{O}(k^{-1/3})$であり、$k$はサンプルの総数であることを示す。 ベンチマークデータセットの数値実験は,提案手法の有効性を示し,ブラックボックス監査におけるベースライン手法の改善を示す。

We present a practical method to audit the differential privacy (DP) guarantees of a machine learning model using a small hold-out dataset that is not exposed to the model during the training. Having a score function such as the loss function employed during the training, our method estimates the total variation (TV) distance between scores obtained with a subset of the training data and the hold-out dataset. With some meta information about the underlying DP training algorithm, these TV distance values can be converted to $(\varepsilon,\delta)$-guarantees for any $\delta$. We show that these score distributions asymptotically give lower bounds for the DP guarantees of the underlying training algorithm, however, we perform a one-shot estimation for practicality reasons. We specify conditions that lead to lower bounds for the DP guarantees with high probability. To estimate the TV distance between the score distributions, we use a simple density estimation method based on histograms. We show that the TV distance gives a very close to optimally robust estimator and has an error rate $\mathcal{O}(k^{-1/3})$, where $k$ is the total number of samples. Numerical experiments on benchmark datasets illustrate the effectiveness of our approach and show improvements over baseline methods for black-box auditing.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# EGOR: インクリメンタルオブジェクト検出のための効率的な生成オブジェクトリプレイ

EGOR: Efficient Generated Objects Replay for incremental object detection ( http://arxiv.org/abs/2406.04829v1 )

ライセンス: Link先を確認
Zijia An, Boyu Diao, Libo Huang, Ruiqi Liu, Zhulin An, Yongjun Xu, (参考訳) インクリメンタルオブジェクト検出は、古いクラスの精度を同時に維持し、インクリメンタルデータで新しいクラスのオブジェクトを検出することを目的としている。 既存の蒸留法では、未ラベルの古いオブジェクトがインクリメンタルデータセットに存在しない場合、性能が低下する。 古い種類のサンプルを生成することで、この欠如を軽減できるが、計算コストも高い。 本稿では, 余剰計算コストは, 余剰生成とともに, 検出器と生成モデルとの整合性に起因すると論じる。 この問題を解決するために,効率的な生成オブジェクト再生(EGOR)を提案する。 具体的には、元の検出器を逆転させることで古いサンプルを生成し、トレーニングや追加生成モデルの保存の必要性を解消する。 また、生成したサンプル中のオブジェクトを再利用する拡張リプレイを提案し、冗長な生成を減らす。 さらに, 古クラスの知識に着目した高応答の知識蒸留を提案し, 生成したオブジェクトの知識をインクリメンタル検出器に転送する。 生成されたオブジェクトの追加と損失により、検出器内の古いクラスに対するバイアスが観測される。 古いクラスと新しいクラスの損失のバランスをとることでバイアスを緩和し、全体的な検出精度を高めます。 また,MS COCO 2017で行った大規模な実験により,従来のオブジェクトが存在しない場合に検出性能を効率よく向上できることを示した。

Incremental object detection aims to simultaneously maintain old-class accuracy and detect emerging new-class objects in incremental data. Most existing distillation-based methods underperform when unlabeled old-class objects are absent in the incremental dataset. While the absence can be mitigated by generating old-class samples, it also incurs high computational costs. In this paper, we argue that the extra computational cost stems from the inconsistency between the detector and the generative model, along with redundant generation. To overcome this problem, we propose Efficient Generated Object Replay (EGOR). Specifically, we generate old-class samples by inversing the original detectors, thus eliminating the necessity of training and storing additional generative models. We also propose augmented replay to reuse the objects in generated samples, thereby reducing the redundant generation. In addition, we propose high-response knowledge distillation focusing on the knowledge related to the old class, which transfers the knowledge in generated objects to the incremental detector. With the addition of the generated objects and losses, we observe a bias towards old classes in the detector. We balance the losses for old and new classes to alleviate the bias, thereby increasing the overall detection accuracy. Extensive experiments conducted on MS COCO 2017 demonstrate that our method can efficiently improve detection performance in the absence of old-class objects.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# 構造記述型言語生成によるFrameNetのアノテーション

Annotating FrameNet via Structure-Conditioned Language Generation ( http://arxiv.org/abs/2406.04834v1 )

ライセンス: Link先を確認
Xinyue Cui, Swabha Swayamdipta, (参考訳) 自然言語生成における言語モデルの顕著な生成能力にもかかわらず、明示的な操作と言語構造の生成に対するそれらの効果はいまだ検討されていない。 本稿では,FrameNetの形式化に従って,与えられた意味構造を保存する新しい文を生成するタスクについて検討する。 本稿では、過剰な生成とフィルタのアプローチに従って、新しいフレーム文の注釈付き文を生成するフレームワークを提案する。 以上の結果から,リッチで明示的なセマンティック情報に対する条件付けは,アクセプションと微調整の両面において,人間の受容率の高い世代を生成する傾向が示唆された。 生成されたフレームセマンティックな構造化アノテーションは,低リソース環境でのフレームセマンティックなロールラベリングのためのデータ拡張のトレーニングに有効である。 本研究は,高品質でセマンティックなリッチなデータ生成が到達範囲内にある可能性があるが,そのような世代を下流で活用することは,言語アノテーションタスクを自動化する上での課題を浮き彫りにしている。

Despite the remarkable generative capabilities of language models in producing naturalistic language, their effectiveness on explicit manipulation and generation of linguistic structures remain understudied. In this paper, we investigate the task of generating new sentences preserving a given semantic structure, following the FrameNet formalism. We propose a framework to produce novel frame-semantically annotated sentences following an overgenerate-and-filter approach. Our results show that conditioning on rich, explicit semantic information tends to produce generations with high human acceptance, under both prompting and finetuning. Our generated frame-semantic structured annotations are effective at training data augmentation for frame-semantic role labeling in low-resource settings; however, we do not see benefits under higher resource settings. Our study concludes that while generating high-quality, semantically rich data might be within reach, the downstream utility of such generations remains to be seen, highlighting the outstanding challenges with automating linguistic annotation tasks.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# 大規模言語モデルチューニングにおける破滅的予測の再検討

Revisiting Catastrophic Forgetting in Large Language Model Tuning ( http://arxiv.org/abs/2406.04836v1 )

ライセンス: Link先を確認
Hongyu Li, Liang Ding, Meng Fang, Dacheng Tao, (参考訳) Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。 大規模言語モデル(LLM)の微調整における有効性を損なうが、根本原因については十分に研究されていない。 本稿では, LLM 分野におけるモデル損失景観の平坦性と CF の範囲との直接的な関係を明らかにするための第一歩として, モデル損失景観の平坦性を明らかにする。 これに基づいて、損失景観を平らにすることでCFを緩和するシャープネス対応の最小化を導入する。 様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。 解析の結果,既存の造形防止戦略を良好に補完し,LCMのCFに対する耐性をさらに高めていることが明らかとなった。

Catastrophic Forgetting (CF) means models forgetting previously acquired knowledge when learning new data. It compromises the effectiveness of large language models (LLMs) during fine-tuning, yet the underlying causes have not been thoroughly investigated. This paper takes the first step to reveal the direct link between the flatness of the model loss landscape and the extent of CF in the field of LLMs. Based on this, we introduce the sharpness-aware minimization to mitigate CF by flattening the loss landscape. Experiments on three widely-used fine-tuning datasets, spanning different model scales, demonstrate the effectiveness of our method in alleviating CF. Analyses show that we nicely complement the existing anti-forgetting strategies, further enhancing the resistance of LLMs to CF.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# 許容緩和を考慮した価値整合政策学習アルゴリズム

Algorithms for learning value-aligned policies considering admissibility relaxation ( http://arxiv.org/abs/2406.04838v1 )

ライセンス: Link先を確認
Andrés Holgado-Sánchez, Joaquín Arias, Holger Billhardt, Sascha Ossowski, (参考訳) emph{value awareness engineering} の出現する分野は、ソフトウェアエージェントとシステムは価値を意識すべきである、すなわち、人的価値に応じて決定を下さなければならない、と主張している。 この文脈では、そのようなエージェントは、これらの値とどれだけ異なるアクションのコースが一致しているかを明確に推論できなければならない。 この目的のために、値はしばしば状態やアクションよりも好みとしてモデル化され、それを集約して、ある値に最大に整合したアクションのシーケンスを決定する。 近年、このレベルの付加的な値許容性制約も検討されている。 しかし、これらの制約の緩やかなバージョンは必要であり、これは値整合ポリシーの計算の複雑さを大幅に増大させる。 適応性緩和を考慮した価値整合性決定を行う効率的なアルゴリズムを得るために,学習手法,特に制約付き強化学習アルゴリズムを提案する。 本稿では、局所的なアライメントに基づく戦略のための$\epsilon\text{-}ADQL$と、一連の決定のための$\epsilon\text{-}CADQL$という2つのアルゴリズムを提案する。 干ばつシナリオにおいて,水分散問題における効率性を検証した。

The emerging field of \emph{value awareness engineering} claims that software agents and systems should be value-aware, i.e. they must make decisions in accordance with human values. In this context, such agents must be capable of explicitly reasoning as to how far different courses of action are aligned with these values. For this purpose, values are often modelled as preferences over states or actions, which are then aggregated to determine the sequences of actions that are maximally aligned with a certain value. Recently, additional value admissibility constraints at this level have been considered as well. However, often relaxed versions of these constraints are needed, and this increases considerably the complexity of computing value-aligned policies. To obtain efficient algorithms that make value-aligned decisions considering admissibility relaxation, we propose the use of learning techniques, in particular, we have used constrained reinforcement learning algorithms. In this paper, we present two algorithms, $\epsilon\text{-}ADQL$ for strategies based on local alignment and its extension $\epsilon\text{-}CADQL$ for a sequence of decisions. We have validated their efficiency in a water distribution problem in a drought scenario.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# 原始エージェント第一次最適化

Primitive Agentic First-Order Optimization ( http://arxiv.org/abs/2406.04841v1 )

ライセンス: Link先を確認
R. Sala, (参考訳) 効率的な数値最適化手法は、多くのアプリケーションにおいて、性能を改善し、環境への影響を低減することができる。 本研究では,基本状態表現とエージェント環境相互作用を組み合わせた概念実証研究を,予算限定最適化の設定において一階最適化器として提案する。 最適化問題クラスの一連のトレーニングインスタンスに対する強化学習(RL)を通じて、アルゴリズム的反復ステップの逐次更新選択のための最適ポリシーを、進歩と資源利用の側面を考慮した一般的な低次元部分状態表現に近似する。 ケーススタディでは,2次最適化問題クラスの未確認インスタンスへのトレーニングエージェントの配置が,最適化ハイパーパラメータを用いた従来の最適アルゴリズムより優れていた。 以上の結果から, 素数RL法と簡潔な部分状態表現を組み合わせることで, RL最適化の複雑さを解消し, エージェント最適化アプローチの道を開くことができることがわかった。

Efficient numerical optimization methods can improve performance and reduce the environmental impact of computing in many applications. This work presents a proof-of-concept study combining primitive state representations and agent-environment interactions as first-order optimizers in the setting of budget-limited optimization. Through reinforcement learning (RL) over a set of training instances of an optimization problem class, optimal policies for sequential update selection of algorithmic iteration steps are approximated in generally formulated low-dimensional partial state representations that consider aspects of progress and resource use. For the investigated case studies, deployment of the trained agents to unseen instances of the quadratic optimization problem classes outperformed conventional optimal algorithms with optimized hyperparameters. The results show that elementary RL methods combined with succinct partial state representations can be used as heuristics to manage complexity in RL-based optimization, paving the way for agentic optimization approaches.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# 3rd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression Guided Video Segmentation

3rd Place Solution for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation ( http://arxiv.org/abs/2406.04842v1 )

ライセンス: Link先を確認
Feiyu Pan, Hao Fang, Xiankai Lu, (参考訳) ビデオオブジェクトセグメンテーション(RVOS)の参照は、ビデオ内のターゲットオブジェクトをセグメントする自然言語表現に依存し、高密度なテキストとビデオの関係をモデル化することを強調する。 現在のRVOSメソッドは通常、独立してトレーニング済みのビジョンと言語モデルをバックボーンとして使用し、ビデオとテキストの間に大きなドメインギャップが生じる。 クロスモーダルな機能相互作用では、テキスト機能はクエリ初期化としてのみ使用され、テキスト内の重要な情報を十分に活用していない。 本研究では,凍結事前学習型視覚言語モデル(VLM)をバックボーンとして用いることを提案する。 まず、フリーズした畳み込みCLIPバックボーンを使用して、機能に整合したビジョンとテキスト機能を生成し、ドメインギャップの問題を軽減するとともに、トレーニングコストを削減します。 第二に、マルチモーダル情報の利用を高めるために、パイプラインによりクロスモーダルな特徴融合を追加します。 さらに,高品質なビデオクエリを生成するための新しいビデオクエリ初期化手法を提案する。 CVPR 2024 PVUWワークショップでは,MeViSテストセットの51.5 J&Fを達成し,MeViSトラックの3位にランクインした。

Referring video object segmentation (RVOS) relies on natural language expressions to segment target objects in video, emphasizing modeling dense text-video relations. The current RVOS methods typically use independently pre-trained vision and language models as backbones, resulting in a significant domain gap between video and text. In cross-modal feature interaction, text features are only used as query initialization and do not fully utilize important information in the text. In this work, we propose using frozen pre-trained vision-language models (VLM) as backbones, with a specific emphasis on enhancing cross-modal feature interaction. Firstly, we use frozen convolutional CLIP backbone to generate feature-aligned vision and text features, alleviating the issue of domain gap and reducing training costs. Secondly, we add more cross-modal feature fusion in the pipeline to enhance the utilization of multi-modal information. Furthermore, we propose a novel video query initialization method to generate higher quality video queries. Without bells and whistles, our method achieved 51.5 J&F on the MeViS test set and ranked 3rd place for MeViS Track in CVPR 2024 PVUW workshop: Motion Expression guided Video Segmentation.
翻訳日:2024-06-10 14:30:43 公開日:2024-06-07
# グラフ生成のための変分流マッチング

Variational Flow Matching for Graph Generation ( http://arxiv.org/abs/2406.04843v1 )

ライセンス: Link先を確認
Floor Eijkelboom, Grigory Bartosh, Christian Andersson Naesseth, Max Welling, Jan-Willem van de Meent, (参考訳) 本稿では,フローマッチングを変分推論として定式化し,これを変分フローマッチング(VFM)と呼ぶ。 この定式化に基づいて,分類データのフローマッチング手法であるCatFlowを開発した。 CatFlowは実装が容易で、計算効率が良く、グラフ生成タスクで強い結果が得られる。 VFMでは、軌道の可能な端点上の分布である後続確率経路を近似することが目的である。 また,VFMはキャットフローの目的とフローマッチングの目的の両方を特殊事例として認めている。 また、VFMをスコアベースモデルに関連付け、力学は決定論的ではなく確率的であり、再重み付けされたVFMの目的に基づいてモデル確率の有界性を導出する。 1つの抽象グラフ生成タスクと2つの分子生成タスクでCatFlowを評価する。 いずれの場合も、CatFlowは現在の最先端モデルのパフォーマンスを上回るか、あるいは一致します。

We present a formulation of flow matching as variational inference, which we refer to as variational flow matching (VFM). Based on this formulation we develop CatFlow, a flow matching method for categorical data. CatFlow is easy to implement, computationally efficient, and achieves strong results on graph generation tasks. In VFM, the objective is to approximate the posterior probability path, which is a distribution over possible end points of a trajectory. We show that VFM admits both the CatFlow objective and the original flow matching objective as special cases. We also relate VFM to score-based models, in which the dynamics are stochastic rather than deterministic, and derive a bound on the model likelihood based on a reweighted VFM objective. We evaluate CatFlow on one abstract graph generation task and two molecular generation tasks. In all cases, CatFlow exceeds or matches performance of the current state-of-the-art models.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 多言語言語誘導多目的追跡

Multi-Granularity Language-Guided Multi-Object Tracking ( http://arxiv.org/abs/2406.04844v1 )

ライセンス: Link先を確認
Yuhao Li, Muzammal Naseer, Jiale Cao, Yu Zhu, Jinqiu Sun, Yanning Zhang, Fahad Shahbaz Khan, (参考訳) 多くの既存のマルチオブジェクト追跡手法は、通常、異なるインスタンスの相似性を最大化し、同じインスタンスの類似性を最小化することで、視覚的トラッキング機能を学ぶ。 このような特徴学習方式は有望な性能を達成する一方で、視覚情報のみに基づく識別的特徴の学習は、特に閉塞、ぼかし、ドメインの分散といった環境干渉の場合において困難である。 本研究では,マルチモーダル言語による特徴が,従来の視覚的特徴と相補的な情報を提供し,環境干渉に対する堅牢性の向上を支援することを論じる。 この目的のために,LG-MOTと呼ばれる新しい多目的追跡フレームワークを提案する。これは,言語情報を粒度の異なるレベル(シーンおよびインスタンスレベル)で明示的に活用し,標準的な視覚的特徴と組み合わせて識別的表現を得る。 LG-MOTを開発するために,既存のMOTデータセットにシーンレベルの言語記述とインスタンスレベルの言語記述をアノテートする。 次に、実例レベルとシーンレベルの言語情報を高次元埋め込みにエンコードし、トレーニング中の視覚的特徴をガイドする。 推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。 MOT17、DanceTrack、SportsMOTの3つのベンチマークに関する大規模な実験は、提案されたコントリビューションのメリットが最先端のパフォーマンスにつながることを示した。 DanceTrackテストセットでは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、LG-MOTは2.2\%の絶対ゲインを達成する。 さらに、LG-MOTは、強いクロスドメインの一般化性を示す。 データセットとコードは ~\url{https://github.com/WesLee88524/LG-MOT} で利用可能である。

Most existing multi-object tracking methods typically learn visual tracking features via maximizing dis-similarities of different instances and minimizing similarities of the same instance. While such a feature learning scheme achieves promising performance, learning discriminative features solely based on visual information is challenging especially in case of environmental interference such as occlusion, blur and domain variance. In this work, we argue that multi-modal language-driven features provide complementary information to classical visual features, thereby aiding in improving the robustness to such environmental interference. To this end, we propose a new multi-object tracking framework, named LG-MOT, that explicitly leverages language information at different levels of granularity (scene-and instance-level) and combines it with standard visual features to obtain discriminative representations. To develop LG-MOT, we annotate existing MOT datasets with scene-and instance-level language descriptions. We then encode both instance-and scene-level language information into high-dimensional embeddings, which are utilized to guide the visual features during training. At inference, our LG-MOT uses the standard visual features without relying on annotated language descriptions. Extensive experiments on three benchmarks, MOT17, DanceTrack and SportsMOT, reveal the merits of the proposed contributions leading to state-of-the-art performance. On the DanceTrack test set, our LG-MOT achieves an absolute gain of 2.2\% in terms of target object association (IDF1 score), compared to the baseline using only visual features. Further, our LG-MOT exhibits strong cross-domain generalizability. The dataset and code will be available at ~\url{https://github.com/WesLee88524/LG-MOT}.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# FedLLM-Bench: 大規模言語モデルのフェデレーションラーニングのための現実的なベンチマーク

FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models ( http://arxiv.org/abs/2406.04845v1 )

ライセンス: Link先を確認
Rui Ye, Rui Ge, Xinyu Zhu, Jingyi Chai, Yaxin Du, Yang Liu, Yanfeng Wang, Siheng Chen, (参考訳) フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、大きな言語モデルを協調的にトレーニングすることが可能になった(FedLLM)。 このトレーニングパラダイムに従って、コミュニティはフレームワーク、パフォーマンス、プライバシといったさまざまな側面から多大な努力を払ってきた。 しかし、不愉快な事実は、現在FedLLMの現実的なデータセットやベンチマークは存在せず、以前の作業はすべて人工的に構築されたデータセットに依存しており、実際のシナリオでプロパティをキャプチャできないことである。 そこで我々は,FedLLMコミュニティ向けの総合的なテストベッドを提供するために,8つのトレーニングメソッド,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。 FedLLM-Benchは、フェデレーションインストラクションチューニングのための3つのデータセット(例:ユーザアノテーション付き多言語データセット)と、フェデレーションプライオリティアライメントのための1つのデータセット(例:ユーザアノテーション付き嗜好データセット)を含み、クライアント番号のスケールは38から747の範囲である。 私たちのデータセットには、言語、品質、量、命令、長さ、埋め込み、嗜好といったいくつかの代表的な多様性が含まれています。 FedLLM-Benchに基づいて、既存のFLメソッドをベンチマークし、経験的な洞察(多言語協調など)を提供するため、すべてのデータセットで実験を行う。 我々はFedLLM-Benchが、必要な労力を削減し、実践的なテストベッドを提供し、公正な比較を促進することで、FedLLMコミュニティに利益をもたらすと信じている。 コードとデータセットはhttps://github.com/rui-ye/FedLLM-Bench.orgで公開されている。

Federated learning has enabled multiple parties to collaboratively train large language models without directly sharing their data (FedLLM). Following this training paradigm, the community has put massive efforts from diverse aspects including framework, performance, and privacy. However, an unpleasant fact is that there are currently no realistic datasets and benchmarks for FedLLM and previous works all rely on artificially constructed datasets, failing to capture properties in real-world scenarios. Addressing this, we propose FedLLM-Bench, which involves 8 training methods, 4 training datasets, and 6 evaluation metrics, to offer a comprehensive testbed for the FedLLM community. FedLLM-Bench encompasses three datasets (e.g., user-annotated multilingual dataset) for federated instruction tuning and one dataset (e.g., user-annotated preference dataset) for federated preference alignment, whose scale of client number ranges from 38 to 747. Our datasets incorporate several representative diversities: language, quality, quantity, instruction, length, embedding, and preference, capturing properties in real-world scenarios. Based on FedLLM-Bench, we conduct experiments on all datasets to benchmark existing FL methods and provide empirical insights (e.g., multilingual collaboration). We believe that our FedLLM-Bench can benefit the FedLLM community by reducing required efforts, providing a practical testbed, and promoting fair comparisons. Code and datasets are available at https://github.com/rui-ye/FedLLM-Bench.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# Solovay-Kitaev理論を使わずに効率的なフォールトトレラント単一量子ゲート近似とユニバーサル量子計算

Efficient Fault-Tolerant Single Qubit Gate Approximation And Universal Quantum Computation Without Using The Solovay-Kitaev Theorem ( http://arxiv.org/abs/2406.04846v1 )

ライセンス: Link先を確認
H. F. Chau, (参考訳) クリフォードゲートZ, S, CNOTと非クリフォードゲートを用いて、任意に正確なフォールトトレラント(FT)普遍量子計算を行うことができる。 さらに、KuperbergによるSolovay-Kitaev定理の最近の改良により、任意の単一キュービットゲートを$\epsilon > 0$ の精度で近似するには$\text{O}(\log^c[1/\epsilon])$ $c > 1.44042$ の量子ゲートが必要である。 良いことはできるのか? これはNielsenとChuangの量子計算教科書で質問された質問である。 具体的には、有限集合から選択した$\Omega(\log[1/\epsilon])$ gatesを使って、単一量子ゲート、フォールトトレラント、あるいはそれ以外を効率的に近似するチャレンジをポストした。 ここで、この疑問に対する部分的な答えは、$\text{O}(\log[1/\epsilon] \log\log[1/\epsilon] \log\log[1/\epsilon] \cdots)$ FT ゲートが $\epsilon$ の値に依存する有限集合から選択されることを示している。 鍵となる考え方は、任意の精度$\epsilon > 0$に再帰することで、FT方式で任意の位相ゲートの近似を構築することである。 この方法は簡単に実装でき、理解しやすく、興味深いことにソロワ=キタエフの定理を含まない。

Arbitrarily accurate fault-tolerant (FT) universal quantum computation can be carried out using the Clifford gates Z, S, CNOT plus the non-Clifford T gate. Moreover, a recent improvement of the Solovay-Kitaev theorem by Kuperberg implies that to approximate any single-qubit gate to an accuracy of $\epsilon > 0$ requires $\text{O}(\log^c[1/\epsilon])$ quantum gates with $c > 1.44042$. Can one do better? That was the question asked by Nielsen and Chuang in their quantum computation textbook. Specifically, they posted a challenge to efficiently approximate single-qubit gate, fault-tolerantly or otherwise, using $\Omega(\log[1/\epsilon])$ gates chosen from a finite set. Here I give a partial answer to this question by showing that this is possible using $\text{O}(\log[1/\epsilon] \log\log[1/\epsilon] \log\log\log[1/\epsilon] \cdots)$ FT gates chosen from a finite set depending on the value of $\epsilon$. The key idea is to construct an approximation of any phase gate in a FT way by recursion to any given accuracy $\epsilon > 0$. This method is straightforward to implement, easy to understand, and interestingly does not involve the Solovay-Kitaev theorem.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 言語モデルは人間のような構造的プライミング効果を表わすか?

Do Language Models Exhibit Human-like Structural Priming Effects? ( http://arxiv.org/abs/2406.04847v1 )

ライセンス: Link先を確認
Jaap Jumelet, Willem Zuidema, Arabella Sinclair, (参考訳) 文とトークンレベルにおいて、どの言語要因が言語モデル予測に影響を与えるのかを探索し、これらがヒトとヒトのコーパスに見られる結果の反映であるかどうかを考察する(Gries and Kootstra, 2017)。 我々は、構造的プライミングのパラダイムを利用し、最近の構造への露出は、同じ構造の処理を容易にする。 我々は、プライミング効果がどこで起こるのか、どの要因がそれらを予測するのかを調査するだけでなく、調査する。 これらの効果は、ヒトのプライミングにおける逆周波数効果によって説明でき、プライマー内の稀な要素はプライマーのプライマー効果を増大させ、プライマーとターゲット間の語彙依存性を増大させる。 本研究は,言語モデルにおける特徴が構造的予測にどのように影響するかを理解するためのパズルにおいて重要なピースを提供する。

We explore which linguistic factors -- at the sentence and token level -- play an important role in influencing language model predictions, and investigate whether these are reflective of results found in humans and human corpora (Gries and Kootstra, 2017). We make use of the structural priming paradigm, where recent exposure to a structure facilitates processing of the same structure. We don't only investigate whether, but also where priming effects occur, and what factors predict them. We show that these effects can be explained via the inverse frequency effect, known in human priming, where rarer elements within a prime increase priming effects, as well as lexical dependence between prime and target. Our results provide an important piece in the puzzle of understanding how properties within their context affect structural prediction in language models.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# CTBENCH: 認定トレーニングのためのライブラリとベンチマーク

CTBENCH: A Library and Benchmark for Certified Training ( http://arxiv.org/abs/2406.04848v1 )

ライセンス: Link先を確認
Yuhao Mao, Stefan Balauca, Martin Vechev, (参考訳) 確実に堅牢なニューラルネットワークのトレーニングは重要だが、難しい課題だ。 多くの(決定論的)認定トレーニングのためのアルゴリズムが提案されているが、異なるトレーニングスケジュール、認定方法、体系的に過度に調整されたハイパーパラメータで評価されることが多く、性能の比較が困難である。 この課題に対処するために、我々はCTBENCHを導入し、統一ライブラリと認定トレーニングのための高品質なベンチマークを導入し、全てのアルゴリズムを公平な設定で評価し、体系的にハイパーパラメータを調整した。 CTBENCHのほぼ全てのアルゴリズムが,アルゴリズム改良の規模で文献に報告された性能を上回り,新たな最先端のアルゴリズムを確立すること,そして(2)公正なトレーニングスケジュール,公正な認証方法,そして十分に調整されたハイパーパラメータで,時代遅れのベースラインを強化する際に,最近のアルゴリズムの主張する利点は著しく低下することを示す。 CTBENCHに基づき、認定訓練の現状に関する新たな知見を提供し、今後の研究方向性を提案する。 CTBENCHがベンチマークとして機能し、将来の認定トレーニング研究のためのテストベッドになると確信しています。

Training certifiably robust neural networks is an important but challenging task. While many algorithms for (deterministic) certified training have been proposed, they are often evaluated on different training schedules, certification methods, and systematically under-tuned hyperparameters, making it difficult to compare their performance. To address this challenge, we introduce CTBENCH, a unified library and a high-quality benchmark for certified training that evaluates all algorithms under fair settings and systematically tuned hyperparameters. We show that (1) almost all algorithms in CTBENCH surpass the corresponding reported performance in literature in the magnitude of algorithmic improvements, thus establishing new state-of-the-art, and (2) the claimed advantage of recent algorithms drops significantly when we enhance the outdated baselines with a fair training schedule, a fair certification method and well-tuned hyperparameters. Based on CTBENCH, we provide new insights into the current state of certified training and suggest future research directions. We are confident that CTBENCH will serve as a benchmark and testbed for future research in certified training.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 販売面でのデジタルアシスタント

Digital assistant in a point of sales ( http://arxiv.org/abs/2406.04851v1 )

ライセンス: Link先を確認
Emilia Lesiak, Grzegorz Wolny, Bartosz Przybył, Michał Szczerbak, (参考訳) 本稿では、VUI(Voice User Interface)を利用したデジタルアシスタントを小売店舗に展開し、顧客エンゲージメントとサービス効率への影響を評価する。 本研究は,多言語対応による高度な対話機能を通じて,デジタルアシスタントがユーザインタラクションを向上する方法について検討した。 デジタルアシスタントを高トラフィックの小売環境に組み込むことで、顧客サービスの品質と運用効率を向上させる効果を評価する。 実験で収集されたデータは、顧客とのインタラクションに様々な影響を示し、デジタルアシスタント技術の将来の最適化に関する洞察を明らかにした。 本研究は,顧客関係領域におけるディジタルトランスフォーメーション戦略の理解に寄与し,現代の小売店舗におけるサービスフレキシビリティとユーザ中心設計の必要性を強調した。

This article investigates the deployment of a Voice User Interface (VUI)-powered digital assistant in a retail setting and assesses its impact on customer engagement and service efficiency. The study explores how digital assistants can enhance user interactions through advanced conversational capabilities with multilingual support. By integrating a digital assistant into a high-traffic retail environment, we evaluate its effectiveness in improving the quality of customer service and operational efficiency. Data collected during the experiment demonstrate varied impacts on customer interaction, revealing insights into the future optimizations of digital assistant technologies in customer-facing roles. This study contributes to the understanding of digital transformation strategies within the customer relations domain emphasizing the need for service flexibility and user-centric design in modern retail stores.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 容量制限ネットワーク下での予測遠隔制御のための時系列JEPA

Time-Series JEPA for Predictive Remote Control under Capacity-Limited Networks ( http://arxiv.org/abs/2406.04853v1 )

ライセンス: Link先を確認
Abanoub M. Girgis, Alvaro Valcarce, Mehdi Bennis, (参考訳) 遠隔制御システムでは、無線センサから遠距離コントローラへの大容量データ(例えばビデオフィード)送信は、アップリンクチャネル容量が制限されている場合(例えばRedCapデバイスや大規模な無線センサネットワーク)に困難である。 さらに、コントローラは元のデータの情報豊富なコンポーネントしか必要としないことが多い。 そこで本稿では,TS-JEPA(Time-Series Joint Embedding Predictive Architecture)を提案する。 このアプローチは、ソースデータの時空間相関をキャプチャすることで、TS-JEPAのセマンティック表現能力と予測能力を活用する。 これを利用してアップリンクチャネルの利用を最適化し、セマンティックアクターは元のデータではなく、エンコードされた表現から直接制御コマンドを計算する。 提案手法は,制約付きアップリンクチャネルキャパシティの下での安定性の最大化によって検証される。

In remote control systems, transmitting large data volumes (e.g. video feeds) from wireless sensors to faraway controllers is challenging when the uplink channel capacity is limited (e.g. RedCap devices or massive wireless sensor networks). Furthermore, the controllers often only need the information-rich components of the original data. To address this, we propose a Time-Series Joint Embedding Predictive Architecture (TS-JEPA) and a semantic actor trained through self-supervised learning. This approach harnesses TS-JEPA's semantic representation power and predictive capabilities by capturing spatio-temporal correlations in the source data. We leverage this to optimize uplink channel utilization, while the semantic actor calculates control commands directly from the encoded representations, rather than from the original data. We test our model through multiple parallel instances of the well-known inverted cart-pole scenario, where the approach is validated through the maximization of stability under constrained uplink channel capacity.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 言語モデルアライメントのための不確かさ認識学習

Uncertainty Aware Learning for Language Model Alignment ( http://arxiv.org/abs/2406.04854v1 )

ライセンス: Link先を確認
Yikun Wang, Rui Zheng, Liang Ding, Qi Zhang, Dahua Lin, Dacheng Tao, (参考訳) 命令調整型大規模言語モデル(LLM)が進化するにつれて、事前訓練された基礎モデルの整合化が課題を増す。 既存のアライメント戦略は、多様で高品質なデータソースを利用するが、多くの場合、タスクの本質的な不確実性を見落とし、すべてのデータサンプルを平等に学習する。 これは、最適以下のデータ効率とモデル性能をもたらす可能性がある。 そこで本研究では,異なるタスクシナリオのモデルアライメントを改善するための不確実性認識学習(UAL)を提案する。 トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。 分析によると、UALは機能領域におけるより良いトークンクラスタリングを促進し、仮説を検証する。 広く使われているベンチマークの大規模な実験は、我々のUALが標準教師付き微調整よりも大きく、一貫して優れていることを示している。 特に、混合シナリオで整列されたLCMは、高エントロピータスク(AlpacaEvalのリーダーボード)では平均10.62倍、複雑な低エントロピータスク(MetaMathとGSM8K)では1.81倍の改善を達成した。

As instruction-tuned large language models (LLMs) evolve, aligning pretrained foundation models presents increasing challenges. Existing alignment strategies, which typically leverage diverse and high-quality data sources, often overlook the intrinsic uncertainty of tasks, learning all data samples equally. This may lead to suboptimal data efficiency and model performance. In response, we propose uncertainty-aware learning (UAL) to improve the model alignment of different task scenarios, by introducing the sample uncertainty (elicited from more capable LLMs). We implement UAL in a simple fashion -- adaptively setting the label smoothing value of training according to the uncertainty of individual samples. Analysis shows that our UAL indeed facilitates better token clustering in the feature space, validating our hypothesis. Extensive experiments on widely used benchmarks demonstrate that our UAL significantly and consistently outperforms standard supervised fine-tuning. Notably, LLMs aligned in a mixed scenario have achieved an average improvement of 10.62\% on high-entropy tasks (i.e., AlpacaEval leaderboard), and 1.81\% on complex low-entropy tasks (i.e., MetaMath and GSM8K).
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# ロシア立法府

The Russian Legislative Corpus ( http://arxiv.org/abs/2406.04855v1 )

ライセンス: Link先を確認
Denis Saveliev, Ruslan Kuchakov, (参考訳) 1991年から2023年までの包括的ロシア第一・第二法制を提示する。 コーパスは281,413通のテキスト(176,523,268通のトークン)とメタデータを収集する。 コーパスには、最小限の事前処理を備えた原文と、モルフォシンタクティックマークアップを用いた言語解析のためのバージョンの2つのバージョンがある。

We present the comprehensive Russian primary and secondary legislation corpus covering 1991 to 2023. The corpus collects all 281,413 texts (176,523,268 tokens) of non-secret federal regulations and acts, along with their metadata. The corpus has two versions the original text with minimal preprocessing and a version prepared for linguistic analysis with morphosyntactic markup.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 越冬型グラフクラスタリングのためのニア線形時間近似アルゴリズム

A Near-Linear Time Approximation Algorithm for Beyond-Worst-Case Graph Clustering ( http://arxiv.org/abs/2406.04857v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Tommaso d'Orsi, Aida Mousavifar, (参考訳) ここでは、[Makarychev, Makarychev and Vijayaraghavan, STOC'12] の半ランダムグラフモデルを考える:$\alpha$ edges と未知の二分グラフ $(A, B)$ の頂点集合が与えられたとき、敵はそれぞれのコミュニティ内に任意の辺を追加し、切断された$(A, B)$ から任意の辺を取り除くことができる(すなわち、すべての逆変換は二分集合に関して \textit{monotone} である)。 このモデルに対して多項式時間アルゴリズムは、カットされた$(A, B)$がサイズ$\Omega(\alpha)$である限り、平衡カット問題を$O(\alpha)$ [MMV'12] まで近似することが知られている。 しかし、これは、対数的に多くの半定値プログラムに対する最適解を必要とする遅いサブルーチンで構成されている。 この問題の微細な複雑さについて検討し,[MMV'12]と同じような性能を実現する最初のニア線形時間アルゴリズムを提案する。 我々のアルゴリズムは時間$O(|V(G)|^{1+o(1)} + |E(G)|^{1+o(1)})$で実行され、バランスの取れた値のカットが$O(\alpha)$である。 提案手法はスペールストカットのような関連する問題に対して容易に拡張可能であり,[Cohen-Addad, Kanade, Mallmann-Trenn, Mathieu, JACM'19] の半ランダムな階層的確率的ブロックモデル入力に対して,Dagupta の階層的クラスタリングの目的関数に対して,ほぼ線形時間 $O(1)$-approximation を与える。

We consider the semi-random graph model of [Makarychev, Makarychev and Vijayaraghavan, STOC'12], where, given a random bipartite graph with $\alpha$ edges and an unknown bipartition $(A, B)$ of the vertex set, an adversary can add arbitrary edges inside each community and remove arbitrary edges from the cut $(A, B)$ (i.e. all adversarial changes are \textit{monotone} with respect to the bipartition). For this model, a polynomial time algorithm is known to approximate the Balanced Cut problem up to value $O(\alpha)$ [MMV'12] as long as the cut $(A, B)$ has size $\Omega(\alpha)$. However, it consists of slow subroutines requiring optimal solutions for logarithmically many semidefinite programs. We study the fine-grained complexity of the problem and present the first near-linear time algorithm that achieves similar performances to that of [MMV'12]. Our algorithm runs in time $O(|V(G)|^{1+o(1)} + |E(G)|^{1+o(1)})$ and finds a balanced cut of value $O(\alpha)$. Our approach appears easily extendible to related problem, such as Sparsest Cut, and also yields an near-linear time $O(1)$-approximation to Dagupta's objective function for hierarchical clustering [Dasgupta, STOC'16] for the semi-random hierarchical stochastic block model inputs of [Cohen-Addad, Kanade, Mallmann-Trenn, Mathieu, JACM'19].
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 不確実性定量化のための深部生成前の確率的全波形インバージョン

Stochastic full waveform inversion with deep generative prior for uncertainty quantification ( http://arxiv.org/abs/2406.04859v1 )

ライセンス: Link先を確認
Yuke Xie, Hervé Chauris, Nicolas Desassis, (参考訳) 地震データから地下構造物の高解像度画像を得るため, フルウェーブフォーム・インバージョン(FWI)などの地震イメージング技術が重要なツールである。 しかし、FWIは非線形でしばしば不均一な逆問題の解決を伴い、局所的なミニマトラップや不確かさの扱いが不十分なような課題を提示する。 これらの課題に対処するために、確率的ベイズ反転に対する物理パラメータの事前分布として、深部生成モデルを活用することを提案する。 このアプローチは、偏微分方程式の数値解からの効率的なバックプロパゲーションのための随伴状態勾配を統合する。 さらに、明示的および暗黙的な変分ベイズ推定手法を導入する。 明示的な方法では、正規化フローベースニューラルネットワークを用いて変動分布密度を計算し、パラメータのベイズ後方の計算を可能にする。 逆に、暗黙的手法では、事前学習された生成モデルに付随する推論ネットワークを用いて密度を推定し、エントロピー推定器を組み込む。 さらに、粒子を用いた別の変分推論手法として、Stein Variational Gradient Descent (SVGD)法を実験した。 これらの変分ベイズ推定法と従来のマルコフ連鎖モンテカルロ(McMC)サンプリングとの比較を行った。 それぞれの手法は不確実性を定量化し、地下物理パラメータの地震データ条件付き実現を生成することができる。 この枠組みは、固有の不確実性を考慮しつつ、地下構造に関する洞察を提供する。

To obtain high-resolution images of subsurface structures from seismic data, seismic imaging techniques such as Full Waveform Inversion (FWI) serve as crucial tools. However, FWI involves solving a nonlinear and often non-unique inverse problem, presenting challenges such as local minima trapping and inadequate handling of inherent uncertainties. In addressing these challenges, we propose leveraging deep generative models as the prior distribution of geophysical parameters for stochastic Bayesian inversion. This approach integrates the adjoint state gradient for efficient back-propagation from the numerical solution of partial differential equations. Additionally, we introduce explicit and implicit variational Bayesian inference methods. The explicit method computes variational distribution density using a normalizing flow-based neural network, enabling computation of the Bayesian posterior of parameters. Conversely, the implicit method employs an inference network attached to a pretrained generative model to estimate density, incorporating an entropy estimator. Furthermore, we also experimented with the Stein Variational Gradient Descent (SVGD) method as another variational inference technique, using particles. We compare these variational Bayesian inference methods with conventional Markov chain Monte Carlo (McMC) sampling. Each method is able to quantify uncertainties and to generate seismic data-conditioned realizations of subsurface geophysical parameters. This framework provides insights into subsurface structures while accounting for inherent uncertainties.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 多視点確率ブロックモデル

Multi-View Stochastic Block Models ( http://arxiv.org/abs/2406.04860v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Tommaso d'Orsi, Silvio Lattanzi, Rajai Nasser, (参考訳) グラフクラスタリングは教師なし学習における中心的なトピックであり、多くの実用的な応用がある。 近年、マルチビューグラフクラスタリングは、複数のデータソースにアクセス可能な実世界のインスタンスに適用可能であるとして、多くの注目を集めている。 本稿では,この設定を捉える新しいモデル群である「textit{multi-view stochastic block model」を定式化する。 本モデルでは,まず,複数のグラフの和合体をネーティブに扱う効率的なアルゴリズムについて検討する。 そこで本研究では,各グラフの構造を別々に解析することで,従来の手法を確実に上回るアルゴリズムを提案する。 さらに、このモデルでできることの限界を研究する情報理論的下界を用いて、その結果を補完する。 最後に,実験結果の相関性について検討した。

Graph clustering is a central topic in unsupervised learning with a multitude of practical applications. In recent years, multi-view graph clustering has gained a lot of attention for its applicability to real-world instances where one has access to multiple data sources. In this paper we formalize a new family of models, called \textit{multi-view stochastic block models} that captures this setting. For this model, we first study efficient algorithms that naively work on the union of multiple graphs. Then, we introduce a new efficient algorithm that provably outperforms previous approaches by analyzing the structure of each graph separately. Furthermore, we complement our results with an information-theoretic lower bound studying the limits of what can be done in this model. Finally, we corroborate our results with experimental evaluations.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 高忠実度3次元表面再構成のための正規誘導深部保存型ニューラルインシシデント関数

Normal-guided Detail-Preserving Neural Implicit Functions for High-Fidelity 3D Surface Reconstruction ( http://arxiv.org/abs/2406.04861v1 )

ライセンス: Link先を確認
Aarya Patel, Hamid Laga, Ojaswa Sharma, (参考訳) ニューラルな暗黙の表現は、3D再構成の強力なパラダイムとして現れている。 しかし、その成功にもかかわらず、既存の手法では微妙な幾何学的詳細や細い構造を捉えられなかった。 我々は、RGBまたはRGBD画像からニューラル暗示表現を学習する現在の手法は、0次微分特性、すなわち3次元表面点とその投影を監督信号としてのみ依存するため、欠落した部分と細部を持つ3D曲面を生成すると仮定する。 しかし、そのような性質は点の周りの局所的な3次元幾何学を捉えず、点間の相互作用を無視する。 本稿では,2つのRGB(前/後ろ)画像しか利用できない状況においても,1次微分特性,すなわち表面正規化による神経表現の訓練が高精度な3次元表面再構成をもたらすことを示す。 対象物の多視点RGB画像が与えられた場合、まずDepth Anythingモデルのような既製の単分子深度推定器を用いて生成した深度マップの勾配を用いて、画像空間の近似曲面正規度を計算する。 その後、暗黙の面回帰器は損失関数を用いて訓練され、この関数は回帰面の1階微分特性を強制し、深さの任意の値から推定される値に一致する。 提案手法は,RGBビューを2回も使用しても,前例のない精度で再現可能であることを示す。 詳細なアブレーション研究は、通常の監督が、これまで捕獲が困難だった複雑な幾何学的詳細と細い構造物の3D再構成を可能にする、この大幅な性能向上に重要な役割を担っていることも示している。

Neural implicit representations have emerged as a powerful paradigm for 3D reconstruction. However, despite their success, existing methods fail to capture fine geometric details and thin structures, especially in scenarios where only sparse RGB views of the objects of interest are available. We hypothesize that current methods for learning neural implicit representations from RGB or RGBD images produce 3D surfaces with missing parts and details because they only rely on 0-order differential properties, i.e. the 3D surface points and their projections, as supervisory signals. Such properties, however, do not capture the local 3D geometry around the points and also ignore the interactions between points. This paper demonstrates that training neural representations with first-order differential properties, i.e. surface normals, leads to highly accurate 3D surface reconstruction even in situations where only as few as two RGB (front and back) images are available. Given multiview RGB images of an object of interest, we first compute the approximate surface normals in the image space using the gradient of the depth maps produced using an off-the-shelf monocular depth estimator such as Depth Anything model. An implicit surface regressor is then trained using a loss function that enforces the first-order differential properties of the regressed surface to match those estimated from Depth Anything. Our extensive experiments on a wide range of real and synthetic datasets show that the proposed method achieves an unprecedented level of reconstruction accuracy even when using as few as two RGB views. The detailed ablation study also demonstrates that normal-based supervision plays a key role in this significant improvement in performance, enabling the 3D reconstruction of intricate geometric details and thin structures that were previously challenging to capture.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# ComplexTempQA: 複合時間質問回答のための大規模データセット

ComplexTempQA: A Large-Scale Dataset for Complex Temporal Question Answering ( http://arxiv.org/abs/2406.04866v1 )

ライセンス: Link先を確認
Raphael Gruber, Abdelrahman Abdallah, Michael Färber, Adam Jatowt, (参考訳) 時間的質問応答の課題に対処するために設計された1億以上の質問応答ペアからなる大規模データセットであるcomplexTempQAを紹介する。 ComplexTempQAは、HOTPOTQA、TORQUE、TEQUILAといった既存のベンチマークをスケールとスコープで大幅に上回っている。 WikipediaとWikidataのデータを利用して、データセットは20年以上にわたる質問をカバーし、さまざまなトピックを提供する。 質問を属性、比較、数える質問に分類するユニークな分類法を導入し、各質問はイベント、エンティティ、期間を中心に回転する。 ComplexTempQAの特長の1つは、その質問の複雑さの高さである。これは、時間的比較、時間的集約、時間的イベント順序付けとエンティティ認識を含むマルチホップ推論といった、回答の効果的な能力を要求するものである。 さらに、各質問には、特定の時間範囲を含む詳細なメタデータが伴い、大きな言語モデルの時間的推論能力の包括的な評価と強化を可能にする。 ComplexTempQAは高度なAIモデルを開発するための試験場として機能し、質問応答、情報検索、言語理解の研究を促進する基盤として機能する。 データセットとコードは、https://github.com/DataScienceUIBK/ComplexTempQA.comで無料で利用できる。

We introduce ComplexTempQA,a large-scale dataset consisting of over 100 million question-answer pairs designed to tackle the challenges in temporal question answering. ComplexTempQA significantly surpasses existing benchmarks like HOTPOTQA, TORQUE, and TEQUILA in scale and scope. Utilizing data from Wikipedia and Wikidata, the dataset covers questions spanning over two decades and offers an unmatched breadth of topics. We introduce a unique taxonomy that categorizes questions as attributes, comparisons, and counting questions, each revolving around events, entities, and time periods. One standout feature of ComplexTempQA is the high complexity of its questions, which demand effective capabilities for answering such as across-time comparison, temporal aggregation, and multi-hop reasoning involving temporal event ordering and entity recognition. Additionally, each question is accompanied by detailed metadata, including specific time scopes, allowing for comprehensive evaluation and enhancement of the temporal reasoning abilities of large language models. ComplexTempQA serves both as a testing ground for developing sophisticated AI models and as a foundation for advancing research in question answering, information retrieval, and language understanding. Dataset and code are freely available at: https://github.com/DataScienceUIBK/ComplexTempQA.
翻訳日:2024-06-10 14:20:58 公開日:2024-06-07
# 降水量予測の深層学習 : 時系列予測の観点から

Deep learning for precipitation nowcasting: A survey from the perspective of time series forecasting ( http://arxiv.org/abs/2406.04867v1 )

ライセンス: Link先を確認
Sojung An, Tae-Jin Oh, Eunha Sohn, Donghyun Kim, (参考訳) ディープラーニングに基づく時系列予測は、高解像度データセットにおける動きの流れを推定する能力の助けを借りて、短期降水予測分野を支配してきた。 降水に対する関心の高まりは、現在の予測技術の進歩にかなりの機会を与えている。 それでも、深層学習を用いた時系列降水予測の詳細な調査は乏しい。 そこで本研究では,時系列降水予測モデルの最新動向を体系的にレビューする。 具体的には、背景コンポーネント内の以下のキーポイントについて検討する。 i) 事前処理 二 目的的機能、及び 三 評価指標 次に、予測モデルを将来のフレームを予測するためのアプローチ、戦略を用いたモデルの影響、性能評価に基づいて、予測モデルを \textit{recursive} と \textit{multiple} の戦略に分類する。 最後に,降水予測のための現在のディープラーニングモデルの評価を行い,その限界と課題について議論し,いくつかの有望な研究方向性を示す。 私たちの貢献は、時系列の降水予測をより深く理解するための洞察を提供することと、将来の堅牢なAIソリューションの開発を支援することにあります。

Deep learning-based time series forecasting has dominated the short-term precipitation forecasting field with the help of its ability to estimate motion flow in high-resolution datasets. The growing interest in precipitation nowcasting offers substantial opportunities for the advancement of current forecasting technologies. Nevertheless, there has been a scarcity of in-depth surveys of time series precipitation forecasting using deep learning. Thus, this paper systemically reviews recent progress in time series precipitation forecasting models. Specifically, we investigate the following key points within background components, covering: i) preprocessing, ii) objective functions, and iii) evaluation metrics. We then categorize forecasting models into \textit{recursive} and \textit{multiple} strategies based on their approaches to predict future frames, investigate the impacts of models using the strategies, and performance assessments. Finally, we evaluate current deep learning-based models for precipitation forecasting on a public benchmark, discuss their limitations and challenges, and present some promising research directions. Our contribution lies in providing insights for a better understanding of time series precipitation forecasting and in aiding the development of robust AI solutions for the future.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# Perturb-and-Project:差分的にプライベートな類似点とマージナル

Perturb-and-Project: Differentially Private Similarities and Marginals ( http://arxiv.org/abs/2406.04868v1 )

ライセンス: Link先を確認
Vincent Cohen-Addad, Tommaso d'Orsi, Alessandro Epasto, Vahab Mirrokni, Peilin Zhong, (参考訳) A\in \mathcal{S}$にノイズが付加され、その結果が許容可能なデータセットの空間に投影される、差分プライバシーのための入力摂動フレームワークを再検討する。 このフレームワークを通じて、ペアワイズ・コサイン類似性をプライベートにリリースする、新しい効率的なアルゴリズムを最初に設計する。 第二に、$k$の辺縁クエリを$n$の機能に対して計算する新しいアルゴリズムを導出する。 以前の作業で同等の保証は$k$ evenでしか得られなかった。 さらに、我々のアルゴリズムは、$t\le n^{5/6}/\log n\, 最後に、なぜ textit{fast} 入力摂動アルゴリズムが実際にうまく機能するのかに関する理論的見解を提供する。 結果の背後にある重要な技術的要素は、解の集合のガウス的複雑さを上限とする2乗証明の厳密な和である。

We revisit the input perturbations framework for differential privacy where noise is added to the input $A\in \mathcal{S}$ and the result is then projected back to the space of admissible datasets $\mathcal{S}$. Through this framework, we first design novel efficient algorithms to privately release pair-wise cosine similarities. Second, we derive a novel algorithm to compute $k$-way marginal queries over $n$ features. Prior work could achieve comparable guarantees only for $k$ even. Furthermore, we extend our results to $t$-sparse datasets, where our efficient algorithms yields novel, stronger guarantees whenever $t\le n^{5/6}/\log n\,.$ Finally, we provide a theoretical perspective on why \textit{fast} input perturbation algorithms works well in practice. The key technical ingredients behind our results are tight sum-of-squares certificates upper bounding the Gaussian complexity of sets of solutions.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# 連続観察された非相互作用性フェルミオン系の拡散軌道におけるアンラベリング誘起絡み合い相転移

Unraveling-induced entanglement phase transition in diffusive trajectories of continuously monitored noninteracting fermionic systems ( http://arxiv.org/abs/2406.04869v1 )

ライセンス: Link先を確認
Moritz Eissler, Igor Lesanovsky, Federico Carollo, (参考訳) 一元的量子力学と散逸的確率効果の競合は、連続的な監視過程から生じるように、測定誘起相転移によって決定される。 ここでは、臨界測定率を超えると、多体系が突然、高絡み位相から低絡み位相に通過する。 エンタングルメント相転移の異なる視点を考察し、測定速度を一定に保ちながら、測定プロセス自体が修正されたときにそれらが出現するかどうかを考察する。 この考え方を説明するために、非相互作用性フェルミオン系を考察し、拡散検出プロセスに焦点をあてる。 より広範な数値シミュレーションにより、異なる二次作用素の測定を補間するに適した‘textit{unraveling parameter} が変化すると、システムは、領域法的な絡み合いを持つ位相から、システムサイズと対数的にスケールする位相への遷移を示す。 本研究は,ノイズ量子デバイスにおける量子相関の調整と,最適古典シミュレーション戦略の確立に関係していると考えられる。

The competition between unitary quantum dynamics and dissipative stochastic effects, as emerging from continuous-monitoring processes, can culminate in measurement-induced phase transitions. Here, a many-body system abruptly passes, when exceeding a critical measurement rate, from a highly entangled phase to a low-entanglement one. We consider a different perspective on entanglement phase transitions and explore whether these can emerge when the measurement process itself is modified, while keeping the measurement rate fixed. To illustrate this idea, we consider a noninteracting fermionic system and focus on diffusive detection processes. Through extensive numerical simulations, we show that, upon varying a suitable \textit{unraveling parameter} -- interpolating between measurements of different quadrature operators -- the system displays a transition from a phase with area-law entanglement to one where entanglement scales logarithmically with the system size. Our findings may be relevant for tailoring quantum correlations in noisy quantum devices and for conceiving optimal classical simulation strategies.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# トレーニング加速のためのバラエティバッチ選択

Diversified Batch Selection for Training Acceleration ( http://arxiv.org/abs/2406.04872v1 )

ライセンス: Link先を確認
Feng Hong, Yueming Lyu, Jiangchao Yao, Ya Zhang, Ivor W. Tsang, Yanfeng Wang, (参考訳) 大規模なデータセット上での現代の機械学習モデルの顕著な成功は、大規模なトレーニング時間とリソース消費を必要とすることが多い。 コスト削減のために、オンラインバッチ選択として知られる一般的な研究ラインは、トレーニングプロセス中に情報的サブセットを選択することを模索している。 近年の取り組みは、各サンプルの一般化への影響を測定することで進歩を遂げているが、それらの追加参照モデルへの依存は、そのような理想的なモデルが存在しない場合に、その実用的応用を本質的に制限している。 一方、バニラ参照モデルフリー手法は、データの独立的なスコア付けとサンプルワイドな選択を伴い、多様性を犠牲にして冗長性を誘導する。 このジレンマに対処するために,DivBS(Diversified Batch Selection)を提案する。 具体的には、前回のサンプルワイド基準の冗長性問題に対処するために、グループワイドの直交代表性を測定する新しい選択目標を定義し、原理化された選択効率の実現を提供する。 様々なタスクにわたる大規模な実験は、パフォーマンス・スピードアップトレードオフにおけるDivBSの顕著な優位性を示している。 コードは公開されている。

The remarkable success of modern machine learning models on large datasets often demands extensive training time and resource consumption. To save cost, a prevalent research line, known as online batch selection, explores selecting informative subsets during the training process. Although recent efforts achieve advancements by measuring the impact of each sample on generalization, their reliance on additional reference models inherently limits their practical applications, when there are no such ideal models available. On the other hand, the vanilla reference-model-free methods involve independently scoring and selecting data in a sample-wise manner, which sacrifices the diversity and induces the redundancy. To tackle this dilemma, we propose Diversified Batch Selection (DivBS), which is reference-model-free and can efficiently select diverse and representative samples. Specifically, we define a novel selection objective that measures the group-wise orthogonalized representativeness to combat the redundancy issue of previous sample-wise criteria, and provide a principled selection-efficient realization. Extensive experiments across various tasks demonstrate the significant superiority of DivBS in the performance-speedup trade-off. The code is publicly available.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# Ada-VE:アダプティブモーションを用いたトレーニング不要の一貫性ビデオ編集

Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior ( http://arxiv.org/abs/2406.04873v1 )

ライセンス: Link先を確認
Tanvir Mahmud, Mustafa Munir, Radu Marculescu, Diana Marculescu, (参考訳) ビデオ間合成モデルは、フレーム間の一貫したキャラクタ生成の確保、スムーズな時間遷移の維持、高速動作時の品質維持など、重要な課題に直面している。 完全クロスフレームの自己保持機構の導入により、文字の一貫性が向上したが、これは計算複雑性の増大によるものである。 この完全なクロスフレームの自己保持機構は冗長な詳細を組み込んでおり、計算コストのために共同で編集できるフレームの数を制限している。 さらに、フレーム間の注意の欠如は、時間的一貫性と視覚的品質に悪影響を及ぼす。 これらの制約に対処するために、意味的詳細と時間的一貫性を保ちながら、複雑さを大幅に低減する適応的な動き誘導型クロスフレームアテンション機構を提案する。 具体的には、連続するフレームの移動領域をクロスフレームアテンションに選択的に取り込み、光学的フローサンプリングに基づいて静止領域をわずかに含みます。 この技術により、余分な計算オーバーヘッドを伴わずに、共同で編集されたフレームの数が増加する。 ビデオ編集の長い期間、既存の手法はフレーム補間や、共同編集されたキーフレームからのフローワープに重点を置いており、しばしばぼやけたフレームや時間的一貫性を低下させる。 これを改善するために、共同編集フレームのKVキャッシュを導入し、すべての中間フレームで同じKVを再利用し、中間フレームの品質と時間的一貫性の両方を大幅に向上させる。 本手法は,従来の共同編集手法の約3倍のキーフレームの使用が可能であり,予測精度は良好である。 Ada-VEは、視覚的品質や時間的一貫性を損なうことなく、40フレームにわたって完全に拡張された自己アテンションを使用する場合、最大4倍のスピードアップを達成する。

Video-to-video synthesis models face significant challenges, such as ensuring consistent character generation across frames, maintaining smooth temporal transitions, and preserving quality during fast motion. The introduction of joint fully cross-frame self-attention mechanisms has improved character consistency, but this comes at the cost of increased computational complexity. This full cross-frame self-attention mechanism also incorporates redundant details and limits the number of frames that can be jointly edited due to its computational cost. Moreover, the lack of frames in cross-frame attention adversely affects temporal consistency and visual quality. To address these limitations, we propose a new adaptive motion-guided cross-frame attention mechanism that drastically reduces complexity while preserving semantic details and temporal consistency. Specifically, we selectively incorporate the moving regions of successive frames in cross-frame attention and sparsely include stationary regions based on optical flow sampling. This technique allows for an increased number of jointly edited frames without additional computational overhead. For longer duration of video editing, existing methods primarily focus on frame interpolation or flow-warping from jointly edited keyframes, which often results in blurry frames or reduced temporal consistency. To improve this, we introduce KV-caching of jointly edited frames and reuse the same KV across all intermediate frames, significantly enhancing both intermediate frame quality and temporal consistency. Overall, our motion-sampling method enables the use of around three times more keyframes than existing joint editing methods while maintaining superior prediction quality. Ada-VE achieves up to 4x speed-up when using fully-extended self-attention across 40 frames for joint editing, without compromising visual quality or temporal consistency.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# 3DRealCar:360度視界を備えたWild RGB-Dカーデータセット

3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views ( http://arxiv.org/abs/2406.04875v1 )

ライセンス: Link先を確認
Xiaobiao Du, Haiyang Sun, Shuyun Wang, Zhuojie Wu, Hongwei Sheng, Jiaying Ying, Ming Lu, Tianqing Zhu, Kun Zhan, Xin Yu, (参考訳) 3D車は一般的に、自動運転システム、バーチャル/拡張現実、ゲームで使われている。 しかし、既存の3Dカーデータセットは、合成または低品質であり、高品質な現実世界の3Dカーデータセットに対する大きなギャップを示し、実用シナリオにおけるそれらのアプリケーションを制限する。 本稿では,3DRealCarと呼ばれる,3つの特徴を備えた3次元実車データセットを提案する。 1) \textbf{High-Volume}:2,500台の車が3Dスキャナーによって慎重にスキャンされ、車の画像と実世界次元の点雲を取得する (2) \textbf{High-Quality}: それぞれの車が200個の密集した高解像度の360度RGB-Dビューで撮影され、高忠実度3D再構築を可能にする (3) \textbf{High-Diversity}: データセットには、反射、標準、暗さを含む3つの異なる照明条件下で収集された100以上のブランドの様々な車が含まれている。 さらに,自動車解析タスクの研究を促進するために,各インスタンスに詳細なカー解析マップを提供する。 さらに,背景の雲を除去し,背景と制御可能なレンダリングを伴わない車上でのみ、再建のための統一軸への車両配向を標準化する。 我々は,3DRealCarの照明条件毎に,最先端の手法を用いて3D再構成結果のベンチマークを行った。 広汎な実験により、3DRealCarの標準照明条件部は、多数の高品質な3D自動車を生産し、自動車に関連する様々な2Dおよび3Dタスクを改善することができることが示された。 特に、我々のデータセットは、反射および暗い照明条件下での高品質な3D車の再構築において、最近の3D再構成手法が課題に直面しているという事実を洞察する。 \textcolor{red}{\href{https://xiaobiaodu.github.io/3drealcar/}{Our データセットはここで入手できる。 (3)

3D cars are commonly used in self-driving systems, virtual/augmented reality, and games. However, existing 3D car datasets are either synthetic or low-quality, presenting a significant gap toward the high-quality real-world 3D car datasets and limiting their applications in practical scenarios. In this paper, we propose the first large-scale 3D real car dataset, termed 3DRealCar, offering three distinctive features. (1) \textbf{High-Volume}: 2,500 cars are meticulously scanned by 3D scanners, obtaining car images and point clouds with real-world dimensions; (2) \textbf{High-Quality}: Each car is captured in an average of 200 dense, high-resolution 360-degree RGB-D views, enabling high-fidelity 3D reconstruction; (3) \textbf{High-Diversity}: The dataset contains various cars from over 100 brands, collected under three distinct lighting conditions, including reflective, standard, and dark. Additionally, we offer detailed car parsing maps for each instance to promote research in car parsing tasks. Moreover, we remove background point clouds and standardize the car orientation to a unified axis for the reconstruction only on cars without background and controllable rendering. We benchmark 3D reconstruction results with state-of-the-art methods across each lighting condition in 3DRealCar. Extensive experiments demonstrate that the standard lighting condition part of 3DRealCar can be used to produce a large number of high-quality 3D cars, improving various 2D and 3D tasks related to cars. Notably, our dataset brings insight into the fact that recent 3D reconstruction methods face challenges in reconstructing high-quality 3D cars under reflective and dark lighting conditions. \textcolor{red}{\href{https://xiaobiaodu.github.io/3drealcar/}{Our dataset is available here.}}
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# HateDebias:Hate Speech Debiasingの多様性と多様性について

HateDebias: On the Diversity and Variability of Hate Speech Debiasing ( http://arxiv.org/abs/2406.04876v1 )

ライセンス: Link先を確認
Nankai Lin, Hongyan Wu, Zhengming Chen, Zijian Li, Lianxi Wang, Shengyi Jiang, Dong Zhou, Aimin Yang, (参考訳) ソーシャルメディア上でのヘイトスピーチは至るところで行われているが、緊急に制御されている。 ヘイトスピーチによってもたらされるバイアスを検出および緩和することなく、様々な種類の倫理的問題が生じる。 ヘイトスピーチ検出の問題を解決するために、多くのデータセットが提案されているが、これらのデータセットはバイアスの多様性と可変性をほとんど考慮しておらず、現実のシナリオとはかけ離れている。 このギャップを埋めるために、HateDebiasというベンチマークを提案し、連続的かつ変化する環境下でのヘイトスピーチ検出のモデル能力を分析する。 具体的には、バイアスの多様性を満たすために、さまざまな種類のバイアスを持つ既存のヘイトスピーチ検出データセットを収集します。 変動性(すなわちデータセットにおけるバイアス属性の変化)を更に満たすため、データセットを継続的学習設定に従って再編成する。 我々は,HateDebiasの性能を1種類のバイアスで学習したモデルの検出精度を評価する。 さらに,学習の継続とバイアス情報の正規化に基づくデバイアス化フレームワークと,モデルのデバイアス化能力を確保するためのメモリ再生戦略を提案する。 提案したベンチマークによる実験結果から, 上記の手法は, 実世界の応用において, 顕著なマージンでいくつかのベースラインを向上し, 有効性を強調した。

Hate speech on social media is ubiquitous but urgently controlled. Without detecting and mitigating the biases brought by hate speech, different types of ethical problems. While a number of datasets have been proposed to address the problem of hate speech detection, these datasets seldom consider the diversity and variability of bias, making it far from real-world scenarios. To fill this gap, we propose a benchmark, named HateDebias, to analyze the model ability of hate speech detection under continuous, changing environments. Specifically, to meet the diversity of biases, we collect existing hate speech detection datasets with different types of biases. To further meet the variability (i.e., the changing of bias attributes in datasets), we reorganize datasets to follow the continuous learning setting. We evaluate the detection accuracy of models trained on the datasets with a single type of bias with the performance on the HateDebias, where a significant performance drop is observed. To provide a potential direction for debiasing, we further propose a debiasing framework based on continuous learning and bias information regularization, as well as the memory replay strategies to ensure the debiasing ability of the model. Experiment results on the proposed benchmark show that the aforementioned method can improve several baselines with a distinguished margin, highlighting its effectiveness in real-world applications.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# パラメータ効率の良い選好アライメント手法のトレードオフ

A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques ( http://arxiv.org/abs/2406.04879v1 )

ライセンス: Link先を確認
Megh Thakkar, Quentin Fournier, Matthew D Riemer, Pin-Yu Chen, Amal Zouaq, Payel Das, Sarath Chandar, (参考訳) 大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。 計算に必要なため、ほとんどの研究者にとって事前学習は到達できないが、LoRAやQLoRAのようなパラメータ効率のよい手法のおかげで、微調整は安価になっている。 アライメントは、データ量や品質、アライメント方法、アダプタランクなど、関連する多くの要因に敏感であることが知られている。 しかし、下流性能に対する影響については、まだ広くは研究されていない。 このギャップに対処するため、我々は3つの重要な軸に対する人気選択の影響を詳細に調査する。 (i)アライメントデータセット(HH-RLHF及びビーバータイル) (二)アライメント技術(SFT、DPO)、及び 三 モデル(LLaMA-1、Vicuna-v1.3、Mistral-7b、Mistral-7b-Instruct) 300以上の実験にまたがる大規模なセットアップでは、一貫した傾向と予期せぬ結果が明らかになっている。 我々は、より情報的なデータが選好アライメントにどのように役立つか、教師付き微調整が選好最適化に優れた場合、そして、異なる選好に合わせることで下流タスクのパフォーマンスが向上するかを観察する。 詳細な分析を通じて、研究者がより効果的なパラメータ効率の高いLCMアライメントを行うのを助けるための鍵となるガイドラインを提示した。

Large language models are first pre-trained on trillions of tokens and then instruction-tuned or aligned to specific preferences. While pre-training remains out of reach for most researchers due to the compute required, fine-tuning has become affordable thanks to parameter-efficient methods such as LoRA and QLoRA. Alignment is known to be sensitive to the many factors involved, including the quantity and quality of data, the alignment method, and the adapter rank. However, there has not yet been an extensive study of their effect on downstream performance. To address this gap, we conduct an in-depth investigation of the impact of popular choices for three crucial axes: (i) the alignment dataset (HH-RLHF and BeaverTails), (ii) the alignment technique (SFT and DPO), and (iii) the model (LLaMA-1, Vicuna-v1.3, Mistral-7b, and Mistral-7b-Instruct). Our extensive setup spanning over 300 experiments reveals consistent trends and unexpected findings. We observe how more informative data helps with preference alignment, cases where supervised fine-tuning outperforms preference optimization, and how aligning to a distinct preference boosts performance on downstream tasks. Through our in-depth analyses, we put forward key guidelines to help researchers perform more effective parameter-efficient LLM alignment.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# InstructNav: 未知環境におけるジェネリックインストラクションナビゲーションのためのゼロショットシステム

InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment ( http://arxiv.org/abs/2406.04882v1 )

ライセンス: Link先を確認
Yuxing Long, Wenzhe Cai, Hongcheng Wang, Guanqi Zhan, Hao Dong, (参考訳) 探索されていない環境で、多様な言語指示に従うロボットをナビゲートすることは、人間とロボットの相互作用にとって魅力的な目標である。 しかし、異なるナビゲーションタスクは異なる戦略を必要とするため、この目標は難しい。 指示ナビゲーションデータの不足は、様々な戦略で指示ナビゲーションモデルを訓練する妨げとなる。 したがって、従来の手法はすべて、特定の種類のナビゲーション命令に制約される。 本研究では,汎用的な命令ナビゲーションシステムであるInstructNavを提案する。 InstructNavは、ナビゲーショントレーニングやビルド済みのマップを使わずに、さまざまな命令ナビゲーションタスクを最初に処理する。 この目標を達成するために、異なる種類のナビゲーション命令の計画プロセスを統合するために、ダイナミック・チェーン・オブ・ナビゲーション(DCoN)を導入する。 さらに,命令ナビゲーションにおける重要な要素をモデル化して,言語的DCoN計画をロボットの動作可能な軌道に変換するためのマルチソース値マップを提案する。 InstructNavでは、R2R-CEタスクを初めてゼロショットで完了し、多くのタスク学習方法より優れています。 さらに、InstructNavは、ゼロショットのHabitat ObjNavで10.48%、需要駆動ナビゲーションDDNで86.34%、以前のSOTAメソッドを10.48%上回る。 屋内の多様なシーンにおける実ロボット実験は、環境に対処する上での手法の頑健さと指導のバリエーションをさらに示している。

Enabling robots to navigate following diverse language instructions in unexplored environments is an attractive goal for human-robot interaction. However, this goal is challenging because different navigation tasks require different strategies. The scarcity of instruction navigation data hinders training an instruction navigation model with varied strategies. Therefore, previous methods are all constrained to one specific type of navigation instruction. In this work, we propose InstructNav, a generic instruction navigation system. InstructNav makes the first endeavor to handle various instruction navigation tasks without any navigation training or pre-built maps. To reach this goal, we introduce Dynamic Chain-of-Navigation (DCoN) to unify the planning process for different types of navigation instructions. Furthermore, we propose Multi-sourced Value Maps to model key elements in instruction navigation so that linguistic DCoN planning can be converted into robot actionable trajectories. With InstructNav, we complete the R2R-CE task in a zero-shot way for the first time and outperform many task-training methods. Besides, InstructNav also surpasses the previous SOTA method by 10.48% on the zero-shot Habitat ObjNav and by 86.34% on demand-driven navigation DDN. Real robot experiments on diverse indoor scenes further demonstrate our method's robustness in coping with the environment and instruction variations.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# 見えないビデオを見る:ビデオのためのビジュアルメタファーキャプション

Seeing the Unseen: Visual Metaphor Captioning for Videos ( http://arxiv.org/abs/2406.04886v1 )

ライセンス: Link先を確認
Abisek Rajakumar Kalarani, Pushpak Bhattacharyya, Sumit Shekhar, (参考訳) メタファーは私たちの日常生活でよく使われるコミュニケーションツールです。 テキスト形式のメタファーの検出と生成は広く研究されてきたが、他の形式のメタファーは未発見のままである。 近年の研究では、VLモデルはミームや広告の視覚的メタファーを理解できないことが示されている。 現在、ビデオのメタファーのような複雑な言語現象に関する調査は行われていない。 そこで本研究では,ビデオのメタファを記述した新たなVLタスクを提案する。 この作業を容易にするために,705本の動画と2115本の人書きキャプションを手作業で作成したデータセットと,ACD(Average Concept Distance)と呼ばれる新しいメトリクスを構築し,メタファの創造性を自動評価する。 また,提案課題における SoTA ビデオ言語モデルに匹敵する性能を持つ低リソースなビデオメタファキャプションシステム GIT-LLaVA を提案する。 このタスク上で既存のビデオ言語モデルを包括的に分析し、データセット、モデル、ベンチマーク結果を公開し、さらなる研究を可能にする。

Metaphors are a common communication tool used in our day-to-day life. The detection and generation of metaphors in textual form have been studied extensively but metaphors in other forms have been under-explored. Recent studies have shown that Vision-Language (VL) models cannot understand visual metaphors in memes and adverts. As of now, no probing studies have been done that involve complex language phenomena like metaphors with videos. Hence, we introduce a new VL task of describing the metaphors present in the videos in our work. To facilitate this novel task, we construct and release a manually created dataset with 705 videos and 2115 human-written captions, along with a new metric called Average Concept Distance (ACD), to automatically evaluate the creativity of the metaphors generated. We also propose a novel low-resource video metaphor captioning system: GIT-LLaVA, which obtains comparable performance to SoTA video language models on the proposed task. We perform a comprehensive analysis of existing video language models on this task and publish our dataset, models, and benchmark results to enable further research.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# 適応スライディングスコア蒸留によるゼロショット映像編集

Zero-Shot Video Editing through Adaptive Sliding Score Distillation ( http://arxiv.org/abs/2406.04888v1 )

ライセンス: Link先を確認
Lianghan Zhu, Yanqi Bao, Jing Huo, Jing Wu, Yu-Kun Lai, Wenbin Li, Yang Gao, (参考訳) テキストベースのビデオ生成(T2V)の急成長する分野は、制御可能なビデオ編集の研究に再び関心を寄せている。 トレーニング済みのT2Vベースの編集モデルは効率的な編集機能を実現しているが、現在の作業は2つの大きな課題に悩まされている。 第一に、T2Vモデル固有の制限は、フレーム間のコンテンツの不整合と運動の不連続をもたらす。 第二に、過剰編集という悪名高い問題は、未解決の領域を著しく破壊する。 これらの課題に対処するため,本研究は,スコア蒸留に基づくロバストなビデオベースの編集パラダイムを探求することを目的としている。 具体的には、T2V監視の安定性を高めるだけでなく、グローバルとローカルの両方の動画誘導を取り入れた適応スライディングスコア蒸留方式を提案する。 さらに,編集中の自己注意層を修正して,オリジナルビデオの重要な特徴をさらに保存する。 これらの戦略により,既存の最先端手法と比較して編集性能が向上し,上記の課題に効果的に対処できることが実証された。

The burgeoning field of text-based video generation (T2V) has reignited significant interest in the research of controllable video editing. Although pre-trained T2V-based editing models have achieved efficient editing capabilities, current works are still plagued by two major challenges. Firstly, the inherent limitations of T2V models lead to content inconsistencies and motion discontinuities between frames. Secondly, the notorious issue of over-editing significantly disrupts areas that are intended to remain unaltered. To address these challenges, our work aims to explore a robust video-based editing paradigm based on score distillation. Specifically, we propose an Adaptive Sliding Score Distillation strategy, which not only enhances the stability of T2V supervision but also incorporates both global and local video guidance to mitigate the impact of generation errors. Additionally, we modify the self-attention layers during the editing process to further preserve the key features of the original video. Extensive experiments demonstrate that these strategies enable us to effectively address the aforementioned challenges, achieving superior editing performance compared to existing state-of-the-art methods.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# 低データ環境における合成データによる室内温度予測の強化

Enhancing Indoor Temperature Forecasting through Synthetic Data in Low-Data Environments ( http://arxiv.org/abs/2406.04890v1 )

ライセンス: Link先を確認
Zachari Thiry, Massimiliano Ruocco, Alessandro Nocente, Michail Spitieris, (参考訳) HVACシステムの効率的な制御を実現するためには,室内温度予測が重要である。 このタスクでは、利用可能なデータの大部分は、極端なシナリオや、大規模な温度上昇や減少といった過渡的な状態が非現実的に排除される標準的な操作中に取得されるため、データ可用性の制限が課題となる。 このようなデータの取得にはかなりのエネルギー消費と専用の施設が必要であり、利用可能なデータの量と多様性を妨げる。 しかし、コスト関連の制約は年単位の買収を許さない。 そこで本研究では,SoTA AIを用いた合成データ生成手法を用いたデータ拡張手法の有効性について検討する。 そこで本研究では,実データと合成データの融合戦略を探求し,予測モデルの改善を図る。 このアプローチは、特に建物の繰り返し加熱と冷却サイクルを含む文脈において、広範囲の時系列データを継続的に取得する必要性を緩和する。 評価において 1) 合成データ生成装置の性能を独立して評価する。 2)2つの異なるシナリオで単純なモデルを用いた後続の予測タスクに合成強化データを組み込むことの有用性を計測する。 1) 実データと合成データを組み合わせてトレーニングデータセットを拡大する拡張手法をまず検討する。 2)データセットの不均衡に対処するために合成データを活用することを検討する。 本研究は, トレーニング分散を緩和しつつ, 予測精度を高めるための合成データ拡張の可能性を強調した。 実験により, 合成データの統合により, 低データ状態下でのより堅牢な予測モデルの実現が期待できることを示す。

Forecasting indoor temperatures is important to achieve efficient control of HVAC systems. In this task, the limited data availability presents a challenge as most of the available data is acquired during standard operation where extreme scenarios and transitory regimes such as major temperature increases or decreases are de-facto excluded. Acquisition of such data requires significant energy consumption and a dedicated facility, hindering the quantity and diversity of available data. Cost related constraints however do not allow for continuous year-around acquisition. To address this, we investigate the efficacy of data augmentation techniques leveraging SoTA AI-based methods for synthetic data generation. Inspired by practical and experimental motivations, we explore fusion strategies of real and synthetic data to improve forecasting models. This approach alleviates the need for continuously acquiring extensive time series data, especially in contexts involving repetitive heating and cooling cycles in buildings. In our evaluation 1) we assess the performance of synthetic data generators independently, particularly focusing on SoTA AI-based methods; 2) we measure the utility of incorporating synthetically augmented data in a subsequent forecasting tasks where we employ a simple model in two distinct scenarios: 1) we first examine an augmentation technique that combines real and synthetically generated data to expand the training dataset, 2) we delve into utilizing synthetic data to tackle dataset imbalances. Our results highlight the potential of synthetic data augmentation in enhancing forecasting accuracy while mitigating training variance. Through empirical experiments, we show significant improvements achievable by integrating synthetic data, thereby paving the way for more robust forecasting models in low-data regime.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# 固有共振器リセットによる分散量子ビット読み出し

Dispersive Qubit Readout with Intrinsic Resonator Reset ( http://arxiv.org/abs/2406.04891v1 )

ライセンス: Link先を確認
M. Jerger, F. Motzoi, Y. Gao, C. Dickel, L. Buchmann, A. Bengtsson, G. Tancredi, Ch. Warren, J. Bylander, D. DiVincenzo, R. Barends, P. A. Bushev, (参考訳) 量子コンピューティングにおける重要な課題は、測定と初期化のスピードアップである。 ここでは、量子ビットを同時に測定し、読み出し共振器を初期状態に戻す超伝導量子ビットの分散測定法を実験的に示す。 この手法は普遍的な解析パルスに基づいており、量子ビットおよび共振器パラメータの知識を必要とするが、システムの非線形性を考慮してもパルス形状を直接最適化する必要はない。 さらに、任意のモードと状態の測定に一般化する。 qubitreadoutでは、共振器を$\sim 10^2$ photonsに、$\sim 10^{-3}$ photonsを$3 \kappa^{-1}$に戻すことができる。 また,四重項読み出しのための普遍パルス形状と実験結果も提示する。

A key challenge in quantum computing is speeding up measurement and initialization. Here, we experimentally demonstrate a dispersive measurement method for superconducting qubits that simultaneously measures the qubit and returns the readout resonator to its initial state. The approach is based on universal analytical pulses and requires knowledge of the qubit and resonator parameters, but needs no direct optimization of the pulse shape, even when accounting for the nonlinearity of the system. Moreover, the method generalizes to measuring an arbitrary number of modes and states. For the qubit readout, we can drive the resonator to $\sim 10^2$ photons and back to $\sim 10^{-3}$ photons in less than $3 \kappa^{-1}$, while still achieving a $T_1$-limited assignment error below 1\%. We also present universal pulse shapes and experimental results for qutrit readout.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# データダイエットにおける性行為検出

Sexism Detection on a Data Diet ( http://arxiv.org/abs/2406.04892v1 )

ライセンス: Link先を確認
Rabiraj Bandyopadhyay, Dennis Assenmacher, Jose M. Alonso Moral, Claudia Wagner, (参考訳) ソーシャルメディアの利用の増加に伴い、オンライン憎悪の急増が相次いでいる。 これに対し、自然言語処理とディープラーニングを基盤としたアプローチを用いて有害なテキストコンテンツを特定することを目的とした自動化ツールの開発も、大きな進歩を遂げている。 ディープラーニングモデルのトレーニングには大量のアノテートデータが必要であることが知られているが、最近の研究は、データの特定のサブセットでトレーニングされたモデルは、完全なデータセットでトレーニングされたモデルに匹敵するパフォーマンスを維持していることを示唆している。 本研究では,モデルを訓練し,セクシズム検出に応用したプルーニング戦略を設計しながら,インフルエンススコアを利用して,データポイントの重要性を推定する方法を示す。 3つのドメイン外のデータセットで異なるプルーニング戦略で訓練されたデータに対してトレーニングされたモデル性能を評価し、他の作業に応じて、大量のインスタンスを大幅なパフォーマンス低下なしに除去できることを見出した。 しかし、以前自然言語推論タスクで成功していたデータの刈取戦略は、有害なコンテンツの検出に容易に適用できず、すでに普及しているクラスの不均衡をさらに増幅し、最悪の場合、憎悪なクラスが完全に欠落することにつながることも判明した。

There is an increase in the proliferation of online hate commensurate with the rise in the usage of social media. In response, there is also a significant advancement in the creation of automated tools aimed at identifying harmful text content using approaches grounded in Natural Language Processing and Deep Learning. Although it is known that training Deep Learning models require a substantial amount of annotated data, recent line of work suggests that models trained on specific subsets of the data still retain performance comparable to the model that was trained on the full dataset. In this work, we show how we can leverage influence scores to estimate the importance of a data point while training a model and designing a pruning strategy applied to the case of sexism detection. We evaluate the model performance trained on data pruned with different pruning strategies on three out-of-domain datasets and find, that in accordance with other work a large fraction of instances can be removed without significant performance drop. However, we also discover that the strategies for pruning data, previously successful in Natural Language Inference tasks, do not readily apply to the detection of harmful content and instead amplify the already prevalent class imbalance even more, leading in the worst-case to a complete absence of the hateful class.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# オペレーターエンタングルメント成長は細胞オートマトンの複雑さを定量化する

Operator entanglement growth quantifies complexity of cellular automata ( http://arxiv.org/abs/2406.04895v1 )

ライセンス: Link先を確認
Wout Merbis, Calvin Bakker, (参考訳) セルラーオートマトン(CA)は、単純な局所的な相互作用規則が複雑で複雑な創発現象を大規模に導くシステムの例である。 CAの様々な種類の力学挙動は、通常、ウルフラムの複雑性クラスに経験的に分類される。 本稿では,古典的決定論的セルオートマトンを複雑に分類するために,量子情報理論に根ざした定量的尺度を提案する。 具体的には、すべての可能なCA構成の空間上に遷移行列の行列積演算子(MPO)を構築する。 我々は,MPOの特異値スペクトルのエントロピーの増大がCAの複雑さを明らかにし,その動的挙動を特徴付けることができることを示した。 この尺度はCAの作用素エンタングルメントエントロピーの概念を定義し、量子情報測度が古典的決定論システムに有意義に適用可能であることを示した。

Cellular automata (CA) exemplify systems where simple local interaction rules can lead to intricate and complex emergent phenomena at large scales. The various types of dynamical behavior of CA are usually categorized empirically into Wolfram's complexity classes. Here, we propose a quantitative measure, rooted in quantum information theory, to categorize the complexity of classical deterministic cellular automata. Specifically, we construct a Matrix Product Operator (MPO) of the transition matrix on the space of all possible CA configurations. We find that the growth of entropy of the singular value spectrum of the MPO reveals the complexity of the CA and can be used to characterize its dynamical behavior. This measure defines the concept of operator entanglement entropy for CA, demonstrating that quantum information measures can be meaningfully applied to classical deterministic systems.
翻訳日:2024-06-10 14:11:13 公開日:2024-06-07
# マクロリン拡張による極端Q-ラーニングの安定化

Stabilizing Extreme Q-learning by Maclaurin Expansion ( http://arxiv.org/abs/2406.04896v1 )

ライセンス: Link先を確認
Motoki Omura, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada, (参考訳) エクストリームQ学習(XQL)では、Gumbel回帰を仮定したGumbel分布を用いて誤差分布を行う。 これにより、分配動作をサンプリングすることなく値関数の学習が可能となり、主にオフラインRLの性能が向上した。 しかし、損失関数の指数項が不安定を引き起こし、ガムベル分布から発散する誤差分布の可能性を含む問題が残った。 そこで我々は,安定性を高めるために,マクロリン拡張エクストリームQ学習を提案する。 この方法では、XQLの損失関数にマクロリン拡張を適用することにより、大きなエラーに対する安定性が向上する。 また、拡張順序に基づいて正規からガンベルへの誤差分布の仮定を調整することもできる。 提案手法は,従来XQLが不安定であったDM制御からオンラインRLタスクの学習を著しく安定化させる。 さらに、XQLがすでに優れた結果を示しているD4RLから、いくつかのオフラインRLタスクのパフォーマンスも向上している。

In Extreme Q-learning (XQL), Gumbel Regression is performed with an assumed Gumbel distribution for the error distribution. This allows learning of the value function without sampling out-of-distribution actions and has shown excellent performance mainly in Offline RL. However, issues remained, including the exponential term in the loss function causing instability and the potential for an error distribution diverging from the Gumbel distribution. Therefore, we propose Maclaurin Expanded Extreme Q-learning to enhance stability. In this method, applying Maclaurin expansion to the loss function in XQL enhances stability against large errors. It also allows adjusting the error distribution assumption from normal to Gumbel based on the expansion order. Our method significantly stabilizes learning in Online RL tasks from DM Control, where XQL was previously unstable. Additionally, it improves performance in several Offline RL tasks from D4RL, where XQL already showed excellent results.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# リンク予測から予測へ:バッチベースの時間グラフ学習における情報損失

From Link Prediction to Forecasting: Information Loss in Batch-based Temporal Graph Learning ( http://arxiv.org/abs/2406.04897v1 )

ライセンス: Link先を確認
Moritz Lampert, Christopher Blöcker, Ingo Scholtes, (参考訳) 動的リンク予測は、時間的エッジパターンを学習するための様々なアプローチを提案する最近の多くの研究で考慮されている重要な問題である。 有効性を評価するために、モデルを、連続時間および離散時間時間時間時間グラフを含む、公開可能なベンチマークデータセットで評価する。 しかし、本研究で示すように、共通のバッチ指向評価の適合性はデータセットの特性に依存するため、2つの問題を引き起こす可能性がある。 第二に、離散時間時間時間グラフの場合、バッチのシーケンスはデータに存在しない時間的依存関係を付加することができる。 本研究では,この共通評価手法がモデル性能を損なうことを実証的に示し,手法の公正な比較を妨げていることを示す。 動的リンク予測をリンク予測タスクとして再構成することで、この問題を緩和する。 本稿では,一般的なグラフ学習フレームワークに対する新しい評価手法の実装について述べる。

Dynamic link prediction is an important problem considered by many recent works proposing various approaches for learning temporal edge patterns. To assess their efficacy, models are evaluated on publicly available benchmark datasets involving continuous-time and discrete-time temporal graphs. However, as we show in this work, the suitability of common batch-oriented evaluation depends on the datasets' characteristics, which can cause two issues: First, for continuous-time temporal graphs, fixed-size batches create time windows with different durations, resulting in an inconsistent dynamic link prediction task. Second, for discrete-time temporal graphs, the sequence of batches can additionally introduce temporal dependencies that are not present in the data. In this work, we empirically show that this common evaluation approach leads to skewed model performance and hinders the fair comparison of methods. We mitigate this problem by reformulating dynamic link prediction as a link forecasting task that better accounts for temporal information present in the data. We provide implementations of our new evaluation method for commonly used graph learning frameworks.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# カテゴリー発見のためのラベル付きデータ選択

Labeled Data Selection for Category Discovery ( http://arxiv.org/abs/2406.04898v1 )

ライセンス: Link先を確認
Bingchen Zhao, Nico Lang, Serge Belongie, Oisin Mac Aodha, (参考訳) カテゴリー発見手法は、ラベルのない視覚データに新しいカテゴリを見つけることを目的としている。 トレーニング時にはラベル付き画像とラベルなし画像のセットが提供され、ラベルは画像に存在するカテゴリに対応する。 ラベル付きデータは、ラベルなしデータの発見にどのような視覚特性や特徴が関係しているかを示すことによって、トレーニング中のガイダンスを提供する。 その結果、ラベル付けされた集合に存在する圏を変更することは、ラベル付けされていない集合で最終的に発見されるものに大きな影響を与える。 その重要性にもかかわらず、ラベル付きデータ選択の影響は、今までのカテゴリ発見文献では調査されていない。 ラベル付きデータの変更が発見性能に大きな影響を及ぼすことを示す。 そこで本研究では,ラベル付きデータとラベルなしデータとの類似性に基づいて,最適なラベル付きデータを自動的に選択する2つの新しい手法を提案する。 我々の観察では、従来の教師ありトランスファーラーニングとは異なり、最高のラベル付けは、ラベル付けされていないカテゴリとあまり似ていないし、相容れないものでもない。 結果として得られたアプローチは、難易度の高いベンチマークデータセットにまたがって、最先端の発見性能を得る。

Category discovery methods aim to find novel categories in unlabeled visual data. At training time, a set of labeled and unlabeled images are provided, where the labels correspond to the categories present in the images. The labeled data provides guidance during training by indicating what types of visual properties and features are relevant for performing discovery in the unlabeled data. As a result, changing the categories present in the labeled set can have a large impact on what is ultimately discovered in the unlabeled set. Despite its importance, the impact of labeled data selection has not been explored in the category discovery literature to date. We show that changing the labeled data can significantly impact discovery performance. Motivated by this, we propose two new approaches for automatically selecting the most suitable labeled data based on the similarity between the labeled and unlabeled data. Our observation is that, unlike in conventional supervised transfer learning, the best labeled is neither too similar, nor too dissimilar, to the unlabeled categories. Our resulting approaches obtains state-of-the-art discovery performance across a range of challenging fine-grained benchmark datasets.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# Sliding Window 3-Objective Pareto Optimization for Problems with Chance Constraints

Sliding Window 3-Objective Pareto Optimization for Problems with Chance Constraints ( http://arxiv.org/abs/2406.04899v1 )

ライセンス: Link先を確認
Frank Neumann, Carsten Witt, (参考訳) 制約付き単目的問題はしばしば、制約を新たな目的に緩和する進化的多目的アルゴリズムによって取り組まれている。 近年,両対象モデルを用いたPareto最適化手法は,スライディングウインドウ(Neumann and Witt, ECAI 2023)を用いて大幅に高速化できることが示されている。 本稿では,確率制約問題に対処するために,スライディングウインドウアプローチを3ドルオブジェクトの定式化に拡張する。 理論的には,我々の新しいスライディングウインドウアプローチは,同じ近似保証を維持しつつ,以前のランタイム境界(Neumann and Witt, GECCO 2023)を改善したことを示す。 制約付き支配集合問題に対する実験的研究は、我々の新しいスライディングウインドウアプローチにより、(Neumann and Witt, GECCO 2023)の3目的のアプローチよりもはるかに効率的な方法で、はるかに大きなインスタンスを解決できることを示している。

Constrained single-objective problems have been frequently tackled by evolutionary multi-objective algorithms where the constraint is relaxed into an additional objective. Recently, it has been shown that Pareto optimization approaches using bi-objective models can be significantly sped up using sliding windows (Neumann and Witt, ECAI 2023). In this paper, we extend the sliding window approach to $3$-objective formulations for tackling chance constrained problems. On the theoretical side, we show that our new sliding window approach improves previous runtime bounds obtained in (Neumann and Witt, GECCO 2023) while maintaining the same approximation guarantees. Our experimental investigations for the chance constrained dominating set problem show that our new sliding window approach allows one to solve much larger instances in a much more efficient way than the 3-objective approach presented in (Neumann and Witt, GECCO 2023).
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# 積分プライベートモデルのアンサンブルを用いたコンセプトドリフト検出

Concept Drift Detection using Ensemble of Integrally Private Models ( http://arxiv.org/abs/2406.04903v1 )

ライセンス: Link先を確認
Ayush K. Varshney, Vicenc Torra, (参考訳) ディープニューラルネットワーク(Deep Neural Network, DNN)は、最も広く使われている機械学習アルゴリズムの1つである。 DNNは、トレーニングデータを真のラベルで事前に利用する必要がある。 これは、ストリーミング形式でデータが到着し、真のラベルの取得が不十分でコストがかかる多くの現実的な問題にとって実現不可能である。 文献では、データが頻繁に配信を変える可能性があるストリーミングデータのプライバシーの見通しにはあまり焦点が当てられていない。 これらの概念は、DNNからの開示リスクを避けるために、プライベートに検出されなければならない。 既存のプライバシモデルでは、ADWINやKSWINといったコンセプトドリフト検出スキームを使用してドリフトを検出する。 本稿では,概念ドリフトを検出するために,統合プライベートなDNNの概念に焦点を当てる。 統合プライベートDNNは、異なるデータセットから頻繁に再帰するモデルである。 そこで本研究では,プライベートモデルから概念ドリフトを検出するために,"IPDD(Integrally Private Drift Detection)"と呼ばれるアンサンブル手法を提案する。 我々のIPDD法はドリフトを検出するためにラベルを必要としないが、ドリフトを検出すると真のラベルが利用できると仮定する。 我々は、バイナリおよびマルチクラス合成および実世界のデータの実験を行った。 実験の結果,提案手法は概念のドリフトをプライベートに検出でき,ADWINと同等の実用性(場合によっては優れている)を持ち,異なるレベルの差分プライベートモデルから実用性を上回っていることがわかった。 この論文のソースコードは \hyperlink{https://github.com/Ayush-Umu/Concept-drift-detection-Using-Integrally-private-models}{here} で公開されている。

Deep neural networks (DNNs) are one of the most widely used machine learning algorithm. DNNs requires the training data to be available beforehand with true labels. This is not feasible for many real-world problems where data arrives in the streaming form and acquisition of true labels are scarce and expensive. In the literature, not much focus has been given to the privacy prospect of the streaming data, where data may change its distribution frequently. These concept drifts must be detected privately in order to avoid any disclosure risk from DNNs. Existing privacy models use concept drift detection schemes such ADWIN, KSWIN to detect the drifts. In this paper, we focus on the notion of integrally private DNNs to detect concept drifts. Integrally private DNNs are the models which recur frequently from different datasets. Based on this, we introduce an ensemble methodology which we call 'Integrally Private Drift Detection' (IPDD) method to detect concept drift from private models. Our IPDD method does not require labels to detect drift but assumes true labels are available once the drift has been detected. We have experimented with binary and multi-class synthetic and real-world data. Our experimental results show that our methodology can privately detect concept drift, has comparable utility (even better in some cases) with ADWIN and outperforms utility from different levels of differentially private models. The source code for the paper is available \hyperlink{https://github.com/Ayush-Umu/Concept-drift-detection-Using-Integrally-private-models}{here}.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# XTTS:超多言語ゼロショットテキスト音声モデル

XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model ( http://arxiv.org/abs/2406.04904v1 )

ライセンス: Link先を確認
Edresson Casanova, Kelly Davis, Eren Gölge, Görkem Göknar, Iulian Gulea, Logan Hart, Aya Aljafari, Joshua Meyer, Reuben Morais, Samuel Olayemi, Julian Weber, (参考訳) Zero-shot Multi-Speaker TTS (ZS-TTS) システムは単一の言語しかサポートしていない。 YourTTS、VALL-E X、Mega-TTS 2、VoiceboxといったモデルではマルチリンガルZS-TTSを探索したが、これらのモデルはいくつかのハイ/メジウムのリソース言語に限られており、低/メジウムのリソース言語の大部分でこれらのモデルの応用が制限されている。 本稿では,XTTSシステムを提案することで,この問題を緩和することを目的としている。 提案手法は,Tortoiseモデル上に構築され,多言語学習,音声クローニングの改善,高速な学習と推論を実現するために,いくつかの改良を加えている。 XTTSは16の言語で訓練され、その大半で最先端のSOTA(State-of-the-art)を達成した。

Most Zero-shot Multi-speaker TTS (ZS-TTS) systems support only a single language. Although models like YourTTS, VALL-E X, Mega-TTS 2, and Voicebox explored Multilingual ZS-TTS they are limited to just a few high/medium resource languages, limiting the applications of these models in most of the low/medium resource languages. In this paper, we aim to alleviate this issue by proposing and making publicly available the XTTS system. Our method builds upon the Tortoise model and adds several novel modifications to enable multilingual training, improve voice cloning, and enable faster training and inference. XTTS was trained in 16 languages and achieved state-of-the-art (SOTA) results in most of them.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# RU-AI: マシン生成コンテンツ検出のための大規模マルチモーダルデータセット

RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection ( http://arxiv.org/abs/2406.04906v1 )

ライセンス: Link先を確認
Liting Huang, Zhihao Zhang, Yiran Zhang, Xiyue Zhou, Shoujin Wang, (参考訳) 現実的で人間的なコンテンツを作ることができる生成AIモデルの最近の進歩は、人々がコミュニケーションし、創造し、働く方法を大きく変えつつある。 生成AIモデルの適切な使用は社会に恩恵をもたらすが、それらの誤用はデータの信頼性と認証に重大な脅威をもたらす。 しかし、アライメントされたマルチモーダルデータセットが欠如しているため、マシン生成コンテンツを検出する効果的なロバストな方法はまだ開発の初期段階にある。 本稿では,テキスト,画像,音声中の機械生成内容の堅牢かつ効率的な検出を目的とした大規模マルチモーダルデータセットであるRU-AIを紹介する。 我々のデータセットは、Flickr8K、COCO、Places205の3つの大きな公開データセットから構築されています。 さらに,マルチモーダル埋め込みモジュールを多層パーセプトロンネットワークに組み込んだ統一モデルにより,RU-AIからデータ(原データサンプルや機械生成のもの)の出自を効果的に決定できることを示す。 しかし、RU-AIがもたらした残りの課題に対処するためには、今後の作業が必要である。 ソースコードとデータセットはhttps://github.com/ZhihaoZhang97/RU-AIで公開されている。

The recent advancements in generative AI models, which can create realistic and human-like content, are significantly transforming how people communicate, create, and work. While the appropriate use of generative AI models can benefit the society, their misuse poses significant threats to data reliability and authentication. However, due to a lack of aligned multimodal datasets, effective and robust methods for detecting machine-generated content are still in the early stages of development. In this paper, we introduce RU-AI, a new large-scale multimodal dataset designed for the robust and efficient detection of machine-generated content in text, image, and voice. Our dataset is constructed from three large publicly available datasets: Flickr8K, COCO, and Places205, by combining the original datasets and their corresponding machine-generated pairs. Additionally, experimental results show that our proposed unified model, which incorporates a multimodal embedding module with a multilayer perceptron network, can effectively determine the origin of the data (i.e., original data samples or machine-generated ones) from RU-AI. However, future work is still required to address the remaining challenges posed by RU-AI. The source code and dataset are available at https://github.com/ZhihaoZhang97/RU-AI.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# オーケストレーション時間と色:高次元の絡み合いのプログラム可能な源

Orchestrating time and color: a programmable source of high-dimensional entanglement ( http://arxiv.org/abs/2406.04909v1 )

ライセンス: Link先を確認
Laura Serino, Werner Ridder, Abhinandan Bhattacharjee, Jano Gil-Lopez, Benjamin Brecht, Christine Silberhorn, (参考訳) 光量子状態の時間モード(TM)に基づく高次元符号化は、高度に汎用的で効率的な量子情報科学(QIS)フレームワークの基礎を提供する。 本稿では,最大交絡高次元TM状態のプログラマブルソースであるTMに基づくQISアプリケーションに対して,重要なビルディングブロックを示す。 我々の情報源は、スペクトル形状のポンプパルスによって駆動されるパラメトリックダウンコンバージョンプロセスに基づいており、プログラム的に選択可能な、よく定義された次元を持つ最大絡み合ったTM状態の生成を容易にする。 本研究では, 2次相関関数と結合スペクトル強度の測定により生成した状態の有効次元を特徴付け, 最大20次元に制御された2光子TM状態の生成を実証する。

High-dimensional encodings based on temporal modes (TMs) of photonic quantum states provide the foundations for a highly versatile and efficient quantum information science (QIS) framework. Here, we demonstrate a crucial building block for any QIS applications based on TMs: a programmable source of maximally entangled high-dimensional TM states. Our source is based on a parametric down-conversion process driven by a spectrally shaped pump pulse, which facilitates the generation of maximally entangled TM states with a well-defined dimensionality that can be chosen programmatically. We characterize the effective dimensionality of the generated states via measurements of second-order correlation functions and joint spectral intensities, demonstrating the generation of bi-photon TM states with a controlled dimensionality in up to 20 dimensions.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# PolyLUT-Add:広入力付きFPGAベースのLUT推論

PolyLUT-Add: FPGA-based LUT Inference with Wide Inputs ( http://arxiv.org/abs/2406.04910v1 )

ライセンス: Link先を確認
Binglei Lou, Richard Rademacher, David Boland, Philip H. W. Leong, (参考訳) FPGAには、エッジにディープニューラルネットワーク(DNN)をデプロイする技術として、明確なアドバンテージがある。 ルックアップテーブル(LUT)ベースのネットワークでは、ニューロンがLUTを使って直接モデル化されるため、FPGA上で超低レイテンシと高領域効率を提供するというこの約束を最大化することができる。 残念ながら、LUTリソースの使用量はLUTへの入力数とともに指数関数的に拡大し、PolyLUTを小さなLUTサイズに制限している。 この研究はPolyLUT-Addを導入し、これは精度を向上させるために$A$ PolyLUTサブニューロンを組み合わせることによってニューロンの接続性を高める技術である。 さらに,スケーラビリティを向上させる新しいアーキテクチャについて述べる。 我々は,MNIST,Jet Substructure Classification,Network Intrusion Detectionベンチマークに対する実装評価を行い,同様の精度でPolyLUT-Addが1.3-7.7\times$と1.2-2.2\times$の遅延低減を実現していることを確認した。

FPGAs have distinct advantages as a technology for deploying deep neural networks (DNNs) at the edge. Lookup Table (LUT) based networks, where neurons are directly modelled using LUTs, help maximize this promise of offering ultra-low latency and high area efficiency on FPGAs. Unfortunately, LUT resource usage scales exponentially with the number of inputs to the LUT, restricting PolyLUT to small LUT sizes. This work introduces PolyLUT-Add, a technique that enhances neuron connectivity by combining $A$ PolyLUT sub-neurons via addition to improve accuracy. Moreover, we describe a novel architecture to improve its scalability. We evaluated our implementation over the MNIST, Jet Substructure classification and Network Intrusion Detection benchmark and found that for similar accuracy, PolyLUT-Add achieves a LUT reduction of $1.3-7.7\times$ with a $1.2-2.2\times$ decrease in latency.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# 模擬学習ポリシーの強化のためのオンライン適応

Online Adaptation for Enhancing Imitation Learning Policies ( http://arxiv.org/abs/2406.04913v1 )

ライセンス: Link先を確認
Federico Malato, Ville Hautamaki, (参考訳) 模倣学習は、報酬シグナルを必要とせずに、自律的なエージェントが人間の例から学ぶことを可能にする。 それでも、提供されたデータセットがタスクを正しくカプセル化していない場合や、タスクが複雑すぎてモデル化できない場合、そのようなエージェントはエキスパートポリシーを再現できない。 オンライン適応を通じてこれらの障害から回復することを提案する。 提案手法は,事前訓練された政策から得られた行動提案と専門家が記録した関連する経験を組み合わせたものである。 この組み合わせは、専門家に密接に従う適応された行動をもたらす。 実験の結果,適応エージェントは純粋な模倣学習エージェントよりも優れた性能を示した。 特に、適応されたエージェントは、ベースである非適応的なポリシーが破滅的に失敗しても、合理的なパフォーマンスを達成することができる。

Imitation learning enables autonomous agents to learn from human examples, without the need for a reward signal. Still, if the provided dataset does not encapsulate the task correctly, or when the task is too complex to be modeled, such agents fail to reproduce the expert policy. We propose to recover from these failures through online adaptation. Our approach combines the action proposal coming from a pre-trained policy with relevant experience recorded by an expert. The combination results in an adapted action that closely follows the expert. Our experiments show that an adapted agent performs better than its pure imitation learning counterpart. Notably, adapted agents can achieve reasonable performance even when the base, non-adapted policy catastrophically fails.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# 構造スパース最適輸送のためのサブモジュール構造

Submodular Framework for Structured-Sparse Optimal Transport ( http://arxiv.org/abs/2406.04914v1 )

ライセンス: Link先を確認
Piyushi Manupriya, Pratik Jawanpuria, Karthik S. Gurumoorthy, SakethaNath Jagarlapudi, Bamdev Mishra, (参考訳) 不均衡最適輸送(UOT)は、非正規化測度とロバスト性を扱うフレキシブルな枠組みにより、最近注目を集めている。 本研究では,UOT設定における学習(構造化)スパース輸送計画,すなわち輸送計画において,各列内の非スパースエントリ数(構造化スパースパターン)や全体計画(一般スパースパターン)に上限を持つことを検討する。 提案手法は,最近検討された最大平均誤差に基づく UOT を用いた新しい空間制約付き UOT の定式化である。 提案した最適化問題は,一様マトロイドあるいは分割マトロイド上での弱部分モジュラ関数の最大化と等価であることを示す。 我々は,効率的な勾配に基づく離散グリーディアルゴリズムを開発し,それに対応する理論的保証を提供する。 実験により,提案アルゴリズムは多様なサポートセットを選択し,提案手法の有効性を示す。

Unbalanced optimal transport (UOT) has recently gained much attention due to its flexible framework for handling un-normalized measures and its robustness properties. In this work, we explore learning (structured) sparse transport plans in the UOT setting, i.e., transport plans have an upper bound on the number of non-sparse entries in each column (structured sparse pattern) or in the whole plan (general sparse pattern). We propose novel sparsity-constrained UOT formulations building on the recently explored maximum mean discrepancy based UOT. We show that the proposed optimization problem is equivalent to the maximization of a weakly submodular function over a uniform matroid or a partition matroid. We develop efficient gradient-based discrete greedy algorithms and provide the corresponding theoretical guarantees. Empirically, we observe that our proposed greedy algorithms select a diverse support set and we illustrate the efficacy of the proposed approach in various applications.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# 確率微分方程式による組合せ複素スコアに基づく拡散モデリング

Combinatorial Complex Score-based Diffusion Modelling through Stochastic Differential Equations ( http://arxiv.org/abs/2406.04916v1 )

ライセンス: Link先を確認
Adrien Carrel, (参考訳) グラフ構造は、分子化学、ソーシャルネットワーク、輸送システムといった分野に適用可能な、自然と複雑なシステムの多様なパターンを表現する汎用的なフレームワークを提供する。 拡散モデルは様々なオブジェクトを生成するのに優れているが、グラフを生成することは依然として困難である。 この論文は、高次関係を含む強力なトポロジカル構造であるコンビナトリコンプレックスをモデルとして、そのようなオブジェクトを生成する際のスコアベースの生成モデルの可能性を探るものである。 本稿では,確率微分方程式を用いた統一的枠組みを提案する。 我々はグラフやハイパーグラフのような複雑なオブジェクトの生成を一般化するだけでなく、ランゲヴィン力学を用いたスコアマッチングや拡散確率モデルのような既存の生成的モデリングアプローチを統一する。 このイノベーションは、グラフ生成のみに焦点を当てた既存のフレームワークの制限を克服し、生成AIの新たな可能性を開く。 実験の結果,本フレームワークはこれらの複雑なオブジェクトを生成することができ,また,単純なグラフや分子生成タスクに対する最先端のアプローチと競合する可能性が示唆された。

Graph structures offer a versatile framework for representing diverse patterns in nature and complex systems, applicable across domains like molecular chemistry, social networks, and transportation systems. While diffusion models have excelled in generating various objects, generating graphs remains challenging. This thesis explores the potential of score-based generative models in generating such objects through a modelization as combinatorial complexes, which are powerful topological structures that encompass higher-order relationships. In this thesis, we propose a unified framework by employing stochastic differential equations. We not only generalize the generation of complex objects such as graphs and hypergraphs, but we also unify existing generative modelling approaches such as Score Matching with Langevin dynamics and Denoising Diffusion Probabilistic Models. This innovation overcomes limitations in existing frameworks that focus solely on graph generation, opening up new possibilities in generative AI. The experiment results showed that our framework could generate these complex objects, and could also compete against state-of-the-art approaches for mere graph and molecule generation tasks.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# 双極子対称性の異常流入と高次状態の葉付き場理論

Anomaly inflow for dipole symmetry and higher form foliated field theories ( http://arxiv.org/abs/2406.04919v1 )

ライセンス: Link先を確認
Hiromi Ebisu, Masazumi Honda, Taiichi Nakanishi, (参考訳) フラクトントポロジカル相の最近の進展に応じて, 物質が運動性制約を伴う分数化準粒子励起を包含する異常なトポロジカル相について, マルチポール対称性, マルチポール対称性について検討した。 双極子と大域電荷の代数的関係に基づいて、空間的に拡張された励起の双極子を許容する$p$-形式ゲージ場を持つ$(d+1)$-dimensional BF理論を導入し、それらの物理的性質を研究する。 ゲージ不変ループは、空間座標の線形関数を含む特異な形状を持ち、位置依存のブレイディング統計と異常な基底状態の縮退がシステムサイズに依存することを解明する。 また、これらの理論は、$p$-formと$(d-p)$-form Dipole symmetriesの混合した't Hooft 異常を示し、これは、異常流入機構を介して一次元高次元で定義される可逆理論によってキャンセルされる。

In accordance with recent progress of fracton topological phases, unusual topological phases of matter hosting fractionalized quasiparticle excitations with mobility constraints, new type of symmetry is studied -- multipole symmetry, associated with conservation of multipoles. Based on algebraic relation between dipole and global charges, we introduce a series of $(d+1)$-dimensional BF theories with $p$-form gauge fields, which admit dipole of spatially extended excitations, and study their physical properties. We elucidate that gauge invariant loops have unusual form, containing linear function of the spatial coordinate, which leads to the position dependent braiding statistics and unusual ground state degeneracy dependence on the system size. We also show that the theories exhibit a mixed 't Hooft anomaly between $p$-form and $(d-p)$-form dipole symmetries, which is canceled by an invertible theory defined in one dimensional higher via anomaly inflow mechanism.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# オンライン被覆経路計画のための深層強化学習エージェントの同時移動

Sim-to-real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning ( http://arxiv.org/abs/2406.04920v1 )

ライセンス: Link先を確認
Arvi Jonnarth, Ola Johansson, Michael Felsberg, (参考訳) シミュレーションでトレーニングされたモデルが現実世界にデプロイされるという、シミュレーションから現実への移行は難しい課題である。 2つの設定間の分布シフトは、知覚された実世界の環境のバイアスのある表現をもたらし、したがって、最適以下の予測をもたらす。 本研究では,Regressing Learning (RL) エージェントのカバレッジパス計画 (CPP) におけるシミュレート・トゥ・リアル移行の課題に取り組む。 CPPでは、ロボットが制限区域のすべての地点を訪れる経路を見つけることが課題である。 具体的には、環境が不明な場合について考察し、エージェントは環境をマッピングしながら、オンラインで経路を計画する必要がある。 実際のロボット運動学やリアルタイムの側面を含む、シミュレーションされたセンサーと障害物で、半仮想環境を通して、シミュレーションから現実へのギャップを橋渡しする。 本研究は,シミュレーションのみで訓練されたエージェントと比較して,現実的な設定に適応するためにどのレベルの微調整が必要なのかを考察する。 高速モデル推論周波数はsim-to-realギャップを減らすのに十分であり、微調整は最初は性能を劣化させる。 シミュレーションでモデルをトレーニングし、高い推論周波数でデプロイすることにより、シミュレーションによる最先端の結果を実領域に転送する。

Sim-to-real transfer presents a difficult challenge, where models trained in simulation are to be deployed in the real world. The distribution shift between the two settings leads to biased representations of the perceived real-world environment, and thus to suboptimal predictions. In this work, we tackle the challenge of sim-to-real transfer of reinforcement learning (RL) agents for coverage path planning (CPP). In CPP, the task is for a robot to find a path that visits every point of a confined area. Specifically, we consider the case where the environment is unknown, and the agent needs to plan the path online while mapping the environment. We bridge the sim-to-real gap through a semi-virtual environment with a simulated sensor and obstacles, while including real robot kinematics and real-time aspects. We investigate what level of fine-tuning is needed for adapting to a realistic setting, comparing to an agent trained solely in simulation. We find that a high model inference frequency is sufficient for reducing the sim-to-real gap, while fine-tuning degrades performance initially. By training the model in simulation and deploying it at a high inference frequency, we transfer state-of-the-art results from simulation to the real domain, where direct learning would take in the order of weeks with manual interaction, i.e., would be completely infeasible.
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# チケットを通す:ランダム森林モデルから導出した数方向LPMの研究

Through the Thicket: A Study of Number-Oriented LLMs derived from Random Forest Models ( http://arxiv.org/abs/2406.04926v1 )

ライセンス: Link先を確認
Michał Romaszewski, Przemysław Sekuła, Przemysław Głomb, Michał Cholewa, Katarzyna Kołodziej, (参考訳) 大規模言語モデル (LLM) はテキスト処理において例外的な性能を示した。 特に、LLMは大きなデータセットから情報を合成し、その決定を思考の連鎖(CoT)を通して人間の推論と同様に説明することができる。 LLMの新たな応用は数値データの処理と解釈であり、微調整は基本的な推論手法よりも性能を向上させる。 本稿では,ランダム森林(RF)アンサンブルから知識を伝達し,その効率と精度を活かしたLLMの学習手法を提案する。 RF決定経路を自然言語文に変換することにより、LLMの微調整のための出力を生成し、その決定を分類・説明するモデルの能力を高める。 本手法は,これらのルールを確立された分類基準によって検証し,その正当性を保証することを含む。 また,前処理技術が数値データの表現に与える影響と,その分類精度と規則正当性に及ぼす影響についても検討する。

Large Language Models (LLMs) have shown exceptional performance in text processing. Notably, LLMs can synthesize information from large datasets and explain their decisions similarly to human reasoning through a chain of thought (CoT). An emerging application of LLMs is the handling and interpreting of numerical data, where fine-tuning enhances their performance over basic inference methods. This paper proposes a novel approach to training LLMs using knowledge transfer from a random forest (RF) ensemble, leveraging its efficiency and accuracy. By converting RF decision paths into natural language statements, we generate outputs for LLM fine-tuning, enhancing the model's ability to classify and explain its decisions. Our method includes verifying these rules through established classification metrics, ensuring their correctness. We also examine the impact of preprocessing techniques on the representation of numerical data and their influence on classification accuracy and rule correctness
翻訳日:2024-06-10 14:01:29 公開日:2024-06-07
# LLMに基づく話者ダイアリゼーション補正:一般化可能なアプローチ

LLM-based speaker diarization correction: A generalizable approach ( http://arxiv.org/abs/2406.04927v1 )

ライセンス: Link先を確認
Georgios Efstathiadis, Vijay Yadav, Anzar Abbas, (参考訳) 自動音声認識(ASR)ツールを用いて書き起こされた会話の解釈には話者ダイアリゼーションが必要である。 ダイアリゼーション手法の進歩にもかかわらず、ダイアリゼーションの精度は依然として問題である。 本稿では,大言語モデル(LLM)を用いたダイアリゼーション補正を後処理のステップとして検討する。 LLMは、転写された会話の大規模なデータセットであるFisher corpusを使用して微調整された。 ホールドアウトデータセットにおけるダイアリゼーション精度を向上させるためのモデルの能力を測定した。 微調整LDMはダイアリゼーション精度を著しく向上させることができることを報告した。 しかし、モデル性能は、微調整や一般化可能性の制限に使用される転写文と同じASRツールを使用して生成された転写文に制約される。 この制約に対処するため、3つの異なるモデルの重みを組み合わせたアンサンブルモデルが開発された。 アンサンブルモデルでは、ASR固有のモデルよりも全体的な性能が向上し、一般化可能でASRに依存しないアプローチが実現可能であることが示唆された。 これらのモデルを,サードパーティアプリケーションで使用するための公開APIを通じて,アクセス可能にすることを願っています。

Speaker diarization is necessary for interpreting conversations transcribed using automated speech recognition (ASR) tools. Despite significant developments in diarization methods, diarization accuracy remains an issue. Here, we investigate the use of large language models (LLMs) for diarization correction as a post-processing step. LLMs were fine-tuned using the Fisher corpus, a large dataset of transcribed conversations. The ability of the models to improve diarization accuracy in a holdout dataset was measured. We report that fine-tuned LLMs can markedly improve diarization accuracy. However, model performance is constrained to transcripts produced using the same ASR tool as the transcripts used for fine-tuning, limiting generalizability. To address this constraint, an ensemble model was developed by combining weights from three separate models, each fine-tuned using transcripts from a different ASR tool. The ensemble model demonstrated better overall performance than each of the ASR-specific models, suggesting that a generalizable and ASR-agnostic approach may be achievable. We hope to make these models accessible through public-facing APIs for use by third-party applications.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# AGBD:世界規模のバイオマスデータセット

AGBD: A Global-scale Biomass Dataset ( http://arxiv.org/abs/2406.04928v1 )

ライセンス: Link先を確認
Ghjulia Sialelli, Torben Peters, Jan D. Wegner, Konrad Schindler, (参考訳) AGB(Above Ground Biomass)の正確な推定は、気候変動と生物多様性の喪失という人類の最大の課題に対処するために不可欠である。 衛星画像からのAGB推定のための既存のデータセットは限られている。 特定のローカルリージョンを高解像度で対象とするか、あるいは低解像度でグローバルカバレッジを提供するかのどちらかだ。 マシンラーニング対応で、グローバルに代表される、高解像度のベンチマークが必要です。 本研究は,地球規模の多様性を正確に捉えたデータセットの必要性を強調し,植生の種類によって異なるバイオマス推定値に有意なばらつきがあることを示唆する。 これらのギャップに対処するために、グローバルに分散し、さまざまな植生タイプをカバーし、数年に及ぶ包括的な新しいデータセットを導入します。 このデータセットは、GEDIミッションからのAGB参照データとSentinel-2とPALSAR-2の画像のデータを組み合わせる。 さらに、密度の高い天蓋の高さマップ、標高マップ、土地被覆分類マップなど、事前処理された高水準の特徴を含んでいる。 また、データセットがカバーする領域全体のAGB予測の高密度で高解像度(10m)のマップも作成します。 厳格にテストされたデータセットには、いくつかのベンチマークモデルが伴い、公開されています。 単一の行のコードで簡単にアクセスでき、グローバルなAGB推定への取り組みの確固たる基盤を提供する。 GitHubリポジトリgithub.com/ghjuliasialelli/AGBDは、すべてのコードとデータのワンストップショップとして機能する。

Accurate estimates of Above Ground Biomass (AGB) are essential in addressing two of humanity's biggest challenges, climate change and biodiversity loss. Existing datasets for AGB estimation from satellite imagery are limited. Either they focus on specific, local regions at high resolution, or they offer global coverage at low resolution. There is a need for a machine learning-ready, globally representative, high-resolution benchmark. Our findings indicate significant variability in biomass estimates across different vegetation types, emphasizing the necessity for a dataset that accurately captures global diversity. To address these gaps, we introduce a comprehensive new dataset that is globally distributed, covers a range of vegetation types, and spans several years. This dataset combines AGB reference data from the GEDI mission with data from Sentinel-2 and PALSAR-2 imagery. Additionally, it includes pre-processed high-level features such as a dense canopy height map, an elevation map, and a land-cover classification map. We also produce a dense, high-resolution (10m) map of AGB predictions for the entire area covered by the dataset. Rigorously tested, our dataset is accompanied by several benchmark models and is publicly available. It can be easily accessed using a single line of code, offering a solid basis for efforts towards global AGB estimation. The GitHub repository github.com/ghjuliasialelli/AGBD serves as a one-stop shop for all code and data.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# ニューラルネットワークのトポロジーの進化を指向する触媒としてのタンパク質経路

Protein pathways as a catalyst to directed evolution of the topology of artificial neural networks ( http://arxiv.org/abs/2406.04929v1 )

ライセンス: Link先を確認
Oscar Lao, Konstantinos Zacharopoulos, Apostolos Fournaris, Rossano Schifanella, Ioannis Arapakis, (参考訳) 本稿では,タンパク質ネットワーク(PN)の構造的特性,相互作用,ダイナミクスを基盤とした,新しいバイオインスパイアされた設計への進化型ニューラルネットワーク(ANN)のパラダイムシフトを提案する。 1) 何百万年にもわたる進化のおかげで、APNをシリコンDNAに翻訳するために、DNA内のタンパク質の相互作用を効率的にエンコードする自然の仕方からインスピレーションを得ることができます。 これは現在のNEアプローチで見られる構文とセマンティクスのギャップを埋めるのに役立つ。 2) 自然が遺伝子にどのようにネットワークを構築するかから学ぶことができ、EAの進化を通じて新しい、よりスマートなネットワークを設計できる。 (3) EAのクロスオーバー/ミューテーション操作と進化ステップを実行し、自然界で観察される操作をネットワークのジェノタイプに直接複製することで、準最適解に閉じ込められないように表現型空間を探索・活用することができる。 (4)APNの新たな定義は、生物から異なる生物やプロセスに関する知識を活用する新しい方法を開く。 (5) 生物学的にインスピレーションを受けたエンコーディングを用いて、より複雑な人口統計学的・生態学的関係(例えば、ウイルス宿主や捕食者・捕食者間の相互作用)をモデル化し、複数の、しばしば矛盾する目的を最適化することができる。

In the present article, we propose a paradigm shift on evolving Artificial Neural Networks (ANNs) towards a new bio-inspired design that is grounded on the structural properties, interactions, and dynamics of protein networks (PNs): the Artificial Protein Network (APN). This introduces several advantages previously unrealized by state-of-the-art approaches in NE: (1) We can draw inspiration from how nature, thanks to millions of years of evolution, efficiently encodes protein interactions in the DNA to translate our APN to silicon DNA. This helps bridge the gap between syntax and semantics observed in current NE approaches. (2) We can learn from how nature builds networks in our genes, allowing us to design new and smarter networks through EA evolution. (3) We can perform EA crossover/mutation operations and evolution steps, replicating the operations observed in nature directly on the genotype of networks, thus exploring and exploiting the phenotypic space, such that we avoid getting trapped in sub-optimal solutions. (4) Our novel definition of APN opens new ways to leverage our knowledge about different living things and processes from biology. (5) Using biologically inspired encodings, we can model more complex demographic and ecological relationships (e.g., virus-host or predator-prey interactions), allowing us to optimise for multiple, often conflicting objectives.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# MA-AVT:パラメータ効率の良いオーディオ・ビジュアル・トランスのためのモダリティアライメント

MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers ( http://arxiv.org/abs/2406.04930v1 )

ライセンス: Link先を確認
Tanvir Mahmud, Shentong Mo, Yapeng Tian, Diana Marculescu, (参考訳) 事前学習型視覚変換器の最近の進歩は、パラメータ効率のよい音声視覚学習において、音声事前学習を伴わない可能性を示している。 しかし,パラメータ効率のよい音声・視覚変換器におけるマルチモーダル特徴の整合性について検討する研究はほとんどない。 本稿では,MA-AVTを提案する。MA-AVTは,マルチモーダル・セマンティックな特徴に対して,深いモーダルアライメントを用いたパラメータ効率の高いオーディオ・ビジュアル・トランスフォーマである。 具体的には,2つのモダリティを凍結したモダリティシェード変圧器で整列するための共同一様・多モードトークン学習を導入する。 これにより、モデルは各モダリティの別々の表現を学習でき、またそれらの間の相互モダリティ関係にも参加できる。 また、単調エンコーダの出力から粗い特徴のみを整列する以前の作業とは異なり、符号化フェーズ全体を通して粗大から細小の階層的特徴を整列するブロックワイドコントラスト学習を導入する。 さらに,前景の音響・視覚的特徴から各モードの背景特性を抑えるために,ロバストな差別的前景マイニング手法を導入する。 ベンチマークAVE, VGGSound, CREMA-Dデータセットの広範な実験により, SOTA法よりも大幅に性能が向上した。

Recent advances in pre-trained vision transformers have shown promise in parameter-efficient audio-visual learning without audio pre-training. However, few studies have investigated effective methods for aligning multimodal features in parameter-efficient audio-visual transformers. In this paper, we propose MA-AVT, a new parameter-efficient audio-visual transformer employing deep modality alignment for corresponding multimodal semantic features. Specifically, we introduce joint unimodal and multimodal token learning for aligning the two modalities with a frozen modality-shared transformer. This allows the model to learn separate representations for each modality, while also attending to the cross-modal relationships between them. In addition, unlike prior work that only aligns coarse features from the output of unimodal encoders, we introduce blockwise contrastive learning to align coarse-to-fine-grain hierarchical features throughout the encoding phase. Furthermore, to suppress the background features in each modality from foreground matched audio-visual features, we introduce a robust discriminative foreground mining scheme. Through extensive experiments on benchmark AVE, VGGSound, and CREMA-D datasets, we achieve considerable performance improvements over SOTA methods.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# 嘘より速い:二元ニューラルネットワークを用いたリアルタイムディープフェイク検出

Faster Than Lies: Real-time Deepfake Detection using Binary Neural Networks ( http://arxiv.org/abs/2406.04932v1 )

ライセンス: Link先を確認
Lanzino Romeo, Fontana Federico, Diko Anxhelo, Marini Marco Raoul, Cinque Luigi, (参考訳) ディープフェイク検出は、オンラインコンテンツへの信頼を損なうディープフェイクメディアの拡散と対比することを目的としている。 既存の手法は大規模で複雑なモデルに重点を置いているが、リアルタイム検出の必要性により効率が向上する。 このことを念頭に置いて,BNN(Binary Neural Networks)を用いた画像に新たなディープフェイク検出手法を導入し,精度の低下を最小限に抑える。 さらに,Fast Fourier Transform (FFT) とLocal Binary Pattern (LBP) を付加して,周波数領域とテクスチャ領域の操作トレースを明らかにする。 COCOFake、DFFD、CIFAKEデータセットの評価は、ほとんどのシナリオにおける我々の手法の最先端性能を示し、推論中にFLOPを最大20\times$で削減する。 最後に,BNNを深度検出で探索し,精度と効率のバランスをとることにより,深度検出の効率化に向けた今後の研究の道を開く。

Deepfake detection aims to contrast the spread of deep-generated media that undermines trust in online content. While existing methods focus on large and complex models, the need for real-time detection demands greater efficiency. With this in mind, unlike previous work, we introduce a novel deepfake detection approach on images using Binary Neural Networks (BNNs) for fast inference with minimal accuracy loss. Moreover, our method incorporates Fast Fourier Transform (FFT) and Local Binary Pattern (LBP) as additional channel features to uncover manipulation traces in frequency and texture domains. Evaluations on COCOFake, DFFD, and CIFAKE datasets demonstrate our method's state-of-the-art performance in most scenarios with a significant efficiency gain of up to a $20\times$ reduction in FLOPs during inference. Finally, by exploring BNNs in deepfake detection to balance accuracy and efficiency, this work paves the way for future research on efficient deepfake detection.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# 超画素説明におけるアクティベーションの活用

Leveraging Activations for Superpixel Explanations ( http://arxiv.org/abs/2406.04933v1 )

ライセンス: Link先を確認
Ahcène Boubekki, Samuel G. Fadel, Sebastian Mair, (参考訳) ディープニューラルネットワークの説明ツールキットでは、サリエンシ手法が標準となっている。 画像分類器に特有な最近の進歩は、領域ベースの説明を新しい手法か、あるいはアドホックなスーパーピクセルアルゴリズムを用いて確立された説明を適応させることによって研究している。 本稿では,ネットワークを微調整することなく,ディープニューラルネットワーク画像分類器の活性化からセグメンテーションを抽出することにより,これらのセグメンタへの依存を回避することを目的とする。 我々のいわゆるNuro-Activated Superpixels(NAS)は、モデルの予測に関連する入力に対する関心領域を分離することができる。 この性質は、半教師付きサリエンシ手法のセマンティック評価を可能にする。 既存のサリエンシ手法によるNASの集約は、それらの解釈を緩和し、関連曲線計量の下で広く使われている領域の不整合を明らかにする。

Saliency methods have become standard in the explanation toolkit of deep neural networks. Recent developments specific to image classifiers have investigated region-based explanations with either new methods or by adapting well-established ones using ad-hoc superpixel algorithms. In this paper, we aim to avoid relying on these segmenters by extracting a segmentation from the activations of a deep neural network image classifier without fine-tuning the network. Our so-called Neuro-Activated Superpixels (NAS) can isolate the regions of interest in the input relevant to the model's prediction, which boosts high-threshold weakly supervised object localization performance. This property enables the semi-supervised semantic evaluation of saliency methods. The aggregation of NAS with existing saliency methods eases their interpretation and reveals the inconsistencies of the widely used area under the relevance curve metric.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# 動的システム再構築のための最適リカレントネットワークトポロジー

Optimal Recurrent Network Topologies for Dynamical Systems Reconstruction ( http://arxiv.org/abs/2406.04934v1 )

ライセンス: Link先を確認
Christoph Jürgen Hemmer, Manuel Brenner, Florian Hess, Daniel Durstewitz, (参考訳) 動的システム再構成(DSR)では、時系列測定から基礎となる動的過程の生成モデルの推定を試みる。 これはどんな科学分野においても主要な目的であり、パラメータの負荷が低い同相モデルに特に関心がある。 ここでの一般的な戦略はパラメータのプルーニングであり、すべてのパラメータを小さな重みで除去する。 しかし、この戦略はDSRではうまく機能せず、低等級パラメータでさえシステムの力学に大きく貢献できる。 一方、脳や生態ネットワークのような複雑な力学を生成する多くの自然系は、比較的少ないリンクを持つ疎位相を持つことが知られている。 これに触発された幾何学的プルーニングは,アトラクタの幾何学的構造への寄与が低い等級ベースのプルーニング重みとは対照的に,DSR品質を著しく損なうことなく,パラメータ負荷を大幅に低減できることを示す。 さらに、幾何プルーニングによるネットワークは特定の種類のトポロジーを持ち、このトポロジーは重みの大きさではなく、パフォーマンスにとって最も重要なものであることを発見した。 我々は、RNNによる動的システムの生成モデリングの先駆けとして使用できるようなトポロジを自動的に生成し、それを小型世界やスケールフリーネットワークのような他のよく研究されたトポロジと比較するアルゴリズムを提案する。

In dynamical systems reconstruction (DSR) we seek to infer from time series measurements a generative model of the underlying dynamical process. This is a prime objective in any scientific discipline, where we are particularly interested in parsimonious models with a low parameter load. A common strategy here is parameter pruning, removing all parameters with small weights. However, here we find this strategy does not work for DSR, where even low magnitude parameters can contribute considerably to the system dynamics. On the other hand, it is well known that many natural systems which generate complex dynamics, like the brain or ecological networks, have a sparse topology with comparatively few links. Inspired by this, we show that geometric pruning, where in contrast to magnitude-based pruning weights with a low contribution to an attractor's geometrical structure are removed, indeed manages to reduce parameter load substantially without significantly hampering DSR quality. We further find that the networks resulting from geometric pruning have a specific type of topology, and that this topology, and not the magnitude of weights, is what is most crucial to performance. We provide an algorithm that automatically generates such topologies which can be used as priors for generative modeling of dynamical systems by RNNs, and compare it to other well studied topologies like small-world or scale-free networks.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# SLOPE:学習された最適プルーニングに基づく探索

SLOPE: Search with Learned Optimal Pruning-based Expansion ( http://arxiv.org/abs/2406.04935v1 )

ライセンス: Link先を確認
Davor Bokan, Zlatan Ajanovic, Bakir Lacevic, (参考訳) ヒューリスティック探索は、グラフ内の最短経路を見つけると同時に、完全性と最適効率を約束するために、運動計画やパスフィニング問題によく用いられる。 欠点は、メモリに拡張されたすべての子ノードを格納し、アクティブなノードの大規模なリストをソートする、という空間の複雑さにある。 これに対抗するために,SLOPE (Search with Learned Optimal Pruning-based Expansion) を提案する。 好ましくないノードは、その距離に応じてプルーニングされ、その結果、オープンリストのサイズが減少する。 これにより、探索は最適な経路に近い領域のみを探索し、メモリと計算コストを削減できる。 従来の学習手法とは異なり,本手法はコスト・ツー・ゴ・ゴ・ヒューリスティックスを推定するための直交的手法であり,探索効率を向上させるための補完的戦略を提供する。 提案手法は,学習したヒューリスティック関数と組み合わせて,オープンリスト内の子ノード数を減らしつつ,同等あるいはベタノード拡張の指標を達成し,独立探索手法として評価する手法の有効性を実証する。 私たちのコードはhttps://github.com/dbokan1/SLOPEで利用可能です。

Heuristic search is often used for motion planning and pathfinding problems, for finding the shortest path in a graph while also promising completeness and optimal efficiency. The drawback is it's space complexity, specifically storing all expanded child nodes in memory and sorting large lists of active nodes, which can be a problem in real-time scenarios with limited on-board computation. To combat this, we present the Search with Learned Optimal Pruning-based Expansion (SLOPE), which, learns the distance of a node from a possible optimal path, unlike other approaches that learn a cost-to-go value. The unfavored nodes are then pruned according to the said distance, which in turn reduces the size of the open list. This ensures that the search explores only the region close to optimal paths while lowering memory and computational costs. Unlike traditional learning methods, our approach is orthogonal to estimating cost-to-go heuristics, offering a complementary strategy for improving search efficiency. We demonstrate the effectiveness of our approach evaluating it as a standalone search method and in conjunction with learned heuristic functions, achieving comparable-or-better node expansion metrics, while lowering the number of child nodes in the open list. Our code is available at https://github.com/dbokan1/SLOPE.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# SpanGNN: Spanning Subgraph Trainingによるメモリ効率の良いグラフニューラルネットワークを目指して

SpanGNN: Towards Memory-Efficient Graph Neural Networks via Spanning Subgraph Training ( http://arxiv.org/abs/2406.04938v1 )

ライセンス: Link先を確認
Xizhi Gu, Hongzheng Li, Shihong Gao, Xinyan Zhang, Lei Chen, Yingxia Shao, (参考訳) グラフニューラルネットワーク(GNN)は、グラフデータを学習する能力に優れています。 フルグラフGNNトレーニングは一般的に精度が高いが、大きなピークメモリ使用量に悩まされ、大きなグラフを扱う場合のメモリ外問題に遭遇する。 このメモリ問題に対処するために、一般的な解決策はミニバッチGNNトレーニングである。 しかし、ミニバッチGNNトレーニングはトレーニングのばらつきを高め、モデルの精度を犠牲にする。 本稿では,SpanGNNと呼ばれるスパンニングサブグラフを用いたメモリ効率の高いGNNトレーニング手法を提案する。 SpanGNNは、空の構造から構築された一連のサブグラフでGNNモデルを訓練する。 過度のピークメモリ消費問題を解決するため、SpanGNNは元のグラフからエッジのセットを選択し、各エポック間のスパンニングサブグラフを漸進的に更新する。 モデルの精度を確保するため、我々は2種類のエッジサンプリング戦略(分散低減とノイズ低減)を導入し、SpanGNNがGNN学習のための高品質なエッジを選択する手助けをする。 我々は,SpanGNNを用いた実験を行い,SpanGNNのモデル性能とピークメモリ使用率の低さを実証した。

Graph Neural Networks (GNNs) have superior capability in learning graph data. Full-graph GNN training generally has high accuracy, however, it suffers from large peak memory usage and encounters the Out-of-Memory problem when handling large graphs. To address this memory problem, a popular solution is mini-batch GNN training. However, mini-batch GNN training increases the training variance and sacrifices the model accuracy. In this paper, we propose a new memory-efficient GNN training method using spanning subgraph, called SpanGNN. SpanGNN trains GNN models over a sequence of spanning subgraphs, which are constructed from empty structure. To overcome the excessive peak memory consumption problem, SpanGNN selects a set of edges from the original graph to incrementally update the spanning subgraph between every epoch. To ensure the model accuracy, we introduce two types of edge sampling strategies (i.e., variance-reduced and noise-reduced), and help SpanGNN select high-quality edges for the GNN learning. We conduct experiments with SpanGNN on widely used datasets, demonstrating SpanGNN's advantages in the model performance and low peak memory usage.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# CarbonSense: カーボンフラックスモデリングのためのマルチモーダルデータセットとベースライン

CarbonSense: A Multimodal Dataset and Baseline for Carbon Flux Modelling ( http://arxiv.org/abs/2406.04940v1 )

ライセンス: Link先を確認
Matthew Fortier, Mats L. Richter, Oliver Sonnentag, Chris Pal, (参考訳) 地球上の炭素フラックスは、生物圏の健康と、人工的なCO$2$の排出を吸収する能力について重要な情報を提供する。 炭素フラックスを予測することの重要性は、生物物理学データから炭素フラックスを予測する統計的手法を用いて、データ駆動型炭素フラックスモデリング(DDCFM)の新たな分野へと繋がった。 しかし、フィールドはモデル間の比較を促進するための標準化されたデータセットを欠いている。 このギャップに対処するために、DDCFMのための最初の機械学習対応データセットであるCarbonSenseを紹介する。 CarbonSenseは、世界中の385箇所で測定された炭素フラックス、気象予測器、衛星画像を統合し、包括的カバレッジを提供し、堅牢なモデルトレーニングを促進する。 さらに,現状のDDCFM手法と新しいトランスフォーマーモデルを用いたベースラインモデルを提案する。 我々の実験は、マルチモーダルなディープラーニング技術がこの領域にもたらす可能性を示している。 これらの資源を提供することで、他のディープラーニング研究者が新しいモデルを開発し、炭素フラックスモデリングの新たな進歩を推進するための障壁を低くすることを目指している。

Terrestrial carbon fluxes provide vital information about our biosphere's health and its capacity to absorb anthropogenic CO$_2$ emissions. The importance of predicting carbon fluxes has led to the emerging field of data-driven carbon flux modelling (DDCFM), which uses statistical techniques to predict carbon fluxes from biophysical data. However, the field lacks a standardized dataset to promote comparisons between models. To address this gap, we present CarbonSense, the first machine learning-ready dataset for DDCFM. CarbonSense integrates measured carbon fluxes, meteorological predictors, and satellite imagery from 385 locations across the globe, offering comprehensive coverage and facilitating robust model training. Additionally, we provide a baseline model using a current state-of-the-art DDCFM approach and a novel transformer based model. Our experiments illustrate the potential gains that multimodal deep learning techniques can bring to this domain. By providing these resources, we aim to lower the barrier to entry for other deep learning researchers to develop new models and drive new advances in carbon flux modelling.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# TCMD: 大規模言語モデル評価のための伝統的な中国医学QAデータセット

TCMD: A Traditional Chinese Medicine QA Dataset for Evaluating Large Language Models ( http://arxiv.org/abs/2406.04941v1 )

ライセンス: Link先を確認
Ping Yu, Kaitao Song, Fengchen He, Ming Chen, Jianfeng Lu, (参考訳) 最近、LLM(Large Language Models)の先例のない進歩は、先進的な医療ドメインモデルを確立することで、医療コミュニティを推進している。 しかし、医療データセットの収集が限られているため、この分野の進捗を測るために利用可能な総合的なベンチマークはわずかである。 本稿では,従来の中国医学検査課題を解くための大規模な手動指導を含む,新しいQAデータセットについて紹介する。 特に,本論文では,アノテーションを付与した医療領域にまたがる膨大な質問を収集し,TCM領域におけるLCMの能力の総合的な評価を支援する。 各種 LLM および医療領域特異的 LLM の大規模評価を行った。 さらに,TCM QAタスクにおける現在のLLMのロバスト性についても,ランダム性を導入して分析する。 実験結果の不整合は、QAタスクの解決における現在のLLMの欠点も明らかにしている。 また、我々のデータセットは、TCM領域におけるLLMの開発をさらに促進できると期待している。

The recently unprecedented advancements in Large Language Models (LLMs) have propelled the medical community by establishing advanced medical-domain models. However, due to the limited collection of medical datasets, there are only a few comprehensive benchmarks available to gauge progress in this area. In this paper, we introduce a new medical question-answering (QA) dataset that contains massive manual instruction for solving Traditional Chinese Medicine examination tasks, called TCMD. Specifically, our TCMD collects massive questions across diverse domains with their annotated medical subjects and thus supports us in comprehensively assessing the capability of LLMs in the TCM domain. Extensive evaluation of various general LLMs and medical-domain-specific LLMs is conducted. Moreover, we also analyze the robustness of current LLMs in solving TCM QA tasks by introducing randomness. The inconsistency of the experimental results also reveals the shortcomings of current LLMs in solving QA tasks. We also expect that our dataset can further facilitate the development of LLMs in the TCM area.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# 自己監督型心拍計測のための共同空間時間モデルとコントラスト学習

Joint Spatial-Temporal Modeling and Contrastive Learning for Self-supervised Heart Rate Measurement ( http://arxiv.org/abs/2406.04942v1 )

ライセンス: Link先を確認
Wei Qian, Qi Li, Kun Li, Xinke Wang, Xiao Sun, Meng Wang, Dan Guo, (参考訳) 本稿では,IJCAI 2024で開催されている第3ビジョンベースリモート生理信号センシング(REPSS)チャレンジにおける,自己監督型心拍数測定のトラック1(HFUT-VUT)について,我々のチームが開発したソリューションを簡潔に紹介する。 目標は、ラベルなしの顔ビデオを用いた心拍数推定のための自己教師付き学習アルゴリズムを開発することである。 この課題に対処するために、空間時間モデルとコントラスト学習を統合した2つの自己教師型HR推定ソリューションを提案する。 具体的には、まず、空間時間モデルに基づく非エンドツーエンドのHR計測フレームワークを提案する。これは、微妙なrPPGの手がかりを効果的に捉え、rPPG固有の帯域幅と周期特性を利用してモデルを制約する。 一方、コントラスト学習に基づく優れたエンドツーエンドソリューションを採用し、相補的な視点から様々なシナリオを一般化することを目的としている。 最後に、上記の解の強みをアンサンブル戦略で組み合わせ、最終的な予測を生成し、より正確なHR推定を行う。 その結果,テストデータセット上でのRMSEスコア8.85277を達成し,その課題のトラック1の‘textbf{2 place}’を確保できた。

This paper briefly introduces the solutions developed by our team, HFUT-VUT, for Track 1 of self-supervised heart rate measurement in the 3rd Vision-based Remote Physiological Signal Sensing (RePSS) Challenge hosted at IJCAI 2024. The goal is to develop a self-supervised learning algorithm for heart rate (HR) estimation using unlabeled facial videos. To tackle this task, we present two self-supervised HR estimation solutions that integrate spatial-temporal modeling and contrastive learning, respectively. Specifically, we first propose a non-end-to-end self-supervised HR measurement framework based on spatial-temporal modeling, which can effectively capture subtle rPPG clues and leverage the inherent bandwidth and periodicity characteristics of rPPG to constrain the model. Meanwhile, we employ an excellent end-to-end solution based on contrastive learning, aiming to generalize across different scenarios from complementary perspectives. Finally, we combine the strengths of the above solutions through an ensemble strategy to generate the final predictions, leading to a more accurate HR estimation. As a result, our solutions achieved a remarkable RMSE score of 8.85277 on the test dataset, securing \textbf{2nd place} in Track 1 of the challenge.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# ホークT1A航空機の多出力多出力モード試験:構造健康モニタリングのための新しいフルスケールデータセット

Multiple-input, multiple-output modal testing of a Hawk T1A aircraft: A new full-scale dataset for structural health monitoring ( http://arxiv.org/abs/2406.04943v1 )

ライセンス: Link先を確認
James Wilson, Max D. Champneys, Matt Tipuric, Robin Mills, David J. Wagg, Timothy J. Rogers, (参考訳) 構造物からの振動測定データの利用は、推測とモニタリングの手法の開発を可能にする長い歴史を持つ。 特に、システム識別と構造的健康モニタリングに基づくアプリケーションは、ここ数十年で注目され、実際に実施された場合の大きなメリットを約束している。 しかし、これらの手法の開発には大きな課題が残っている。 現実的で本格的なデータセットの導入は、これらの課題を克服するための重要な貢献となるでしょう。 本稿では, 解体されたBAEシステムホークT1Aの動的応答を計測する新しいベンチマークデータセットを提案する。 このデータセットは、様々な既知の負荷および損傷シミュレーション条件を使用して、制御された実験室条件でテスト可能な、サービスの歴史を持つ複雑な構造の振る舞いを反映している。 そのため、単純な実験室の試験構造とサービス内構造との間に重要なステップストーンを提供する。 本稿では,実験結果の包括的要約とともに,ホーク構造について詳述する。 これに続いて、データセットに関する重要な説明的ハイライトが提示され、データが存在する研究課題に関する議論が行われる。 このデータセットを用いて、構造中の非線形性や、異なるタイプの損傷に対する構造物の感度を示す。 このデータセットは、振動に基づく工学技術のさらなる進歩を可能にする、多くの学術的な探究や追加の分析技術に非常に適している。

The use of measured vibration data from structures has a long history of enabling the development of methods for inference and monitoring. In particular, applications based on system identification and structural health monitoring have risen to prominence over recent decades and promise significant benefits when implemented in practice. However, significant challenges remain in the development of these methods. The introduction of realistic, full-scale datasets will be an important contribution to overcoming these challenges. This paper presents a new benchmark dataset capturing the dynamic response of a decommissioned BAE Systems Hawk T1A. The dataset reflects the behaviour of a complex structure with a history of service that can still be tested in controlled laboratory conditions, using a variety of known loading and damage simulation conditions. As such, it provides a key stepping stone between simple laboratory test structures and in-service structures. In this paper, the Hawk structure is described in detail, alongside a comprehensive summary of the experimental work undertaken. Following this, key descriptive highlights of the dataset are presented, before a discussion of the research challenges that the data present. Using the dataset, non-linearity in the structure is demonstrated, as well as the sensitivity of the structure to damage of different types. The dataset is highly applicable to many academic enquiries and additional analysis techniques which will enable further advancement of vibration-based engineering techniques.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# 量子分類器の分離:Few-Sample Confidenceのためのシンプルエッジマッピング

Disentangling Quantum Classifiers: Simplex Edge Mapping for Few-Sample Confidence ( http://arxiv.org/abs/2406.04944v1 )

ライセンス: Link先を確認
Nathaniel Helgesen, Michael Felsberg, Jan-Åke Larsson, (参考訳) 量子機械学習は、量子コンピュータを用いて機械学習を強化することを目的としているが、量子ノイズと予測値推定の統計的制限のために必要とされるサンプル数によって制限されることが多い。 量子ノイズを減らすために努力されているが、変分量子分類器(VQC)の信頼性を高め、サンプリングニーズを減らすことにはあまり注意が払わない。 本稿では,n次元単純体のエッジとして回路出力を扱うパラメータフリーな後処理手法を導入し,各クラス間の独立な二項決定を表現した。 本手法は,有線出力をアンタングし,不確実な出力を避けるためにVQCを説得することにより,少ないサンプル精度を2倍に向上することを示す。 本手法を述べるとともに, 精度, 信頼性, 絡み合いの比較を行い, 有効VQCの主目的として, 数サンプルの精度を提唱する。

Quantum machine learning aims to use quantum computers to enhance machine learning, but it is often limited by the required number of samples due to quantum noise and statistical limits on expectation value estimates. While efforts are made to reduce quantum noise, less attention is given to boosting the confidence of Variational Quantum Classifiers (VQCs) and reducing their sampling needs. This paper focuses on multiclass classification, introducing a parameter-free post-processing technique that treats circuit outputs as edges of an n-dimensional simplex, representing independent binary decisions between each pair of classes. We prove and show in our experiments that this method improves few-sample accuracy by a factor of two by disentangling the wire outputs and compelling the VQC to avoid uncertain outputs. We describe this method and provide comparisons of accuracy, confidence, and entanglement, advocating for few-sample accuracy as a primary goal for effective VQCs.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense

BAMO at SemEval-2024 Task 9: BRAINTEASER: A Novel Task Defying Common Sense ( http://arxiv.org/abs/2406.04947v1 )

ライセンス: Link先を確認
Baktash Ansari, Mohammadmostafa Rostamkhani, Sauleh Eetemadi, (参考訳) 本稿では,SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Senseについて概説する。 この課題は、言語モデルが創造的に考える能力を評価することである。 データセットには、モデルに“ボックスの外”を考えるよう挑戦する、複数項目の質問が含まれている。 2つのモデル、BERTとRoBERTa Largeを微調整します。 次に、GPT-3.5、Mixtral、Llama2といった6つの大きな言語モデルを用いて、Chain of Thought (CoT)ゼロショットプロンプトアプローチを採用する。 最後に、ゼロショット学習に複数のエージェントを併用した「ラウンドテーブル会議」手法であるReConcileを用いて、3つの選択された言語モデル間のコンセンサス回答を生成する。 提案手法は,文パズルのサブタスクにおいて,全体の85%の精度を実現する。

This paper outlines our approach to SemEval 2024 Task 9, BRAINTEASER: A Novel Task Defying Common Sense. The task aims to evaluate the ability of language models to think creatively. The dataset comprises multi-choice questions that challenge models to think "outside of the box". We fine-tune 2 models, BERT and RoBERTa Large. Next, we employ a Chain of Thought (CoT) zero-shot prompting approach with 6 large language models, such as GPT-3.5, Mixtral, and Llama2. Finally, we utilize ReConcile, a technique that employs a "round table conference" approach with multiple agents for zero-shot learning, to generate consensus answers among 3 selected language models. Our best method achieves an overall accuracy of 85 percent on the sentence puzzles subtask.
翻訳日:2024-06-10 13:51:43 公開日:2024-06-07
# Nacala-Roof-Material:Drone Imagery for Roof Detection, Classification, and Segmentation to Support Mosquito-borne Disease Risk Assessment (特集:バイオサイバネティックスとバイオサイバネティックス)

Nacala-Roof-Material: Drone Imagery for Roof Detection, Classification, and Segmentation to Support Mosquito-borne Disease Risk Assessment ( http://arxiv.org/abs/2406.04949v1 )

ライセンス: Link先を確認
Venkanna Babu Guthula, Stefan Oehmcke, Remigio Chilaule, Hui Zhang, Nico Lang, Ankit Kariryaa, Johan Mottelson, Christian Igel, (参考訳) 低品質の住宅、特に特定の屋根の特徴はマラリアのリスクの増加と関連しているため、リモートセンシング画像に基づく屋根の種類分類はマラリアのリスクの評価を支援し、病気の予防に役立つ。 この領域の研究を支援するために,モザンビークの高解像度ドローン画像を含むNacala-Roof-Materialデータセットをリリースする。 このデータセットは、オブジェクトの検出、分類、セグメンテーションを含むマルチタスクコンピュータビジョン問題を定義する。 さらに、データセットに様々な最先端のアプローチをベンチマークした。 標準のU-Net、YOLOv8、事前訓練されたDINOv2のカスタムデコーダがベースラインとして機能した。 それぞれの手法には利点があるが、全てのタスクに勝るものはなく、マルチタスク学習における将来の研究のためのデータセットの可能性を強調している。 タスクは密接に関連していますが、オブジェクトの正確なセグメンテーションは必ずしも正確なインスタンス分離を意味するわけではありません。 我々は、オブジェクトの内部をさらに分離し、オブジェクトのデライン化と分離を改善するディープ・オーディナル・ウォーターッシュ(DOW)アプローチの亜種を導入することで、この問題に対処する。 我々のDOW変種は、U-NetとDINOv2のバックボーンの性能を改善する汎用的なアプローチであり、セマンティックセグメンテーションとインスタンスセグメンテーションのトレードオフを良くすることを示している。

As low-quality housing and in particular certain roof characteristics are associated with an increased risk of malaria, classification of roof types based on remote sensing imagery can support the assessment of malaria risk and thereby help prevent the disease. To support research in this area, we release the Nacala-Roof-Material dataset, which contains high-resolution drone images from Mozambique with corresponding labels delineating houses and specifying their roof types. The dataset defines a multi-task computer vision problem, comprising object detection, classification, and segmentation. In addition, we benchmarked various state-of-the-art approaches on the dataset. Canonical U-Nets, YOLOv8, and a custom decoder on pretrained DINOv2 served as baselines. We show that each of the methods has its advantages but none is superior on all tasks, which highlights the potential of our dataset for future research in multi-task learning. While the tasks are closely related, accurate segmentation of objects does not necessarily imply accurate instance separation, and vice versa. We address this general issue by introducing a variant of the deep ordinal watershed (DOW) approach that additionally separates the interior of objects, allowing for improved object delineation and separation. We show that our DOW variant is a generic approach that improves the performance of both U-Net and DINOv2 backbones, leading to a better trade-off between semantic segmentation and instance segmentation.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# コモンクローリングコーパスにおける地理空間の定量化

Quantifying Geospatial in the Common Crawl Corpus ( http://arxiv.org/abs/2406.04952v1 )

ライセンス: Link先を確認
Ilya Ilyankou, Meihui Wang, James Haworth, Stefano Cavazzi, (参考訳) 大規模言語モデル(LLM)は、しばしばCommon Crawl corpusから派生した巨大な未ラベルテキストデータセットの事前学習から生まれた、新しい地理空間能力を示す。 しかし, CC内の空間的含みは未解明であり, LLMsの空間的推論の理解に影響を与えている。 本稿では,最近のCommon Crawlリリースにおける地理空間データの有効性について,強力な言語モデルであるGeminiを用いて検討する。 文書のサンプルを分析し,手動で修正した結果から,座標や道路アドレスなどの地理空間情報を含む5分の1から6分の1の文書を推定する。 本研究は,Common Crawlにおける地理空間データの性質と範囲,およびWebクローデータ全般に関する定量的知見を提供する。 さらに,利用可能なWebクロースデータセットの地理空間的内容とそのLLMへの影響について,今後の調査の指針となる質問を定式化する。

Large language models (LLMs) exhibit emerging geospatial capabilities, stemming from their pre-training on vast unlabelled text datasets that are often derived from the Common Crawl corpus. However, the geospatial content within CC remains largely unexplored, impacting our understanding of LLMs' spatial reasoning. This paper investigates the prevalence of geospatial data in recent Common Crawl releases using Gemini, a powerful language model. By analyzing a sample of documents and manually revising the results, we estimate that between 1 in 5 and 1 in 6 documents contain geospatial information such as coordinates and street addresses. Our findings provide quantitative insights into the nature and extent of geospatial data within Common Crawl, and web crawl data in general. Furthermore, we formulate questions to guide future investigations into the geospatial content of available web crawl datasets and its influence on LLMs.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# 実世界の人間-ロボット空間相互作用シナリオにおけるROS-Causalの実験的評価

Experimental Evaluation of ROS-Causal in Real-World Human-Robot Spatial Interaction Scenarios ( http://arxiv.org/abs/2406.04955v1 )

ライセンス: Link先を確認
Luca Castri, Gloria Beraldo, Sariah Mghames, Marc Hanheide, Nicola Bellotto, (参考訳) 人間と共有された環境でロボットを配置するには、近くのエージェントやオブジェクトがどのように相互作用するかを深く理解する必要がある。 因果関係のモデル化に因果推論を用いると、人間の行動の予測が容易になり、ロボットの介入の予測が可能になる。 しかし、ロボット工学における標準的なデファクトフレームワークであるROSエコシステム内に既存の因果発見手法が実装されていないため、実際のロボットに効果的な利用を妨げているため、大きな課題が生じる。 このギャップを埋めるために、我々の以前の研究で、人間とロボットの空間的相互作用におけるデータ収集と因果発見のために設計されたROSベースのフレームワークであるROS-Causalを提案しました。 本研究では,ROS-Causalのシミュレーションおよび実験室シナリオにおける人間とロボットの空間的相互作用のデータセット上での実験的な評価を行い,その性能と有効性を評価する。 本研究では,本手法の有効性を実証し,データ収集中にロボットが因果モデルを直接抽出する方法を示す。 シミュレーションから生成されたオンライン因果関係モデルは、実験結果と一致している。 これらの発見は、研究者が共有環境におけるロボットシステムの性能を高めるのに役立つ。まず、シミュレーションにおける変数間の因果関係を実際の人間なしで研究し、実際の人間環境における実際のロボットの展開を促進する。 ROS-Causal: https://lcastri.github.io/roscausal

Deploying robots in human-shared environments requires a deep understanding of how nearby agents and objects interact. Employing causal inference to model cause-and-effect relationships facilitates the prediction of human behaviours and enables the anticipation of robot interventions. However, a significant challenge arises due to the absence of implementation of existing causal discovery methods within the ROS ecosystem, the standard de-facto framework in robotics, hindering effective utilisation on real robots. To bridge this gap, in our previous work we proposed ROS-Causal, a ROS-based framework designed for onboard data collection and causal discovery in human-robot spatial interactions. In this work, we present an experimental evaluation of ROS-Causal both in simulation and on a new dataset of human-robot spatial interactions in a lab scenario, to assess its performance and effectiveness. Our analysis demonstrates the efficacy of this approach, showcasing how causal models can be extracted directly onboard by robots during data collection. The online causal models generated from the simulation are consistent with those from lab experiments. These findings can help researchers to enhance the performance of robotic systems in shared environments, firstly by studying the causal relations between variables in simulation without real people, and then facilitating the actual robot deployment in real human environments. ROS-Causal: https://lcastri.github.io/roscausal
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# 人間知能自律システムにおける共有意識の探索のための状況理論の拡張

Expansion of situations theory for exploring shared awareness in human-intelligent autonomous systems ( http://arxiv.org/abs/2406.04956v1 )

ライセンス: Link先を確認
Scott A. Humr, Mustafa Canan, Mustafa Demir, (参考訳) インテリジェント自律システムは、複雑な環境でタスクを遂行するために他のエージェントと対話するシステムのシステムの一部である。 しかしながら、インテリジェントな自律システム統合システムでは、限られた認知プロセスに基づいて、チームが新しいタスクに対応できるような、共有された状況認識に基づいて、さらに複雑なレイヤを追加します。 知的自律システムの共有状況の欠如は、軍事指揮統制のような複雑なタスク環境におけるチームの有効性に悪影響を及ぼす。 共有状況認識の補完的アプローチである「状況理論」は、システム間の関係を理解するのに有用である。 本研究は,人間が知的自律システムエージェントと組む場合の状況意識を共有するシステムの開発を調査するために,状況理論に関する概念的議論を行うものである。 この議論の根拠として、レビューされた研究は、将来のシステムのシステムの設計と開発に有益な3つの主要な予想をもたらすシステムの文脈における状況理論を拡張した。

Intelligent autonomous systems are part of a system of systems that interact with other agents to accomplish tasks in complex environments. However, intelligent autonomous systems integrated system of systems add additional layers of complexity based on their limited cognitive processes, specifically shared situation awareness that allows a team to respond to novel tasks. Intelligent autonomous systems' lack of shared situation awareness adversely influences team effectiveness in complex task environments, such as military command-and-control. A complementary approach of shared situation awareness, called situations theory, is beneficial for understanding the relationship between system of systems shared situation awareness and effectiveness. The current study elucidates a conceptual discussion on situations theory to investigate the development of an system of systems shared situational awareness when humans team with intelligent autonomous system agents. To ground the discussion, the reviewed studies expanded situations theory within the context of a system of systems that result in three major conjectures that can be beneficial to the design and development of future systems of systems.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# マルチモーダル文書からのプロセスモデル抽出のための生成AIの活用

Leveraging Generative AI for Extracting Process Models from Multimodal Documents ( http://arxiv.org/abs/2406.04959v1 )

ライセンス: Link先を確認
Marvin Voelter, Raheleh Hadian, Timotheus Kampik, Marius Breitmayer, Manfred Reichert, (参考訳) 本稿では,多モード入力(テキストおよび画像ベース)からグラフィカルなプロセスモデルを自動的に生成するGPT(Generative Pre-trained Transformer)の機能について検討する。 より正確には、我々はまず、マルチモーダルプロセスモデル生成機能に対する基礎的な真理に基づく評価を可能にするための、小さなデータセットと一連の評価指標を導入する。 次に,ゼロ,ワンショット,少数ショットのプロンプト戦略を用いて商業用GPT機能の初期評価を行う。 この結果から,GPTはマルチモーダル入力に基づく半自動プロセスモデリングに有用であることが示唆された。 さらに重要なのは、データセットと評価のメトリクスとオープンソースの評価コードによって、今後も継続する体系的な評価のための構造化されたフレームワークが提供されます。

This paper presents an investigation of the capabilities of Generative Pre-trained Transformers (GPTs) to auto-generate graphical process models from multi-modal (i.e., text- and image-based) inputs. More precisely, we first introduce a small dataset as well as a set of evaluation metrics that allow for a ground truth-based evaluation of multi-modal process model generation capabilities. We then conduct an initial evaluation of commercial GPT capabilities using zero-, one-, and few-shot prompting strategies. Our results indicate that GPTs can be useful tools for semi-automated process modeling based on multi-modal inputs. More importantly, the dataset and evaluation metrics as well as the open-source evaluation code provide a structured framework for continued systematic evaluations moving forward.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# AdaINを用いたマルチスタイル神経放射場

Multi-style Neural Radiance Field with AdaIN ( http://arxiv.org/abs/2406.04960v1 )

ライセンス: Link先を確認
Yu-Wen Pao, An-Jie Li, (参考訳) 本研究では,AdaINとNeRFを組み合わせた新しいパイプラインを提案する。 これまでの作品と比較して、以下の貢献をしている。 1)パイプラインを単純化します。 2)マルチスタイルタスクを扱うために,モデルの機能を拡張する。 3)強いブラシストロークを持つスタイルでうまく機能するようにモデルアーキテクチャを変更します。 4) マルチスタイルモデルにスタイル補間を実装し, スタイル化出力とオリジナルシーンのスタイル強度を制御できるようにし, スタイル化強度をよりよく制御する。

In this work, we propose a novel pipeline that combines AdaIN and NeRF for the task of stylized Novel View Synthesis. Compared to previous works, we make the following contributions: 1) We simplify the pipeline. 2) We extend the capabilities of model to handle the multi-style task. 3) We modify the model architecture to perform well on styles with strong brush strokes. 4) We implement style interpolation on the multi-style model, allowing us to control the style between any two styles and the style intensity between the stylized output and the original scene, providing better control over the stylization strength.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# 多面体前誘導Few-Shot空中レンダリング

Multiplane Prior Guided Few-Shot Aerial Scene Rendering ( http://arxiv.org/abs/2406.04961v1 )

ライセンス: Link先を確認
Zihan Gao, Licheng Jiao, Lingling Li, Xu Liu, Fang Liu, Puhua Chen, Yuwei Guo, (参考訳) ニューラル・レージアンス・フィールド(NeRF)は、様々な空撮シーンでうまく適用されているが、監督が限られているため、視界が狭いという問題に直面している。 無人航空機(UAV)は遠近距離とエネルギーの制約に直面する可能性があるため、密集した空中視界の取得はしばしば禁止される。 本研究では,この領域における先駆的取り組みとして,数発の空中映像レンダリングに適した新しいアプローチであるMPNeRF(Multiplane Prior Guided NeRF)を紹介する。 我々の重要な洞察は、空中画像に特有の固有幾何学的規則性を利用して、希薄な空域におけるNeRFを増強できるということである。 我々は、NeRFとMultiplane Image(MPI)の挙動を調査することにより、NeRFのトレーニング過程をマルチプレーンプリミティブでガイドすることを提案する。 提案されたMultiplane Priorは、MPIの利点を引き合いに出し、SwinV2変換器を通じて高度な画像理解を取り入れ、SimMIMを介して事前訓練されている。 我々は,MPNeRFがSSIMとLPIPSの性能を3つのビューで3倍にすることで,非航空的文脈で適用された既存の最先端手法よりも優れていることを示した。 我々の研究は、限られたデータを持つ空中シーンにおけるNeRFベースのアプリケーションの開発に関する洞察を提供してくれることを願っています。

Neural Radiance Fields (NeRF) have been successfully applied in various aerial scenes, yet they face challenges with sparse views due to limited supervision. The acquisition of dense aerial views is often prohibitive, as unmanned aerial vehicles (UAVs) may encounter constraints in perspective range and energy constraints. In this work, we introduce Multiplane Prior guided NeRF (MPNeRF), a novel approach tailored for few-shot aerial scene rendering-marking a pioneering effort in this domain. Our key insight is that the intrinsic geometric regularities specific to aerial imagery could be leveraged to enhance NeRF in sparse aerial scenes. By investigating NeRF's and Multiplane Image (MPI)'s behavior, we propose to guide the training process of NeRF with a Multiplane Prior. The proposed Multiplane Prior draws upon MPI's benefits and incorporates advanced image comprehension through a SwinV2 Transformer, pre-trained via SimMIM. Our extensive experiments demonstrate that MPNeRF outperforms existing state-of-the-art methods applied in non-aerial contexts, by tripling the performance in SSIM and LPIPS even with three views available. We hope our work offers insights into the development of NeRF-based applications in aerial scenes with limited data.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# シフトロバストグラフ表現のための多様性の学習

Learning Divergence Fields for Shift-Robust Graph Representations ( http://arxiv.org/abs/2406.04963v1 )

ライセンス: Link先を確認
Qitian Wu, Fan Nie, Chenxiao Yang, Junchi Yan, (参考訳) 実世界のデータ生成は、インスタンスレベルの相互依存性を誘導する特定のジオメトリ(例えばグラフ)を伴うことが多い。 この特徴は、データ生成の分布に影響を与える複雑な相互依存パターンのため、学習モデルの一般化を難しくし、トレーニングからテストまで様々である。 本研究では,相互依存データを用いた一般化問題に対して,学習可能な拡散場を持つ幾何学的拡散モデルを提案する。 我々は,相互依存データ間の多面的情報の流れを捉えることを目的とした,確率的拡散率を持つ拡散方程式を時間ステップ毎に一般化する。 さらに、因果推論によって新たな学習目標が導出され、ドメイン間で不感な相互依存の一般化可能なパターンを学習するためのモデルが導出される。 本稿では,GCN,GAT,Transformerの汎用バージョンとして,分散シフトに対する高度な堅牢性を有する3つのモデルインスタンス化を提案する。 種々の実世界のデータセット上での分布外一般化の有望な有効性を示す。

Real-world data generation often involves certain geometries (e.g., graphs) that induce instance-level interdependence. This characteristic makes the generalization of learning models more difficult due to the intricate interdependent patterns that impact data-generative distributions and can vary from training to testing. In this work, we propose a geometric diffusion model with learnable divergence fields for the challenging generalization problem with interdependent data. We generalize the diffusion equation with stochastic diffusivity at each time step, which aims to capture the multi-faceted information flows among interdependent data. Furthermore, we derive a new learning objective through causal inference, which can guide the model to learn generalizable patterns of interdependence that are insensitive across domains. Regarding practical implementation, we introduce three model instantiations that can be considered as the generalized versions of GCN, GAT, and Transformers, respectively, which possess advanced robustness against distribution shifts. We demonstrate their promising efficacy for out-of-distribution generalization on diverse real-world datasets.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# 確率微分方程式学習のためのニューラルラプラス

Neural Laplace for learning Stochastic Differential Equations ( http://arxiv.org/abs/2406.04964v1 )

ライセンス: Link先を確認
Adrien Carrel, (参考訳) ニューラルラプラス(Neural Laplace)は、微分方程式(DE)を学習するための統一的なフレームワークである。 DEの異なるクラスに対して、このフレームワークは通常の微分方程式(ODE)のクラスを学習することを目的としたニューラルネットワークに依存する他のアプローチよりも優れている。 しかし、多くのシステムはODEを使ってモデル化できません。 確率微分方程式(SDE、英: Stochastic differential equation)は、確率性の影響下で時空間DEM力学をモデル化する際の数学的ツールである。 本稿では,SDEの多様なクラスを理論的・実用的に学習するためのNeural Laplaceの応用の可能性について概説する。

Neural Laplace is a unified framework for learning diverse classes of differential equations (DE). For different classes of DE, this framework outperforms other approaches relying on neural networks that aim to learn classes of ordinary differential equations (ODE). However, many systems can't be modelled using ODEs. Stochastic differential equations (SDE) are the mathematical tool of choice when modelling spatiotemporal DE dynamics under the influence of randomness. In this work, we review the potential applications of Neural Laplace to learn diverse classes of SDE, both from a theoretical and a practical point of view.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# 量子ウェーブフロントセンシングによるバイフォトン空間波動関数ダイナミクスのキャラクタリゼーション

Characterizing Biphoton Spatial Wave Function Dynamics with Quantum Wavefront Sensing ( http://arxiv.org/abs/2406.04973v1 )

ライセンス: Link先を確認
Yi Zheng, Zhao-Di Liu, Rui-Heng Miao, Jin-Ming Cui, Mu Yang, Xiao-Ye Xu, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo, (参考訳) 非常に高次元で、絡み合った光子の空間的自由度は、量子基盤と応用量子技術の鍵となるツールである。 この特徴を十分に活用するには、異なる進化段階において、絡み合った振幅と位相情報を含む多光子空間波関数を実験的に特徴づけることが不可欠である。 しかし、それを測定する効果的な方法はない。 量子状態トモグラフィーは高価であり、量子ホログラフィーには追加の参照が必要である。 ここでは、二光子空間波動関数の効率的かつ参照不要な測定を行うために量子シャック・ハートマン波面センシングを導入する。 マイクロレンズアレイの後方焦点面における光子対の結合確率分布を測定し、振幅抽出と位相再構成に利用する。 実験では,自由空間伝播中に位相相関が現れると,バイフォトン振幅の相関が弱くなるのが観察された。 我々の研究は、量子物理および適応光学における決定的なステップであり、高次相関やトポロジカルパターンで量子光学場を特徴づける道を開く。

With an extremely high dimensionality, the spatial degree of freedom of entangled photons is a key tool for quantum foundation and applied quantum techniques. To fully utilize the feature, the essential task is to experimentally characterize the multiphoton spatial wave function including the entangled amplitude and phase information at different evolutionary stages. However, there is no effective method to measure it. Quantum state tomography is costly, and quantum holography requires additional references. Here we introduce quantum Shack-Hartmann wavefront sensing to perform efficient and reference-free measurement of the biphoton spatial wave function. The joint probability distribution of photon pairs at the back focal plane of a microlens array is measured and used for amplitude extraction and phase reconstruction. In the experiment, we observe that the biphoton amplitude correlation becomes weak while phase correlation shows up during free-space propagation. Our work is a crucial step in quantum physical and adaptive optics and paves the way for characterizing quantum optical fields with high-order correlations or topological patterns.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# UniTST:多変量時系列予測のための系列間依存と系列内依存を効果的にモデル化する

UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2406.04975v1 )

ライセンス: Link先を確認
Juncheng Liu, Chenghao Liu, Gerald Woo, Yiwei Wang, Bryan Hooi, Caiming Xiong, Doyen Sahoo, (参考訳) トランスフォーマーベースのモデルは、多変量時系列予測(MTSF)のための強力なツールとして登場した。 しかし、既存のTransformerモデルは、MSSデータにおける可変次元と時間次元の両方の複雑な依存関係をキャプチャできない場合が多い。 最近のモデルでは、2つの逐次的または並列的な注意機構によって、変数と時間的依存関係を別々に捉えることが提案されている。 しかし、これらの手法は、複雑なシリーズ間およびシリーズ内依存関係を直接的かつ明示的に学習することはできない。 この研究で最初に、これらの依存関係が現実のデータに通常存在するため、非常に重要であることを実証する。 これらの依存関係を直接モデル化するために、フラット化されたパッチトークンに統一された注意機構を含む変換器ベースのUniTSTモデルを提案する。 さらに、複雑さを減らし、潜在的に多数の変数に対してモデルを実現可能にするディスパッチモジュールも追加します。 提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のための複数のデータセットに関する広範な実験で示されたような,魅力的な性能を提供する。

Transformer-based models have emerged as powerful tools for multivariate time series forecasting (MTSF). However, existing Transformer models often fall short of capturing both intricate dependencies across variate and temporal dimensions in MTS data. Some recent models are proposed to separately capture variate and temporal dependencies through either two sequential or parallel attention mechanisms. However, these methods cannot directly and explicitly learn the intricate inter-series and intra-series dependencies. In this work, we first demonstrate that these dependencies are very important as they usually exist in real-world data. To directly model these dependencies, we propose a transformer-based model UniTST containing a unified attention mechanism on the flattened patch tokens. Additionally, we add a dispatcher module which reduces the complexity and makes the model feasible for a potentially large number of variates. Although our proposed model employs a simple architecture, it offers compelling performance as shown in our extensive experiments on several datasets for time series forecasting.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# マスク付きビデオ一貫性によるVSPWデータセットのセマンティックセグメンテーション

Semantic Segmentation on VSPW Dataset through Masked Video Consistency ( http://arxiv.org/abs/2406.04979v1 )

ライセンス: Link先を確認
Chen Liang, Qiang Guo, Chongkai Yu, Chengjing Wu, Ting Liu, Luoqi Liu, (参考訳) 画素レベルのビデオ理解は、連続したフレームから正確で安定したセマンティック情報を学習するために、空間次元と時間次元の両方に効果的に3次元データを統合する必要がある。 しかしながら、VSPWデータセット上の既存の高度なモデルは、時空間関係を完全にモデル化していない。 本稿では,PVUWコンペティションの解決策として,既存のモデルに基づくマスク付きビデオ整合性(MVC)を提案する。 MVCは、ランダムなパッチが保持されないマスキングフレームの予測間の一貫性を強制する。 モデルは、画像のコンテキストと、ビデオの先行フレームと後続フレームの関係を通して、マスクされた部分のセグメンテーション結果を学ぶ必要がある。 さらに,テスト時間拡張,モデル強調,マルチモーダルモデルに基づく後処理手法も導入した。 VSPWデータセット上で67.27%のmIoUを達成し、PVUW2024チャレンジVSSトラックで2位にランクインした。

Pixel-level Video Understanding requires effectively integrating three-dimensional data in both spatial and temporal dimensions to learn accurate and stable semantic information from continuous frames. However, existing advanced models on the VSPW dataset have not fully modeled spatiotemporal relationships. In this paper, we present our solution for the PVUW competition, where we introduce masked video consistency (MVC) based on existing models. MVC enforces the consistency between predictions of masked frames where random patches are withheld. The model needs to learn the segmentation results of the masked parts through the context of images and the relationship between preceding and succeeding frames of the video. Additionally, we employed test-time augmentation, model aggeregation and a multimodal model-based post-processing method. Our approach achieves 67.27% mIoU performance on the VSPW dataset, ranking 2nd place in the PVUW2024 challenge VSS track.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# 逆ロバスト一般化におけるインシシットバイアスの価格

The Price of Implicit Bias in Adversarially Robust Generalization ( http://arxiv.org/abs/2406.04981v1 )

ライセンス: Link先を確認
Nikolaos Tsilivis, Natalie Frank, Nathan Srebro, Julia Kempe, (参考訳) 本研究では、ロバストEMM(Robust ERM)における最適化の暗黙バイアスとそのロバスト一般化との関係について検討する。 線形モデルによる逆摂動下の分類設定において、与えられた摂動集合に対してどのような正則化を理想的に適用して(ロバストな)一般化を改善するべきかを考察する。 次に、ロバストEMMにおける最適化の暗黙のバイアスがモデルのロバスト性に大きく影響し、最適化アルゴリズムまたはアーキテクチャを通して、これが起こる可能性のある2つの方法を特定することを示します。 我々は、合成データを用いたシミュレーションにおける予測を検証し、ディープニューラルネットワークを用いたロバストEMMにおける暗黙バイアスの重要性を実験的に検討する。

We study the implicit bias of optimization in robust empirical risk minimization (robust ERM) and its connection with robust generalization. In classification settings under adversarial perturbations with linear models, we study what type of regularization should ideally be applied for a given perturbation set to improve (robust) generalization. We then show that the implicit bias of optimization in robust ERM can significantly affect the robustness of the model and identify two ways this can happen; either through the optimization algorithm or the architecture. We verify our predictions in simulations with synthetic data and experimentally study the importance of implicit bias in robust ERM with deep neural networks.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# CityCraft:3Dシティジェネレーションのリアルクラフト

CityCraft: A Real Crafter for 3D City Generation ( http://arxiv.org/abs/2406.04983v1 )

ライセンス: Link先を確認
Jie Deng, Wenhao Chai, Junsheng Huang, Zhonghan Zhao, Qixuan Huang, Mingyan Gao, Jianshu Guo, Shengyu Hao, Wenhao Hu, Jenq-Neng Hwang, Xi Li, Gaoang Wang, (参考訳) 都市景観生成は、自動運転、スマートシティ開発、交通シミュレーションにおいて大きな注目を集めている。 インフラ計画と監視ソリューションの強化に役立ちます。 既存の手法では、通常、変分オートエンコーダ(VAE)、GAN(Generative Adversarial Networks)、トランスフォーマー(Transformers)を使用して、都市レイアウトの生成を含む2段階のプロセスを採用している。 これらの技法は、しばしば、レンダリングされた都市のシーンで、限られた多様性と顕著なアーティファクトを示す。 レンダリングされたシーンは、訓練用のイメージに似ており、単調なスタイルになっている。 さらに、これらの方法は計画能力に欠けており、現実的な生成シーンは少なくなります。 本稿では,都市景観の多様性と質を両立させる革新的な枠組みであるCityCraftを紹介する。 提案手法は,まず拡散変圧器(DiT)モデルを配置し,多種かつ制御可能な2次元都市レイアウトを生成する。 その後、Large Language Model(LLM)を用いて、ユーザプロンプトと言語ガイドラインに基づいて、これらのレイアウト内でランドユースプランを戦略的に作成する。 生成したレイアウトと都市計画に基づいて,Blenderとアセット検索モジュールを用いて,正確なアセット配置とシーン構築を行う。 1)都市部の2次元意味的レイアウトを含むCityCraft-OSMデータセット、対応する衛星画像、詳細なアノテーション。 2) CityCraft-Buildingsデータセットは、何千もの多様な高品質な3Dビルディングアセットを備えている。 CityCraftは、リアルな3D都市を作る上で、最先端のパフォーマンスを実現している。

City scene generation has gained significant attention in autonomous driving, smart city development, and traffic simulation. It helps enhance infrastructure planning and monitoring solutions. Existing methods have employed a two-stage process involving city layout generation, typically using Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs), or Transformers, followed by neural rendering. These techniques often exhibit limited diversity and noticeable artifacts in the rendered city scenes. The rendered scenes lack variety, resembling the training images, resulting in monotonous styles. Additionally, these methods lack planning capabilities, leading to less realistic generated scenes. In this paper, we introduce CityCraft, an innovative framework designed to enhance both the diversity and quality of urban scene generation. Our approach integrates three key stages: initially, a diffusion transformer (DiT) model is deployed to generate diverse and controllable 2D city layouts. Subsequently, a Large Language Model(LLM) is utilized to strategically make land-use plans within these layouts based on user prompts and language guidelines. Based on the generated layout and city plan, we utilize the asset retrieval module and Blender for precise asset placement and scene construction. Furthermore, we contribute two new datasets to the field: 1)CityCraft-OSM dataset including 2D semantic layouts of urban areas, corresponding satellite images, and detailed annotations. 2) CityCraft-Buildings dataset, featuring thousands of diverse, high-quality 3D building assets. CityCraft achieves state-of-the-art performance in generating realistic 3D cities.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# MEFT:スパースアダプタによるメモリ効率の良いファインチューニング

MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter ( http://arxiv.org/abs/2406.04984v1 )

ライセンス: Link先を確認
Jitai Hao, WeiWei Sun, Xin Xin, Qi Meng, Zhumin Chen, Pengjie Ren, Zhaochun Ren, (参考訳) パラメータ効率のよい微調整(PEFT)は、限られたリソース下での大規模言語モデル(LLM)の微調整を容易にする。 しかし、PEFTによる複雑な知識集約タスクの微調整性能は、制約付きモデルの容量によって制限される。 この制限を克服するために,より大型でメモリ効率のよいLLMを微調整する機構を導入する。 これは、LLMのFeed-Forward Networks(FFNs)の固有のアクティベーション空間を活用し、GPU(Graphics Processing Unit)と比較してCPU(Central Processing Unit)メモリの容量を大きくすることで実現される。 CPU上により大きなアダプタのパラメータを格納し、更新します。 さらに、不必要なCPU計算を緩和し、GPUとCPU間の通信量を削減するために、Mixture of Experts(MoE)のようなアーキテクチャを採用している。 これはPCI Express (PCIe) の帯域幅の制限に対して特に有益である。 提案手法は,24GBのメモリ単一GPUセットアップなど,より限られたリソースの下で動作しても,トレーニング効率を損なうことなく,メモリ容量の増大に匹敵する微調整結果が得られる。 私たちのコードはhttps://github.com/CURRENTF/MEFT.comで公開されています。

Parameter-Efficient Fine-tuning (PEFT) facilitates the fine-tuning of Large Language Models (LLMs) under limited resources. However, the fine-tuning performance with PEFT on complex, knowledge-intensive tasks is limited due to the constrained model capacity, which originates from the limited number of additional trainable parameters. To overcome this limitation, we introduce a novel mechanism that fine-tunes LLMs with adapters of larger size yet memory-efficient. This is achieved by leveraging the inherent activation sparsity in the Feed-Forward Networks (FFNs) of LLMs and utilizing the larger capacity of Central Processing Unit (CPU) memory compared to Graphics Processing Unit (GPU). We store and update the parameters of larger adapters on the CPU. Moreover, we employ a Mixture of Experts (MoE)-like architecture to mitigate unnecessary CPU computations and reduce the communication volume between the GPU and CPU. This is particularly beneficial over the limited bandwidth of PCI Express (PCIe). Our method can achieve fine-tuning results comparable to those obtained with larger memory capacities, even when operating under more limited resources such as a 24GB memory single GPU setup, with acceptable loss in training efficiency. Our codes are available at https://github.com/CURRENTF/MEFT.
翻訳日:2024-06-10 13:41:57 公開日:2024-06-07
# 傾きCHSH不等式によるコンパイル環境における自己検査

Self-testing in the compiled setting via tilted-CHSH inequalities ( http://arxiv.org/abs/2406.04986v1 )

ライセンス: Link先を確認
Arthur Mehta, Connor Paddock, Lewis Wooltorton, (参考訳) ベルのシナリオでは、古典的検証器は2つの非通信プロバーと相互作用し、相関を生成する。 ある相関関係により、検証者は基礎となる量子状態と測定の証明、または自己検証を行うことができる。 特に、傾いたCHSH不等式の族は、任意の2量子状態の自己検定に用いられている。 しかし、多くのデバイスに依存しないプロトコルを支えるセルフテストは、そのようなアプリケーションの大きな欠点は、通信不能な仮定である。 非コミュニケーションの仮定に対処するため、Kalai et al (STOC'23) は、二部構成のベルシナリオを検証子と1つの計算で有界な証明子の間の2ラウンドの相互作用にコンパイルする手順を与える。 本研究では,コンパイルされたベルシナリオに対する自己テストの形式化を行う。 我々は、傾きCHSH不等式族に対するコンパイルの下で最大量子値が保存されることを証明し、任意の最大値違反がコンパイルされた自己テストを構成することを証明した。 より具体的には、第2ラウンドで状態と測定を回復する効率的な等尺法の存在を確立する。

In a Bell scenario, a classical verifier interacts with two non-communicating provers, producing a correlation. Certain correlations allow the verifier to certify, or self-test, the underlying quantum state and measurements. Notably, the family of tilted-CHSH inequalities has been used to self-test any two-qubit state. Self-tests underpin numerous device-independent protocols, however, a significant drawback of such applications is the non-communicating assumption. To address the non-communication assumption Kalai et al. (STOC'23) give a procedure which compiles a bipartite Bell scenario into a 2-round interaction between a verifier and a single computationally bounded prover. In this work, we formalize self-testing for compiled Bell scenarios. We prove the maximal quantum value is preserved under compilation for the family of tilted-CHSH inequalities, and that any maximal violation constitutes a compiled self-test. More specifically, we establish the existence of an efficient isometry recovering the state and measurements in the second round.
翻訳日:2024-06-10 13:32:12 公開日:2024-06-07
# 言語モデルは特定の認知プロファイルをエミュレートする:予測可能性測定と個人差との相互作用に関する研究

Language models emulate certain cognitive profiles: An investigation of how predictability measures interact with individual differences ( http://arxiv.org/abs/2406.04988v1 )

ライセンス: Link先を確認
Patrick Haller, Lena S. Bolliger, Lena A. Jäger, (参考訳) これまで, 集団レベルでは, 個人差によらず, 読書における主観的, エントロピー的効果に関するほとんどの調査が実施されてきた。 本研究では,言語利用者の認知能力の情報を組み込んだ処理努力の指標として,人間の読取時間データに基づく言語モデル(LM)から推定される,素因とエントロピーの予測力を再考する。 そこで本研究では,広範囲な心理測定試験を完了した個人から得られた読解データに基づいて,世代別およびエントロピーの推定値の予測力を評価した。 具体的には,認知的スコアに対する主観的・エントロピーの調節が読解時間の予測精度を高めるかどうかを検討するとともに,認知的ハイパフォーマンス群や低パフォーマンス群の読解時間の予測において,LMが体系的なバイアスを示すかどうかを検証し,与えられたLMがどのような心理言語的対象をエミュレートするかを明らかにする。 本研究は, 認知能力の付加は, 読解時間における主観的・エントロピーの予測能力を高め, 一般に, 心理測定試験における高い評価は, 予測可能性に対する感度の低下と関連していることを明らかにした。 最後に, 分析したLMは, 対象群(高い言語知能を有する個人)に対して, 精度の低い予測可能性を示唆した。

To date, most investigations on surprisal and entropy effects in reading have been conducted on the group level, disregarding individual differences. In this work, we revisit the predictive power of surprisal and entropy measures estimated from a range of language models (LMs) on data of human reading times as a measure of processing effort by incorporating information of language users' cognitive capacities. To do so, we assess the predictive power of surprisal and entropy estimated from generative LMs on reading data obtained from individuals who also completed a wide range of psychometric tests. Specifically, we investigate if modulating surprisal and entropy relative to cognitive scores increases prediction accuracy of reading times, and we examine whether LMs exhibit systematic biases in the prediction of reading times for cognitively high- or low-performing groups, revealing what type of psycholinguistic subject a given LM emulates. Our study finds that in most cases, incorporating cognitive capacities increases predictive power of surprisal and entropy on reading times, and that generally, high performance in the psychometric tests is associated with lower sensitivity to predictability effects. Finally, our results suggest that the analyzed LMs emulate readers with lower verbal intelligence, suggesting that for a given target group (i.e., individuals with high verbal intelligence), these LMs provide less accurate predictability estimates.
翻訳日:2024-06-10 13:32:12 公開日:2024-06-07
# 接地言語モデルを用いた合成一般化

Compositional Generalization with Grounded Language Models ( http://arxiv.org/abs/2406.04989v1 )

ライセンス: Link先を確認
Sondre Wold, Étienne Simon, Lucas Georges Gabriel Charpentier, Egor V. Kostylev, Erik Velldal, Lilja Øvrelid, (参考訳) 基底言語モデルは、知識グラフのような外部情報ソースを使用して、事前学習に関連する一般的な課題を満たす。 意味解析における構成一般化に関するこれまでの研究を延長することにより、これらのモデルが知識グラフのパターンから学習し一般化する程度を制御された評価が可能となる。 我々は,構成性の異なる側面を目標とした知識グラフと組み合わせた自然言語質問を生成する手法を開発し,すでに暗黙的に符号化されている情報に言語モデルを基礎付けることを回避した。 我々は,言語モデルと知識グラフを組み合わせる既存の手法を評価し,未知の長さの列への一般化に苦慮し,新しい基本成分の組み合わせを見いだす。 実験の結果、これらのモデルの表現力についていくつかの知見が得られていますが、我々の研究とデータセットのリリースは、言語モデルと構造化知識表現をよりうまく組み合わせる方法について、将来の研究を動機づけることを願っています。

Grounded language models use external sources of information, such as knowledge graphs, to meet some of the general challenges associated with pre-training. By extending previous work on compositional generalization in semantic parsing, we allow for a controlled evaluation of the degree to which these models learn and generalize from patterns in knowledge graphs. We develop a procedure for generating natural language questions paired with knowledge graphs that targets different aspects of compositionality and further avoids grounding the language models in information already encoded implicitly in their weights. We evaluate existing methods for combining language models with knowledge graphs and find them to struggle with generalization to sequences of unseen lengths and to novel combinations of seen base components. While our experimental results provide some insight into the expressive power of these models, we hope our work and released datasets motivate future research on how to better combine language models with structured knowledge representations.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# 分子電気双極子モーメントの相対論的計算の量子ハードウェアによる実証:変分量子固有解法を用いた光から重系へ

Quantum hardware demonstrations of relativistic calculations of molecular electric dipole moments: from light to heavy systems using Variational Quantum Eigensolver ( http://arxiv.org/abs/2406.04992v1 )

ライセンス: Link先を確認
Palak Chawla, Shweta, K. R. Swain, Tushti Patel, Renu Bala, Disha Shetty, Kenji Sugisaki, Sudhindu Bikash Mandal, Jordi Riu, Jan Nogue, V. S. Prasannaa, B. P. Das, (参考訳) 量子古典的ハイブリッド変分量子固有解法(VQE)アルゴリズムは、ノイズのある中間スケール量子(NISQ)時代の量子多体系の基底状態エネルギーを得る方法として選択されている。 この研究は、VQEアルゴリズムを相対論的状態にまで拡張するだけでなく、エネルギー以外の性質、すなわち分子永続電気双極子モーメント(PDM)を計算する。 我々は18量子ビットの量子シミュレーションを行い、光BeHから重い放射性RaH分子まで、基底状態エネルギーと単価二原子分子のPDMを得る。 本稿では,これらのシステムにおける相関関係の傾向と,その結果の精度について検討する。 さらに,SrHおよびSrF分子のPDMを,最先端のIonQ Aria-I量子コンピュータを用いて6キュービットの活性空間で測定した。 これらの計算に付随する量子回路は、NISQハードウェアが課す制限を考慮し、広範囲に最適化された。 そこで我々は,点群対称性の利用,パイプラインに基づく回路最適化へのZX-Calculusの統合,VQEのエネルギソートなど,一連の手法を採用した。 これらの方法で、我々は6量子ビット量子回路を280個の2量子ビットゲートから37個の2量子ビットゲートに圧縮する(それぞれの6スピンの軌道活動空間におけるSrHとSrFのPDMの限界トレードオフは0.33と0.31%)。 我々は、概念実証が、重原子や分子を含む将来の量子ハードウェア計算の基礎となることを期待する。

The quantum-classical hybrid Variational Quantum Eigensolver (VQE) algorithm is recognized to be the method of choice to obtain ground state energies of quantum many-body systems in the noisy intermediate scale quantum (NISQ) era. This study not only extends the VQE algorithm to the relativistic regime, but also calculates a property other than energy, namely the molecular permanent electric dipole moment (PDM). We carry out 18-qubit quantum simulations to obtain ground state energies as well as PDMs of single-valence diatomic molecules, ranging from the light BeH to the heavy radioactive RaH molecule. We investigate the correlation trends in these systems as well as access the precision in our results. Furthermore, we measure the PDM of the moderately heavy SrH and SrF molecules on the optimized unitary coupled cluster state, using the state-of-the-art IonQ Aria-I quantum computer in an active space of 6 qubits. The associated quantum circuits for these computations were extensively optimized in view of limitations imposed by NISQ hardware. To that end, we employ an array of techniques, including the use of point group symmetries, integrating ZX-Calculus into our pipeline-based circuit optimization, and energy sort VQE procedure. Through these methods, we compress our 6-qubit quantum circuit from 280 two-qubit gates to 37 two-qubit gates (with a marginal trade-off of 0.33 and 0.31 percent in the PDM for SrH and SrF in their respective 6-spin orbital active spaces). We anticipate that our proof-of-concept demonstration lays the groundwork for future quantum hardware calculations involving heavy atoms and molecules.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# うつ病治療強化(AIDME)研究における人工知能導入によるうつ病性障害の鑑別治療効果予測のための深層学習モデルの開発と妥当性の検討

Development and Validation of a Deep-Learning Model for Differential Treatment Benefit Prediction for Adults with Major Depressive Disorder Deployed in the Artificial Intelligence in Depression Medication Enhancement (AIDME) Study ( http://arxiv.org/abs/2406.04993v1 )

ライセンス: Link先を確認
David Benrimoh, Caitrin Armstrong, Joseph Mehltretter, Robert Fratila, Kelly Perlman, Sonia Israel, Adam Kapelner, Sagar V. Parikh, Jordan F. Karp, Katherine Heller, Gustavo Turecki, (参考訳) MDD(Major Depressive Disorder)の薬理学的治療は、試行錯誤のアプローチに依存している。 本稿では,治療のパーソナライズと成果の向上を目的とした人工知能(AI)モデルを提案する。 オブジェクティヴ: 1)少なくとも中等度大うつ病の成人に対する複数の薬理学的治療における寛解の確率を予測するモデルを構築した。 2) 有害バイアスの増幅のためのモデル予測を検証し, 検証する。 方法】抗うつ薬の以前の臨床試験から得られたデータは共通の枠組みに標準化され,中等度から重篤な大うつ病の成人9,042名であった。 特徴選択は25の臨床的および人口統計学的変数を保持した。 ベイズ最適化を用いて、ディープラーニングモデルをトレーニングセットでトレーニングし、検証セットを使用して洗練し、保持されたテストセットで一度テストした。 結果: ホールドアウトテストセットの評価では, 模型は0.65のAUCを得た。 モデルはテストセット上でヌルモデルより優れていた(p = 0.01)。 このモデルは臨床的有用性を示し、仮説および実際の改善試験において、集団寛容率を絶対的に改善した。 モデルでは、ある薬物(escitalopram)が他の薬物(入力データと矛盾する)よりも優れていると認識したが、それ以外は薬物のランクに有意な違いがあった。 バイアステストでは、モデルは潜在的に有害なバイアスを増幅しなかった。 結論: 治療開始前後のMDD患者に対して, パーソナライズを目的とし, 10種類の治療選択を予測できる最初のモデルを示す。 AIDMEランダム化対照試験において,結果が別々に報告された臨床実習を行った。

INTRODUCTION: The pharmacological treatment of Major Depressive Disorder (MDD) relies on a trial-and-error approach. We introduce an artificial intelligence (AI) model aiming to personalize treatment and improve outcomes, which was deployed in the Artificial Intelligence in Depression Medication Enhancement (AIDME) Study. OBJECTIVES: 1) Develop a model capable of predicting probabilities of remission across multiple pharmacological treatments for adults with at least moderate major depression. 2) Validate model predictions and examine them for amplification of harmful biases. METHODS: Data from previous clinical trials of antidepressant medications were standardized into a common framework and included 9,042 adults with moderate to severe major depression. Feature selection retained 25 clinical and demographic variables. Using Bayesian optimization, a deep learning model was trained on the training set, refined using the validation set, and tested once on the held-out test set. RESULTS: In the evaluation on the held-out test set, the model demonstrated achieved an AUC of 0.65. The model outperformed a null model on the test set (p = 0.01). The model demonstrated clinical utility, achieving an absolute improvement in population remission rate in hypothetical and actual improvement testing. While the model did identify one drug (escitalopram) as generally outperforming the other drugs (consistent with the input data), there was otherwise significant variation in drug rankings. On bias testing, the model did not amplify potentially harmful biases. CONCLUSIONS: We demonstrate the first model capable of predicting outcomes for 10 different treatment options for patients with MDD, intended to be used at or near the start of treatment to personalize treatment. The model was put into clinical practice during the AIDME randomized controlled trial whose results are reported separately.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# 音声自己教師モデルにおける社会的バイアスについて

On the social bias of speech self-supervised models ( http://arxiv.org/abs/2406.04997v1 )

ライセンス: Link先を確認
Yi-Cheng Lin, Tzu-Quan Lin, Hsi-Che Lin, Andy T. Liu, Hung-yi Lee, (参考訳) 自己教師付き学習(SSL)音声モデルは、様々なタスクにおいて顕著なパフォーマンスを達成しているが、偏見のある結果、特に疎外化グループに影響を及ぼすことは、重大な懸念を提起している。 ソーシャルバイアス(Social bias)とは、アルゴリズムがトレーニングに使用されるデータに存在するソーシャルグループ間で異なる特性を増幅する現象である。 SSLモデルのバイアスは、識別パターンを自動化し、不平等なシステムを強化することで不公平を永続することができる。 この研究は、一般的なSSLモデルがバイアス付きアソシエーションを不注意に取得していることを明らかにする。 モデルアーキテクチャやサイズ,トレーニング方法論といったさまざまな要因が,これらのモデル内の社会的バイアスの伝播にどのように影響するかを考察する。 最後に、正規化技術、特にモデル圧縮によるSSLモデルのデバイアスの有効性について検討する。 以上の結果から,行プルーニングやトレーニングなどの手法を用いることで,SSLモデル内の社会的バイアスを効果的に軽減できることがわかった。

Self-supervised learning (SSL) speech models have achieved remarkable performance in various tasks, yet the biased outcomes, especially affecting marginalized groups, raise significant concerns. Social bias refers to the phenomenon where algorithms potentially amplify disparate properties between social groups present in the data used for training. Bias in SSL models can perpetuate injustice by automating discriminatory patterns and reinforcing inequitable systems. This work reveals that prevalent SSL models inadvertently acquire biased associations. We probe how various factors, such as model architecture, size, and training methodologies, influence the propagation of social bias within these models. Finally, we explore the efficacy of debiasing SSL models through regularization techniques, specifically via model compression. Our findings reveal that employing techniques such as row-pruning and training wider, shallower models can effectively mitigate social bias within SSL model.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# ADBA:ブラックボックス攻撃に対する近似決定境界法

ADBA:Approximation Decision Boundary Approach for Black-Box Adversarial Attacks ( http://arxiv.org/abs/2406.04998v1 )

ライセンス: Link先を確認
Feiyang Wang, Xingquan Zuo, Hai Huang, Gang Chen, (参考訳) 多くの機械学習モデルは、現実のアプリケーションにおいて最も重大な脅威を示す決定ベースのブラックボックス攻撃によって、敵対的な攻撃を受けやすい。 これらの攻撃は極めてステルス性が高く、ターゲット機械学習モデルから得られたハードラベルを使って敵の例を生成する。 これは典型的には摂動方向の最適化によって実現され、クエリ集約的な正確な探索によって識別された決定境界によって誘導され、攻撃成功率を著しく制限する。 本稿では、近似決定境界(ADB)を用いて、決定境界を正確に決定することなく摂動方向を効率よく正確に比較する手法を提案する。 我々のADBアプローチ(ADBA)の有効性は、適切なADBを迅速に同定し、全ての摂動方向を確実に区別することにある。 そこで本研究では,ADBとして分布の中央値を用いることで,様々な摂動方向を効果的に識別し,ADBA-mdアルゴリズムの開発につながることを確認し,決定境界の確率分布を解析する。 ADBA-mdは摂動方向を区別するために平均4つのクエリしか必要とせず、クエリ効率が高い。 6つの有名な画像分類器に対する大規模な実験は、複数の最先端のブラックボックス攻撃に対してADBAとADBA-mdの優位性を明らかに示している。

Many machine learning models are susceptible to adversarial attacks, with decision-based black-box attacks representing the most critical threat in real-world applications. These attacks are extremely stealthy, generating adversarial examples using hard labels obtained from the target machine learning model. This is typically realized by optimizing perturbation directions, guided by decision boundaries identified through query-intensive exact search, significantly limiting the attack success rate. This paper introduces a novel approach using the Approximation Decision Boundary (ADB) to efficiently and accurately compare perturbation directions without precisely determining decision boundaries. The effectiveness of our ADB approach (ADBA) hinges on promptly identifying suitable ADB, ensuring reliable differentiation of all perturbation directions. For this purpose, we analyze the probability distribution of decision boundaries, confirming that using the distribution's median value as ADB can effectively distinguish different perturbation directions, giving rise to the development of the ADBA-md algorithm. ADBA-md only requires four queries on average to differentiate any pair of perturbation directions, which is highly query-efficient. Extensive experiments on six well-known image classifiers clearly demonstrate the superiority of ADBA and ADBA-md over multiple state-of-the-art black-box attacks.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# ProMotion:モーション学習者としてのプロトタイプ

ProMotion: Prototypes As Motion Learners ( http://arxiv.org/abs/2406.04999v1 )

ライセンス: Link先を確認
Yawen Lu, Dongfang Liu, Qifan Wang, Cheng Han, Yiming Cui, Zhiwen Cao, Xueling Zhang, Yingjie Victor Chen, Heng Fan, (参考訳) 本稿では,基本動作タスクをモデル化するための統一プロトタイプフレームワークであるProMotionを紹介する。 ProMotionは、現在のタスク固有のパラダイムとは別の、魅力的な属性を提供する。 我々は、異なる動作学習アプローチを調和させる統一パラダイムを確立し、プロトタイプ的な視点を採用する。 このパラダイムはアーキテクチャ設計を合理化し、多様な動作情報の同時同化を可能にする。 我々は,特徴記述器と原型学習器を併用して,動作の複雑さを解読する2つのメカニズムを生かした。 このアプローチは、画素単位の特徴マッチングにおけるあいまいさの落とし穴を効果的に回避し、動き表現のロバスト性を著しく強化する。 異なる動きのパターンにまたがる転送可能性を示す。 この本質的な汎用性は、2Dと3Dの両方の下流タスクの包括的なスペクトルにわたって頑健に反響する。 ProMotion は Sintel と KITTI の深さデータセットで 0.54 と 0.054 Abs Rel エラー、Sintel フローベンチマークのクリーンパスおよび最終パスで 1.04 と 2.01 の平均エンドポイントエラー、KITTI フローベンチマークで 4.30 F1-all エラーを達成している。 その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。

In this work, we introduce ProMotion, a unified prototypical framework engineered to model fundamental motion tasks. ProMotion offers a range of compelling attributes that set it apart from current task-specific paradigms. We adopt a prototypical perspective, establishing a unified paradigm that harmonizes disparate motion learning approaches. This novel paradigm streamlines the architectural design, enabling the simultaneous assimilation of diverse motion information. We capitalize on a dual mechanism involving the feature denoiser and the prototypical learner to decipher the intricacies of motion. This approach effectively circumvents the pitfalls of ambiguity in pixel-wise feature matching, significantly bolstering the robustness of motion representation. We demonstrate a profound degree of transferability across distinct motion patterns. This inherent versatility reverberates robustly across a comprehensive spectrum of both 2D and 3D downstream tasks. Empirical results demonstrate that ProMotion outperforms various well-known specialized architectures, achieving 0.54 and 0.054 Abs Rel error on the Sintel and KITTI depth datasets, 1.04 and 2.01 average endpoint error on the clean and final pass of Sintel flow benchmark, and 4.30 F1-all error on the KITTI flow benchmark. For its efficacy, we hope our work can catalyze a paradigm shift in universal models in computer vision.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# AttnDreamBooth: テキスト指向のパーソナライズされたテキスト・ツー・イメージ生成を目指して

AttnDreamBooth: Towards Text-Aligned Personalized Text-to-Image Generation ( http://arxiv.org/abs/2406.05000v1 )

ライセンス: Link先を確認
Lianyu Pang, Jian Yin, Baoquan Zhao, Feize Wu, Fu Lee Wang, Qing Li, Xudong Mao, (参考訳) 近年のテキスト・ツー・イメージ・モデルの進歩により、フレキシブルテキスト制御によるユーザが提供する概念の高品質なパーソナライズされた画像合成が可能になった。 本研究では,テキスト・ツー・イメージのパーソナライズにおける2つの主要なテクニックであるテキスト・インバージョンとドリームブースの限界を分析する。 学習した概念を新しいプロンプトに統合する場合、Textual Inversionは概念を過度に適合させる傾向があり、DreamBoothはそれを見落としていることが多い。 これらの問題は、この概念の埋め込みアライメントの誤学習によるものである。 AttnDreamBoothは、異なるトレーニング段階において、埋め込みアライメント、アテンションマップ、主題のアイデンティティを別々に学習することで、これらの問題に対処する新しいアプローチである。 また,アテンションマップの学習を促進するために,アテンションマップの正規化用語を導入する。 本手法は,基本手法と比較して,アイデンティティの保存とテキストアライメントの大幅な改善を示す。

Recent advances in text-to-image models have enabled high-quality personalized image synthesis of user-provided concepts with flexible textual control. In this work, we analyze the limitations of two primary techniques in text-to-image personalization: Textual Inversion and DreamBooth. When integrating the learned concept into new prompts, Textual Inversion tends to overfit the concept, while DreamBooth often overlooks it. We attribute these issues to the incorrect learning of the embedding alignment for the concept. We introduce AttnDreamBooth, a novel approach that addresses these issues by separately learning the embedding alignment, the attention map, and the subject identity in different training stages. We also introduce a cross-attention map regularization term to enhance the learning of the attention map. Our method demonstrates significant improvements in identity preservation and text alignment compared to the baseline methods.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# 深Jansen-Ritパラメータ推定のベンチマーク: in Silico Study

Benchmarking Deep Jansen-Rit Parameter Inference: An in Silico Study ( http://arxiv.org/abs/2406.05002v1 )

ライセンス: Link先を確認
Deepa Tilwani, Christian O'Reilly, (参考訳) 効果的な接続性(EC)の研究は、脳が様々な感覚入力をどのように統合し反応するかを理解するのに不可欠である。 ECのモデル駆動推定は、神経活動の生成モデルのグローバルパラメータとローカルパラメータを推定する必要がある強力なアプローチである。 このプロセスを通じて収集された洞察は、神経発達障害の研究など、様々な応用に利用することができる。 しかし、脳波計(EEG)では脳波の複雑化や脳波記録における固有のノイズのため、生成モデルによる心電図の正確な決定は依然として重要な課題である。 ECを研究するための現在のモデル駆動の手法は計算学的に複雑であり、脳全体の分析に必要なすべての脳領域に拡張することはできない。 ECアセスメントを容易にするために、推測アルゴリズムはノイズの存在下でパラメータの信頼性の高い予測を提示する必要がある。 さらに、モデルパラメータとニューラル記録の関係を学習しなくてはならない。 これらの目的に向けて,Jansen-Rit ニューラルマスモデル (JR-NMM) を用いたパラメータ推定のためのBi-LSTMモデルの性能評価を行った。 さらに, 神経機構と脳活動の関連性を理解するための重要なステップとして, JR-NMMがシナプス利得や時間定数などの重要な生物学的パラメータ(感度分析)の変化にどのように反応するかを検討する。 以上の結果から,脳波から局所的JR-NMMパラメータを予測できることが示唆された。 今後,臨床応用における実脳波から局所的および大域的パラメータを推定するために,この枠組みを拡張していく予定である。

The study of effective connectivity (EC) is essential in understanding how the brain integrates and responds to various sensory inputs. Model-driven estimation of EC is a powerful approach that requires estimating global and local parameters of a generative model of neural activity. Insights gathered through this process can be used in various applications, such as studying neurodevelopmental disorders. However, accurately determining EC through generative models remains a significant challenge due to the complexity of brain dynamics and the inherent noise in neural recordings, e.g., in electroencephalography (EEG). Current model-driven methods to study EC are computationally complex and cannot scale to all brain regions as required by whole-brain analyses. To facilitate EC assessment, an inference algorithm must exhibit reliable prediction of parameters in the presence of noise. Further, the relationship between the model parameters and the neural recordings must be learnable. To progress toward these objectives, we benchmarked the performance of a Bi-LSTM model for parameter inference from the Jansen-Rit neural mass model (JR-NMM) simulated EEG under various noise conditions. Additionally, our study explores how the JR-NMM reacts to changes in key biological parameters (i.e., sensitivity analysis) like synaptic gains and time constants, a crucial step in understanding the connection between neural mechanisms and observed brain activity. Our results indicate that we can predict the local JR-NMM parameters from EEG, supporting the feasibility of our deep-learning-based inference approach. In future work, we plan to extend this framework to estimate local and global parameters from real EEG in clinically relevant applications.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# 形状バイアス, 精度, ロバスト性の関係に関する神話の解明

Clarifying Myths About the Relationship Between Shape Bias, Accuracy, and Robustness ( http://arxiv.org/abs/2406.05006v1 )

ライセンス: Link先を確認
Zahra Golpayegani, Patrick St-Amant, Nizar Bouguila, (参考訳) ディープラーニングモデルは、トレーニングセットと同じ分布のイメージに対して評価すると、うまく機能する。 しかし、モデルの入力画像にノイズ、アーティファクト、オクルージョン、ぼかしなどの形で小さな摂動を適用し、アウト・オブ・ディストリビューション(OOD)データでモデルに供給することで、モデルの精度を著しく低下させ、現実のシナリオには適用できない。 データ拡張は、OODデータに対するモデルロバスト性を改善するための、よく訓練された手法の1つであるが、どの拡張タイプを選択するか、それがOODロバスト性に与える影響について検討する。 ImageNet-1Kデータセットでトレーニングされた畳み込みニューラルネットワークでは、テクスチャベースの機能ではなく、モデルバイアスから形状ベースの機能へのバイアスを改善するために、データ拡張を使用したデータセットの強化が、OODロバスト性を向上させる、という信念が高まっている。 これは通常、「モデルの形状バイアスの増加は、OODロバスト性の増加をもたらす」と表現される。 この仮説に基づいて、この文献のいくつかの研究は、モデル形状バイアスにより高い影響を持つ拡張を見つけ、それらをデータ拡張に利用することを目的としている。 広く使われているOODデータセット上で39種類のデータ拡張を評価することにより、各データ拡張がOODデータに対するモデルの堅牢性に与える影響を実証し、さらに、上記の仮説が真実ではないことを示す。 結果を分析することで、ImageNet-1Kデータセットには、適切なデータ拡張によって簡単に削減できるバイアスがいくつか見出される。 さらに,本評価の結果から,ドメイン内精度とOODロバスト性の間には必ずしもトレードオフがあるわけではなく,適切な拡張を選択することで,ドメイン内精度とOODロバスト性の両方を同時に向上させることができることがわかった。

Deep learning models can perform well when evaluated on images from the same distribution as the training set. However, applying small perturbations in the forms of noise, artifacts, occlusions, blurring, etc. to a model's input image and feeding the model with out-of-distribution (OOD) data can significantly drop the model's accuracy, making it not applicable to real-world scenarios. Data augmentation is one of the well-practiced methods to improve model robustness against OOD data; however, examining which augmentation type to choose and how it affects the OOD robustness remains understudied. There is a growing belief that augmenting datasets using data augmentations that improve a model's bias to shape-based features rather than texture-based features results in increased OOD robustness for Convolutional Neural Networks trained on the ImageNet-1K dataset. This is usually stated as ``an increase in the model's shape bias results in an increase in its OOD robustness". Based on this hypothesis, some works in the literature aim to find augmentations with higher effects on model shape bias and use those for data augmentation. By evaluating 39 types of data augmentations on a widely used OOD dataset, we demonstrate the impact of each data augmentation on the model's robustness to OOD data and further show that the mentioned hypothesis is not true; an increase in shape bias does not necessarily result in higher OOD robustness. By analyzing the results, we also find some biases in the ImageNet-1K dataset that can easily be reduced using proper data augmentation. Our evaluation results further show that there is not necessarily a trade-off between in-domain accuracy and OOD robustness, and choosing the proper augmentations can help increase both in-domain accuracy and OOD robustness simultaneously.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# 超伝導人工原子を用いた電磁誘導透過によるスロー・ストアド光

Slow and Stored Light via Electromagnetically Induced Transparency Using A $Λ$-type Superconducting Artificial Atom ( http://arxiv.org/abs/2406.05007v1 )

ライセンス: Link先を確認
Kai-I Chu, Xiao-Cheng Lu, Kuan-Hsun Chiang, Yen-Hsiang Lin, Chii-Dong Chen, Ite A. Yu, Wen-Te Liao, Yung-Fu Chen, (参考訳) ジョセフソン接合型超伝導回路の最近の進歩は、量子情報処理を前進させてきた。 しかし、ほとんどの超伝導人工原子に準安定状態がないことは、このプラットフォームにおけるフォトニック量子メモリの発達を妨げる。 ここでは、所望の$\Lambda$型人工原子を実現し、グループ速度3.6km/sの低速光と、数百ナノ秒までの記憶時間を電磁誘導透過性により示すために、単一の超伝導量子共振器システムを用いる。 本研究は,マイクロ波量子メモリの実現の可能性を強調し,超伝導回路における量子情報処理の大幅な進歩を約束するものである。

Recent progresses in Josephson-junction-based superconducting circuits have propelled quantum information processing forward. However, the lack of a metastable state in most superconducting artificial atoms hinders the development of photonic quantum memory in this platform. Here, we use a single superconducting qubit-resonator system to realize a desired $\Lambda$-type artificial atom, and to demonstrate slow light with a group velocity of 3.6 km/s and the microwave storage with a memory time extending to several hundred nanoseconds via electromagnetically induced transparency. Our results highlight the potential of achieving microwave quantum memory, promising substantial advancements in quantum information processing within superconducting circuits.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# ComplexityMeasures.jl:エントロピーと複雑性の時系列分析を統一し、加速するスケーラブルソフトウェア

ComplexityMeasures.jl: scalable software to unify and accelerate entropy and complexity timeseries analysis ( http://arxiv.org/abs/2406.05011v1 )

ライセンス: Link先を確認
George Datseris, Kristian Agasøster Haaga, (参考訳) 非線形時相解析の文献では、無数の量は新しいエントロピー(entropy)または「複雑度(complexity)」の尺度として示され、しばしば同様の役割を持つ。 このような措置の常態化は、概念的にも実用的にも、持続的で全面的なソフトウェアを作ることを困難にしている。 しかし、そのようなソフトウェアは、研究者がどの方法を使うか、どの用途を使うかという情報的な決定を下すのに役立つ重要なツールであり、新しい研究を加速させるのに役立つだろう。 ここでは、拡張が容易で高性能なオープンソースのソフトウェアである ComplexityMeasures.jl を紹介する。 このソフトウェアは3,834行のソースコードを持つ1530の測度を提供する。 これは、数学的に厳密な構成可能な設計によって実現されている。 本稿では,ソフトウェア設計について論じ,将来,複雑性に関する研究を加速させる方法について述べる。 我々は、これを代替ソフトウェアと慎重に比較し、ComplexityMeasures.jlは、計算性能、全体的な測定量、信頼性、拡張可能性など、いくつかの客観的側面において、代替ソフトウェアを外していると結論づける。 ComplexityMeasures.jlは、非線形力学と非線形時間解析のためのDynamicalSystems.jlライブラリのコンポーネントでもあり、持続可能な開発者コミュニティを構築するためのオープンソース開発プラクティスに従っている。

In the nonlinear timeseries analysis literature, countless quantities have been presented as new "entropy" or "complexity" measures, often with similar roles. The ever-increasing pool of such measures makes creating a sustainable and all-encompassing software for them difficult both conceptually and pragmatically. Such a software however would be an important tool that can aid researchers make an informed decision of which measure to use and for which application, as well as accelerate novel research. Here we present ComplexityMeasures.jl, an easily extendable and highly performant open-source software that implements a vast selection of complexity measures. The software provides 1530 measures with 3,834 lines of source code, averaging only 2.5 lines of code per exported quantity (version 3.5). This is made possible by its mathematically rigorous composable design. In this paper we discuss the software design and demonstrate how it can accelerate complexity-related research in the future. We carefully compare it with alternative software and conclude that ComplexityMeasures.jl outclasses the alternatives in several objective aspects of comparison, such as computational performance, overall amount of measures, reliability, and extendability. ComplexityMeasures.jl is also a component of the DynamicalSystems.jl library for nonlinear dynamics and nonlinear timeseries analysis and follows open source development practices for creating a sustainable community of developers.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# 構造知識の欠如による外乱の根本原因解析

Root Cause Analysis of Outliers with Missing Structural Knowledge ( http://arxiv.org/abs/2406.05014v1 )

ライセンス: Link先を確認
Nastaran Okati, Sergio Hernan Garrido Mejia, William Roy Orchard, Patrick Blöbaum, Dominik Janzing, (参考訳) 最近の研究は、構造因果モデル(SCM)における因果反事実を用いた定量的寄与分析により、異常の根本原因分析(RCA)を概念化した。 1) 因果有向非巡回グラフ (DAG) と SCM を併用すること、(2) 確率密度の低い領域の回帰モデルを探索すること、(3) 計算に高価であるシェープリー値に依存すること、の3つの実践的な課題がある。 本稿では,定量的コントリビューション分析ではなく,一意の根本原因を同定する作業において,簡易かつ効率的な根本原因解析手法を提案する。 提案手法は,SCMノードの線形順序で動作し,因果DAGのみを必要とする。 さらに, 因果DAGが不明な症例に対しては, 根本原因を異常スコアが最も高い変数として同定するヒューリスティックを正当化する。

Recent work conceptualized root cause analysis (RCA) of anomalies via quantitative contribution analysis using causal counterfactuals in structural causal models (SCMs). The framework comes with three practical challenges: (1) it requires the causal directed acyclic graph (DAG), together with an SCM, (2) it is statistically ill-posed since it probes regression models in regions of low probability density, (3) it relies on Shapley values which are computationally expensive to find. In this paper, we propose simplified, efficient methods of root cause analysis when the task is to identify a unique root cause instead of quantitative contribution analysis. Our proposed methods run in linear order of SCM nodes and they require only the causal DAG without counterfactuals. Furthermore, for those use cases where the causal DAG is unknown, we justify the heuristic of identifying root causes as the variables with the highest anomaly score.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# NMRにおける長寿命単一状態の生成と検出のための量子交互演算子アンザッツ

Quantum Alternating Operator Ansatz for the Preparation and Detection of Long-Lived Singlet States in NMR ( http://arxiv.org/abs/2406.05015v1 )

ライセンス: Link先を確認
Pratham Hullamballi, Vishal Varma, T. S. Mahesh, (参考訳) 量子技術を開発するには、効率的で堅牢な量子制御戦略を設計することが不可欠である。 最近の戦略の1つは量子交互演算子アンザッツ (QAOA) シーケンスであり、これは代わりに2つの非可換ハミルトニアンの下で伝播し、制御パラメータはゲートの生成や状態の準備に最適化できる。 ここでは、NMRの熱状態から長寿命一重項状態(LLS)を作成するためにQAOA配列とその変異体の設計について述べる。 スピン格子緩和時間定数T_1$を超える超長寿命のLSSは、分光から医用画像まで様々な用途において大きな関心を集めてきた。 したがって、汎用スピンシステムにおいてLSSを効率的に作成するためのシーケンスを設計することが重要である。 数値解析を用いて,制御パラメータの幅広い誤差に対して,QAOA配列の効率性とロバスト性について検討した。 2量子NMRレジスタを用いて、他のLSS調製法と比較してQAOA配列をベンチマークし、QAOA配列の極めて優れた性能を観察する実験を行った。

Designing efficient and robust quantum control strategies is vital for developing quantum technologies. One recent strategy is the Quantum Alternating Operator Ansatz (QAOA) sequence that alternatively propagates under two noncommuting Hamiltonians, whose control parameters can be optimized to generate a gate or prepare a state. Here, we describe the design of the QAOA sequence and their variants to prepare long-lived singlet states (LLS) from the thermal state in NMR. With extraordinarily long lifetimes exceeding the spin-lattice relaxation time constant $T_1$, LLS have been of great interest for various applications, from spectroscopy to medical imaging. Accordingly, designing sequences for efficiently preparing LLS in a general spin system is crucial. Using numerical analysis, we study the efficiency and robustness of the QAOA sequences over a wide range of errors in the control parameters. Using a two-qubit NMR register, we conduct an experimental study to benchmark QAOA sequences against other prominent methods of LLS preparation and observe the significantly superior performance of the QAOA sequences.
翻訳日:2024-06-10 13:32:11 公開日:2024-06-07
# オンラインプラットフォームにおけるSelect-Rankの適応学習

Adaptively Learning to Select-Rank in Online Platforms ( http://arxiv.org/abs/2406.05017v1 )

ライセンス: Link先を確認
Jingyuan Wang, Perry Dong, Ying Jin, Ruohan Zhan, Zhengyuan Zhou, (参考訳) ランキングアルゴリズムは、eコマースサイトからコンテンツストリーミングサービスに至るまで、さまざまなオンラインプラットフォームに基礎を置いている。 本研究は、ユーザエクスペリエンスをパーソナライズする上で重要な要素である異種ユーザの候補プールからアイテムを適応的にランク付けするという課題に対処する。 本研究では,ユーザの嗜好の多様性と項目位置の影響を考慮したユーザ応答モデルを構築し,ランキングによるユーザ満足度を最適化することを目的とした。 私たちはこの問題を、それぞれのランクリストをアクションとして、文脈的帯域幅フレームワーク内に配置します。 提案手法は,予測されたユーザ満足度スコアを調整するための上位信頼度を組み込んで,これらの調整されたスコアを最大化するためのランキングアクションを選択し,最大重量不完全マッチングによって効率よく解決する。 我々は,ユーザ応答が一般化線形モデルに従うという仮定のもと,本アルゴリズムが$O(d\sqrt{NKT})$の累積残差を$N$の項目のうち$K$を$d$次元のコンテキスト空間の$T$でランク付けすることを実証した。 この後悔は周囲の行動空間への依存を緩和し、その濃度は$N$と$K$で指数関数的に増加する(UCBやトンプソンサンプリングといった既存の適応学習アルゴリズムの直接適用は不可能である)。 シミュレーションと実世界の両方のデータセットで実施された実験は、アルゴリズムがベースラインを上回っていることを示している。

Ranking algorithms are fundamental to various online platforms across e-commerce sites to content streaming services. Our research addresses the challenge of adaptively ranking items from a candidate pool for heterogeneous users, a key component in personalizing user experience. We develop a user response model that considers diverse user preferences and the varying effects of item positions, aiming to optimize overall user satisfaction with the ranked list. We frame this problem within a contextual bandits framework, with each ranked list as an action. Our approach incorporates an upper confidence bound to adjust predicted user satisfaction scores and selects the ranking action that maximizes these adjusted scores, efficiently solved via maximum weight imperfect matching. We demonstrate that our algorithm achieves a cumulative regret bound of $O(d\sqrt{NKT})$ for ranking $K$ out of $N$ items in a $d$-dimensional context space over $T$ rounds, under the assumption that user responses follow a generalized linear model. This regret alleviates dependence on the ambient action space, whose cardinality grows exponentially with $N$ and $K$ (thus rendering direct application of existing adaptive learning algorithms -- such as UCB or Thompson sampling -- infeasible). Experiments conducted on both simulated and real-world datasets demonstrate our algorithm outperforms the baseline.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# 構造化ボリューム情報を用いた確率的PDEシミュレータのスケールアップ

Scaling up Probabilistic PDE Simulators with Structured Volumetric Information ( http://arxiv.org/abs/2406.05020v1 )

ライセンス: Link先を確認
Tim Weiland, Marvin Pförtner, Philipp Hennig, (参考訳) 偏微分方程式(PDE)を用いた実世界の問題をモデル化することは、科学機械学習において顕著なトピックである。 このタスクの古典的な解決者は、例えば、ディープラーニングのアナログのためのトレーニングデータを生成するために、引き続き中心的な役割を果たす。 そのような数値解は、限られた計算資源と(未知のパラメータを含む)限られたデータの両方から、複数の不確実性の源となる。 ガウス過程の古典的PDEシミュレーション法への類似は、最近、これらすべての不確実性の確率論的推定を構築するためのフレームワークとして登場した。 これまでのところ、これらの作業の多くは理論の基礎に焦点を当てており、特にデータ効率が良く、スケーラブルではない。 本稿では,一般的な有限体積法と相補的数値線形代数法を組み合わせた離散化手法を提案する。 時空間津波シミュレーションを含む実践実験では、従来のコロケーションに基づく手法に比べて、このアプローチのスケーリング挙動が大幅に改善された。

Modeling real-world problems with partial differential equations (PDEs) is a prominent topic in scientific machine learning. Classic solvers for this task continue to play a central role, e.g. to generate training data for deep learning analogues. Any such numerical solution is subject to multiple sources of uncertainty, both from limited computational resources and limited data (including unknown parameters). Gaussian process analogues to classic PDE simulation methods have recently emerged as a framework to construct fully probabilistic estimates of all these types of uncertainty. So far, much of this work focused on theoretical foundations, and as such is not particularly data efficient or scalable. Here we propose a framework combining a discretization scheme based on the popular Finite Volume Method with complementary numerical linear algebra techniques. Practical experiments, including a spatiotemporal tsunami simulation, demonstrate substantially improved scaling behavior of this approach over previous collocation-based techniques.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# GANetic Loss for Generative Adversarial Networks with focus on Medical Applications (特集 医療)

GANetic Loss for Generative Adversarial Networks with a Focus on Medical Applications ( http://arxiv.org/abs/2406.05023v1 )

ライセンス: Link先を確認
Shakhnaz Akhmedova, Nils Körber, (参考訳) GAN(Generative Adversarial Network)は、与えられたデータセットの基盤となる統計構造を推定するために使用される機械学習モデルであり、その結果、画像生成や異常検出などの様々なタスクに使用できる。 初期の単純さにもかかわらず、GANを訓練するための効果的な損失関数の設計は依然として困難であり、生成モデルの性能と安定性を改善するために様々な損失関数が提案されている。 本研究では,GANの損失関数設計を遺伝的プログラミング(GP)手法を用いた最適化問題として提示する。 改良された損失関数を実験的に探索するために,小型のDeep Convolutional GAN(DCGAN)モデルとMNISTデータセットを用いて実験を行った。 これらの機能はCIFAR10で評価され、最も優れた機能はGANetic Losと呼ばれ、GANトレーニングで一般的に使用される損失と比較して非常に優れた性能と安定性を示した。 より困難な問題に対する一般適用性を高めるため、画像生成と異常検出という2つの医療応用にGANetic Lossを適用した。 病理組織像,消化管像,緑内障像を用いて,医用画像生成におけるGANetic Lossを評価する実験を行い,ベースラインモデルと比較して画質が向上した。 ポリープ画像と緑内障画像に用いたGANetic Lossは異常検出に強い改善を示した。 要約すると、GANetic損失関数は複数のデータセットやアプリケーション上で評価され、代替損失関数よりも一貫して優れている。 さらに、GANの損失は安定したトレーニングと再現可能な結果をもたらし、GANの弱点として知られている。

Generative adversarial networks (GANs) are machine learning models that are used to estimate the underlying statistical structure of a given dataset and as a result can be used for a variety of tasks such as image generation or anomaly detection. Despite their initial simplicity, designing an effective loss function for training GANs remains challenging, and various loss functions have been proposed aiming to improve the performance and stability of the generative models. In this study, loss function design for GANs is presented as an optimization problem solved using the genetic programming (GP) approach. Initial experiments were carried out using small Deep Convolutional GAN (DCGAN) model and the MNIST dataset, in order to search experimentally for an improved loss function. The functions found were evaluated on CIFAR10, with the best function, named GANetic loss, showing exceptionally better performance and stability compared to the losses commonly used for GAN training. To further evalute its general applicability on more challenging problems, GANetic loss was applied for two medical applications: image generation and anomaly detection. Experiments were performed with histopathological, gastrointestinal or glaucoma images to evaluate the GANetic loss in medical image generation, resulting in improved image quality compared to the baseline models. The GANetic Loss used for polyp and glaucoma images showed a strong improvement in the detection of anomalies. In summary, the GANetic loss function was evaluated on multiple datasets and applications where it consistently outperforms alternative loss functions. Moreover, GANetic loss leads to stable training and reproducible results, a known weak spot of GANs.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# 深層強化学習による自動微分の最適化

Optimizing Automatic Differentiation with Deep Reinforcement Learning ( http://arxiv.org/abs/2406.05027v1 )

ライセンス: Link先を確認
Jamie Lohoff, Emre Neftci, (参考訳) 自動微分を持つ計算ジャコビアン(英語版)は、機械学習、計算流体力学、ロボット工学、ファイナンスなど、多くの科学分野においてユビキタスである。 ヤコビアン計算における計算量やメモリ使用量の小さな削減でさえ、既にエネルギー消費と実行時の大幅な削減を招いている。 このような貯蓄を許容する多くの方法が存在するが、それらは一般に、正確なヤコビアンを近似するために計算効率を交換する。 本稿では、深い強化学習(RL)とクロスカントリー除去という概念を活用して、ジャコビアン計算に必要な乗算数を最適化する新しい手法を提案する。 クロスカントリー除去は、ジャコビアン累積を計算グラフ上の全ての頂点の順序づけられた除去として表現する自動微分のフレームワークであり、全ての除去が一定の計算コストを発生させる。 本稿では,RLエージェントがプレイする単一プレイヤーゲームとして必要な乗算数を最小化する最適消去順序の探索を定式化する。 本手法は,様々な領域から取得した複数のタスクに対して,最先端の手法よりも最大33%改善できることを実証する。 さらに、これらの理論的なゲインは、得られた除去順序を効率的に実行可能なJAXのクロスカントリー除去インタプリタを提供することにより、実際のランタイム改善に変換されることを示す。

Computing Jacobians with automatic differentiation is ubiquitous in many scientific domains such as machine learning, computational fluid dynamics, robotics and finance. Even small savings in the number of computations or memory usage in Jacobian computations can already incur massive savings in energy consumption and runtime. While there exist many methods that allow for such savings, they generally trade computational efficiency for approximations of the exact Jacobian. In this paper, we present a novel method to optimize the number of necessary multiplications for Jacobian computation by leveraging deep reinforcement learning (RL) and a concept called cross-country elimination while still computing the exact Jacobian. Cross-country elimination is a framework for automatic differentiation that phrases Jacobian accumulation as ordered elimination of all vertices on the computational graph where every elimination incurs a certain computational cost. We formulate the search for the optimal elimination order that minimizes the number of necessary multiplications as a single player game which is played by an RL agent. We demonstrate that this method achieves up to 33% improvements over state-of-the-art methods on several relevant tasks taken from diverse domains. Furthermore, we show that these theoretical gains translate into actual runtime improvements by providing a cross-country elimination interpreter in JAX that can efficiently execute the obtained elimination orders.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# 散逸型量子発振器の確率シミュレーション

Stochastic simulation of dissipative quantum oscillators ( http://arxiv.org/abs/2406.05030v1 )

ライセンス: Link先を確認
Charlie R. Hogg, Jonas Glatthard, Federico Cerisola, Janet Anders, (参考訳) 一般のオープン量子系は、特定の状態に目を向けない限り、シミュレートが難しいことが知られている。 対照的に、古典的な散逸系はしばしば確率過程によって効果的に記述され、一般に計算コストが低い。 ここでは、散逸型量子発振器のパラダイム的ケースを用いて、準古典的手法、すなわち「量子」ノイズスペクトルを用いた古典的確率的手法を用いて、開放量子系のモデリングを台無しに導入し、システムに対する環境の影響を捉える。 このような準古典的手法は、計算的に計算可能でありながら、環境の量子的性質が興味あるシステムの力学に与える影響についての洞察を与える可能性がある。

Generic open quantum systems are notoriously difficult to simulate unless one looks at specific regimes. In contrast, classical dissipative systems can often be effectively described by stochastic processes, which are generally less computationally expensive. Here, we use the paradigmatic case of a dissipative quantum oscillator to give a pedagogic introduction into the modelling of open quantum systems using quasiclassical methods, i.e. classical stochastic methods that use a 'quantum' noise spectrum to capture the influence of the environment on the system. Such quasiclassical methods have the potential to offer insights into the impact of the quantum nature of the environment on the dynamics of the system of interest whilst still being computationally tractable.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# 非分離データと大規模ステップサイズを用いたロジスティック回帰のグラディエントDescent

Gradient Descent on Logistic Regression with Non-Separable Data and Large Step Sizes ( http://arxiv.org/abs/2406.05033v1 )

ライセンス: Link先を確認
Si Yi Meng, Antonio Orvieto, Daniel Yiming Cao, Christopher De Sa, (参考訳) 我々は,大きく,一定のステップサイズを持つロジスティック回帰問題における勾配降下(GD)ダイナミクスについて検討した。 線形分離可能なデータに対して、GDは最小化器に任意のステップサイズで収束することが知られている。 実際、この振舞いはずっと複雑で、周期二重分岐のシーケンスは、2/\lambda$という重要なステップサイズで始まります。 最小限のステップサイズを使用すると、ソリューションの近くで初期化されると収束が保証される。 一次元では、グローバル収束のために1/\lambda$suffices以下のステップサイズを示す。 しかし、1/\lambda$と2/\lambda$の間のすべてのステップサイズに対して、GDが安定したサイクルに収束するようにデータセットを構築することができる。 より高次元では、ステップサイズが1/\lambda$未満であっても、これは実際に可能だ。 以上の結果から, 局所収束は臨界ステップサイズよりも小さい全てのステップサイズに対して保証されるが, 大域収束は認められず, GD は初期化に応じてサイクルに収束する可能性が示唆された。

We study gradient descent (GD) dynamics on logistic regression problems with large, constant step sizes. For linearly-separable data, it is known that GD converges to the minimizer with arbitrarily large step sizes, a property which no longer holds when the problem is not separable. In fact, the behaviour can be much more complex -- a sequence of period-doubling bifurcations begins at the critical step size $2/\lambda$, where $\lambda$ is the largest eigenvalue of the Hessian at the solution. Using a smaller-than-critical step size guarantees convergence if initialized nearby the solution: but does this suffice globally? In one dimension, we show that a step size less than $1/\lambda$ suffices for global convergence. However, for all step sizes between $1/\lambda$ and the critical step size $2/\lambda$, one can construct a dataset such that GD converges to a stable cycle. In higher dimensions, this is actually possible even for step sizes less than $1/\lambda$. Our results show that although local convergence is guaranteed for all step sizes less than the critical step size, global convergence is not, and GD may instead converge to a cycle depending on the initialization.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# 特定自然言語説明のシナリオとアプローチ

Scenarios and Approaches for Situated Natural Language Explanations ( http://arxiv.org/abs/2406.05035v1 )

ライセンス: Link先を確認
Pengshuo Qiu, Frank Rudzicz, Zining Zhu, (参考訳) 大規模言語モデル(LLM)は、異なるユーザの状況に適応した自然言語説明(NLE)を生成するために使用できる。 しかし、そのような適応の程度を定量的に評価する方法はまだない。 このギャップを埋めるために、私たちはベンチマークデータセット、状況ベース説明を収集します。 このデータセットには100の説明書が含まれている。 各説明書は、教育者、学生、専門職といった3つの異なる観衆を対象にした説明と組み合わせて、これらの多様なグループ(例えば、学生、教師、親)の特定の情報的ニーズと状況にどの程度満足しているかを評価する。 オーディエンスと組み合わせたエクスラナンダム(explanandum paired with a audience)"の各状況について、人間による説明を含める。 これにより、LCMが状況にどのように適応するかを定量化するスコアを計算することができる。 様々な大きさの事前学習言語モデルを用いて,ルールベースプロンプト,メタプロンプト,コンテキスト内学習プロンプトの3つのカテゴリについて検討する。 私たちはそれを見つける。 1) 言語モデルは、対象の状況により正確に整合した説明をもたらすプロンプトを生成することができる。 2)NLEタスクの配置には,「あなたは補助的アシスタントだ...」と指示することで,「補助的」ペルソナを明示的にモデル化することは必要ではない。 3) 文脈内学習のプロンプトは、LLMがデモテンプレートを学習するのにしか役に立たないが、推論性能は改善できない。 SBEと我々の分析は、位置する自然言語の説明を生成するための将来の研究を促進する。

Large language models (LLMs) can be used to generate natural language explanations (NLE) that are adapted to different users' situations. However, there is yet to be a quantitative evaluation of the extent of such adaptation. To bridge this gap, we collect a benchmarking dataset, Situation-Based Explanation. This dataset contains 100 explanandums. Each explanandum is paired with explanations targeted at three distinct audience types-such as educators, students, and professionals-enabling us to assess how well the explanations meet the specific informational needs and contexts of these diverse groups e.g. students, teachers, and parents. For each "explanandum paired with an audience" situation, we include a human-written explanation. These allow us to compute scores that quantify how the LLMs adapt the explanations to the situations. On an array of pretrained language models with varying sizes, we examine three categories of prompting methods: rule-based prompting, meta-prompting, and in-context learning prompting. We find that 1) language models can generate prompts that result in explanations more precisely aligned with the target situations, 2) explicitly modeling an "assistant" persona by prompting "You are a helpful assistant..." is not a necessary prompt technique for situated NLE tasks, and 3) the in-context learning prompts only can help LLMs learn the demonstration template but can't improve their inference performance. SBE and our analysis facilitate future research towards generating situated natural language explanations.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# TimeSieve:インフォメーション・ボトルネックによる時間的ダイナミクスの抽出

TimeSieve: Extracting Temporal Dynamics through Information Bottlenecks ( http://arxiv.org/abs/2406.05036v1 )

ライセンス: Link先を確認
Ninghui Feng, Songning Lai, Fobao Zhou, Zhenxiao Yin, Hang Zhao, (参考訳) 時系列予測は、交通管理、天気予報、財務分析など、様々な現実の領域で重要な応用がなされているため、ますます人気が高まっている。 大幅な進歩にもかかわらず、既存のモデルは、異なるデータセットに対する手動ハイパーパラメータチューニングの必要性や、強い季節性によって特徴づけられるデータにおける冗長な特徴とシグナルを効果的に区別することの難しさなど、顕著な課題に直面している。 これらの問題は時系列予測モデルの一般化と実用化を妨げている。 そこで本研究では,これらの課題に対処するために,時系列予測モデルであるTimeSieveを提案する。 提案手法では,ウェーブレット変換を用いて時系列データを前処理し,パラメータの追加や手動ハイパーパラメータチューニングを必要とせず,マルチスケール機能を効果的にキャプチャする。 さらに,より詳細な情報と近似係数から冗長な特徴を抽出し,最も予測可能な情報のみを保持する情報ボトルネック理論を導入する。 この組み合わせにより、モデルの精度が大幅に向上する。 大規模な実験により、我々のモデルはデータセットの70%で既存の最先端手法より優れており、予測精度が向上し、多様なデータセットをまたいだ一般化が向上していることが示された。 本研究は, 時系列予測における重要な課題に対処する上で, 提案手法の有効性を検証し, 実用的応用における信頼性と効率的な予測モデルの実現の道を開くものである。 私たちのモデルのコードはhttps://github.com/xll0328/TimeSieve.comから入手可能です。

Time series forecasting has become an increasingly popular research area due to its critical applications in various real-world domains such as traffic management, weather prediction, and financial analysis. Despite significant advancements, existing models face notable challenges, including the necessity of manual hyperparameter tuning for different datasets, and difficulty in effectively distinguishing signal from redundant features in data characterized by strong seasonality. These issues hinder the generalization and practical application of time series forecasting models. To solve this issues, we propose an innovative time series forecasting model TimeSieve designed to address these challenges. Our approach employs wavelet transforms to preprocess time series data, effectively capturing multi-scale features without the need for additional parameters or manual hyperparameter tuning. Additionally, we introduce the information bottleneck theory that filters out redundant features from both detail and approximation coefficients, retaining only the most predictive information. This combination reduces significantly improves the model's accuracy. Extensive experiments demonstrate that our model outperforms existing state-of-the-art methods on 70\% of the datasets, achieving higher predictive accuracy and better generalization across diverse datasets. Our results validate the effectiveness of our approach in addressing the key challenges in time series forecasting, paving the way for more reliable and efficient predictive models in practical applications. The code for our model is available at https://github.com/xll0328/TimeSieve.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# 双方向SSMを用いた拡散マンバによる高効率3次元形状生成

Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs ( http://arxiv.org/abs/2406.05038v1 )

ライセンス: Link先を確認
Shentong Mo, (参考訳) シークエンスモデリングの最近の進歩は、選択的な状態空間アプローチで知られ、効率的なロングシーケンスハンドリングのための有望な道を提供するMambaアーキテクチャの開発につながっている。 しかし、特に高解像度の3次元形状生成におけるその応用は、まだ未定である。 自己アテンション機構を持つ従来の拡散トランスフォーマー(DiT)は、その可能性にもかかわらず、入力長が増加するにつれて注意操作の3乗複雑さのためにスケーラビリティの課題に直面している。 この複雑さは、高解像度のボクセルサイズを扱う際に重要なハードルとなる。 この課題に対処するため、3次元点雲生成のための新しい拡散アーキテクチャDiffusion Mamba (DiM-3D)を提案する。 このアーキテクチャは伝統的な注意機構を保ち、代わりにMambaアーキテクチャの本質的な効率を活用して、シーケンス長に関する線形複雑性を維持する。 DiM-3D は高速な推論時間と、Gflops の量子化による計算要求の大幅な低減により特徴付けられる。 ShapeNetベンチマークによる実験結果から、DEM-3Dは高忠実で多様な3D形状を生成する上で、最先端の性能を発揮することが示された。 さらに、DiM-3Dは3Dポイントクラウド補完のようなタスクにおいて優れた機能を示している。 これはモデルのスケーラビリティを証明しているだけでなく、高度な3次元形状モデリングに必要な詳細で高解像度のボクセルを生成する効率、特に高解像度のボクセルサイズを必要とする環境では優れています。 これらの結果から,Diffusion Mambaフレームワークの3次元形状生成における優れたスケーラビリティと効率性を示し,フィールドの新たな標準を設定し,高解像度3次元モデリング技術における今後の探索の道を開く。

Recent advancements in sequence modeling have led to the development of the Mamba architecture, noted for its selective state space approach, offering a promising avenue for efficient long sequence handling. However, its application in 3D shape generation, particularly at high resolutions, remains underexplored. Traditional diffusion transformers (DiT) with self-attention mechanisms, despite their potential, face scalability challenges due to the cubic complexity of attention operations as input length increases. This complexity becomes a significant hurdle when dealing with high-resolution voxel sizes. To address this challenge, we introduce a novel diffusion architecture tailored for 3D point clouds generation-Diffusion Mamba (DiM-3D). This architecture forgoes traditional attention mechanisms, instead utilizing the inherent efficiency of the Mamba architecture to maintain linear complexity with respect to sequence length. DiM-3D is characterized by fast inference times and substantially lower computational demands, quantified in reduced Gflops, thereby addressing the key scalability issues of prior models. Our empirical results on the ShapeNet benchmark demonstrate that DiM-3D achieves state-of-the-art performance in generating high-fidelity and diverse 3D shapes. Additionally, DiM-3D shows superior capabilities in tasks like 3D point cloud completion. This not only proves the model's scalability but also underscores its efficiency in generating detailed, high-resolution voxels necessary for advanced 3D shape modeling, particularly excelling in environments requiring high-resolution voxel sizes. Through these findings, we illustrate the exceptional scalability and efficiency of the Diffusion Mamba framework in 3D shape generation, setting a new standard for the field and paving the way for future explorations in high-resolution 3D modeling technologies.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# ブートストラップによるマルチオブジェクト追跡

Bootstrapping Referring Multi-Object Tracking ( http://arxiv.org/abs/2406.05039v1 )

ライセンス: Link先を確認
Yani Zhang, Dongming Wu, Wencheng Han, Xingping Dong, (参考訳) マルチオブジェクト追跡(RMOT)の参照は、自然言語表現で表される人間の指示に従って複数のオブジェクトを検出し、追跡することを目的としている。 既存のRMOTベンチマークは通常、手動のアノテーションによって定式化され、静的な規則と統合される。 このアプローチは、顕著な多様性と、実装の制約されたスコープを損なう結果をもたらす。 本研究では,識別言語単語を可能な限り導入することにより,多目的トラッキングのタスクをブートストラップすることを目的とする。 具体的には、まずRefer-KITTIを大規模データセットとして、Refer-KITTI-V2を開発した。 最初は2,719のマニュアルアノテーションから始まり、クラス不均衡の問題に対処し、Refer-KITTIと比較して現実のシナリオに近づくためにより多くのキーワードを導入している。 さらに、合計9,758のアノテーションに拡張され、617の異なる単語を生成する大きな言語モデルが、以前のRMOTベンチマークを超えている。 さらに、RMOTのエンドツーエンドフレームワークは、従来のアプローチよりも優れたパフォーマンスを実現する、単純だがエレガントな一時進行戦略によって、ブートストラップされる。 ソースコードとデータセットはhttps://github.com/zyn213/TempRMOTで公開されている。

Referring multi-object tracking (RMOT) aims at detecting and tracking multiple objects following human instruction represented by a natural language expression. Existing RMOT benchmarks are usually formulated through manual annotations, integrated with static regulations. This approach results in a dearth of notable diversity and a constrained scope of implementation. In this work, our key idea is to bootstrap the task of referring multi-object tracking by introducing discriminative language words as much as possible. In specific, we first develop Refer-KITTI into a large-scale dataset, named Refer-KITTI-V2. It starts with 2,719 manual annotations, addressing the issue of class imbalance and introducing more keywords to make it closer to real-world scenarios compared to Refer-KITTI. They are further expanded to a total of 9,758 annotations by prompting large language models, which create 617 different words, surpassing previous RMOT benchmarks. In addition, the end-to-end framework in RMOT is also bootstrapped by a simple yet elegant temporal advancement strategy, which achieves better performance than previous approaches. The source code and dataset is available at https://github.com/zyn213/TempRMOT.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# 並列行動学習によるオンライン周波数スケジューリング

Online Frequency Scheduling by Learning Parallel Actions ( http://arxiv.org/abs/2406.05041v1 )

ライセンス: Link先を確認
Anastasios Giovanidis, Mathieu Leconte, Sabrine Aroua, Tor Kvernvik, David Sandberg, (参考訳) 無線リソース管理は将来の6Gネットワークにおける課題であり、新しいアプリケーションが利用可能なリソースに対するユーザ間の強力な競争を生み出す。 本研究では,マルチユーザMIMOシステムにおける周波数スケジューリング問題について考察する。 周波数リソースは、同じサブバンド内の同時送信を許可しながら、ユーザのセットに割り当てられる必要がある。 従来の手法ではすべての制約や不確実性に対処できないが、強化学習はそのような複雑な環境に対する準最適解を直接学習することができる。 しかし、スケジューリング問題にはユーザとサブバンドの組み合わせをすべて考慮した巨大なアクションスペースがあり、アウト・オブ・ザ・ボックスのアルゴリズムを直接使用することはできない。 本研究では,並列決定機能を持つ深層Qラーニングアーキテクチャであるサブバンド上でのアクションブランチに基づくスケジューラを提案する。 サブバンドは相関するが局所的な決定方針を学習し、グローバルな報酬を最適化する。 サブバンド数でアーキテクチャのスケーリングを改善するため、学習するパラメータの数を削減できるバリエーション(Unibranch, Graph Neural Network-based)を提案する。 提案したアーキテクチャの並列決定により、実際のシステムにおける短い推論時間要件を満たすことができる。 さらに、ディープラーニングアプローチでは、デプロイ後のオンラインの微調整によって、sim-to-realギャップを埋めることができる。 提案したアーキテクチャは,競争性能と進化する環境へのオンライン適応の可能性を示す文献から,関連するベースラインに対して評価される。

Radio Resource Management is a challenging topic in future 6G networks where novel applications create strong competition among the users for the available resources. In this work we consider the frequency scheduling problem in a multi-user MIMO system. Frequency resources need to be assigned to a set of users while allowing for concurrent transmissions in the same sub-band. Traditional methods are insufficient to cope with all the involved constraints and uncertainties, whereas reinforcement learning can directly learn near-optimal solutions for such complex environments. However, the scheduling problem has an enormous action space accounting for all the combinations of users and sub-bands, so out-of-the-box algorithms cannot be used directly. In this work, we propose a scheduler based on action-branching over sub-bands, which is a deep Q-learning architecture with parallel decision capabilities. The sub-bands learn correlated but local decision policies and altogether they optimize a global reward. To improve the scaling of the architecture with the number of sub-bands, we propose variations (Unibranch, Graph Neural Network-based) that reduce the number of parameters to learn. The parallel decision making of the proposed architecture allows to meet short inference time requirements in real systems. Furthermore, the deep Q-learning approach permits online fine-tuning after deployment to bridge the sim-to-real gap. The proposed architectures are evaluated against relevant baselines from the literature showing competitive performance and possibilities of online adaptation to evolving environments.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# 2次RNNのテンソル分解

A Tensor Decomposition Perspective on Second-order RNNs ( http://arxiv.org/abs/2406.05045v1 )

ライセンス: Link先を確認
Maude Lizaire, Michael Rizvi-Martel, Marawan Gamal Abdel Hameed, Guillaume Rabusseau, (参考訳) 2次リカレントニューラルネットワーク(2RNN)は、シーケンスモデリングに2次相互作用を活用することでRNNを拡張する。 これらのモデルは一階述語よりも明らかに表現力があり、形式言語理論からよく研究されたモデルと結びついている。 しかし、その大きなパラメータテンソルは計算を難解にする。 この問題を回避するために、MIRNNとして知られる1つのアプローチは、モデルが使用するインタラクションのタイプを制限することである。 もう1つは、テンソル分解を利用してパラメータ数を減少させることである。 本研究では,CP分解を用いた2RNNのパラメータ化から得られたモデルをCPRNNと呼ぶ。 直感的には、分解のランクは表現性を低下させなければならない。 ランクと隠れサイズがモデルキャパシティに与える影響を分析し、これらのパラメータに基づいてRNN, 2RNN, MIRNN, CPRNN間の関係を示す。 これらの結果はPenn Treebankデータセットの実験によって実証的に支援され、固定パラメータ予算により、CPRNNは、RNN、2RNN、MIRNNよりも、適切なランクと隠されたサイズで優れていることを示す。

Second-order Recurrent Neural Networks (2RNNs) extend RNNs by leveraging second-order interactions for sequence modelling. These models are provably more expressive than their first-order counterparts and have connections to well-studied models from formal language theory. However, their large parameter tensor makes computations intractable. To circumvent this issue, one approach known as MIRNN consists in limiting the type of interactions used by the model. Another is to leverage tensor decomposition to diminish the parameter count. In this work, we study the model resulting from parameterizing 2RNNs using the CP decomposition, which we call CPRNN. Intuitively, the rank of the decomposition should reduce expressivity. We analyze how rank and hidden size affect model capacity and show the relationships between RNNs, 2RNNs, MIRNNs, and CPRNNs based on these parameters. We support these results empirically with experiments on the Penn Treebank dataset which demonstrate that, with a fixed parameter budget, CPRNNs outperforms RNNs, 2RNNs, and MIRNNs with the right choice of rank and hidden size.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# Hints-In-Browser:フィードバック生成のプログラミングのためのベンチマーク言語モデル

Hints-In-Browser: Benchmarking Language Models for Programming Feedback Generation ( http://arxiv.org/abs/2406.05053v1 )

ライセンス: Link先を確認
Nachiket Kotalwar, Alkis Gotovos, Adish Singla, (参考訳) 生成型AIと大規模言語モデルは、個別のフィードバックと学習者へのヒントを生成することによって、プログラミング教育の強化に大いに貢献する。 近年の本研究は, 家庭教師の質を高めるために, 生成したフィードバックの品質向上に重点を置いている。 品質は重要なパフォーマンス基準であるが、実際の教育展開のために最適化する唯一の基準ではない。 本稿では, 品質, コスト, 時間, データのプライバシなど, さまざまな性能基準にまたがって, フィードバック生成のための言語モデルをベンチマークする。 主要なアイデアは、ブラウザ内推論の新しいパラダイムにおける最近の進歩を活用して、これらのモデルをブラウザで直接実行することで、コストとデータのプライバシ間で直接的なメリットを提供する、というものだ。 ブラウザ内推論エンジンと互換性のある小型モデルのフィードバック品質を向上させるため,GPT-4生成合成データに基づく微調整パイプラインを開発した。 我々は、WebLLMのブラウザ内推論エンジンを用いて、3つのPythonプログラミングデータセット上で、微調整Llama3-8BとPhi3-3.8Bの4ビット量子化モデルの有効性を示す。 ブラウザ内言語モデルに関するさらなる研究を容易にするため、Webアプリとデータセットとともに、完全な実装をリリースします。

Generative AI and large language models hold great promise in enhancing programming education by generating individualized feedback and hints for learners. Recent works have primarily focused on improving the quality of generated feedback to achieve human tutors' quality. While quality is an important performance criterion, it is not the only criterion to optimize for real-world educational deployments. In this paper, we benchmark language models for programming feedback generation across several performance criteria, including quality, cost, time, and data privacy. The key idea is to leverage recent advances in the new paradigm of in-browser inference that allow running these models directly in the browser, thereby providing direct benefits across cost and data privacy. To boost the feedback quality of small models compatible with in-browser inference engines, we develop a fine-tuning pipeline based on GPT-4 generated synthetic data. We showcase the efficacy of fine-tuned Llama3-8B and Phi3-3.8B 4-bit quantized models using WebLLM's in-browser inference engine on three different Python programming datasets. We will release the full implementation along with a web app and datasets to facilitate further research on in-browser language models.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# Few-Shot Medical Image Segmentation の原型相関マッチングとクラス関係推論

Prototype Correlation Matching and Class-Relation Reasoning for Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2406.05054v1 )

ライセンス: Link先を確認
Yumin Zhang, Hongliu Li, Yajun Gao, Haoran Duan, Yawen Huang, Yefeng Zheng, (参考訳) バイオメディカルイメージング分野における医療分析の精度と効率向上に大きく貢献した医用画像の断片化は少ない。 しかし、既存の手法のほとんどは、未確認の新規なクラスを推論するために、ベースクラスと新規な医療クラス間のクラス間関係を探索することができない。 さらに、同じ種類の医療クラスは、様々な外観、形状、スケールによってもたらされる大きなクラス内変異を持つため、未確認の新規クラスにおいて、これらの既存手法の一般化性能を低下させる不明瞭な視覚的特徴が生じる。 上記の課題に対処するため,本研究では, \underline{\textbf{P}}rototype correlation \underline{\textbf{M}}atching と \underline{\textbf{C}}lass-relation \underline{\textbf{R}}easoning (すなわち, \textbf{PMCR}) モデルを提案する。 提案モデルは,異なる医用クラス間のクラス間関係を推論しながら,大規模なクラス内変動に起因する偽画素相関マッチングを効果的に緩和することができる。 具体的には,大規模なクラス内変動による偽画素相関マッチングに対処するため,異なる外観の多様な視覚情報を適切に特徴付けることのできる,代表プロトタイプに対するプロトタイプ相関マッチングモジュールを提案する。 本研究の目的は,クラス内変動による誤一致に対処するために,最適なトランスポートアルゴリズムを用いて,サポートとクエリ機能間の画素レベルの相関マッチングではなく,プロトタイプレベルを探索することである。 一方、クラス間関係を探究するために、クラス間関係を基礎クラスと新規クラス間の関係を推論することで、見知らぬ新しい医療オブジェクトをセグメント化するためのクラス関係推論モジュールを設計する。 このようなクラス間の関係は、局所的なクエリ機能のセマンティックエンコーディングにうまく伝播し、ショットセグメンテーション性能を向上させることができる。 定量的比較は、我々のモデルが他のベースライン法よりも大幅に向上したことを示している。

Few-shot medical image segmentation has achieved great progress in improving accuracy and efficiency of medical analysis in the biomedical imaging field. However, most existing methods cannot explore inter-class relations among base and novel medical classes to reason unseen novel classes. Moreover, the same kind of medical class has large intra-class variations brought by diverse appearances, shapes and scales, thus causing ambiguous visual characterization to degrade generalization performance of these existing methods on unseen novel classes. To address the above challenges, in this paper, we propose a \underline{\textbf{P}}rototype correlation \underline{\textbf{M}}atching and \underline{\textbf{C}}lass-relation \underline{\textbf{R}}easoning (i.e., \textbf{PMCR}) model. The proposed model can effectively mitigate false pixel correlation matches caused by large intra-class variations while reasoning inter-class relations among different medical classes. Specifically, in order to address false pixel correlation match brought by large intra-class variations, we propose a prototype correlation matching module to mine representative prototypes that can characterize diverse visual information of different appearances well. We aim to explore prototype-level rather than pixel-level correlation matching between support and query features via optimal transport algorithm to tackle false matches caused by intra-class variations. Meanwhile, in order to explore inter-class relations, we design a class-relation reasoning module to segment unseen novel medical objects via reasoning inter-class relations between base and novel classes. Such inter-class relations can be well propagated to semantic encoding of local query features to improve few-shot segmentation performance. Quantitative comparisons illustrates the large performance improvement of our model over other baseline methods.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# 失語・矛盾条件下における数学的推論のロバスト性評価

Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions ( http://arxiv.org/abs/2406.05055v1 )

ライセンス: Link先を確認
Shi-Yu Tian, Zhi Zhou, Lin-Han Jia, Lan-Zhe Guo, Yu-Feng Li, (参考訳) 大規模言語モデル(LLM)は推論タスクにおいて素晴らしいパフォーマンスを示しており、数発のプロンプト技術によってさらに改善することができる。 しかし、現在の評価は主に注意深く構築されたベンチマークに焦点をあてており、未定義問題として知られる欠落と矛盾した条件を呈する現実の推論問題を考慮に入れていない。 我々の観察では、既存の数発のプロンプト技術はそのようなシナリオでは効果がないことが示唆され、しばしば過度な回答や幻覚を与える。 この問題をさらに研究するために,PMC (Iss with Missing and Contradictory conditions) と呼ばれるベンチマークを開発し,これらのシナリオにおける数発プロンプト手法の性能を評価するための2つの新しい指標を提案する。 PMCベンチマークを用いて解析したところ, 問題に対する数学的推論の性能と不確定な問題を認識する能力との間には, トレードオフジレンマが生じることがわかった。 PMCがもたらす課題を解決するために,SMT-LIB Prompting (SLP) と呼ばれる,SMT-LIB言語を用いて直接解決する代わりに,その問題をモデル化する新しいプロンプトプロンプト手法を提案する。 その後、二重チェック解決戦略がソリューションの満足度と独自性をチェックし、最終的なフィードバックを提供する。 過剰な実験は、既存の数発のプロンプト法と比較して、不足条件や矛盾条件に対処する際のSLPアプローチの優位性を実証している。 将来の研究を促進するため、ベンチマークとコードをオープンソースにします。

Large language models (LLMs) have demonstrated impressive performance on reasoning tasks, which can be further improved through few-shot prompting techniques. However, the current evaluation primarily focuses on carefully constructed benchmarks and neglects the consideration of real-world reasoning problems that present missing and contradictory conditions, known as ill-defined problems. Our observations suggest that existing few-shot prompting techniques are ineffective in such scenarios, often providing overconfident answers or hallucination. To further study this problem, we develop a benchmark called Problems with Missing and Contradictory conditions (PMC) and introduce two novel metrics to evaluate the performance of few-shot prompting methods in these scenarios. Our analysis using the PMC benchmark reveals a trade-off dilemma between the performance of mathematical reasoning for well-defined problems and the ability to recognize ill-defined problems. To address the challenges posed by PMC, we propose a novel few-shot prompting method called SMT-LIB Prompting (SLP), which utilizes the SMT-LIB language to model the problems instead of solving them directly. Subsequently, a double-check solving strategy checks the satisfiability and uniqueness of the solution and provides final feedback. Extensive experiments demonstrate the superiority of our SLP approach compared to existing few-shot prompting methods when dealing with problems with missing and contradictory conditions. We will open-source our benchmark and code to facilitate future research.
翻訳日:2024-06-10 13:22:27 公開日:2024-06-07
# GenHeld: ハンドヘルドオブジェクトの生成と編集

GenHeld: Generating and Editing Handheld Objects ( http://arxiv.org/abs/2406.05059v1 )

ライセンス: Link先を確認
Chaerin Min, Srinath Sridhar, (参考訳) グラスピングは、ロボット工学、コンピュータビジョン、認知科学において長年研究されてきた重要な人間の活動である。 既存の研究の多くは、3次元または2次元のオブジェクト表現に条件付けされた手ポーズの合成の観点から把握することを研究している。 我々は3次元ハンドモデルや2次元画像に条件付き保持オブジェクトを合成する逆問題にGenHeldを提案する。 GenHeld 3Dは3Dモデルによってオブジェクトコードと呼ばれるコンパクトなオブジェクト表現を用いて大きなデータセットから可塑性保持オブジェクトを選択できる。 もし2Dハンドイメージが利用可能であれば、GenHeld 2Dはこの画像を編集して保持されているオブジェクトを追加したり置き換えたりできる。 GenHeld 2Dは、GenHeld 3Dの能力と拡散ベースの画像編集を組み合わせることで動作する。 結果と実験により, 2次元および3次元の両方において, ベースラインを上回り, 保持可能な物体を生成できることが判明した。 実験により,本手法は3次元および2次元の両方で保持対象合成の精度と妥当性を実証した。

Grasping is an important human activity that has long been studied in robotics, computer vision, and cognitive science. Most existing works study grasping from the perspective of synthesizing hand poses conditioned on 3D or 2D object representations. We propose GenHeld to address the inverse problem of synthesizing held objects conditioned on 3D hand model or 2D image. Given a 3D model of hand, GenHeld 3D can select a plausible held object from a large dataset using compact object representations called object codes.The selected object is then positioned and oriented to form a plausible grasp without changing hand pose. If only a 2D hand image is available, GenHeld 2D can edit this image to add or replace a held object. GenHeld 2D operates by combining the abilities of GenHeld 3D with diffusion-based image editing. Results and experiments show that we outperform baselines and can generate plausible held objects in both 2D and 3D. Our experiments demonstrate that our method achieves high quality and plausibility of held object synthesis in both 3D and 2D.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# 進行性エントロピー最適輸送解法

Progressive Entropic Optimal Transport Solvers ( http://arxiv.org/abs/2406.05061v1 )

ライセンス: Link先を確認
Parnian Kassraie, Aram-Alexandre Pooladian, Michal Klein, James Thornton, Jonathan Niles-Weed, Marco Cuturi, (参考訳) 最適なトランスポート(OT)は、データセットの認識に理論的および計算ツールを提供することによって、機械学習に大きな影響を与えている。 この文脈では、2つの大きな点の雲が$n$と$m$ in $\mathbb{R}^d$のとき、エントロピックOT (EOT) ソルバは、カントロビッチ問題を解き、$n\times m$結合行列を出力するか、あるいはモンジュ問題を解き、ベクトル値のプッシュ-フォワード写像を学ぶための最も信頼できるツールとして現れた。 EOTカップリング/マップのロバスト性は実践的応用において自由選択となるが、EOTソルバは小さいが影響力のあるハイパーパラメータの集合、特に一様エントロピー正則化強度$\varepsilon$のためにチューニングが難しいままである。 計算速度、統計性能、一般化、バイアスなど、さまざまなパフォーマンス指標に同時に影響を与えるため、$\varepsilon$の設定は難しい場合がある。 本研究では,計画図と輸送地図の両方を推定できる新しいEOT解法(ProgOT)を提案する。 我々は,時間離散化を用いて質量変位を分割し,動的OT定式化からインスピレーションを借用し,それぞれのステップを適切にスケジュールされたパラメータでEOTを用いて征服することにより,EOT解の計算を最適化するいくつかの機会を生かした。 我々は、ProgOTが、ニューラルネットワークベースのアプローチよりも高速で堅牢な、大規模な結合計算において、標準ソルバの代替手段であることを示す実験的なエビデンスを提供する。 また、最適な輸送地図を推定するためのアプローチの統計的整合性も証明する。

Optimal transport (OT) has profoundly impacted machine learning by providing theoretical and computational tools to realign datasets. In this context, given two large point clouds of sizes $n$ and $m$ in $\mathbb{R}^d$, entropic OT (EOT) solvers have emerged as the most reliable tool to either solve the Kantorovich problem and output a $n\times m$ coupling matrix, or to solve the Monge problem and learn a vector-valued push-forward map. While the robustness of EOT couplings/maps makes them a go-to choice in practical applications, EOT solvers remain difficult to tune because of a small but influential set of hyperparameters, notably the omnipresent entropic regularization strength $\varepsilon$. Setting $\varepsilon$ can be difficult, as it simultaneously impacts various performance metrics, such as compute speed, statistical performance, generalization, and bias. In this work, we propose a new class of EOT solvers (ProgOT), that can estimate both plans and transport maps. We take advantage of several opportunities to optimize the computation of EOT solutions by dividing mass displacement using a time discretization, borrowing inspiration from dynamic OT formulations, and conquering each of these steps using EOT with properly scheduled parameters. We provide experimental evidence demonstrating that ProgOT is a faster and more robust alternative to standard solvers when computing couplings at large scales, even outperforming neural network-based approaches. We also prove statistical consistency of our approach for estimating optimal transport maps.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# 大規模言語モデルは人間よりも共感的か?

Are Large Language Models More Empathetic than Humans? ( http://arxiv.org/abs/2406.05063v1 )

ライセンス: Link先を確認
Anuradha Welivita, Pearl Pu, (参考訳) 大規模言語モデル (LLMs) の出現に伴い、感情認識や共感応答といった領域で人間を上回ることができるかどうかが研究の焦点となっている。 本稿では,GPT-4,LLaMA-2-70B-Chat,Gemini-1.0-Pro,Mixtral-8x7B-Instructの4種類のLLMの共感応答能力について,ヒトのベースラインと比較して総合的に検討した。 被験者1000名を対象に,人間と4つのLDMから2000の感情対話の共感的質を評価し,32種類の感情と否定的感情の幅広いスペクトルをカバーするよう注意的に選択した。 ヒトに対するLDMの共感応答能の統計的に有意な優位性を示した。 GPT-4は最も共感的であり、人間のベンチマークに比べて約31%の反応が「Good」と評価された。 続いてLLaMA-2, Mixtral-8x7B, Gemini-Proがそれぞれ24%, 21%, 10%の上昇を示した。 さらに, より粒度の細かい反応評価を解析した結果, 特定の感情に反応するLLMが他と比較して有意に優れていることが判明した。 提案する評価フレームワークは,新たなLSMの共感を評価するためのスケーラブルで適応的なアプローチを提供する。

With the emergence of large language models (LLMs), investigating if they can surpass humans in areas such as emotion recognition and empathetic responding has become a focal point of research. This paper presents a comprehensive study exploring the empathetic responding capabilities of four state-of-the-art LLMs: GPT-4, LLaMA-2-70B-Chat, Gemini-1.0-Pro, and Mixtral-8x7B-Instruct in comparison to a human baseline. We engaged 1,000 participants in a between-subjects user study, assessing the empathetic quality of responses generated by humans and the four LLMs to 2,000 emotional dialogue prompts meticulously selected to cover a broad spectrum of 32 distinct positive and negative emotions. Our findings reveal a statistically significant superiority of the empathetic responding capability of LLMs over humans. GPT-4 emerged as the most empathetic, marking approximately 31% increase in responses rated as "Good" compared to the human benchmark. It was followed by LLaMA-2, Mixtral-8x7B, and Gemini-Pro, which showed increases of approximately 24%, 21%, and 10% in "Good" ratings, respectively. We further analyzed the response ratings at a finer granularity and discovered that some LLMs are significantly better at responding to specific emotions compared to others. The suggested evaluation framework offers a scalable and adaptable approach for assessing the empathy of new LLMs, avoiding the need to replicate this study's findings in future research.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# In-Context Multi-task Structured Bandit Learning のための逆予測付き事前決定変換器

Pretraining Decision Transformers with Reward Prediction for In-Context Multi-task Structured Bandit Learning ( http://arxiv.org/abs/2406.05064v1 )

ライセンス: Link先を確認
Subhojyoti Mukherjee, Josiah P. Hanna, Qiaomin Xie, Robert Nowak, (参考訳) 本稿では,累積的後悔を最小限に抑える近似アルゴリズムの学習を目標とするマルチタスク構造化バンディット問題について検討する。 タスクは共通の構造を共有し、アルゴリズムは共有構造を利用して、目に見えないが関連するテストタスクに対する累積的後悔を最小限にする。 我々は、この共有構造を学習するために、トランスフォーマーを意思決定アルゴリズムとして使用し、テストタスクに一般化する。 DPTのような事前訓練された決定変換器の以前の作業では、トレーニング中に最適なアクションにアクセスする必要がある。 これらの作業から切り離して、我々の学習アルゴリズムは、トレーニング中のタスク毎の最適なアクションの知識を必要としないが、多様なトレーニングタスクから観測されたオフラインデータのみを使用して、各アクションに対する報酬ベクトルを予測する。 最後に、予測時間中に、未知のテストタスクに対して、さまざまな探索戦略をコンテキストで使用した報奨予測を用いてアクションを選択する。 我々のモデルは、いくつかの構造化バンドイット問題(線形、双線形、潜伏、非線形)に関する一連の実験において、DPTやアルゴリズム蒸留などの他のSOTA法よりも優れている。 興味深いことに、本アルゴリズムは、基礎となる問題構造を知らずに、多様なタスクにまたがる共有構造を利用することで、コンテキスト内でほぼ最適のポリシーを学習できることが示される。 我々はさらに、未確認のタスクを新しいアクションで活用できることを示し、基礎となる潜在構造を学習して、ほぼ最適ポリシーを導出できることを示し、事前学習された意思決定変換器の分野を拡大する。 提案したソリューションが極めて一般的なものであり、テスト時にオンラインおよびオフライン戦略を創発する可能性のある幅広いアプリケーションを持つことを示すために、いくつかの実験でこれを検証した。 最後に,提案アルゴリズムの性能を理論的に解析し,テキスト内マルチタスク学習における一般化境界を求める。

In this paper, we study multi-task structured bandit problem where the goal is to learn a near-optimal algorithm that minimizes cumulative regret. The tasks share a common structure and the algorithm exploits the shared structure to minimize the cumulative regret for an unseen but related test task. We use a transformer as a decision-making algorithm to learn this shared structure so as to generalize to the test task. The prior work of pretrained decision transformers like DPT requires access to the optimal action during training which may be hard in several scenarios. Diverging from these works, our learning algorithm does not need the knowledge of optimal action per task during training but predicts a reward vector for each of the actions using only the observed offline data from the diverse training tasks. Finally, during inference time, it selects action using the reward predictions employing various exploration strategies in-context for an unseen test task. Our model outperforms other SOTA methods like DPT, and Algorithmic Distillation over a series of experiments on several structured bandit problems (linear, bilinear, latent, non-linear). Interestingly, we show that our algorithm, without the knowledge of the underlying problem structure, can learn a near-optimal policy in-context by leveraging the shared structure across diverse tasks. We further extend the field of pre-trained decision transformers by showing that they can leverage unseen tasks with new actions and still learn the underlying latent structure to derive a near-optimal policy. We validate this over several experiments to show that our proposed solution is very general and has wide applications to potentially emergent online and offline strategies at test time. Finally, we theoretically analyze the performance of our algorithm and obtain generalization bounds in the in-context multi-task learning setting.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# 画像説明のための分類基準:信頼性の高いXAI評価の構築に向けて

Classification Metrics for Image Explanations: Towards Building Reliable XAI-Evaluations ( http://arxiv.org/abs/2406.05068v1 )

ライセンス: Link先を確認
Benjamin Fresz, Lena Lörcher, Marco Huber, (参考訳) コンピュータビジョンモデルの決定過程(特にディープニューラルネットワーク)は、本質的に不透明である。 このように、近年、人間に理解可能な説明を提供するための多くの方法が提案されている。 画像分類において、最も一般的なグループは、入力画像に対して(超)画素単位の特徴属性スコアを提供するサリエンシ手法である。 しかし、彼らの評価は、その結果は未知の根拠の真実と単純に比較できないため、依然として問題となる。 これを解決するために、さまざまなプロキシメトリクスが定義されている。これは、説明可能性メソッドそれ自体として、直観に基づいて構築されることが多いため、おそらく信頼性が低い。 本稿では,新たな評価指標を開発し,イメージネット上での共通性評価手法をベンチマークする。 また、心理測定テストの概念に基づく、そのような指標の信頼性評価手法を提案する。 使用されるコードはhttps://github.com/lelo204/ClassificationMetricsForImageExplanations で見ることができる。

Decision processes of computer vision models - especially deep neural networks - are opaque in nature, meaning that these decisions cannot be understood by humans. Thus, over the last years, many methods to provide human-understandable explanations have been proposed. For image classification, the most common group are saliency methods, which provide (super-)pixelwise feature attribution scores for input images. But their evaluation still poses a problem, as their results cannot be simply compared to the unknown ground truth. To overcome this, a slew of different proxy metrics have been defined, which are - as the explainability methods themselves - often built on intuition and thus, are possibly unreliable. In this paper, new evaluation metrics for saliency methods are developed and common saliency methods are benchmarked on ImageNet. In addition, a scheme for reliability evaluation of such metrics is proposed that is based on concepts from psychometric testing. The used code can be found at https://github.com/lelo204/ClassificationMetricsForImageExplanations .
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# 総合エージェント訓練のための多エージェントミニゲーム

Massively Multiagent Minigames for Training Generalist Agents ( http://arxiv.org/abs/2406.05071v1 )

ライセンス: Link先を確認
Kyoung Whan Choe, Ryan Sullivan, Joseph Suárez, (参考訳) 本稿では,強化学習ベンチマークとして使用する多エージェントミニゲームの集合であるMeta MMOを紹介する。 Meta MMOは、NeurIPSの2つのコンペティションの対象となった、非常にマルチエージェントな環境であるNeural MMO上に構築されている。 我々の研究は、いくつかの計算効率の良いミニゲームでNeural MMOを拡張している。 メタMMOをまたいだ一般化を,一組の重みで複数のミニゲームを学ぶことで検討する。 私たちは環境、ベースライン、トレーニングコードをMITライセンス下でリリースしています。 Meta MMOがNeural MMOのさらなる進歩を加速し、より一般的には、多エージェントの一般化のための有用なベンチマークとして機能することを願っている。

We present Meta MMO, a collection of many-agent minigames for use as a reinforcement learning benchmark. Meta MMO is built on top of Neural MMO, a massively multiagent environment that has been the subject of two previous NeurIPS competitions. Our work expands Neural MMO with several computationally efficient minigames. We explore generalization across Meta MMO by learning to play several minigames with a single set of weights. We release the environment, baselines, and training code under the MIT license. We hope that Meta MMO will spur additional progress on Neural MMO and, more generally, will serve as a useful benchmark for many-agent generalization.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# 線形化によるニューラル演算子を関数値ガウス過程に変換する

Linearization Turns Neural Operators into Function-Valued Gaussian Processes ( http://arxiv.org/abs/2406.05072v1 )

ライセンス: Link先を確認
Emilia Magnani, Marvin Pförtner, Tobias Weber, Philipp Hennig, (参考訳) 気候や工学などの力学系のモデリングは、しばしば偏微分方程式の解法を必要とする。 ニューラルネットワークは、データから微分方程式の非自明な解演算子を学習するために設計されたディープニューラルネットワークである。 全ての統計モデルについて、これらのモデルの予測は不完全であり、誤りを示す。 このような誤差は、力学系の複雑な非線形挙動に特に見つからない。 本稿では,関数値ガウス過程を用いたニューラル演算子におけるベイズの不確かさの近似的定量化のための新しい枠組みを提案する。 提案手法は関数型プログラミングのカリー化の概念の確率論的類似として解釈することができ,線形化されたラプラス近似をニューラルネットワークに適用するための実用的かつ理論的に健全な方法を提供する。 フーリエ・ニューラル作用素のケーススタディでは, 離散化された入力であっても, 任意の点の集合で評価可能な, ニューラル演算子の出力関数の不確かさを後押しする構造的ガウス過程がガウス閉包を生じることを示す。 この方法は、最小限の予測オーバーヘッドを追加し、ニューラル演算子を再トレーニングすることなくポストホックに適用し、大規模なモデルやデータセットにスケールする。 我々は、異なるタイプの偏微分方程式への応用を通して、我々のアプローチの有効性を示す。

Modeling dynamical systems, e.g. in climate and engineering sciences, often necessitates solving partial differential equations. Neural operators are deep neural networks designed to learn nontrivial solution operators of such differential equations from data. As for all statistical models, the predictions of these models are imperfect and exhibit errors. Such errors are particularly difficult to spot in the complex nonlinear behaviour of dynamical systems. We introduce a new framework for approximate Bayesian uncertainty quantification in neural operators using function-valued Gaussian processes. Our approach can be interpreted as a probabilistic analogue of the concept of currying from functional programming and provides a practical yet theoretically sound way to apply the linearized Laplace approximation to neural operators. In a case study on Fourier neural operators, we show that, even for a discretized input, our method yields a Gaussian closure--a structured Gaussian process posterior capturing the uncertainty in the output function of the neural operator, which can be evaluated at an arbitrary set of points. The method adds minimal prediction overhead, can be applied post-hoc without retraining the neural operator, and scales to large models and datasets. We showcase the efficacy of our approach through applications to different types of partial differential equations.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# Hibou: 病理学の基礎的なビジョントランスフォーマーの家族

Hibou: A Family of Foundational Vision Transformers for Pathology ( http://arxiv.org/abs/2406.05074v1 )

ライセンス: Link先を確認
Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova, (参考訳) 病理学は疾患組織の顕微鏡検査であり、様々な疾患、特にがんの診断に重要である。 従来の方法は労働集約的であり、ヒューマンエラーの傾向が強い。 コンピュータアルゴリズムによる解析のためにガラススライドを高解像度のデジタル画像に変換するデジタル病理学は、自動画像解析と大規模データ処理によって、診断精度、一貫性、効率を向上させることにより、分野に革命をもたらす。 基礎変換器の事前学習は、大量の無注釈データから学習を可能にするため、堅牢で一般化可能なモデルの開発に不可欠である。 本稿では,組織の種類や染色技術を表す100万枚以上のスライド画像(WSI)のプロプライエタリなデータセット上で,DINOv2フレームワークを用いてヒブーBとヒブーLの2つのモデル変異体を事前学習する。 我々の事前訓練されたモデルは、既存の最先端手法を超越して、パッチレベルとスライドレベルの両方のベンチマークで優れた性能を示す。 特に、Hibou-Lは複数のベンチマークデータセットで最高の平均精度を達成している。 この分野におけるさらなる研究と応用をサポートするため、Hibou-Bモデルをオープンソースとして公開しました。

Pathology, the microscopic examination of diseased tissue, is critical for diagnosing various medical conditions, particularly cancers. Traditional methods are labor-intensive and prone to human error. Digital pathology, which converts glass slides into high-resolution digital images for analysis by computer algorithms, revolutionizes the field by enhancing diagnostic accuracy, consistency, and efficiency through automated image analysis and large-scale data processing. Foundational transformer pretraining is crucial for developing robust, generalizable models as it enables learning from vast amounts of unannotated data. This paper introduces the Hibou family of foundational vision transformers for pathology, leveraging the DINOv2 framework to pretrain two model variants, Hibou-B and Hibou-L, on a proprietary dataset of over 1 million whole slide images (WSIs) representing diverse tissue types and staining techniques. Our pretrained models demonstrate superior performance on both patch-level and slide-level benchmarks, surpassing existing state-of-the-art methods. Notably, Hibou-L achieves the highest average accuracy across multiple benchmark datasets. To support further research and application in the field, we have open-sourced the Hibou-B model, which can be accessed at https://github.com/HistAI/hibou
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# 映像テキストモデルにおける動き表現の深層化

Diving Deep into the Motion Representation of Video-Text Models ( http://arxiv.org/abs/2406.05075v1 )

ライセンス: Link先を確認
Chinmaya Devaraj, Cornelia Fermuller, Yiannis Aloimonos, (参考訳) 動画は、シーンのダイナミクスを捉えているため、画像よりも情報的です。 動画で動きを表現することで、ダイナミックな動きを捉えることができる。 本稿では, GPT-4 生成した動作記述について紹介し, 動作のきめ細かい動作記述を3つの動作データセットに適用する。 動作記述の検索作業におけるビデオテキストモデルの評価を行った。 2つのアクションデータセットにおける人間の専門家のパフォーマンスよりもはるかに遅れており、ビデオテキストモデルが動画の動作を理解するかどうかという疑問が提起されている。 そこで本研究では,動き記述を利用して映像テキストモデルにおける動作理解を改善する手法を提案する。 本手法は動作記述検索タスクにおいて2つの動作データセットに対して有効であることが証明された。 その結果,既存のデータセットにおける微粒な動き情報を含む品質キャプションの必要性が注目され,ビデオテキスト検索における微粒な動きの理解におけるパイプラインの有効性が示された。

Videos are more informative than images because they capture the dynamics of the scene. By representing motion in videos, we can capture dynamic activities. In this work, we introduce GPT-4 generated motion descriptions that capture fine-grained motion descriptions of activities and apply them to three action datasets. We evaluated several video-text models on the task of retrieval of motion descriptions. We found that they fall far behind human expert performance on two action datasets, raising the question of whether video-text models understand motion in videos. To address it, we introduce a method of improving motion understanding in video-text models by utilizing motion descriptions. This method proves to be effective on two action datasets for the motion description retrieval task. The results draw attention to the need for quality captions involving fine-grained motion information in existing datasets and demonstrate the effectiveness of the proposed pipeline in understanding fine-grained motion during video-text retrieval.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# SUMIE: インクリメンタルエンティティ要約のためのシンセティックベンチマーク

SUMIE: A Synthetic Benchmark for Incremental Entity Summarization ( http://arxiv.org/abs/2406.05079v1 )

ライセンス: Link先を確認
Eunjeong Hwang, Yichao Zhou, Beliz Gunel, James Bradley Wendt, Sandeep Tata, (参考訳) 既存のデータセットは、言語モデルがエンティティの要約を段階的に更新できるかどうかを適切にテストしていません。 インクリメンタルエンティティ要約(IES)タスクは、正確で最新の知識を維持するために不可欠である。 これを解決するために,実世界のIES課題を明らかにするために設計された,完全に合成されたデータセットであるSUMIEを紹介する。 このデータセットは、誤ったエンティティアソシエーションや不完全な情報提示といった問題を効果的に強調する。 一般的な合成データセットとは異なり、実世界のデータに見られる複雑さとニュアンスをキャプチャする。 情報的かつ多様な属性,要約,非構造的段落を逐次生成し,高品質を保証します。 生成された要約と段落のアライメントは96%を超え、データセットの品質を確認します。 大規模な実験は、データセットの難しさを実証している - 最先端のLLMは、80.4%以上のF1のサマリーを更新するのに苦労している。 IESタスクの進捗を支援するため,ベンチマークと評価指標をオープンソースとして公開します。

No existing dataset adequately tests how well language models can incrementally update entity summaries - a crucial ability as these models rapidly advance. The Incremental Entity Summarization (IES) task is vital for maintaining accurate, up-to-date knowledge. To address this, we introduce SUMIE, a fully synthetic dataset designed to expose real-world IES challenges. This dataset effectively highlights problems like incorrect entity association and incomplete information presentation. Unlike common synthetic datasets, ours captures the complexity and nuances found in real-world data. We generate informative and diverse attributes, summaries, and unstructured paragraphs in sequence, ensuring high quality. The alignment between generated summaries and paragraphs exceeds 96%, confirming the dataset's quality. Extensive experiments demonstrate the dataset's difficulty - state-of-the-art LLMs struggle to update summaries with an F1 higher than 80.4%. We will open source the benchmark and the evaluation metrics to help the community make progress on IES tasks.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# I2EDL:インタラクティブなインストラクションエラー検出と位置決め

I2EDL: Interactive Instruction Error Detection and Localization ( http://arxiv.org/abs/2406.05080v1 )

ライセンス: Link先を確認
Francesco Taioli, Stefano Rosa, Alberto Castellini, Lorenzo Natale, Alessio Del Bue, Alessandro Farinelli, Marco Cristani, Yiming Wang, (参考訳) VLN-CE(Vision-and-Language Navigation in Continuous Environments)タスクでは、人間のユーザは、自然言語によるテキスト命令に続く一連の低レベルアクションを通じて、自律エージェントが目標を達成するようにガイドする。 しかし、既存のほとんどのメソッドは、ユーザーがそのような命令(例えば「右に曲がる」代わりに「左に曲がる」など)を提供する際に間違いを犯す可能性のあるケースに対処していない。 本研究では,連続環境における対話型VLN-CE(Interactive VLN-CE)の新たな課題に対処し,VLN-CEナビゲーション中にエージェントがユーザと対話して,命令エラーに関する疑念を検証できるようにする。 ナビゲーション中の命令エラーを検出する際に,ユーザエージェント間のインタラクションをトリガーする対話型インストラクションエラー検出およびローカライザ(I2EDL)を提案する。 我々は、事前学習したモジュールを利用して命令エラーを検出し、テキスト入力と過去の観察を相互参照することで、命令中のそれらをピンポイントする。 このようにして、エージェントはユーザの認知負荷を必要とせずに、タイムリーな修正を求めることができる。 提案したI2EDLは,エラーを含む命令のデータセットに基づいて評価し,さらに,ナビゲーション性能とインタラクションの有効性の両方を反映した新しい指標であるSIN(Successed by Interaction Number)を考案する。 提案手法は,ユーザに対して,対話の最小化を図りながら,ナビゲーションの成功率を高めた修正要求を集中的に要求する方法を示す。

In the Vision-and-Language Navigation in Continuous Environments (VLN-CE) task, the human user guides an autonomous agent to reach a target goal via a series of low-level actions following a textual instruction in natural language. However, most existing methods do not address the likely case where users may make mistakes when providing such instruction (e.g. "turn left" instead of "turn right"). In this work, we address a novel task of Interactive VLN in Continuous Environments (IVLN-CE), which allows the agent to interact with the user during the VLN-CE navigation to verify any doubts regarding the instruction errors. We propose an Interactive Instruction Error Detector and Localizer (I2EDL) that triggers the user-agent interaction upon the detection of instruction errors during the navigation. We leverage a pre-trained module to detect instruction errors and pinpoint them in the instruction by cross-referencing the textual input and past observations. In such way, the agent is able to query the user for a timely correction, without demanding the user's cognitive load, as we locate the probable errors to a precise part of the instruction. We evaluate the proposed I2EDL on a dataset of instructions containing errors, and further devise a novel metric, the Success weighted by Interaction Number (SIN), to reflect both the navigation performance and the interaction effectiveness. We show how the proposed method can ask focused requests for corrections to the user, which in turn increases the navigation success, while minimizing the interactions.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# CoNo: チューニング不要長ビデオ拡散用コンシステンシーノイズインジェクション

CoNo: Consistency Noise Injection for Tuning-free Long Video Diffusion ( http://arxiv.org/abs/2406.05082v1 )

ライセンス: Link先を確認
Xingrui Wang, Xin Li, Zhibo Chen, (参考訳) トレーニング済みの短いビデオ拡散モデルから知識を再利用することで、トレーニングなしの長いビデオ拡散を、コンテンツに富んだ拡張デューレーションビデオを生成する方法が提案されている。 しかし、ほとんどの研究は、特に複数のテキスト入力でシーンの一貫性(例えば、不合理なオブジェクトや背景遷移)が制限されるような、細かな長期的なビデオ一貫性のモデリングを見落としている。 そこで本研究では,異なる映像クリップ間の微粒化シーン遷移を促進させる「ルックバック」機構を導入した「CoNo」と呼ばれる一貫性雑音注入法を提案し,ノイズ予測による映像コンテンツ拡張時のコンテンツシフトを解消するために,長期的整合正則化を設計する。 特に、「見返り」機構は、ノイズスケジューリングプロセスを3つの必須部分に分割し、1つの内部ノイズ予測部を2つのビデオ押出部に注入し、2つのビデオクリップ間のきめ細かい遷移を実現する。 長期の整合性正規化は、拡張ビデオクリップの予測ノイズと元のノイズとの画素幅を明示的に最小化することに焦点を当て、急激なシーン遷移を防止する。 単文と複数文の両方のプロンプト条件下で長ビデオ生成を行うことにより, 上記の戦略の有効性を実証した。 このプロジェクトはhttps://wxrui182.github.io/CoNo.github.io/で公開されている。

Tuning-free long video diffusion has been proposed to generate extended-duration videos with enriched content by reusing the knowledge from pre-trained short video diffusion model without retraining. However, most works overlook the fine-grained long-term video consistency modeling, resulting in limited scene consistency (i.e., unreasonable object or background transitions), especially with multiple text inputs. To mitigate this, we propose the Consistency Noise Injection, dubbed CoNo, which introduces the "look-back" mechanism to enhance the fine-grained scene transition between different video clips, and designs the long-term consistency regularization to eliminate the content shifts when extending video contents through noise prediction. In particular, the "look-back" mechanism breaks the noise scheduling process into three essential parts, where one internal noise prediction part is injected into two video-extending parts, intending to achieve a fine-grained transition between two video clips. The long-term consistency regularization focuses on explicitly minimizing the pixel-wise distance between the predicted noises of the extended video clip and the original one, thereby preventing abrupt scene transitions. Extensive experiments have shown the effectiveness of the above strategies by performing long-video generation under both single- and multi-text prompt conditions. The project has been available in https://wxrui182.github.io/CoNo.github.io/.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# 法律のあいまいさと表現機能--スマート法体系におけるプラグマティクスの役割

On Ambiguity and the Expressive Function of Law: The Role of Pragmatics in Smart Legal Ecosystems ( http://arxiv.org/abs/2406.05084v1 )

ライセンス: Link先を確認
Pompeu Casanovas, (参考訳) これは、曖昧さ、プラグマティクス、法的なエコシステム、そして法の表現機能に関する長い論文、エッセイである。 2つの部分と15のセクションに分けられる。 第一部(プラグマティクス)は、法的分野における言語的・認知的プラグマティクスの観点から曖昧さを論じる。 第2部(計算)では、人間中心の設計と人工知能の観点からこの問題を扱い、特にルールの概念とモデリング、そしてルールに準拠することの意味に焦点を当てている。 これは、スマートな法的なエコシステム(SLE)の足場を構築するために必要です。 ゼロ欠陥製造(人工知能と仮想化による製造プロセスの最適化)のEUプロジェクトであるOPTIMAIのアーキテクチャ、情報フロー、スマートエコシステムの例を例に、この課題を論じる。

This is a long paper, an essay, on ambiguity, pragmatics, legal ecosystems, and the expressive function of law. It is divided into two parts and fifteen sections. The first part (Pragmatics) addresses ambiguity from the perspective of linguistic and cognitive pragmatics in the legal field. The second part (Computing) deals with this issue from the point of view of human-centered design and artificial intelligence, specifically focusing on the notion and modelling of rules and what it means to comply with the rules. This is necessary for the scaffolding of smart legal ecosystems (SLE). I will develop this subject with the example of the architecture, information flows, and smart ecosystem of OPTIMAI, an EU project of Industry 4.0 for zero-defect manufacturing (Optimizing Manufacturing Processes through Artificial Intelligence and Virtualization).
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# マルチヘッドRAG:LLMを用いたマルチアスペクト問題の解法

Multi-Head RAG: Solving Multi-Aspect Problems with LLMs ( http://arxiv.org/abs/2406.05085v1 )

ライセンス: Link先を確認
Maciej Besta, Ales Kubicek, Roman Niggli, Robert Gerstenberger, Lucas Weitzendorf, Mingyuan Chi, Patrick Iff, Joanna Gajda, Piotr Nyczyk, Jürgen Müller, Hubert Niewiadomski, Marcin Chrapek, Michał Podstawski, Torsten Hoefler, (参考訳) Retrieval Augmented Generation (RAG) は、LLMコンテキストに文書を検索することで、より正確で関連する応答を提供することにより、LLM(Large Language Models)の能力を高める。 既存のRAGソリューションは、実質的に異なる内容の複数のドキュメントを取得する必要がある可能性のあるクエリに焦点を当てていない。 このようなクエリは頻繁に発生するが、これらのドキュメントの埋め込みが埋め込み空間に遠く離れている可能性があるため、すべてを取得するのが難しくなるため、難しい。 本稿では,トランスフォーマーのマルチヘッドアテンション層を,デコーダ層の代わりにアクティベートすることで,マルチアスペクト文書を取得するためのキーとして活用するという,このギャップに対処する新しい手法について紹介する。 動機は、異なるアテンションヘッドが異なるデータ側面を捉えることを学べることである。 対応するアクティベーションを損なうと、データ項目やクエリのさまざまなファセットを表す埋め込みが発生し、複雑なクエリの検索精度が向上する。 MRAGの有効性を実証するために、評価方法論、メトリクス、合成データセット、実世界のユースケースを提供し、標準RAGベースラインよりも最大20%改善したことを示す。 MRAGは既存のRAGフレームワークやRAGASなどのベンチマークツール、さまざまなデータストアとシームレスに統合できる。

Retrieval Augmented Generation (RAG) enhances the abilities of Large Language Models (LLMs) by enabling the retrieval of documents into the LLM context to provide more accurate and relevant responses. Existing RAG solutions do not focus on queries that may require fetching multiple documents with substantially different contents. Such queries occur frequently, but are challenging because the embeddings of these documents may be distant in the embedding space, making it hard to retrieve them all. This paper introduces Multi-Head RAG (MRAG), a novel scheme designed to address this gap with a simple yet powerful idea: leveraging activations of Transformer's multi-head attention layer, instead of the decoder layer, as keys for fetching multi-aspect documents. The driving motivation is that different attention heads can learn to capture different data aspects. Harnessing the corresponding activations results in embeddings that represent various facets of data items and queries, improving the retrieval accuracy for complex queries. We provide an evaluation methodology and metrics, synthetic datasets, and real-world use cases to demonstrate MRAG's effectiveness, showing improvements of up to 20% in relevance over standard RAG baselines. MRAG can be seamlessly integrated with existing RAG frameworks and benchmarking tools like RAGAS as well as different classes of data stores.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# マルコフ決定過程のロバスト・リワード設計

Robust Reward Design for Markov Decision Processes ( http://arxiv.org/abs/2406.05086v1 )

ライセンス: Link先を確認
Shuo Wu, Haoxiang Ma, Jie Fu, Shuo Han, (参考訳) 報酬設計の問題は、リーダーとフォロワーの相互作用を調べ、リーダーは、フォロワーの報酬機能を変更することで、リーダーの報酬を最大化するために、フォロワーの行動を形成することを目的としている。 報酬設計に対する現在のアプローチは、フォロワーが報酬修正にどう反応するかの正確なモデルに依存しており、それは不正確なモデリングに敏感である。 この感度の問題に対処するため、従者のモデリングにおける不確実性に対して堅牢性を提供するソリューションを提案する。 1) フォロワーは、不均一なベストレスポンスの存在において、どのように関係を断ち切るか。 2 追随者が報酬の改定をどう知覚するかについての不正確な知識及び 3) 従者の有界合理性 我々の堅牢な解は、穏やかな条件下で存在することが保証されており、混合整数線形プログラムを解くことで数値的に得ることができる。 複数のテストケースの数値実験により、我々の解法は、計算コストの大幅な増大を伴わずに、標準手法に比べて堅牢性を向上することを示した。

The problem of reward design examines the interaction between a leader and a follower, where the leader aims to shape the follower's behavior to maximize the leader's payoff by modifying the follower's reward function. Current approaches to reward design rely on an accurate model of how the follower responds to reward modifications, which can be sensitive to modeling inaccuracies. To address this issue of sensitivity, we present a solution that offers robustness against uncertainties in modeling the follower, including 1) how the follower breaks ties in the presence of nonunique best responses, 2) inexact knowledge of how the follower perceives reward modifications, and 3) bounded rationality of the follower. Our robust solution is guaranteed to exist under mild conditions and can be obtained numerically by solving a mixed-integer linear program. Numerical experiments on multiple test cases demonstrate that our solution improves robustness compared to the standard approach without incurring significant additional computing costs.
翻訳日:2024-06-10 13:12:42 公開日:2024-06-07
# 時系列予測アーキテクチャの最適化 - 階層型ニューラルネットワーク検索アプローチ

Optimizing Time Series Forecasting Architectures: A Hierarchical Neural Architecture Search Approach ( http://arxiv.org/abs/2406.05088v1 )

ライセンス: Link先を確認
Difan Deng, Marius Lindauer, (参考訳) 時系列予測研究の急速な発展は、この分野に多くのディープラーニングベースのモジュールをもたらした。 しかし、新しい予測アーキテクチャが増えているにもかかわらず、これらの既存のモジュールの潜在能力を適切に設計されたアーキテクチャで活用したかどうかはまだ不明である。 本研究では,時系列予測タスクのための階層型ニューラルネットワーク探索手法を提案する。 階層的な探索空間の設計により,タスク予測用に設計された多くのアーキテクチャタイプが組み込まれ,異なる予測アーキテクチャモジュールを効率的に組み合わせることができる。 長期予測タスクの結果から,本手法は様々な予測タスクにまたがる軽量なハイパフォーマンス予測アーキテクチャを探索できることを示す。

The rapid development of time series forecasting research has brought many deep learning-based modules in this field. However, despite the increasing amount of new forecasting architectures, it is still unclear if we have leveraged the full potential of these existing modules within a properly designed architecture. In this work, we propose a novel hierarchical neural architecture search approach for time series forecasting tasks. With the design of a hierarchical search space, we incorporate many architecture types designed for forecasting tasks and allow for the efficient combination of different forecasting architecture modules. Results on long-term-time-series-forecasting tasks show that our approach can search for lightweight high-performing forecasting architectures across different forecasting tasks.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# 特徴属性の最適集約によるおそらくより良い説明

Provably Better Explanations with Optimized Aggregation of Feature Attributions ( http://arxiv.org/abs/2406.05090v1 )

ライセンス: Link先を確認
Thomas Decker, Ananta R. Bhattarai, Jindong Gu, Volker Tresp, Florian Buettner, (参考訳) ポストホックな説明に特徴属性を使用することは、不透明な機械学習モデルの予測を理解し検証する一般的なプラクティスである。 多くのテクニックが利用可能であるにもかかわらず、個々の手法は一貫性がなく不安定な結果をもたらすことが多く、全体的な信頼性に疑問を呈する。 本研究は,異なる手法やバリエーションにまたがる複数の説明を組み合わせることで,特徴属性の品質を体系的に向上することを目的とする。 本研究の目的は,モデル行動に対する頑健性や忠実性といった,望ましい品質基準の証明可能な改善をもたらす,特徴属性の最適凸結合を導出する手法を提案することである。 様々なモデルアーキテクチャと一般的な特徴属性技術を含む広範な実験を通して、我々の組み合わせ戦略が個々の手法と既存のベースラインを一貫して上回っていることを実証する。

Using feature attributions for post-hoc explanations is a common practice to understand and verify the predictions of opaque machine learning models. Despite the numerous techniques available, individual methods often produce inconsistent and unstable results, putting their overall reliability into question. In this work, we aim to systematically improve the quality of feature attributions by combining multiple explanations across distinct methods or their variations. For this purpose, we propose a novel approach to derive optimal convex combinations of feature attributions that yield provable improvements of desired quality criteria such as robustness or faithfulness to the model behavior. Through extensive experiments involving various model architectures and popular feature attribution techniques, we demonstrate that our combination strategy consistently outperforms individual methods and existing baselines.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# 気象現象分類のための時系列画像符号化手法

A Novel Time Series-to-Image Encoding Approach for Weather Phenomena Classification ( http://arxiv.org/abs/2406.05096v1 )

ライセンス: Link先を確認
Christian Giannetti, (参考訳) 電磁波に対する影響の分析による降雨推定は、研究コミュニティへの関心を高めている。 近年の研究では, 降水時の電磁波減衰による降雨量の予測の可能性を示した。 本稿では、4G/LTE携帯端末における受信信号レベル(RSL)から特定の気象現象の性質を特定することを目的とする。 具体的には、RSLを表す時系列データを利用して、時系列を画像としてエンコードし、タスクを画像分類問題としてモデル化する新しいアプローチを提案し、最終的に畳み込みニューラルネットワーク(CNN)を用いて対処する。 上記の手順の主な利点は、様々なデータ拡張技術を同時に活用する機会である。 これは、移動平均のような伝統的なアプローチを時系列に適用し、生成された画像を強化することを含む。 我々は,このシナリオの最も効果的な組み合わせを特定するために,様々な画像データ拡張手法について検討した。 今後の節では、雨量推定の課題を紹介し、使用するデータセットの包括的な分析を行う。 その後、時系列を画像に変換する新しい手法を正式に提案する。 結論として、本論文の最終章では、実施した実験について論じ、その概要を簡潔かつ網羅的に紹介する。

Rainfall estimation through the analysis of its impact on electromagnetic waves has sparked increasing interest in the research community. Recent studies have delved into its effects on cellular network performance, demonstrating the potential to forecast rainfall levels based on electromagnetic wave attenuation during precipitations. This paper aims to solve the problem of identifying the nature of specific weather phenomena from the received signal level (RSL) in 4G/LTE mobile terminals. Specifically, utilizing time-series data representing RSL, we propose a novel approach to encode time series as images and model the task as an image classification problem, which we finally address using convolutional neural networks (CNNs). The main benefit of the abovementioned procedure is the opportunity to utilize various data augmentation techniques simultaneously. This encompasses applying traditional approaches, such as moving averages, to the time series and enhancing the generated images. We have investigated various image data augmentation methods to identify the most effective combination for this scenario. In the upcoming sections, we will introduce the task of rainfall estimation and conduct a comprehensive analysis of the dataset used. Subsequently, we will formally propose a new approach for converting time series into images. To conclude, the paper's final section will present and discuss the experiments conducted, providing the reader with a brief yet comprehensive overview of the results.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# モスキート人口動態におけるODE最適化のための物理情報ニューラルネットワークの適用

Adapting Physics-Informed Neural Networks To Optimize ODEs in Mosquito Population Dynamics ( http://arxiv.org/abs/2406.05108v1 )

ライセンス: Link先を確認
Dinh Viet Cuong, Branislava Lalić, Mina Petrić, Binh Nguyen, Mark Roantree, (参考訳) 物理情報ニューラルネットワークは、物理法則をデータ駆動モデルに組み込む独特な能力によって人気を集めており、予測が経験的データと一致しているだけでなく、物理方程式の形でのドメイン固有の知識とも一致していることが保証されている。 物理原理の統合により、複雑な力学系のモデリングにおいて、深層学習の堅牢性を維持しながら、少ないデータを要求することができる。 しかし、現在のPINNフレームワークは、現実世界のODEシステム、特に蚊の集団動態モデリングのような極端なマルチスケールの挙動を持つシステムでは十分に成熟していない。 本研究は,本システムにおける前方・逆問題に対するいくつかの改善を加えたPINNフレームワークの提案であり,蚊集団の動態をモデル化するためのケーススタディである。 この枠組みは、蚊の常微分方程式によって生じる勾配不均衡と硬い問題に取り組む。 本手法は,PINNの時間因果問題に対して,学習時間領域を関心領域全体をカバーするまで徐々に拡張することにより,簡便かつ効果的な解決方法を提供する。 頑健な評価の一環として,シミュレーションデータを用いて実験を行い,提案手法の有効性を検証した。 予備的な結果は、物理インフォームド機械学習が生態システムの研究を前進させる大きな可能性を秘めていることを示している。

Physics informed neural networks have been gaining popularity due to their unique ability to incorporate physics laws into data-driven models, ensuring that the predictions are not only consistent with empirical data but also align with domain-specific knowledge in the form of physics equations. The integration of physics principles enables the method to require less data while maintaining the robustness of deep learning in modeling complex dynamical systems. However, current PINN frameworks are not sufficiently mature for real-world ODE systems, especially those with extreme multi-scale behavior such as mosquito population dynamical modelling. In this research, we propose a PINN framework with several improvements for forward and inverse problems for ODE systems with a case study application in modelling the dynamics of mosquito populations. The framework tackles the gradient imbalance and stiff problems posed by mosquito ordinary differential equations. The method offers a simple but effective way to resolve the time causality issue in PINNs by gradually expanding the training time domain until it covers entire domain of interest. As part of a robust evaluation, we conduct experiments using simulated data to evaluate the effectiveness of the approach. Preliminary results indicate that physics-informed machine learning holds significant potential for advancing the study of ecological systems.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# 大規模生成グラフモデル

Large Generative Graph Models ( http://arxiv.org/abs/2406.05109v1 )

ライセンス: Link先を確認
Yu Wang, Ryan A. Rossi, Namyong Park, Huiyuan Chen, Nesreen K. Ahmed, Puja Trivedi, Franck Dernoncourt, Danai Koutra, Tyler Derr, (参考訳) GPT、Stable Diffusion、Sora、Sunoといった大規模生成モデル(LGM)は、多数のドメインから非常に多様な大量の言語コーパス、画像、ビデオ、オーディオを訓練している。 多様な精度の高いデータに対するこのトレーニングパラダイムは、創造的で賢明なコンテンツを生み出す中心にあります。 しかし、これまでのグラフ生成モデル(例えば、GraphRNN、MDVAE、MoFlow、GDSS、DiGress)は、一度に1つのデータセットでのみ訓練されており、他の分野でLGMが達成した革命的な成功を再現することはできない。 この重要なギャップを解消するために、13の異なる領域からの大きなグラフコーパス(5000グラフ以上)をトレーニングしたLarge Graph Generative Model(LGGM)と呼ばれるグラフ生成モデルを提案する。 我々は,事前学習したLGGMが既存のグラフ生成モデルよりもゼロショット生成能力に優れていることを実証的に実証した。 さらに、トレーニング済みのLGGMは、ターゲットドメインからのグラフで簡単に微調整でき、スクラッチから直接トレーニングされたものよりもパフォーマンスが向上し、実世界のカスタマイズのための確かな出発点として機能する。 安定拡散に触発されて、我々はさらにLGGMに、ネットワーク名やドメインの記述("Power-1138-bus graph represent a network of bus in a power distribution system")やネットワーク統計("the graph have a low average degree, suitable for social media interaction")など、与えられたテキストプロンプト(Text-to-Graph)のグラフを生成する能力を持たせた。 このText-to-Graph機能は、基礎となる言語モデルにおける広範な世界の知識を統合し、ユーザが生成したグラフのきめ細かい制御を提供する。 コード、モデルチェックポイント、データセットはhttps://lggm-lg.github.io/で公開しています。

Large Generative Models (LGMs) such as GPT, Stable Diffusion, Sora, and Suno are trained on a huge amount of language corpus, images, videos, and audio that are extremely diverse from numerous domains. This training paradigm over diverse well-curated data lies at the heart of generating creative and sensible content. However, all previous graph generative models (e.g., GraphRNN, MDVAE, MoFlow, GDSS, and DiGress) have been trained only on one dataset each time, which cannot replicate the revolutionary success achieved by LGMs in other fields. To remedy this crucial gap, we propose a new class of graph generative model called Large Graph Generative Model (LGGM) that is trained on a large corpus of graphs (over 5000 graphs) from 13 different domains. We empirically demonstrate that the pre-trained LGGM has superior zero-shot generative capability to existing graph generative models. Furthermore, our pre-trained LGGM can be easily fine-tuned with graphs from target domains and demonstrate even better performance than those directly trained from scratch, behaving as a solid starting point for real-world customization. Inspired by Stable Diffusion, we further equip LGGM with the capability to generate graphs given text prompts (Text-to-Graph), such as the description of the network name and domain (i.e., "The power-1138-bus graph represents a network of buses in a power distribution system."), and network statistics (i.e., "The graph has a low average degree, suitable for modeling social media interactions."). This Text-to-Graph capability integrates the extensive world knowledge in the underlying language model, offering users fine-grained control of the generated graphs. We release the code, the model checkpoint, and the datasets at https://lggm-lg.github.io/.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# LLavaGuard: ビジョンデータセットのキュレーションと安全性評価のためのVLMベースのセーフガード

LLavaGuard: VLM-based Safeguards for Vision Dataset Curation and Safety Assessment ( http://arxiv.org/abs/2406.05113v1 )

ライセンス: Link先を確認
Lukas Helff, Felix Friedrich, Manuel Brack, Kristian Kersting, Patrick Schramowski, (参考訳) VLMベースのセーフガードモデルのファミリーであるLlavaGuardを紹介し、視覚コンテンツの安全コンプライアンスを評価するための汎用的なフレームワークを提供する。 具体的には,データセットアノテーションと生成モデル保護のためのLlavaGuardを設計した。 この目的のために、我々は、広義の安全分類を取り入れた高品質な視覚データセットを収集し、注釈付けした。 重要なイノベーションとして、LlavaGuard氏の回答には、安全性評価、違反した安全性カテゴリ、詳細な根拠など、包括的な情報が含まれている。 さらに、我々の導入したカスタマイズ可能な分類カテゴリは、LlavaGuardのコンテキスト固有のアライメントを様々なシナリオで実現します。 我々の実験は、複雑な実世界のアプリケーションにおけるLlavaGuardの機能を強調した。 GPT-4のようなベースラインよりも小さいモデルでさえも、最先端のパフォーマンスを示す7Bから34Bパラメータの範囲のチェックポイントを提供する。 データセットとモデルウェイトを公開し、コミュニティとコンテキストの多様なニーズに対応するためにさらなる研究を招待します。

We introduce LlavaGuard, a family of VLM-based safeguard models, offering a versatile framework for evaluating the safety compliance of visual content. Specifically, we designed LlavaGuard for dataset annotation and generative model safeguarding. To this end, we collected and annotated a high-quality visual dataset incorporating a broad safety taxonomy, which we use to tune VLMs on context-aware safety risks. As a key innovation, LlavaGuard's new responses contain comprehensive information, including a safety rating, the violated safety categories, and an in-depth rationale. Further, our introduced customizable taxonomy categories enable the context-specific alignment of LlavaGuard to various scenarios. Our experiments highlight the capabilities of LlavaGuard in complex and real-world applications. We provide checkpoints ranging from 7B to 34B parameters demonstrating state-of-the-art performance, with even the smallest models outperforming baselines like GPT-4. We make our dataset and model weights publicly available and invite further research to address the diverse needs of communities and contexts.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# 安定ギャップの拡がり--一様課題の連関学習におけるその存在の解明

The Expanding Scope of the Stability Gap: Unveiling its Presence in Joint Incremental Learning of Homogeneous Tasks ( http://arxiv.org/abs/2406.05114v1 )

ライセンス: Link先を確認
Sandesh Kamath, Albin Soutif-Cormerais, Joost van de Weijer, Bogdan Raducanu, (参考訳) 最近の研究では、新しいタスクに移行する際に、以前に学習したタスクに対する一時的なパフォーマンス低下が確認されている。 タスク境界における最悪ケースのパフォーマンスが劇的であるため、継続的な学習の直接的な使用を複雑にし、エネルギー効率のよいトレーニングパラダイムとしての可能性を制限し、最後に、安定性の低下はアルゴリズムの最終性能を低下させる可能性がある。 本稿では,同種タスクの連立インクリメンタルトレーニングを適用する際にも,安定性のギャップが生じることを示す。 このシナリオでは、学習者は同じデータ配布のトレーニングを続け、以前のタスクからすべてのデータにアクセスできます。 さらに、このシナリオでは、次のミニマへの低損失線形経路が存在するが、SGD最適化はこの経路を選択しないことを示す。 より詳細なバッチ分析を含むさらなる分析を行い、潜在的な解決策の方向性に関する洞察を提供する。

Recent research identified a temporary performance drop on previously learned tasks when transitioning to a new one. This drop is called the stability gap and has great consequences for continual learning: it complicates the direct employment of continually learning since the worse-case performance at task-boundaries is dramatic, it limits its potential as an energy-efficient training paradigm, and finally, the stability drop could result in a reduced final performance of the algorithm. In this paper, we show that the stability gap also occurs when applying joint incremental training of homogeneous tasks. In this scenario, the learner continues training on the same data distribution and has access to all data from previous tasks. In addition, we show that in this scenario, there exists a low-loss linear path to the next minima, but that SGD optimization does not choose this path. We perform further analysis including a finer batch-wise analysis which could provide insights towards potential solution directions.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# 深部ニューラルネットワークのための構成曲率境界

Compositional Curvature Bounds for Deep Neural Networks ( http://arxiv.org/abs/2406.05119v1 )

ライセンス: Link先を確認
Taha Entesari, Sina Sharifi, Mahyar Fazlyab, (参考訳) 安全クリティカルなアプリケーションにおけるニューラルネットワークの普及を脅かす重要な課題は、敵の攻撃に対する脆弱性である。 本稿では, 連続微分可能な深層ニューラルネットワークの2次挙動について検討し, 対向摂動に対する頑健性に着目した。 まず、第2微分(曲率定数)上の局所勾配と上界を利用することにより、深い分類器に対するロバスト性および攻撃証明書を理論的に解析する。 次に、ニューラルネットワークの第2微分の証明可能な上界を解析的に計算する新しいアルゴリズムを提案する。 このアルゴリズムは、モデルの構成構造を利用して、曲率境界層を層単位で伝播させ、スケーラブルでモジュラーなアプローチをもたらす。 提案したバウンダリは、トレーニング中のニューラルネットワークの曲率を制御するための微分正則化器として機能し、堅牢性を高めることができる。 最後に,本手法が MNIST と CIFAR-10 データセットを用いた分類作業に有効であることを示す。

A key challenge that threatens the widespread use of neural networks in safety-critical applications is their vulnerability to adversarial attacks. In this paper, we study the second-order behavior of continuously differentiable deep neural networks, focusing on robustness against adversarial perturbations. First, we provide a theoretical analysis of robustness and attack certificates for deep classifiers by leveraging local gradients and upper bounds on the second derivative (curvature constant). Next, we introduce a novel algorithm to analytically compute provable upper bounds on the second derivative of neural networks. This algorithm leverages the compositional structure of the model to propagate the curvature bound layer-by-layer, giving rise to a scalable and modular approach. The proposed bound can serve as a differentiable regularizer to control the curvature of neural networks during training, thereby enhancing robustness. Finally, we demonstrate the efficacy of our method on classification tasks using the MNIST and CIFAR-10 datasets.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# コンテキスト融合は画像ぼかしの堅牢性を高める

Contextual fusion enhances robustness to image blurring ( http://arxiv.org/abs/2406.05120v1 )

ライセンス: Link先を確認
Shruti Joshi, Aiswarya Akumalla, Seth Haney, Maxim Bazhenov, (参考訳) 哺乳類の脳は、特定の感覚のモダリティに特化した脳領域に情報を統合することで複雑な推論を処理する。 これにより、1つのモダリティを処理し、摂動に弱いディープニューラルネットワークに対する堅牢性と一般化が改善される。 防御法は存在するが、摂動にまたがってはうまく一般化しない。 我々は、ImagenetとPlaces365で訓練されたCNNの背景特徴と前景特徴を組み合わせた融合モデルを開発した。 我々は,MS COCOにおける人間の知覚可能な摂動に対する頑健さを検証した。 融合モデルによりロバスト性が向上し、特に文脈変数の大きいクラスでは顕著であった。 提案手法はロバスト性を高めるための新しいアプローチであり,既存の手法を補完するものである可能性がある。

Mammalian brains handle complex reasoning by integrating information across brain regions specialized for particular sensory modalities. This enables improved robustness and generalization versus deep neural networks, which typically process one modality and are vulnerable to perturbations. While defense methods exist, they do not generalize well across perturbations. We developed a fusion model combining background and foreground features from CNNs trained on Imagenet and Places365. We tested its robustness to human-perceivable perturbations on MS COCO. The fusion model improved robustness, especially for classes with greater context variability. Our proposed solution for integrating multiple modalities provides a new approach to enhance robustness and may be complementary to existing methods.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# 散乱する畳み込みネットワークにおけるエネルギーの伝播は、任意に遅い可能性がある

Energy Propagation in Scattering Convolution Networks Can Be Arbitrarily Slow ( http://arxiv.org/abs/2406.05121v1 )

ライセンス: Link先を確認
Hartmut Führ, Max Getter, (参考訳) 我々は、Mallatのウェーブレット散乱変換のような特徴抽出器として使用されるディープ畳み込みニューラルネットワークのエネルギー減衰を分析する。 ガボルフィルタに基づく時間周波数散乱変換では、任意の2乗積分入力信号に対してエネルギー減衰が指数関数的であることが確立されている。 我々の主な結果は、任意の次元におけるウェーブレット散乱が間違っていることを証明できる。 この設定では、一般の2乗可積分信号に作用する散乱変換のエネルギー減衰は任意に遅くなる。 この挙動が$L^2(\mathbb{R}^d)$の高密度部分集合であるという事実は、高速エネルギー崩壊は信号の安定な性質ではないことを強調している。 これらの結果は、基礎となるフィルタバンクの周波数局在に合わせた一般化されたソボレフ空間の高速(指数)エネルギー崩壊を結論付けるための正の結果で補完する。 負および正の結果は、散乱ネットワークにおけるエネルギー減衰は、一方の信号のそれぞれの周波数局在の相互作用と他方のフィルタの相互作用に大きく依存していることを示している。

We analyze energy decay for deep convolutional neural networks employed as feature extractors, such as Mallat's wavelet scattering transform. For time-frequency scattering transforms based on Gabor filters, it has been established that energy decay is exponential, for arbitrary square-integrable input signals. Our main results allow to prove that this is wrong for wavelet scattering in arbitrary dimensions. In this setting, the energy decay of the scattering transform acting on a generic square-integrable signal turns out to be arbitrarily slow. The fact that this behavior holds for dense subsets of $L^2(\mathbb{R}^d)$ emphasizes that fast energy decay is generally not a stable property of signals. We complement these findings with positive results allowing to conclude fast (up to exponential) energy decay for generalized Sobolev spaces that are tailored to the frequency localization of the underlying filter bank. Both negative and positive results highlight that energy decay in scattering networks critically depends on the interplay of the respective frequency localizations of the signal on the one hand, and of the employed filters on the other.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# マルチモーダルLDMにおけるトークン化のセマンティックな等価性を目指して

Towards Semantic Equivalence of Tokenization in Multimodal LLM ( http://arxiv.org/abs/2406.05127v1 )

ライセンス: Link先を確認
Shengqiong Wu, Hao Fei, Xiangtai Li, Jiayi Ji, Hanwang Zhang, Tat-Seng Chua, Shuicheng Yan, (参考訳) MLLM(Multimodal Large Language Models)は、視覚言語タスクの処理において、例外的な機能を示す。 MLLMの要点の1つは視覚トークン化であり、入力された視覚信号をLLMにとって最も有用な特徴表現に効率よく変換する。 しかし、視覚と言語間のセマンティックアライメントに不可欠な既存の視覚トークンーザは依然として問題である。 既存の手法は視覚的な入力を積極的に断片化し、視覚的な意味的整合性を損なう。 そこで本研究では,動的クラスタリングアルゴリズムを用いて視覚的特徴を意味単位にグループ化し,画像の複雑さに基づいてトークンの数を柔軟に決定する,新しい動的セマンティック・等価視覚Tokenizer(SeTok)を提案する。 結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。 SeTokを内蔵したMLLM (Setokim) は, 実験結果から, 各種タスクにおいて優れた性能を示した。 プロジェクトページはhttps://chocowu.github.io/SeTok-web/にある。

Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in processing vision-language tasks. One of the crux of MLLMs lies in vision tokenization, which involves efficiently transforming input visual signals into feature representations that are most beneficial for LLMs. However, existing vision tokenizers, essential for semantic alignment between vision and language, remain problematic. Existing methods aggressively fragment visual input, corrupting the visual semantic integrity. To address this, this paper proposes a novel dynamic Semantic-Equivalent Vision Tokenizer (SeTok), which groups visual features into semantic units via a dynamic clustering algorithm, flexibly determining the number of tokens based on image complexity. The resulting vision tokens effectively preserve semantic integrity and capture both low-frequency and high-frequency visual features. The proposed MLLM (Setokim) equipped with SeTok significantly demonstrates superior performance across various tasks, as evidenced by our experimental results. The project page is at https://chocowu.github.io/SeTok-web/.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# PatchSVD:不均一SVD画像圧縮アルゴリズム

PatchSVD: A Non-uniform SVD-based Image Compression Algorithm ( http://arxiv.org/abs/2406.05129v1 )

ライセンス: Link先を確認
Zahra Golpayegani, Nizar Bouguila, (参考訳) 画像の解像度と複雑さのため、大容量のファイルサイズを伴う画像データを扱う場合、データのストアングは特に困難である。 効率的な画像圧縮アルゴリズムは、データストレージコストのより良い管理に不可欠である。 本稿では,Singular Value Decomposition (SVD) アルゴリズムを用いて,PatchSVDと呼ばれる領域ベースの損失画像圧縮手法を提案する。 PatchSVDは,3つの画像圧縮指標に対して,SVDに基づく画像圧縮よりも優れることを示す。 さらに,PatchSVD圧縮アーティファクトをJPEGとSVDベースの画像圧縮と比較し,JPEGおよびSVD圧縮アーティファクトと比較してPatchSVD圧縮アーティファクトが好ましい場合を示す。

Storing data is particularly a challenge when dealing with image data which often involves large file sizes due to the high resolution and complexity of images. Efficient image compression algorithms are crucial to better manage data storage costs. In this paper, we propose a novel region-based lossy image compression technique, called PatchSVD, based on the Singular Value Decomposition (SVD) algorithm. We show through experiments that PatchSVD outperforms SVD-based image compression with respect to three popular image compression metrics. Moreover, we compare PatchSVD compression artifacts with those of Joint Photographic Experts Group (JPEG) and SVD-based image compression and illustrate some cases where PatchSVD compression artifacts are preferable compared to JPEG and SVD artifacts.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# マルチモーダル大言語モデルのためのパラメータ効率の良いファインチューニングに関する実証的研究

An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models ( http://arxiv.org/abs/2406.05130v1 )

ライセンス: Link先を確認
Xiongtao Zhou, Jie He, Yuhua Ke, Guangyao Zhu, Víctor Gutiérrez-Basulto, Jeff Z. Pan, (参考訳) マルチモーダル・大規模言語モデル(MLLM)はマルチモーダル・インストラクション・データセットで微調整され、マルチモーダル・タスクにおいて顕著な機能を示した。 しかし、MLLMの全てのパラメータを微調整することは、通常数十億のパラメータを含むため困難になっている。 この問題に対処するため,MLLMのためのパラメータ効率細調整法(PEFT)について検討した。 本研究の目的は,限られた数のパラメータしか訓練されないシナリオにおいて,MLLMの性能を向上させる効果的な方法を見つけることである。 本稿では,オープンソースMLLMのLPM成分を微調整するために,4つのPEFT法を用いて実証的研究を行う。 本稿では,PEFT法がPEFTモジュールの様々なモデル,パラメータ,位置に与える影響,微調整データのサイズ,PEFT法に基づくモデル安定性,MLLMの一般化,幻覚など,様々な側面を包括的に分析する。 両カテゴリの異なる7つのデータセットに対して, PEFT法を4つ評価した。 すべての実験において,このアダプタがPEFT法として最適であることを示す。 同時に、コネクタ層を微調整することで、ほとんどのMLLMの性能が向上する。 コードとデータはhttps://github.com/alenai97/PEFT-MLLM.gitで公開されている。

Multimodal large language models (MLLMs) fine-tuned with multimodal instruction datasets have demonstrated remarkable capabilities in multimodal tasks. However, fine-tuning all parameters of MLLMs has become challenging as they usually contain billions of parameters. To address this issue, we study parameter-efficient fine-tuning (PEFT) methods for MLLMs. We aim to identify effective methods for enhancing the performance of MLLMs in scenarios where only a limited number of parameters are trained. This paper conducts empirical studies using four popular PEFT methods to fine-tune the LLM component of open-source MLLMs. We present a comprehensive analysis that encompasses various aspects, including the impact of PEFT methods on various models, parameters and location of the PEFT module, size of fine-tuning data, model stability based on PEFT methods, MLLM's generalization, and hallucination. We evaluated four PEFT methods on seven datasets from two different categories: unseen and seen datasets. Across all experiments, we show that the adapter is the best-performing PEFT method. At the same time, fine-tuning the connector layers leads to improved performance in most MLLMs. Code and data are available at https://github.com/alenai97/PEFT-MLLM.git.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# DVOS:セルフスーパービジョンのDense-Patternビデオオブジェクトセグメンテーション

DVOS: Self-Supervised Dense-Pattern Video Object Segmentation ( http://arxiv.org/abs/2406.05131v1 )

ライセンス: Link先を確認
Keyhan Najafian, Farhad Maleki, Ian Stavness, Lingling Jin, (参考訳) ビデオオブジェクトのセグメンテーションアプローチは、主にモデル開発のために、大規模なピクセル精度の人間アノテーション付きデータセットに依存している。 Dense Video Object Segmentation (DVOS) のシナリオでは、各ビデオフレームは数百もの小さな、密度が高く、部分的に隠されたオブジェクトを含んでいる。 したがって、単一のフレームであっても労働集約的な手動アノテーションは時間を要することが多く、多くのアプリケーションにおいてDVOSの開発を妨げている。 さらに、密集したパターンを持つビデオでは、異なる方向に移動する多数のオブジェクトに従えば、さらなる課題が生じる。 これらの課題に対処するために,多タスク学習による拡散法を利用したDVOSのための半自己教師付き時空間アプローチを提案する。 実ビデオの光学的流れをシミュレーションし,その動きをシミュレートし,DVOSモデルのトレーニングに使用できる計算アノテートビデオの合成手法を開発した。 提案手法の有用性と有効性を示すため,本手法では,成長段階の異なる畑の小麦の収穫量を,方向から成熟度にまたがる,ハンドヘルドビデオとドローンキャプチャビデオの小麦頭部分割のためのDVOSモデルを開発した。 手動でアノテートしたビデオフレームはわずかだが、提案されたアプローチでは高い性能のモデルが得られ、ドローンが捕獲した外部テストセットでテストした場合、Diceスコアは0.82に達した。 提案手法の有効性を示したが, 群集分析や顕微鏡画像解析など他の領域の作物やDVOSにも適用可能である。

Video object segmentation approaches primarily rely on large-scale pixel-accurate human-annotated datasets for model development. In Dense Video Object Segmentation (DVOS) scenarios, each video frame encompasses hundreds of small, dense, and partially occluded objects. Accordingly, the labor-intensive manual annotation of even a single frame often takes hours, which hinders the development of DVOS for many applications. Furthermore, in videos with dense patterns, following a large number of objects that move in different directions poses additional challenges. To address these challenges, we proposed a semi-self-supervised spatiotemporal approach for DVOS utilizing a diffusion-based method through multi-task learning. Emulating real videos' optical flow and simulating their motion, we developed a methodology to synthesize computationally annotated videos that can be used for training DVOS models; The model performance was further improved by utilizing weakly labeled (computationally generated but imprecise) data. To demonstrate the utility and efficacy of the proposed approach, we developed DVOS models for wheat head segmentation of handheld and drone-captured videos, capturing wheat crops in fields of different locations across various growth stages, spanning from heading to maturity. Despite using only a few manually annotated video frames, the proposed approach yielded high-performing models, achieving a Dice score of 0.82 when tested on a drone-captured external test set. While we showed the efficacy of the proposed approach for wheat head segmentation, its application can be extended to other crops or DVOS in other domains, such as crowd analysis or microscopic image analysis.
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# 3D-GRAND: 3D-LLMのグラウンド化と幻覚の低減を目指して

3D-GRAND: Towards Better Grounding and Less Hallucination for 3D-LLMs ( http://arxiv.org/abs/2406.05132v1 )

ライセンス: Link先を確認
Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai, (参考訳) 言語と3D知覚の統合は、物理的世界を理解し、相互作用するエンボディエージェントやロボットの開発に不可欠である。 大規模言語モデル(LLM)は印象的な言語理解と生成能力を示しているが、3D環境への適応(3D-LLM)はまだ初期段階にある。 主な課題は、言語と3Dシーン間の密接な接点を提供する大規模なデータセットがないことである。 本稿では,40,087の世帯シーンと620万の密集したシーン言語命令を組み合わせた大規模データセットである3D-GRANDを紹介する。 この結果から, 3D-GRANDによる指導指導はグラウンド化能力を大幅に向上させ, 3D-LLMの幻覚を低減させることがわかった。 本稿では,3D-LLMの幻覚を系統的に評価するための総合的なベンチマーク3D-POPEを提案する。 実験では,データセットサイズと3D-LLM性能のスケーリング効果を強調し,AI研究の進展における大規模3Dテキストデータセットの重要性を強調した。 この結果から,大規模な合成データを用いてトレーニングしたモデルが実世界の3Dスキャンで良好に動作できることが示唆された。 3D-GRANDと3D-POPEを通じて、我々は、具現化されたAIコミュニティに不可欠なリソースと洞察を供給し、より信頼性が高く、より地上の3D-LLMのステージを構築することを目指している。 プロジェクトウェブサイト:https://3d-grand.github.io

The integration of language and 3D perception is crucial for developing embodied agents and robots that comprehend and interact with the physical world. While large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, their adaptation to 3D environments (3D-LLMs) remains in its early stages. A primary challenge is the absence of large-scale datasets that provide dense grounding between language and 3D scenes. In this paper, we introduce 3D-GRAND, a pioneering large-scale dataset comprising 40,087 household scenes paired with 6.2 million densely-grounded scene-language instructions. Our results show that instruction tuning with 3D-GRAND significantly enhances grounding capabilities and reduces hallucinations in 3D-LLMs. As part of our contributions, we propose a comprehensive benchmark 3D-POPE to systematically evaluate hallucination in 3D-LLMs, enabling fair comparisons among future models. Our experiments highlight a scaling effect between dataset size and 3D-LLM performance, emphasizing the critical role of large-scale 3D-text datasets in advancing embodied AI research. Notably, our results demonstrate early signals for effective sim-to-real transfer, indicating that models trained on large synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and 3D-POPE, we aim to equip the embodied AI community with essential resources and insights, setting the stage for more reliable and better-grounded 3D-LLMs. Project website: https://3d-grand.github.io
翻訳日:2024-06-10 13:02:56 公開日:2024-06-07
# ステアリングトラスト - Web3認証における脆弱性の発見

Stealing Trust: Unveiling Vulnerabilities in Web3 Authentication ( http://arxiv.org/abs/2406.00523v2 )

ライセンス: Link先を確認
Kailun Yan, Xiaokuan Zhang, Wenrui Diao, (参考訳) Web3の分野が急速に拡大していくにつれ、様々なWeb3アプリケーションへのゲートウェイであるWeb3認証のセキュリティがますます重要になっている。 多くのWeb3アプリケーションでログイン方法として広く使われているが、Web3認証のセキュリティリスクはあまり注目されていない。 本稿では,Web3認証プロセスの脆弱性を調査し,新たな攻撃方法を提案する。 攻撃では、攻撃者は、ユーザーがメッセージのソースを検証できないことを悪用し、ターゲットアプリケーションへの不正アクセスを達成することによって、ターゲットアプリケーションから盲目的にメッセージに署名するようユーザを騙す。 我々は,Web3認証関連APIと対話して脆弱性を特定する動的検出ツールであるWeb3AuthCheckerを開発した。 実世界のWeb3アプリケーションに対する評価は、Web3認証デプロイメントの75.8\%(22/29)が攻撃の危険にさらされていることを示している。 この警告に応えて、私たちはオープンソースのウォレットMetaMaskにWeb3AuthGuardを実装し、攻撃の可能性をユーザに警告しました。 評価の結果、Web3AuthGuardは、テスト済みのWeb3認証の80%で警告を発生させることができた。 我々は、我々の発見を脆弱なウェブサイトに責任を持って報告し、2つのCVE IDを割り当てた。

As the field of Web3 continues its rapid expansion, the security of Web3 authentication, often the gateway to various Web3 applications, becomes increasingly crucial. Despite its widespread use as a login method by numerous Web3 applications, the security risks of Web3 authentication have not received much attention. This paper investigates the vulnerabilities in the Web3 authentication process and proposes a new type of attack. In attacks, attackers trick users into blindly signing messages from target applications by exploiting users' inability to verify the source of messages, thereby achieving unauthorized access to the target application. We have developed Web3AuthChecker, a dynamic detection tool that interacts with Web3 authentication-related APIs to identify vulnerabilities. Our evaluation of real-world Web3 applications shows that a staggering 75.8\% (22/29) of Web3 authentication deployments are at risk of attacks. In response to this alarming situation, we implemented Web3AuthGuard on the open-source wallet MetaMask to alert users of potential attacks. Our evaluation results show that Web3AuthGuard can successfully raise alerts in 80\% of the tested Web3 authentications. We have responsibly reported our findings to vulnerable websites and have been assigned two CVE IDs.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# AGALE: グラフ対応連続学習評価フレームワーク

AGALE: A Graph-Aware Continual Learning Evaluation Framework ( http://arxiv.org/abs/2406.01229v2 )

ライセンス: Link先を確認
Tianqi Zhao, Alan Hanjalic, Megha Khosla, (参考訳) 近年、連続学習(CL)技術は、連続的なタスク、特にユークリッドデータの領域における知識を維持しながら、ストリーミングデータからの学習において大きな進歩を遂げている。 CL設定における公平な評価の促進と課題の認識を目的として,ユークリッドデータの単一・複数ラベル分類タスクを中心に,いくつかの評価フレームワークが提案されている。 しかし、これらの評価フレームワークは、グラフに固有のトポロジ構造を考慮しないため、入力データがグラフ構造である場合、簡単には適用できない。 既存の連続グラフ学習(CGL)評価フレームワークは、ノード分類(NC)タスクにおける単一ラベルシナリオに重点を置いている。 この焦点はマルチラベルシナリオの複雑さを見落としており、ノードは複数のラベルとのアフィリエイトを示し、同時に複数のタスクに参加することができる。 単一ラベルノードと複数ラベルノードの両方に対応可能なグラフ対応評価フレームワーク(\agale)を開発し,従来の評価フレームワークの限界に対処する。 特に、新たなインクリメンタル設定を定義し、CGLデータセットに適したデータパーティショニングアルゴリズムを考案する。 本研究では,連続学習,連続グラフ学習,動的グラフ学習(DGL)の各分野の手法の比較実験を行った。 理論的には \agale を解析し、比較手法の性能におけるホモフィリーの役割に関する新たな知見を提供する。 私たちはフレームワークをhttps://github.com/Tianqi-py/AGALEでリリースします。

In recent years, continual learning (CL) techniques have made significant progress in learning from streaming data while preserving knowledge across sequential tasks, particularly in the realm of euclidean data. To foster fair evaluation and recognize challenges in CL settings, several evaluation frameworks have been proposed, focusing mainly on the single- and multi-label classification task on euclidean data. However, these evaluation frameworks are not trivially applicable when the input data is graph-structured, as they do not consider the topological structure inherent in graphs. Existing continual graph learning (CGL) evaluation frameworks have predominantly focussed on single-label scenarios in the node classification (NC) task. This focus has overlooked the complexities of multi-label scenarios, where nodes may exhibit affiliations with multiple labels, simultaneously participating in multiple tasks. We develop a graph-aware evaluation (\agale) framework that accommodates both single-labeled and multi-labeled nodes, addressing the limitations of previous evaluation frameworks. In particular, we define new incremental settings and devise data partitioning algorithms tailored to CGL datasets. We perform extensive experiments comparing methods from the domains of continual learning, continual graph learning, and dynamic graph learning (DGL). We theoretically analyze \agale and provide new insights about the role of homophily in the performance of compared methods. We release our framework at https://github.com/Tianqi-py/AGALE.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# 双曲型ニューラルPDEによる連続幾何学的グラフ拡散

Continuous Geometry-Aware Graph Diffusion via Hyperbolic Neural PDE ( http://arxiv.org/abs/2406.01282v2 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Sihao Wu, Xiangyu Yin, Tianle Zhang, Xiaowei Huang, Shi Jin, (参考訳) Hyperbolic Graph Neural Network (HGNN)は最近、階層グラフデータを扱う強力なツールとして登場したが、スケーラビリティと効率性の限界により、より深いモデルへの一般化が妨げられている。 本稿では,HGNNを分割し,情報伝達を偏微分方程式として再構成することにより,ハイパーボリック・ニューラルPDE(HPDE)における拡散度の役割をノードの注意に委ねる。 HPDE積分のための非ユークリッド多様体上での場と流れ、勾配、発散、および拡散率の理論的原理を導入することにより、数値HPDE解法を定式化するための暗黙的および明示的な離散化スキームを議論する。 さらに,ハイパーボリックグラフ拡散方程式 (HGDE) を提案する。 埋め込みのポテンシャルエネルギー減衰を解析することにより、HGDEは局所的な拡散関数の利点により、低次および高次近接の両方をモデル化できることを示した。 ノード分類およびリンク予測および画像テキスト分類タスクの実験は、提案手法の優位性を検証する。

While Hyperbolic Graph Neural Network (HGNN) has recently emerged as a powerful tool dealing with hierarchical graph data, the limitations of scalability and efficiency hinder itself from generalizing to deep models. In this paper, by envisioning depth as a continuous-time embedding evolution, we decouple the HGNN and reframe the information propagation as a partial differential equation, letting node-wise attention undertake the role of diffusivity within the Hyperbolic Neural PDE (HPDE). By introducing theoretical principles \textit{e.g.,} field and flow, gradient, divergence, and diffusivity on a non-Euclidean manifold for HPDE integration, we discuss both implicit and explicit discretization schemes to formulate numerical HPDE solvers. Further, we propose the Hyperbolic Graph Diffusion Equation (HGDE) -- a flexible vector flow function that can be integrated to obtain expressive hyperbolic node embeddings. By analyzing potential energy decay of embeddings, we demonstrate that HGDE is capable of modeling both low- and high-order proximity with the benefit of local-global diffusivity functions. Experiments on node classification and link prediction and image-text classification tasks verify the superiority of the proposed method, which consistently outperforms various competitive models by a significant margin.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# CodeR: マルチエージェントとタスクグラフによる問題解決

CodeR: Issue Resolving with Multi-Agent and Task Graphs ( http://arxiv.org/abs/2406.01304v2 )

ライセンス: Link先を確認
Dong Chen, Shaoxin Lin, Muhan Zeng, Daoguang Zan, Jian-Gang Wang, Anton Cheshkov, Jun Sun, Hao Yu, Guoliang Dong, Artem Aliev, Jie Wang, Xiao Cheng, Guangtai Liang, Yuchi Ma, Pan Bian, Tao Xie, Qianxiang Wang, (参考訳) GitHubのイシュー解決は最近、アカデミックや業界から大きな注目を集めている。 SWEベンチは問題解決における性能を測定するために提案されている。 本稿では,マルチエージェントフレームワークと事前に定義されたタスクグラフを採用して,報告されたバグの修復と解決を行い,コードリポジトリに新機能を追加するCodeRを提案する。 SWE-bench liteでは、CodeRは各問題に1回だけ提出した場合に29.00%の問題を解決することができる。 我々は,CodeRの各設計の性能への影響について検討し,この研究の方向性を推し進めるための洞察を提供する。

GitHub issue resolving recently has attracted significant attention from academia and industry. SWE-bench is proposed to measure the performance in resolving issues. In this paper, we propose CodeR, which adopts a multi-agent framework and pre-defined task graphs to Repair & Resolve reported bugs and add new features within code Repository. On SWE-bench lite, CodeR is able to solve 29.00% of issues, when submitting only once for each issue. We examine the performance impact of each design of CodeR and offer insights to advance this research direction.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# 自己改善ロバスト推論最適化

Self-Improving Robust Preference Optimization ( http://arxiv.org/abs/2406.01660v3 )

ライセンス: Link先を確認
Eugene Choi, Arash Ahmadian, Matthieu Geist, Oilvier Pietquin, Mohammad Gheshlaghi Azar, (参考訳) PPOやDPOのようなオンラインおよびオフラインのRLHFメソッドは、AIと人間の好みを合わせることに成功している。 彼らの成功にもかかわらず、既存の手法は、その最適解がタスク依存性が高いという根本的な問題に悩まされている(すなわち、アウト・オブ・ディストリビューション(OOD)タスクに対して堅牢ではない)。 本稿では、タスクの変更に対して完全に堅牢な、実用的で数学的に原則化されたオフラインRLHFフレームワークである、自己改善ロバスト推論最適化SRPOを提案することで、この問題に対処する。 SRPOの鍵となる考え方は、人間の嗜好から学ぶことの問題を自己改善のプロセスとして提示することであり、これは、自己改善政策の協調最適化と、敵のやり方で生成政策を共同で最適化することを目的とした、min-max目的の数学的表現によって表現することができる。 この最適化問題の解決策は、トレーニングタスクとは独立しているため、その変更に対して堅牢である。 そこで我々は,この目的を,報酬モデルやオンライン推論を必要とせずに,標準化された最適化手法を用いて大規模に最適化できる非逆オフライン損失の形で再表現できることを示す。 本稿では,AI Win-Rate (WR) による人間(GOLD) の完成に対するSRPOの有効性を示す。 特に、SRPOがOOD XSUMデータセットで評価されると、5回の自己修正で15%の明確なマージンを達成し、90%のWRを達成する。

Both online and offline RLHF methods such as PPO and DPO have been extremely successful in aligning AI with human preferences. Despite their success, the existing methods suffer from a fundamental problem that their optimal solution is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks). Here we address this challenge by proposing Self-Improving Robust Preference Optimization SRPO, a practical and mathematically principled offline RLHF framework that is completely robust to the changes in the task. The key idea of SRPO is to cast the problem of learning from human preferences as a self-improvement process, which can be mathematically expressed in terms of a min-max objective that aims at joint optimization of self-improvement policy and the generative policy in an adversarial fashion. The solution for this optimization problem is independent of the training task and thus it is robust to its changes. We then show that this objective can be re-expressed in the form of a non-adversarial offline loss which can be optimized using standard supervised optimization techniques at scale without any need for reward model and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate (WR) against human (GOLD) completions. In particular, when SRPO is evaluated on the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of 15% after 5 self-revisions, achieving WR of 90%.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# Follow-Your-Emoji:Fun-Controllable and Expressive Freestyle Portrait Animation

Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation ( http://arxiv.org/abs/2406.01900v3 )

ライセンス: Link先を確認
Yue Ma, Hongyu Liu, Hongfa Wang, Heng Pan, Yingqing He, Junkun Yuan, Ailing Zeng, Chengfei Cai, Heung-Yeung Shum, Wei Liu, Qifeng Chen, (参考訳) ポートレートアニメーションの拡散に基づくフレームワークであるFollow-Your-Emojiについて述べる。 ポートレートアニメーションの主な課題は、参照ポートレートのアイデンティティを保存し、時間的一貫性と忠実さを維持しながら、ターゲット表現をこのポートレートに転送することである。 これらの課題に対処するため、Follow-Your-Emojiは2つのよく設計された技術を備えた強力な安定拡散モデルを採用した。 具体的には、まず、アニメーションプロセスのガイドとして、表現認識のランドマークという、新しい明示的な動作信号を採用する。 このランドマークは、参照ポートレートと推論中のターゲットモーションの正確な動きアライメントを確保するだけでなく、誇張された表現(すなわち大きな瞳運動)を表現し、アイデンティティの漏洩を避けることができる。 そこで我々は,表情と顔のマスクの両方を用いて,微妙な表情認識能力と参照肖像画の外観復元能力を向上させるために,顔のきめ細かな損失を提案する。 そこで本手法は,人間,漫画,彫刻,動物など,フリースタイルの肖像画の表現を制御できることを実証する。 単純かつ効果的なプログレッシブ・ジェネレーション・ストラテジーを活用することで、我々はモデルを安定した長期アニメーションに拡張し、潜在的なアプリケーション価値を増大させる。 この分野でのベンチマークの欠如に対処するために、さまざまな肖像画、動画の駆動、ランドマークからなる総合的なベンチマークであるEmojiBenchを紹介します。 また,EmojiBenchについて,Follow-Your-Emojiの優位性を検証するため,広範囲な評価を行った。

We present Follow-Your-Emoji, a diffusion-based framework for portrait animation, which animates a reference portrait with target landmark sequences. The main challenge of portrait animation is to preserve the identity of the reference portrait and transfer the target expression to this portrait while maintaining temporal consistency and fidelity. To address these challenges, Follow-Your-Emoji equipped the powerful Stable Diffusion model with two well-designed technologies. Specifically, we first adopt a new explicit motion signal, namely expression-aware landmark, to guide the animation process. We discover this landmark can not only ensure the accurate motion alignment between the reference portrait and target motion during inference but also increase the ability to portray exaggerated expressions (i.e., large pupil movements) and avoid identity leakage. Then, we propose a facial fine-grained loss to improve the model's ability of subtle expression perception and reference portrait appearance reconstruction by using both expression and facial masks. Accordingly, our method demonstrates significant performance in controlling the expression of freestyle portraits, including real humans, cartoons, sculptures, and even animals. By leveraging a simple and effective progressive generation strategy, we extend our model to stable long-term animation, thus increasing its potential application value. To address the lack of a benchmark for this field, we introduce EmojiBench, a comprehensive benchmark comprising diverse portrait images, driving videos, and landmarks. We show extensive evaluations on EmojiBench to verify the superiority of Follow-Your-Emoji.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# ディープ・ラーニングのアウト・オブ・ディストリビューション領域への一般化の検証

Verifying the Generalization of Deep Learning to Out-of-Distribution Domains ( http://arxiv.org/abs/2406.02024v2 )

ライセンス: Link先を確認
Guy Amir, Osher Maayan, Tom Zelazny, Guy Katz, Michael Schapira, (参考訳) ディープラーニング(Deep Neural Network, DNN)は、機械学習の分野において重要な役割を担い、さまざまなアプリケーションドメインにわたる最先端のパフォーマンスを示す。 しかし、その成功にもかかわらず、DNNベースのモデルは時折一般化の難しさを示すことがある。 この制限は、安全なクリティカルなタスクのためのディープラーニングをデプロイする上で、大きな課題になります。 本稿では,DNN による決定ルールを識別するために,DNN 検証技術を活用する新しい手法を提案する。 本手法は,この領域における入力に対して,独立に訓練された深層ニューラルネットワーク間の一致度を測定することにより,入力領域内の一般化を評価する。 また、市販のDNN検証エンジンを用いて、我々のアプローチを効率よく実現し、インターネット混雑制御のための深層強化学習(DRL)システムを含む教師付きおよび教師なしのDNNベンチマークでこれを広範囲に評価し、我々のアプローチを実世界の設定に適用可能であることを示す。 さらに,本研究では,実世界のシナリオにおけるDNN駆動システムの展開に伴う課題を軽減し,形式検証の新たな目標を提案する。

Deep neural networks (DNNs) play a crucial role in the field of machine learning, demonstrating state-of-the-art performance across various application domains. However, despite their success, DNN-based models may occasionally exhibit challenges with generalization, i.e., may fail to handle inputs that were not encountered during training. This limitation is a significant challenge when it comes to deploying deep learning for safety-critical tasks, as well as in real-world settings characterized by substantial variability. We introduce a novel approach for harnessing DNN verification technology to identify DNN-driven decision rules that exhibit robust generalization to previously unencountered input domains. Our method assesses generalization within an input domain by measuring the level of agreement between independently trained deep neural networks for inputs in this domain. We also efficiently realize our approach by using off-the-shelf DNN verification engines, and extensively evaluate it on both supervised and unsupervised DNN benchmarks, including a deep reinforcement learning (DRL) system for Internet congestion control -- demonstrating the applicability of our approach for real-world settings. Moreover, our research introduces a fresh objective for formal verification, offering the prospect of mitigating the challenges linked to deploying DNN-driven systems in real-world scenarios.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# 組織スライドのマルチターゲット染色正規化

Multi-target stain normalization for histology slides ( http://arxiv.org/abs/2406.02077v2 )

ライセンス: Link先を確認
Desislav Ivanov, Carlo Alberto Barbano, Marco Grangetto, (参考訳) 従来の染色正規化アプローチ(例: Macenko)は、一般的に単一の代表参照イメージの選択に依存しており、実用的なシナリオで収集されたデータセットの多様な染色パターンを適切に考慮していない可能性がある。 本研究では,複数の参照画像を利用して,染色変化に対するロバスト性を高める手法を提案する。 提案手法はパラメータフリーであり,有意な変化のない既存の計算病理パイプラインに適用可能である。 本手法の有効性を,深層学習パイプラインを用いた大腸画像の自動分割実験により評価した。 以上の結果から,複数の参照画像を活用することにより,外部データへの一般化において,染色がトレーニングセットと大きく異なる場合において,より優れた結果が得られることが示された。

Traditional staining normalization approaches, e.g. Macenko, typically rely on the choice of a single representative reference image, which may not adequately account for the diverse staining patterns of datasets collected in practical scenarios. In this study, we introduce a novel approach that leverages multiple reference images to enhance robustness against stain variation. Our method is parameter-free and can be adopted in existing computational pathology pipelines with no significant changes. We evaluate the effectiveness of our method through experiments using a deep-learning pipeline for automatic nuclei segmentation on colorectal images. Our results show that by leveraging multiple reference images, better results can be achieved when generalizing to external data, where the staining can widely differ from the training set.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# CheckEmbed: LLMソリューションのオープンエンドタスクに対する有効検証

CheckEmbed: Effective Verification of LLM Solutions to Open-Ended Tasks ( http://arxiv.org/abs/2406.02524v2 )

ライセンス: Link先を確認
Maciej Besta, Lorenzo Paleari, Ales Kubicek, Piotr Nyczyk, Robert Gerstenberger, Patrick Iff, Tomasz Lehmann, Hubert Niewiadomski, Torsten Hoefler, (参考訳) 大規模言語モデル(LLM)は、様々な領域に革命をもたらしているが、その答えを検証することは、特に統合、要約、知識の抽出といった、複雑なオープンなタスクにおいて重要な課題である。 本研究では,精度が高く,スケーラブルで,シンプルなLCM検証手法であるCheckEmbedを提案する。 CheckEmbedは、単純だが強力なアイデアによって駆動される: LLMソリューションを互いに、あるいは根本から比較するために、GPT Text Embedding Largeのようなモデルで得られた回答レベルの埋め込みを比較します。 これにより、単一の埋め込みに対する複雑なテキスト応答が減少し、単純で高速で有意義な検証が容易になる。 CheckEmbed手法を実装した包括的検証パイプラインを開発した。 CheckEmbedパイプラインには、ヒートマップや要約の埋め込みなど、LLM回答の真偽を評価するメトリクスも付属している。 LLMの回答が満足できるかどうかを判断する実用的なエンジンの展開にこれらのメトリクスを使用する方法を示す。 実世界の文書分析タスクにパイプラインを適用し、BERTScoreやSelfCheckGPTのような既存のトークン、文、事実レベルのスキームと比較して、精度、コスト効率、実行時のパフォーマンスが大幅に向上したことを示す。

Large Language Models (LLMs) are revolutionizing various domains, yet verifying their answers remains a significant challenge, especially for intricate open-ended tasks such as consolidation, summarization, and extraction of knowledge. In this work, we propose CheckEmbed: an accurate, scalable, and simple LLM verification approach. CheckEmbed is driven by a straightforward yet powerful idea: in order to compare LLM solutions to one another or to the ground-truth, compare their corresponding answer-level embeddings obtained with a model such as GPT Text Embedding Large. This reduces a complex textual answer to a single embedding, facilitating straightforward, fast, and meaningful verification. We develop a comprehensive verification pipeline implementing the CheckEmbed methodology. The CheckEmbed pipeline also comes with metrics for assessing the truthfulness of the LLM answers, such as embedding heatmaps and their summaries. We show how to use these metrics for deploying practical engines that decide whether an LLM answer is satisfactory or not. We apply the pipeline to real-world document analysis tasks, including term extraction and document summarization, showcasing significant improvements in accuracy, cost-effectiveness, and runtime performance compared to existing token-, sentence-, and fact-level schemes such as BERTScore or SelfCheckGPT.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# サイクルスパーストレーニング:十分か?

Cyclic Sparse Training: Is it Enough? ( http://arxiv.org/abs/2406.02773v2 )

ライセンス: Link先を確認
Advait Gadhikar, Sree Harsha Nelaturu, Rebekka Burkholz, (参考訳) 最先端のスパースネットワークの実現における反復的プルーニング手法の成功は、マスク識別の改善とプルーニングによる暗黙の正則化によるところが大きい。 我々はこの仮説に挑戦し、その代わりに周期的なトレーニングスケジュールが改良された最適化を可能にしていると仮定する。 これを検証するために, 繰り返し繰り返し訓練により初期化時のプルーニングが著しく向上し, 標準的なイテレーティブプルーニング法よりも優れていることを示す。 私たちが予想しているように、これを達成するための支配的なメカニズムは、ロスランドスケープのより良い探索が、トレーニング損失の減少につながっているためである。 しかし、疎度が高い場合、繰り返し循環訓練だけでは競争性能には不十分である。 学習パラメータの初期化とマスクの強い結合が必要と思われる。 標準的な手法は、高密度ネットワークから始まる高価なプルーニングトレーニングの繰り返しを通じて、この結合を得る。 そこで本研究では,任意のスパースマスクの繰り返しサイクルトレーニングと,パラメータとマスクをペアリングする単一プルーニングステップを併用して行うSCULPT-ingを提案する。

The success of iterative pruning methods in achieving state-of-the-art sparse networks has largely been attributed to improved mask identification and an implicit regularization induced by pruning. We challenge this hypothesis and instead posit that their repeated cyclic training schedules enable improved optimization. To verify this, we show that pruning at initialization is significantly boosted by repeated cyclic training, even outperforming standard iterative pruning methods. The dominant mechanism how this is achieved, as we conjecture, can be attributed to a better exploration of the loss landscape leading to a lower training loss. However, at high sparsity, repeated cyclic training alone is not enough for competitive performance. A strong coupling between learnt parameter initialization and mask seems to be required. Standard methods obtain this coupling via expensive pruning-training iterations, starting from a dense network. To achieve this with sparse training instead, we propose SCULPT-ing, i.e., repeated cyclic training of any sparse mask followed by a single pruning step to couple the parameters and the mask, which is able to match the performance of state-of-the-art iterative pruning methods in the high sparsity regime at reduced computational cost.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# S$^2$GSL:Aspect-based Sentiment Analysisのための構文強化グラフ構造学習へのセグメントの導入

S$^2$GSL: Incorporating Segment to Syntactic Enhanced Graph Structure Learning for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2406.02902v2 )

ライセンス: Link先を確認
Bingfeng Chen, Qihan Ouyang, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao, (参考訳) Aspect based Sentiment Analysis(ABSA)における従来のグラフベースのアプローチは、静的依存木や動的潜伏木の構造を学習するためにグラフニューラルネットワークとアテンション機構を活用することで、優れたパフォーマンスを示している。 しかし、複雑なグローバル構造にセマンティック情報と構文情報を同時に組み込むことは、グラフ構造学習の過程で無関係な文脈や構文依存を導入し、不正確な予測をもたらす可能性がある。 上記の問題に対処するために,Segment と Syntactic enhanced Graph Structure Learning for ABSA を取り入れた S$^2$GSL を提案する。 具体的には、S$^2$GSLにはセグメンテーションを意識したセマンティックグラフ学習と、無関係なコンテキストと依存関係の削除を可能にする構文ベースの潜在グラフ学習が特徴である。 さらに,2つのグラフ学習分野の融合を容易にし,多様な構造をまたいだ相補性を実現する自己適応型集約ネットワークを提案する。 4つのベンチマークによる実験結果から,本フレームワークの有効性が示された。

Previous graph-based approaches in Aspect based Sentiment Analysis(ABSA) have demonstrated impressive performance by utilizing graph neural networks and attention mechanisms to learn structures of static dependency trees and dynamic latent trees. However, incorporating both semantic and syntactic information simultaneously within complex global structures can introduce irrelevant contexts and syntactic dependencies during the process of graph structure learning, potentially resulting in inaccurate predictions. In order to address the issues above, we propose S$^2$GSL, incorporating Segment to Syntactic enhanced Graph Structure Learning for ABSA. Specifically,S$^2$GSL is featured with a segment-aware semantic graph learning and a syntax-based latent graph learning enabling the removal of irrelevant contexts and dependencies, respectively. We further propose a self-adaptive aggregation network that facilitates the fusion of two graph learning branches, thereby achieving complementarity across diverse structures. Experimental results on four benchmarks demonstrate the effectiveness of our framework.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# 局所対グローバル解釈可能性:計算複雑性の観点から

Local vs. Global Interpretability: A Computational Complexity Perspective ( http://arxiv.org/abs/2406.02981v2 )

ライセンス: Link先を確認
Shahaf Bassan, Guy Amir, Guy Katz, (参考訳) 近年,様々なMLモデルの局所的およびグローバル的解釈可能性の研究が盛んに行われている。 しかし、この分野でかなりの進歩があったにもかかわらず、多くの既知の結果は非公式のままであり、あるいは十分な数学的厳密さが欠如している。 本稿では,計算複雑性理論を用いて,MLモデルの局所的および大域的視点を評価することにより,このギャップを埋める枠組みを提案する。 まず,1)局所的な説明形式とグローバルな説明形式との二重性,(2)ある種のグローバルな説明形式の本質的な特異性という,分析に不可欠な2つの新しい洞察の証明を提案する。 次に、線形モデル、(2)決定木、(3)ニューラルネットワークの3つのモデルタイプにまたがって、計算説明の複雑さを評価する。 これらのモデルの局所的およびグローバル的解釈可能性に関する知見を提供する。 例えば、P のような標準的な複雑性仮定の下では! NP = 線形モデルにおける大域的十分部分集合の選択は局所部分集合の選択よりも計算的に困難であることを示す。 興味深いことに、ニューラルネットワークと決定木では、その逆が当てはまります。 我々は,計算複雑性レンズによる説明可能性の検証が,MLモデル固有の解釈可能性をより厳密に把握する上で有効であることを示す。

The local and global interpretability of various ML models has been studied extensively in recent years. However, despite significant progress in the field, many known results remain informal or lack sufficient mathematical rigor. We propose a framework for bridging this gap, by using computational complexity theory to assess local and global perspectives of interpreting ML models. We begin by proposing proofs for two novel insights that are essential for our analysis: (1) a duality between local and global forms of explanations; and (2) the inherent uniqueness of certain global explanation forms. We then use these insights to evaluate the complexity of computing explanations, across three model types representing the extremes of the interpretability spectrum: (1) linear models; (2) decision trees; and (3) neural networks. Our findings offer insights into both the local and global interpretability of these models. For instance, under standard complexity assumptions such as P != NP, we prove that selecting global sufficient subsets in linear models is computationally harder than selecting local subsets. Interestingly, with neural networks and decision trees, the opposite is true: it is harder to carry out this task locally than globally. We believe that our findings demonstrate how examining explainability through a computational complexity lens can help us develop a more rigorous grasp of the inherent interpretability of ML models.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# 時系列予測のための逐次一般変分モード分解法に基づく組合せモデル

A Combination Model Based on Sequential General Variational Mode Decomposition Method for Time Series Prediction ( http://arxiv.org/abs/2406.03157v2 )

ライセンス: Link先を確認
Wei Chen, Yuanyuan Yang, Jianyu Liu, (参考訳) 金融時系列の正確な予測は、市場経済のメーカーや投資家にとって重要な懸念である。 本記事は、ノン定常、トレンド、季節金融時系列の代表として、オンラインストアの販売とオーストラリアビールの販売を選択し、ノンリニアコンビネーション方式で新しいSGVMD-ARIMA組合せモデルを構築し、財務時系列を予測する。 ARIMAモデル、LSTMモデル、その他の古典的分解予測モデルは、異なるモデルの精度を比較するために制御モデルとして使用される。 実験結果から,構成された組合せ予測モデルが,制御群の単一予測モデルと線形結合予測モデルに対して普遍的な優位性を持つことが示唆された。 予測区間内では,従来の分解予測群モデルよりも利点が向上した。

Accurate prediction of financial time series is a key concern for market economy makers and investors. The article selects online store sales and Australian beer sales as representatives of non-stationary, trending, and seasonal financial time series, and constructs a new SGVMD-ARIMA combination model in a non-linear combination way to predict financial time series. The ARIMA model, LSTM model, and other classic decomposition prediction models are used as control models to compare the accuracy of different models. The empirical results indicate that the constructed combination prediction model has universal advantages over the single prediction model and linear combination prediction model of the control group. Within the prediction interval, our proposed combination model has improved advantages over traditional decomposition prediction control group models.
翻訳日:2024-06-10 12:53:12 公開日:2024-06-07
# FusionBench:Deep Model Fusionの総合ベンチマーク

FusionBench: A Comprehensive Benchmark of Deep Model Fusion ( http://arxiv.org/abs/2406.03280v2 )

ライセンス: Link先を確認
Anke Tang, Li Shen, Yong Luo, Han Hu, Bo Do, Dacheng Tao, (参考訳) ディープモデル融合(Deep Model fusion)は、複数のディープニューラルネットワークの予測やパラメータを、コスト効率とデータ効率のよい単一のモデルに統一する新興技術である。 これにより、統一モデルは元のモデルの強みを生かし、性能を超越する可能性がある。 様々な深層モデル融合技術が導入されたが、それらの評価は不整合であり、分布シフトに対する有効性と堅牢性を検証するのに不十分であることが多い。 この問題に対処するため、我々はFusionBenchを紹介します。 FusionBenchは、オープン語彙画像分類、テキスト分類、テキストからテキストへの生成など、幅広いタスクをカバーしている。 各カテゴリには、対応するタスク固有のモデルを持つ最大8つのタスクが含まれており、フル微調整とLoRA微調整の両方と異なるサイズのモデルを備えており、様々なタスク、モデルスケール、微調整戦略をまたいだ様々なマルチタスクモデルの融合テクニックの公平かつバランスの取れた比較を保証する。 我々は,深層モデル融合手法の幅広いスペクトルを実装し,評価する。 これらのテクニックは、全体的なパフォーマンスを改善するために予測を組み合わせるモデルアンサンブル手法から、異なるモデルを単一のモデルに統合するモデルマージや、元のモデルのコンポーネントをスケールアップまたは再結合するモデルミキシング方法まで、さまざまである。 FusionBenchには26のタスク、74の細調整されたモデル、16のフュージョン技術が含まれています。 さらに、ベンチマーク結果の理解と複製を研究者が支援するための、文書化されたリソースとガイドラインも提供します。 Homepage https://github.com/tanganke/fusion_bench

Deep model fusion is an emerging technique that unifies the predictions or parameters of several deep neural networks into a single model in a cost-effective and data-efficient manner. This enables the unified model to take advantage of the original models' strengths, potentially exceeding their performance. Although a variety of deep model fusion techniques have been introduced, their evaluations tend to be inconsistent and often inadequate to validate their effectiveness and robustness against distribution shifts. To address this issue, we introduce FusionBench, which is the first comprehensive benchmark dedicated to deep model fusion. FusionBench covers a wide range of tasks, including open-vocabulary image classification, text classification, and text-to-text generation. Each category includes up to eight tasks with corresponding task-specific models, featuring both full fine-tuning and LoRA fine-tuning, as well as models of different sizes, to ensure fair and balanced comparisons of various multi-task model fusion techniques across different tasks, model scales, and fine-tuning strategies. We implement and evaluate a broad spectrum of deep model fusion techniques. These techniques range from model ensemble methods, which combine the predictions to improve the overall performance, to model merging, which integrates different models into a single one, and model mixing methods, which upscale or recombine the components of the original models. FusionBench now contains 26 distinct tasks, 74 fine-tuned models, and 16 fusion techniques, and we are committed to consistently expanding the benchmark with more tasks, models, and fusion techniques. In addition, we offer a well-documented set of resources and guidelines to aid researchers in understanding and replicating the benchmark results. Homepage https://github.com/tanganke/fusion_bench
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# 困難か違いか?オーディオディープフェイク検出の一般化を理解する

Harder or Different? Understanding Generalization of Audio Deepfake Detection ( http://arxiv.org/abs/2406.03512v2 )

ライセンス: Link先を確認
Nicolas M. Müller, Nicholas Evans, Hemlata Tak, Philip Sperl, Konstantin Böttinger, (参考訳) 最近の研究は、音声のディープフェイク検出における重要な課題を強調している。 これは、テキスト音声(TTS)モデルの品質が継続的に向上していること、すなわち、より新しいDeepFakesは単に'ハード'で検出できるのか? あるいは、あるモデルで生成されたディープフェイクが、別のモデルで生成されたディープフェイクと根本的に異なるからだろうか? ドメイン内テストデータとドメイン外テストデータのパフォーマンスギャップを'ハードネス'と'ディファレンス'コンポーネントに分解することで、この問題に答える。 ASVspoofデータベースを用いて行った実験は、硬さ成分が事実上無視可能であることを示している。 これは現実世界のディープフェイク検出に直接的な意味を持ち、現在支配的な研究トレンドであるモデル容量の増加だけでは、一般化の課題に効果的に対処できないことを強調している。

Recent research has highlighted a key issue in speech deepfake detection: models trained on one set of deepfakes perform poorly on others. The question arises: is this due to the continuously improving quality of Text-to-Speech (TTS) models, i.e., are newer DeepFakes just 'harder' to detect? Or, is it because deepfakes generated with one model are fundamentally different to those generated using another model? We answer this question by decomposing the performance gap between in-domain and out-of-domain test data into 'hardness' and 'difference' components. Experiments performed using ASVspoof databases indicate that the hardness component is practically negligible, with the performance gap being attributed primarily to the difference component. This has direct implications for real-world deepfake detection, highlighting that merely increasing model capacity, the currently-dominant research trend, may not effectively address the generalization challenge.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# ReDistill: ピークメモリ削減のための残留エンコード蒸留

ReDistill: Residual Encoded Distillation for Peak Memory Reduction ( http://arxiv.org/abs/2406.03744v2 )

ライセンス: Link先を確認
Fang Chen, Gourav Datta, Mujahid Al Rafi, Hyeran Jeon, Meng Tang, (参考訳) ニューラルネットワークサイズの拡大と、現代のカメラセンサーによる画像解像度の向上により、ニューラルネットワークのメモリと電力需要が増大する。 ニューラルネットワークの実行中に消費される最大メモリであるピークメモリの削減は、限られたメモリ予算でエッジデバイスにニューラルネットワークをデプロイすることが重要である。 ピークメモリの削減に対する単純なアプローチは、大きなストライドでプールする機能マップのアグレッシブなダウンサンプリングであり、しばしばネットワーク性能の低下を招く。 そこで,本研究では,教師の学習者ネットワークから学習者ネットワークをアグレッシブプール方式で抽出し,学習者間のピークメモリ削減のための残差符号化蒸留(ReDistill)を提案する。 我々は,画像分類や拡散に基づく画像生成を含むコンピュータビジョンにおける複数の問題に対して蒸留法を適用した。 画像分類では、ほとんどのCNNアーキテクチャにおいて、エッジGPU上で2x-3.2xのピークメモリを出力し、精度の劣化を無視できる。 さらに,本手法は,大規模なCNNベースの教師アーキテクチャから抽出した小型視覚変換器(ViT)を用いたモデルの精度向上を実現する。 拡散型画像生成では, 提案手法により, 画像生成の多様性と忠実性を維持しつつ, 4倍低い理論的ピークメモリを有するデノナイジングネットワークが得られる。 提案手法は,他の特徴量および応答量に基づく蒸留法と比較して優れた性能を示す。

The expansion of neural network sizes and the enhancement of image resolution through modern camera sensors result in heightened memory and power demands for neural networks. Reducing peak memory, which is the maximum memory consumed during the execution of a neural network, is critical to deploy neural networks on edge devices with limited memory budget. A naive approach to reducing peak memory is aggressive down-sampling of feature maps via pooling with large stride, which often results in unacceptable degradation in network performance. To mitigate this problem, we propose residual encoded distillation (ReDistill) for peak memory reduction in a teacher-student framework, in which a student network with less memory is derived from the teacher network using aggressive pooling. We apply our distillation method to multiple problems in computer vision including image classification and diffusion based image generation. For image classification, our method yields 2x-3.2x measured peak memory on an edge GPU with negligible degradation in accuracy for most CNN based architectures. Additionally, our method yields improved test accuracy for tiny vision transformer (ViT) based models distilled from large CNN based teacher architectures. For diffusion-based image generation, our proposed distillation method yields a denoising network with 4x lower theoretical peak memory while maintaining decent diversity and fidelity for image generation. Experiments demonstrate our method's superior performance compared to other feature-based and response-based distillation methods.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# XL-HeadTags:ニュース見出しとタグの多言語生成のためのマルチモーダル検索拡張の活用

XL-HeadTags: Leveraging Multimodal Retrieval Augmentation for the Multilingual Generation of News Headlines and Tags ( http://arxiv.org/abs/2406.03776v2 )

ライセンス: Link先を確認
Faisal Tareque Shohan, Mir Tafseer Nayeem, Samsul Islam, Abu Ubaida Akash, Shafiq Joty, (参考訳) 毎日発行される何百万ものニュース記事が読者を圧倒する可能性がある。 見出しとエンティティ(トピック)タグは、読者にコンテンツが彼らの時間に値するかどうかを判断するために不可欠である。 見出し生成は広く研究されているが、タグ生成はほとんど探索されていない。 読者の注意を捉えるための簡潔さの必要性は、長い記事の中の健全な部分と関連する部分を特定するためのコンテンツ選択戦略の改善を必要としており、それによって言語モデルを効果的に導くことができる。 そこで本稿では,記事に埋め込まれた画像やキャプションなどの補助情報を活用して関連文を検索し,多言語でニュース記事の見出しとタグを生成するために,変化を伴う指導チューニングを活用することを提案する。 補助情報を利用するために、XL-HeadTagsというデータセットをコンパイルした。 広範に評価することで,両タスクに対するプラグ・アンド・プレイマルチモーダル・マルチモーダル・レトリバーの有効性を実証する。 さらに,多言語テキストの処理と評価のためのツールセットを開発し,言語間のより正確かつ効率的な分析を可能にすることにより,研究コミュニティに多大な貢献をしている。

Millions of news articles published online daily can overwhelm readers. Headlines and entity (topic) tags are essential for guiding readers to decide if the content is worth their time. While headline generation has been extensively studied, tag generation remains largely unexplored, yet it offers readers better access to topics of interest. The need for conciseness in capturing readers' attention necessitates improved content selection strategies for identifying salient and relevant segments within lengthy articles, thereby guiding language models effectively. To address this, we propose to leverage auxiliary information such as images and captions embedded in the articles to retrieve relevant sentences and utilize instruction tuning with variations to generate both headlines and tags for news articles in a multilingual context. To make use of the auxiliary information, we have compiled a dataset named XL-HeadTags, which includes 20 languages across 6 diverse language families. Through extensive evaluation, we demonstrate the effectiveness of our plug-and-play multimodal-multilingual retrievers for both tasks. Additionally, we have developed a suite of tools for processing and evaluating multilingual texts, significantly contributing to the research community by enabling more accurate and efficient analysis across languages.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# 天気予報データセットチャレンジのためのセマンティックセマンティックセグメンテーションパイプラインの強化

Enhanced Semantic Segmentation Pipeline for WeatherProof Dataset Challenge ( http://arxiv.org/abs/2406.03799v2 )

ライセンス: Link先を確認
Nan Zhang, Xidan Zhang, Jianing Wei, Fangjun Wang, Zhiming Tan, (参考訳) 本報告では、CVPR 2024 UG2+ Track 3の勝利のソリューションについて述べる。 この課題の詳細はhttps://cvpr2024ug2challenge.github.io/track3.htmlで確認できる。 本稿では,この課題に対するセマンティックセグメンテーションパイプラインの強化を提案する。 まず、Depth Anythingで事前訓練されたバックボーンを用いてセマンティックセグメンテーションモデルを改善し、UperNetモデルとSETRMLAモデルを改善し、天気情報とカテゴリ情報の両方に基づいた言語ガイダンスをInternImageモデルに追加する。 第2に、より広い視角を持つ新しいデータセットであるWeatherProofExtraを導入し、悪天候や超解像を含むデータ拡張手法を適用した。 最後に, 効果的なトレーニング戦略とアンサンブル法を適用し, 最終的な性能を向上する。 私たちのソリューションは、最終リーダーボードで1位にランクされています。 コードはhttps://github.com/KaneiGi/WeatherProofChallenge.comで入手できる。

This report describes the winning solution to the WeatherProof Dataset Challenge (CVPR 2024 UG2+ Track 3). Details regarding the challenge are available at https://cvpr2024ug2challenge.github.io/track3.html. We propose an enhanced semantic segmentation pipeline for this challenge. Firstly, we improve semantic segmentation models, using backbone pretrained with Depth Anything to improve UperNet model and SETRMLA model, and adding language guidance based on both weather and category information to InternImage model. Secondly, we introduce a new dataset WeatherProofExtra with wider viewing angle and employ data augmentation methods, including adverse weather and super-resolution. Finally, effective training strategies and ensemble method are applied to improve final performance further. Our solution is ranked 1st on the final leaderboard. Code will be available at https://github.com/KaneiGi/WeatherProofChallenge.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# Lean Workbook: 自然言語の数学問題から形式化した大規模なリーン問題セット

Lean Workbook: A large-scale Lean problem set formalized from natural language math problems ( http://arxiv.org/abs/2406.03847v2 )

ライセンス: Link先を確認
Huaiyuan Ying, Zijian Wu, Yihan Geng, Jiayu Wang, Dahua Lin, Kai Chen, (参考訳) 大規模言語モデルは、特に数学的な問題を解く際に、様々な自然言語処理タスクにおいて印象的な能力を示してきた。 しかし、大きな言語モデルは、リーンのような形式的な言語を使って証明する数学の定理が得意ではありません。 この領域で重要な課題は、これらの形式言語で利用可能なトレーニングデータの不足である。 この問題に対処するために、我々は、自然言語の数学的問題をリーン4文に変換するために、合成データを反復的に生成し、フィルタする新しいパイプラインを提案します。 その結果, 合成データパイプラインは, 複雑な数学的問題や証明の翻訳・理解において, 有用な学習データを提供し, LLMの性能を向上させることが示唆された。 最終データセットには、約5万5千の形式的非形式的質問対と、数学コンテストフォーラムからの探索された証明と21の新しいIMO質問が含まれている。 当社のコードはhttps://github.com/InternLM/InternLM-Mathで、データはhttps://huggingface.co/datasets/InternLM/Lean-Workbookで公開しています。

Large language models have demonstrated impressive capabilities across various natural language processing tasks, especially in solving mathematical problems. However, large language models are not good at math theorem proving using formal languages like Lean. A significant challenge in this area is the scarcity of training data available in these formal languages. To address this issue, we propose a novel pipeline that iteratively generates and filters synthetic data to translate natural language mathematical problems into Lean 4 statements, and vice versa. Our results indicate that the synthetic data pipeline can provide useful training data and improve the performance of LLMs in translating and understanding complex mathematical problems and proofs. Our final dataset contains about 57K formal-informal question pairs along with searched proof from the math contest forum and 21 new IMO questions. We open-source our code at https://github.com/InternLM/InternLM-Math and our data at https://huggingface.co/datasets/InternLM/Lean-Workbook.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# PVUWチャレンジ2024の3位:ビデオパノプティカルセグメンテーション

3rd Place Solution for PVUW Challenge 2024: Video Panoptic Segmentation ( http://arxiv.org/abs/2406.04002v2 )

ライセンス: Link先を確認
Ruipu Wu, Jifei Che, Han Li, Chengjing Wu, Ting Liu, Luoqi Liu, (参考訳) ビデオパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパ DVIS++をベースラインモデルとして利用し、追加の手法で補足されたクエリワイドアンサンブルを中心にした包括的アプローチを導入することにより、DVIS++をベースラインモデルとして活用する。 提案手法はVIPSegテストセットのVPQスコア57.01を達成し,第3回Pixelレベルビデオ理解チャレンジのVPSトラックで3位にランクインした。

Video panoptic segmentation is an advanced task that extends panoptic segmentation by applying its concept to video sequences. In the hope of addressing the challenge of video panoptic segmentation in diverse conditions, We utilize DVIS++ as our baseline model and enhance it by introducing a comprehensive approach centered on the query-wise ensemble, supplemented by additional techniques. Our proposed approach achieved a VPQ score of 57.01 on the VIPSeg test set, and ranked 3rd in the VPS track of the 3rd Pixel-level Video Understanding in the Wild Challenge.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# MMLUでやれるか?

Are We Done with MMLU? ( http://arxiv.org/abs/2406.04127v2 )

ライセンス: Link先を確認
Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, Claire Barale, Robert McHardy, Joshua Harris, Jean Kaddour, Emile van Krieken, Pasquale Minervini, (参考訳) たぶん違う。 我々は,MMLU(Massive Multitask Language Understanding)ベンチマークにおいて,誤りを特定し解析する。 MMLUは広く採用されているが,本研究では,LLMの真の性能を隠蔽する基礎的真理誤差を多数示している。 例えば、Virologyサブセットで分析された質問の57%にエラーが含まれていることがわかった。 この問題に対処するために、新しいエラー分類法を用いてデータセットエラーを識別する包括的なフレームワークを導入する。 MMLU-Reduxは,30名のMMLU被験者を対象に,手動で書き直した3000の質問のサブセットである。 MMLU-Reduxを用いて、当初報告されたモデル性能指標と大きな相違点を示す。 本結果は,MMLUの今後の実用性と信頼性をベンチマークとして向上する上で,誤りを犯した質問の修正を強く主張するものである。 したがって、追加アノテーション https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux に対して MMLU-Redux を開きます。

Maybe not. We identify and analyse errors in the popular Massive Multitask Language Understanding (MMLU) benchmark. Even though MMLU is widely adopted, our analysis demonstrates numerous ground truth errors that obscure the true capabilities of LLMs. For example, we find that 57% of the analysed questions in the Virology subset contain errors. To address this issue, we introduce a comprehensive framework for identifying dataset errors using a novel error taxonomy. Then, we create MMLU-Redux, which is a subset of 3,000 manually re-annotated questions across 30 MMLU subjects. Using MMLU-Redux, we demonstrate significant discrepancies with the model performance metrics that were originally reported. Our results strongly advocate for revising MMLU's error-ridden questions to enhance its future utility and reliability as a benchmark. Therefore, we open up MMLU-Redux for additional annotation https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# BEAD: ドメイン間のバイアス評価

BEADs: Bias Evaluation Across Domains ( http://arxiv.org/abs/2406.04220v2 )

ライセンス: Link先を確認
Shaina Raza, Mizanur Rahman, Michael R. Zhang, (参考訳) 大規模言語モデル(LLM)の最近の改良は、自然言語処理(NLP)アプリケーションを大幅に強化した。 しかし、これらのモデルはトレーニングデータからバイアスを継承し、永続することができる。 この問題に対処することは極めて重要ですが、既存のデータセットの多くは、さまざまなNLPタスクに対する評価を提供していません。 これを解決するために,テキスト分類,バイアスエンティティ認識,バイアス定量化,良言語生成など,幅広いNLPタスクをサポートするために設計されたBias Evaluations Across Domains(BEADs)データセットを紹介した。 BEADはAI駆動アノテーションと専門家の検証を組み合わせて信頼性のあるラベルを提供する。 この方法は、クラウドソーシングや、バイアス評価の制限のある専門家のみのアノテーション、検証されていないAIラベルに依存する既存のデータセットの制限を克服する。 我々の経験的分析により、BEADは異なる言語モデル間でのバイアスの検出と低減に有効であることが示された。 しかし、これらのモデルは特定の人口層に対する偏見を示す可能性がある。 良質な言語データによる微調整LDMは、モデルの知識を保ちながらバイアスを低減します。 本研究は, 総合的バイアス評価の重要性と, LLMのバイアス低減を目的とした微調整の可能性を強調した。 私たちはBEADをhttps://huggingface.co/datasets/shainar/BEAD Warningで公開しています。

Recent improvements in large language models (LLMs) have significantly enhanced natural language processing (NLP) applications. However, these models can also inherit and perpetuate biases from their training data. Addressing this issue is crucial, yet many existing datasets do not offer evaluation across diverse NLP tasks. To tackle this, we introduce the Bias Evaluations Across Domains (BEADs) dataset, designed to support a wide range of NLP tasks, including text classification, bias entity recognition, bias quantification, and benign language generation. BEADs uses AI-driven annotation combined with experts' verification to provide reliable labels. This method overcomes the limitations of existing datasets that typically depend on crowd-sourcing, expert-only annotations with limited bias evaluations, or unverified AI labeling. Our empirical analysis shows that BEADs is effective in detecting and reducing biases across different language models, with smaller models fine-tuned on BEADs often outperforming LLMs in bias classification tasks. However, these models may still exhibit biases towards certain demographics. Fine-tuning LLMs with our benign language data also reduces biases while preserving the models' knowledge. Our findings highlight the importance of comprehensive bias evaluation and the potential of targeted fine-tuning for reducing the bias of LLMs. We are making BEADs publicly available at https://huggingface.co/datasets/shainar/BEAD Warning: This paper contains examples that may be considered offensive.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# 非定型音声へのASRのパーソナライズのためのハイパーネット

Hypernetworks for Personalizing ASR to Atypical Speech ( http://arxiv.org/abs/2406.04240v2 )

ライセンス: Link先を確認
Max Mueller-Eberstein, Dianna Yee, Karren Yang, Gautam Varma Mantena, Colin Lea, (参考訳) 自動音声認識(ASR)をパーソナライズするためのパラメータ効率のよい微調整(PEFT)は,最近,一般集団モデルを非定型音声に適用することを約束している。 しかし、これらのアプローチは、非典型的言語障害が適応されているという先駆的な知識を前提としており、その診断には、常に利用できるわけではない専門家の知識が必要である。 この知識を踏まえると、データ不足とイントラスピーカー間の高いばらつきにより、従来の微調整の有効性はさらに制限される。 これらの課題を回避するために、まずASR適応に必要なモデルパラメータの最小セットを同定する。 適応性能に対する各パラメータの影響の分析により,全重みの0.03%を適応しながらワード誤り率(WER)を半減することができる。 次に,コホート固有モデルの必要性を軽減し,多種多様な非定型音声特性に対して,高度に個別化された発話レベル適応を生成するメタ学習型ハイパーネットワークを提案する。 グローバル,コホート,個人レベルでの適応を評価することで,ハイパーネットワークは,全パラメータ予算の0.1%を用いて,WER全体の75.2%削減を維持しつつ,アウト・オブ・ディストリビューション話者よりも一般化されていることを示す。

Parameter-efficient fine-tuning (PEFT) for personalizing automatic speech recognition (ASR) has recently shown promise for adapting general population models to atypical speech. However, these approaches assume a priori knowledge of the atypical speech disorder being adapted for -- the diagnosis of which requires expert knowledge that is not always available. Even given this knowledge, data scarcity and high inter/intra-speaker variability further limit the effectiveness of traditional fine-tuning. To circumvent these challenges, we first identify the minimal set of model parameters required for ASR adaptation. Our analysis of each individual parameter's effect on adaptation performance allows us to reduce Word Error Rate (WER) by half while adapting 0.03% of all weights. Alleviating the need for cohort-specific models, we next propose the novel use of a meta-learned hypernetwork to generate highly individualized, utterance-level adaptations on-the-fly for a diverse set of atypical speech characteristics. Evaluating adaptation at the global, cohort and individual-level, we show that hypernetworks generalize better to out-of-distribution speakers, while maintaining an overall relative WER reduction of 75.2% using 0.1% of the full parameter budget.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# GeoGen: 符号付き距離関数による幾何認識生成モデリング

GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions ( http://arxiv.org/abs/2406.04254v2 )

ライセンス: Link先を確認
Salvatore Esposito, Qingshan Xu, Kacper Kania, Charlie Hewitt, Octave Mariotti, Lohit Petikam, Julien Valentin, Arno Onken, Oisin Mac Aodha, (参考訳) 単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。 既存のほとんどのアプローチは、多視点一貫した画像をレンダリングするために体積密度を予測する。 ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がなく、出力メッシュの品質と有用性に制限されるという、重要な制限を継承する。 この問題に対処するために、我々は、エンドツーエンドで訓練されたSDFベースの新しい3D生成モデルGeoGenを提案する。 当初は,体積密度を符号付き距離関数 (Signed Distance Function, SDF) として再解釈した。 これにより、有効なメッシュを生成するための有用なプリエントを導入することができます。 しかし、これらの先行は、生成モデルが詳細を学習することを防ぎ、実際のシナリオに適用性を制限する。 この問題を緩和するため、変換を学習可能とし、描画深度マップをSDFのゼロレベル集合と整合性に制約する。 敵対的トレーニングのレンズを通して、我々はネットワークに対して、出力メッシュについて高い忠実度の詳細を作成するよう奨励する。 評価のために、360度カメラアングルから取得した人間のアバターの合成データセットを導入し、現実のデータセットが生み出す課題を克服する。 複数のデータセットに対する実験により,GeoGenは従来のニューラル放射場に基づく生成モデルよりも視覚的,定量的に優れた幾何を生成することが示された。

We introduce a new generative approach for synthesizing 3D geometry and images from single-view collections. Most existing approaches predict volumetric density to render multi-view consistent images. By employing volumetric rendering using neural radiance fields, they inherit a key limitation: the generated geometry is noisy and unconstrained, limiting the quality and utility of the output meshes. To address this issue, we propose GeoGen, a new SDF-based 3D generative model trained in an end-to-end manner. Initially, we reinterpret the volumetric density as a Signed Distance Function (SDF). This allows us to introduce useful priors to generate valid meshes. However, those priors prevent the generative model from learning details, limiting the applicability of the method to real-world scenarios. To alleviate that problem, we make the transformation learnable and constrain the rendered depth map to be consistent with the zero-level set of the SDF. Through the lens of adversarial training, we encourage the network to produce higher fidelity details on the output meshes. For evaluation, we introduce a synthetic dataset of human avatars captured from 360-degree camera angles, to overcome the challenges presented by real-world datasets, which often lack 3D consistency and do not cover all camera angles. Our experiments on multiple datasets show that GeoGen produces visually and quantitatively better geometry than the previous generative models based on neural radiance fields.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# 言語モデルにとって容易な言語とは何か?確率論的正規言語学習の視点から

What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages ( http://arxiv.org/abs/2406.04289v2 )

ライセンス: Link先を確認
Nadav Borenstein, Anej Svete, Robin Chan, Josef Valvoda, Franz Nowak, Isabelle Augenstein, Eleanor Chodroff, Ryan Cotterell, (参考訳) 大規模言語モデルは何を学ぶことができるのか? 定義上、言語モデル(LM)は文字列上の分布である。 したがって、上記の問題に直感的に対処する方法は、文字列上の分布のクラスを学習可能な問題として定式化することである。 この方向の先行研究は、理論的な限界を評価することに重点を置いているが、対照的に、経験的学習可能性を理解しようと試みている。 従来の経験的作業とは違って、フォーマルな言語の分類子としてではなく、自宅の芝刈り学習における確率的言語上でのニューラルLMを評価する。 特に、RNNとTransformer LMによる通常のLM(RLM)の学習可能性について検討する。 本研究では,RLMの様々な複雑性パラメータの関数として,RLMの学習可能性とニューラルLMの隠れ状態サイズを実証的に検証する。 その結果, RNN と Transformer の双方において, RLM のランクは条件分布のロジットに代表される線形空間の大きさに対応し, サンプル文字列の長さは強く, 有意な学習可能性の予測因子であることが判明した。 他にもいくつかの予測器が重要になるが、RNNとTransformerのパターンが異なる。

What can large language models learn? By definition, language models (LM) are distributions over strings. Therefore, an intuitive way of addressing the above question is to formalize it as a matter of learnability of classes of distributions over strings. While prior work in this direction focused on assessing the theoretical limits, in contrast, we seek to understand the empirical learnability. Unlike prior empirical work, we evaluate neural LMs on their home turf-learning probabilistic languages-rather than as classifiers of formal languages. In particular, we investigate the learnability of regular LMs (RLMs) by RNN and Transformer LMs. We empirically test the learnability of RLMs as a function of various complexity parameters of the RLM and the hidden state size of the neural LM. We find that the RLM rank, which corresponds to the size of linear space spanned by the logits of its conditional distributions, and the expected length of sampled strings are strong and significant predictors of learnability for both RNNs and Transformers. Several other predictors also reach significance, but with differing patterns between RNNs and Transformers.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# NoisyGL: ラベルノイズ下でのグラフニューラルネットワークの総合ベンチマーク

NoisyGL: A Comprehensive Benchmark for Graph Neural Networks under Label Noise ( http://arxiv.org/abs/2406.04299v2 )

ライセンス: Link先を確認
Zhonghao Wang, Danyu Sun, Sheng Zhou, Haobo Wang, Jiapei Fan, Longtao Huang, Jiajun Bu, (参考訳) グラフニューラルネットワーク(GNN)は、メッセージパッシング機構を通じてノード分類タスクにおいて強力なポテンシャルを示す。 しかし、その性能はしばしば高品質なノードラベルに依存しており、信頼できないソースや敵の攻撃のため、現実のシナリオでは入手が困難である。 その結果、実世界のグラフデータではラベルノイズが一般的であり、トレーニング中に誤った情報を伝播することでGNNに悪影響を及ぼす。 この問題に対処するため,ラベルノイズ(GLN)下でのグラフニューラルネットワークの研究が近年,注目を集めている。 しかし、データセットの選択、データ分割、前処理のテクニックのバリエーションのため、コミュニティは現在、包括的なベンチマークを欠いているため、GLNのより深い理解とさらなる開発を妨げる。 このギャップを埋めるために,ラベルノイズ下でのグラフニューラルネットワークの総合ベンチマークであるNoisyGLを紹介する。 NoisyGLは、さまざまなデータセットにわたるノイズラベル付きグラフデータ上のGLNメソッドの公平な比較と詳細な分析を可能にする。 我々のベンチマークでは、過去の研究で見逃されたいくつかの重要な知見が明らかにされており、これらの発見は将来の研究にとって非常に有益であると信じています。 オープンソースベンチマークライブラリがこの分野のさらなる進歩を促進することを期待しています。 ベンチマークのコードはhttps://github.com/eaglelab-zju/NoisyGLにある。

Graph Neural Networks (GNNs) exhibit strong potential in node classification task through a message-passing mechanism. However, their performance often hinges on high-quality node labels, which are challenging to obtain in real-world scenarios due to unreliable sources or adversarial attacks. Consequently, label noise is common in real-world graph data, negatively impacting GNNs by propagating incorrect information during training. To address this issue, the study of Graph Neural Networks under Label Noise (GLN) has recently gained traction. However, due to variations in dataset selection, data splitting, and preprocessing techniques, the community currently lacks a comprehensive benchmark, which impedes deeper understanding and further development of GLN. To fill this gap, we introduce NoisyGL in this paper, the first comprehensive benchmark for graph neural networks under label noise. NoisyGL enables fair comparisons and detailed analyses of GLN methods on noisy labeled graph data across various datasets, with unified experimental settings and interface. Our benchmark has uncovered several important insights that were missed in previous research, and we believe these findings will be highly beneficial for future studies. We hope our open-source benchmark library will foster further advancements in this field. The code of the benchmark can be found in https://github.com/eaglelab-zju/NoisyGL.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# DIRECT-3D:大規模雑音データを用いた直接テキスト・ツー・3D生成の学習

DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data ( http://arxiv.org/abs/2406.04322v2 )

ライセンス: Link先を確認
Qihao Liu, Yi Zhang, Song Bai, Adam Kortylewski, Alan Yuille, (参考訳) DIRECT-3Dは、テキストプロンプトから高品質な3Dアセットを作成するための拡散に基づく3D生成モデルである。 クリーンで整合性の高い3Dデータに依存している最近の3D生成モデルとは異なり、我々のモデルは大規模な3D生成において重要な課題(すなわちデータ不足)を軽減し、広範囲のノイズと非整合な3Dアセットに基づいて直接訓練されている。 特に、DIRECT-3Dは2つのイノベーションを統合する三面拡散モデルである。 1) 学習過程において, ノイズの多いデータをフィルタリングし, 自動的にアライメントする新しい学習フレームワーク。 具体的には、少量のクリーンデータを用いた初期ウォームアップフェーズの後、拡散過程に反復最適化を導入し、オブジェクトの3Dポーズを明示的に推定し、条件密度に基づいて有益なデータを選択する。 2) 物体形状と色特徴を階層的に最適化した2つの異なる条件拡散モデルで切り離すことにより, 効率的な3次元表現を実現する。 迅速な入力を与えられたモデルでは、高精度で高解像度でリアルで複雑な3Dオブジェクトを生成し、正確な幾何学的詳細を数秒で生成する。 単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。 また、DreamFusionのような2次元リフト法において、よく知られたJanus問題を緩和するために、DIRECT-3Dがオブジェクトの3次元幾何として有用であることを示す。 コードとモデルは、 https://github.com/qihao067/direct3d.comで研究目的で利用可能である。

We present DIRECT-3D, a diffusion-based 3D generative model for creating high-quality 3D assets (represented by Neural Radiance Fields) from text prompts. Unlike recent 3D generative models that rely on clean and well-aligned 3D data, limiting them to single or few-class generation, our model is directly trained on extensive noisy and unaligned `in-the-wild' 3D assets, mitigating the key challenge (i.e., data scarcity) in large-scale 3D generation. In particular, DIRECT-3D is a tri-plane diffusion model that integrates two innovations: 1) A novel learning framework where noisy data are filtered and aligned automatically during the training process. Specifically, after an initial warm-up phase using a small set of clean data, an iterative optimization is introduced in the diffusion process to explicitly estimate the 3D pose of objects and select beneficial data based on conditional density. 2) An efficient 3D representation that is achieved by disentangling object geometry and color features with two separate conditional diffusion models that are optimized hierarchically. Given a prompt input, our model generates high-quality, high-resolution, realistic, and complex 3D objects with accurate geometric details in seconds. We achieve state-of-the-art performance in both single-class generation and text-to-3D generation. We also demonstrate that DIRECT-3D can serve as a useful 3D geometric prior of objects, for example to alleviate the well-known Janus problem in 2D-lifting methods such as DreamFusion. The code and models are available for research purposes at: https://github.com/qihao067/direct3d.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07
# 物理3D:ビデオ拡散による3Dガウスの物理特性の学習

Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion ( http://arxiv.org/abs/2406.04338v2 )

ライセンス: Link先を確認
Fangfu Liu, Hanyang Wang, Shunyu Yao, Shengjun Zhang, Jie Zhou, Yueqi Duan, (参考訳) 近年,3次元オブジェクトの動的動きをシミュレートしたり,動作をカスタマイズしたりといった応用の可能性が高まっている。 しかし、現在の3D生成モデルは、現実世界の物体の挙動を規定する固有の物理的特性を無視し、色や形状のような表面的特徴にのみ焦点をあてる傾向にある。 物理に整合した力学を正確にシミュレートするためには、材料の物性を予測し、それらを挙動予測プロセスに組み込むことが不可欠である。 それでも、現実世界の物体の様々な物質を予測することは、それらの物理的特性の複雑な性質のため、依然として困難である。 本稿では,映像拡散モデルを用いて3次元物体の様々な物理的特性を学習する新しい手法である「textbf{Physics3D}」を提案する。 本手法では, 粘弾性材料モデルに基づく高汎化可能な物理シミュレーションシステムを設計し, 高忠実度機能を有する幅広い材料をシミュレートする。 さらに,現実的な対象物のより深い理解を含むビデオ拡散モデルから,物理先行情報を抽出する。 本手法の有効性を, 弾性材料とプラスチック材料の両方で実証した。 物理3Dは、物理世界と仮想神経空間のギャップを埋める大きな可能性を示し、仮想環境における現実的な物理原理のより良い統合と応用を提供する。 プロジェクトページ: https://liuff19.github.io/Physics3D。

In recent years, there has been rapid development in 3D generation models, opening up new possibilities for applications such as simulating the dynamic movements of 3D objects and customizing their behaviors. However, current 3D generative models tend to focus only on surface features such as color and shape, neglecting the inherent physical properties that govern the behavior of objects in the real world. To accurately simulate physics-aligned dynamics, it is essential to predict the physical properties of materials and incorporate them into the behavior prediction process. Nonetheless, predicting the diverse materials of real-world objects is still challenging due to the complex nature of their physical attributes. In this paper, we propose \textbf{Physics3D}, a novel method for learning various physical properties of 3D objects through a video diffusion model. Our approach involves designing a highly generalizable physical simulation system based on a viscoelastic material model, which enables us to simulate a wide range of materials with high-fidelity capabilities. Moreover, we distill the physical priors from a video diffusion model that contains more understanding of realistic object materials. Extensive experiments demonstrate the effectiveness of our method with both elastic and plastic materials. Physics3D shows great potential for bridging the gap between the physical world and virtual neural space, providing a better integration and application of realistic physical principles in virtual environments. Project page: https://liuff19.github.io/Physics3D.
翻訳日:2024-06-10 12:43:28 公開日:2024-06-07