このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241030となっている論文です。

PDF登録状況(公開日: 20241030)

TitleAuthorsAbstract論文公表日・翻訳日
# 解釈型学習による機能的応答をもつメタマテリアルの逆設計

Generative Inverse Design of Metamaterials with Functional Responses by Interpretable Learning ( http://arxiv.org/abs/2401.00003v4 )

ライセンス: Link先を確認
Wei "Wayne" Chen, Rachel Sun, Doksoo Lee, Carlos M. Portela, Wei Chen, (参考訳) 外部刺激下での波動応答や変形誘起特性の変化などの機能的応答を持つメタマテリアルは、異なる条件下での様々な特性や機能を示すことができる。 本稿では,これらのメタマテリアルの迅速な逆設計を目標とした定性的機能的挙動を満たすことを目的とする。 この逆問題は、その難易度と非特異解の存在により困難である。 過去の研究は主に、データオンデマンドで、時間を要するトレーニングとハイパーパラメータチューニングを必要とし、解釈不可能なディープラーニングベースの手法に重点を置いてきた。 これらの制約を克服するために,Random-forest-based Interpretable Generative Inverse Design (RIGID)を提案する。 多くの既存手法とは異なり、ランダムな森の解釈可能性を活用することにより、設計に対する逆モデルマッピング応答をトレーニングする必要がなくなる。 トレーニングされたフォワードモデルから得られた目標満足度の可能性に基づいて、マルコフ連鎖モンテカルロ法を用いて設計ソリューションをサンプリングすることができる。 したがって、RIGID法は、設計対象が与えられた満足解の条件分布をキャプチャする生成モデルとして機能する。 本稿では,RIGIDの音響的および光学的メタマテリアル設計問題に対する有効性と有効性を示す。 合成設計問題は、RIGIDにおける仮説推定のメカニズムをさらに説明し、検証するために作成される。 この研究は、オンデマンドの逆設計問題を解決するための新しい視点を提供し、解釈可能な機械学習を生成設計に組み込む可能性を示し、その大規模なデータ要求を排除している。

Metamaterials with functional responses, such as wave-based responses or deformation-induced property variation under external stimuli, can exhibit varying properties or functionalities under different conditions. Herein, we aim at rapid inverse design of these metamaterials to meet target qualitative functional behaviors. This inverse problem is challenging due to its intractability and the existence of non-unique solutions. Past works mainly focus on deep-learning-based methods that are data-demanding, require time-consuming training and hyperparameter tuning, and are non-interpretable. To overcome these limitations, we propose the Random-forest-based Interpretable Generative Inverse Design (RIGID), an iteration-free, single-shot inverse design method to achieve the fast generation of metamaterial designs with on-demand functional behaviors. Unlike most existing methods, by exploiting the interpretability of the random forest, we eliminate the need to train an inverse model mapping responses to designs. Based on the likelihood of target satisfaction derived from the trained forward model, one can sample design solutions using Markov chain Monte Carlo methods. The RIGID method therefore functions as a generative model that captures the conditional distribution of satisfying solutions given a design target. We demonstrate the effectiveness and efficiency of RIGID on both acoustic and optical metamaterial design problems where only small datasets (less than 250 training samples) are available. Synthetic design problems are created to further illustrate and validate the mechanism of likelihood estimation in RIGID. This work offers a new perspective on solving on-demand inverse design problems, showcasing the potential for incorporating interpretable machine learning into generative design and eliminating its large data requirement.
翻訳日:2024-11-09 05:28:28 公開日:2024-10-30
# コンテンツなしのトレーニング:コードでトレーニングされた言語モデルにおけるコードインクルージョンの検出

Trained Without My Consent: Detecting Code Inclusion In Language Models Trained on Code ( http://arxiv.org/abs/2402.09299v2 )

ライセンス: Link先を確認
Vahid Majdinasab, Amin Nikanjam, Foutse Khomh, (参考訳) コード監査は、開発済みのコードが保護されたソースのコードを含んでいないことを検証することによって、標準、規制、著作権保護に準拠していることを保証する。 ソフトウェア開発プロセスにおけるコーディングアシスタントとしての最近のLarge Language Models(LLM)の出現は、コード監査に新たな課題をもたらしている。 これらのモデルをトレーニングするためのデータセットは、主に公開されているソースから収集される。 これは、開発者がすでにデータセットに含まれているため、知的財産権侵害の問題を提起する。 したがって、LLMを使用して開発された監査コードは困難であり、これらのモデルのトレーニングデータセットにアクセスできないため、開発中にLLMが特定の著作権コードでトレーニングされているかどうかを確実に主張することは困難である。 トレーニングデータセットが開示されていないことを考えると、コードクローン検出のような従来のアプローチは著作権侵害を主張するには不十分である。 この課題に対処するため,LLMのトレーニングデータセットにコードを含むことを検出するためのメンバシップ推論に基づくモデルに依存しない,解釈可能な手法であるTraWiCを提案する。 コードインクルージョンを検出するための分類器を訓練するために,各プログラム固有の構文的および意味的識別子を抽出する。 我々の実験では、TraWiCはLLMのトレーニングに使われたコードの83.87%を検出できることがわかった。 一方、一般的なクローン検出ツールであるNiCadは47.64%しか検出できない。 注目すべきパフォーマンスに加えて、TraWiCは、数千のコードスニペットにわたるCodeWhisperer参照トラッカーのようなツールの監査プロセス中に実行されるペアワイズクローン検出とは対照的に、リソースオーバーヘッドが低い。

Code auditing ensures that the developed code adheres to standards, regulations, and copyright protection by verifying that it does not contain code from protected sources. The recent advent of Large Language Models (LLMs) as coding assistants in the software development process poses new challenges for code auditing. The dataset for training these models is mainly collected from publicly available sources. This raises the issue of intellectual property infringement as developers' codes are already included in the dataset. Therefore, auditing code developed using LLMs is challenging, as it is difficult to reliably assert if an LLM used during development has been trained on specific copyrighted codes, given that we do not have access to the training datasets of these models. Given the non-disclosure of the training datasets, traditional approaches such as code clone detection are insufficient for asserting copyright infringement. To address this challenge, we propose a new approach, TraWiC; a model-agnostic and interpretable method based on membership inference for detecting code inclusion in an LLM's training dataset. We extract syntactic and semantic identifiers unique to each program to train a classifier for detecting code inclusion. In our experiments, we observe that TraWiC is capable of detecting 83.87% of codes that were used to train an LLM. In comparison, the prevalent clone detection tool NiCad is only capable of detecting 47.64%. In addition to its remarkable performance, TraWiC has low resource overhead in contrast to pair-wise clone detection that is conducted during the auditing process of tools like CodeWhisperer reference tracker, across thousands of code snippets.
翻訳日:2024-11-09 04:43:41 公開日:2024-10-30
# 大規模言語モデルによる強化強化学習に関する調査:概念・分類・方法

Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods ( http://arxiv.org/abs/2404.00282v2 )

ライセンス: Link先を確認
Yuji Cao, Huan Zhao, Yuheng Cheng, Ting Shu, Yue Chen, Guolong Liu, Gaoqi Liang, Junhua Zhao, Jinyue Yan, Yun Li, (参考訳) 事前訓練された知識と高レベルの汎用能力により、多タスク学習、サンプル効率、高レベルのタスク計画といった側面において強化学習(RL)を強化するための有望な手段として、大規模言語モデル(LLM)が出現する。 本研究では,LLMを拡張したRLにおける既存文献の総合的なレビューを行い,その特徴を従来のRL法と比較し,今後の研究対象と方向性を明らかにすることを目的とした。 従来のエージェント環境相互作用のパラダイムを用いて,情報処理,報酬設計,意思決定,ジェネレータの4つの役割を含む,RLにおけるLLMの機能を体系的に分類する構造的分類法を提案する。 それぞれの役割について、方法論を要約し、緩和される特定のRL課題を分析し、今後の方向性についての洞察を提供する。 最後に, LLM強化RLにおける役割, 可能性, 可能性, 可能性, 課題について比較分析を行った。 この分類法を提案することで、ロボット工学、自律運転、エネルギーシステムといった複雑な応用において、研究者がRL分野におけるLLMを効果的に活用するためのフレームワークを提供することを目指している。

With extensive pre-trained knowledge and high-level general capabilities, large language models (LLMs) emerge as a promising avenue to augment reinforcement learning (RL) in aspects such as multi-task learning, sample efficiency, and high-level task planning. In this survey, we provide a comprehensive review of the existing literature in LLM-enhanced RL and summarize its characteristics compared to conventional RL methods, aiming to clarify the research scope and directions for future studies. Utilizing the classical agent-environment interaction paradigm, we propose a structured taxonomy to systematically categorize LLMs' functionalities in RL, including four roles: information processor, reward designer, decision-maker, and generator. For each role, we summarize the methodologies, analyze the specific RL challenges that are mitigated, and provide insights into future directions. Lastly, a comparative analysis of each role, potential applications, prospective opportunities, and challenges of the LLM-enhanced RL are discussed. By proposing this taxonomy, we aim to provide a framework for researchers to effectively leverage LLMs in the RL field, potentially accelerating RL applications in complex applications such as robotics, autonomous driving, and energy systems.
翻訳日:2024-11-09 03:37:09 公開日:2024-10-30
# 平面弦音の物理モデリングと運動シミュレーションのための微分可能なモーダル合成

Differentiable Modal Synthesis for Physical Modeling of Planar String Sound and Motion Simulation ( http://arxiv.org/abs/2407.05516v2 )

ライセンス: Link先を確認
Jin Woo Lee, Jaehyun Park, Min Jun Choi, Kyogu Lee, (参考訳) 機械学習やコンピュータオーディションにおいて、音楽生成や音響合成の大幅な進歩が見られたが、物理法則で導かれる楽器振動のシミュレーションは過小評価されている。 このギャップに対処するために、非線形弦の時空間運動をシミュレートし、モーダル合成とスペクトルモデリングをニューラルネットワークフレームワークに統合する新しいモデルを導入する。 我々のモデルは、入力として物理特性と基本周波数を利用し、非線形弦を特徴づける偏微分方程式を解く時間と空間にわたって弦状態を出力する。 経験的評価により,提案アーキテクチャは既存のベースラインアーキテクチャと比較して,弦運動シミュレーションの精度が優れていることが示された。 コードとデモはオンラインで公開されている。

While significant advancements have been made in music generation and differentiable sound synthesis within machine learning and computer audition, the simulation of instrument vibration guided by physical laws has been underexplored. To address this gap, we introduce a novel model for simulating the spatio-temporal motion of nonlinear strings, integrating modal synthesis and spectral modeling within a neural network framework. Our model leverages physical properties and fundamental frequencies as inputs, outputting string states across time and space that solve the partial differential equation characterizing the nonlinear string. Empirical evaluations demonstrate that the proposed architecture achieves superior accuracy in string motion simulation compared to existing baseline architectures. The code and demo are available online.
翻訳日:2024-11-08 23:24:33 公開日:2024-10-30
# H-STAR: LLM駆動型ハイブリッドSQL-Text Adaptive Reasoning on Tables

H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables ( http://arxiv.org/abs/2407.05952v2 )

ライセンス: Link先を確認
Nikhil Abhyankar, Vivek Gupta, Dan Roth, Chandan K. Reddy, (参考訳) タブラル推論では、自然言語クエリを表型データについて解釈するが、これは言語理解と構造化データ分析を組み合わせるというユニークな課題である。 既存の手法では、意味論的解釈に優れるが数学的操作に苦しむテキスト推論や、計算をうまく処理するが意味論的理解に欠けるシンボリック推論が採用されている。 本稿では,これらの制約に対処する2段階プロセスにおいて,記号的アプローチと意味的アプローチの両方を統合する新しいアルゴリズムH-STARを提案する。 H-STAR では,(1) 「複数ビュー」 列の検索と行抽出によるステップワイズテーブル抽出,(2) 質問型に基づく推論戦略を適応する適応推論,(2) 直接検索と複雑な語彙クエリのセマンティック推論を活用するとともに,量的および論理的タスクのシンボリック推論によるテキスト推論を増強する。 我々の広範な実験により,H-STARは3つの表付き質問回答(QA)と事実検証データセットで最先端の手法を大幅に上回り,その有効性と効率性を実証した。

Tabular reasoning involves interpreting natural language queries about tabular data, which presents a unique challenge of combining language understanding with structured data analysis. Existing methods employ either textual reasoning, which excels in semantic interpretation but struggles with mathematical operations, or symbolic reasoning, which handles computations well but lacks semantic understanding. This paper introduces a novel algorithm H-STAR that integrates both symbolic and semantic (textual) approaches in a two-stage process to address these limitations. H-STAR employs: (1) step-wise table extraction using `multi-view' column retrieval followed by row extraction, and (2) adaptive reasoning that adapts reasoning strategies based on question types, utilizing semantic reasoning for direct lookup and complex lexical queries while augmenting textual reasoning with symbolic reasoning support for quantitative and logical tasks. Our extensive experiments demonstrate that H-STAR significantly outperforms state-of-the-art methods across three tabular question-answering (QA) and fact-verification datasets, underscoring its effectiveness and efficiency.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-30
# Sketchy Moment Matching: ファインタニングのための高速かつ予測可能なデータ選択を目指して

Sketchy Moment Matching: Toward Fast and Provable Data Selection for Finetuning ( http://arxiv.org/abs/2407.06120v2 )

ライセンス: Link先を確認
Yijun Dong, Hoang Phan, Xiang Pan, Qi Lei, (参考訳) 基本的観点から、ファインタニングの現代的文脈でデータ選択を再考する。 低次元の分散最小化の古典的知恵を高次元の微調整に拡張することにより、一般化解析は低階近似によるバイアスの低減の重要性を明らかにする。 この理論から高次元の分散バイアストレードオフに着想を得て,2段階のスケーラブルなデータ選択方式であるSketchy Moment Matching(SkMM)を導入する。 (i)第一に、バイアスは、情報的低次元部分空間 $\mathcal{S}$; に対する微調整パラメータ空間を探索する勾配スケッチを用いて制御される。 (ii) 元のデータセットと選択したデータセットのモーメントマッチングにより$\mathcal{S}$に分散が減少する。 例えば、$\mathcal{S}$ の分散を減らして$n$サンプルを選択すると、パラメータ次元とは無関係に、高速レートの一般化 $O(\dim(\mathcal{S})/n)$ が保存される。 実験により, 分散バイアスバランスを合成実験により向上させ, 実視タスクの微調整におけるSkMMの有効性を実証した。

We revisit data selection in a modern context of finetuning from a fundamental perspective. Extending the classical wisdom of variance minimization in low dimensions to high-dimensional finetuning, our generalization analysis unveils the importance of additionally reducing bias induced by low-rank approximation. Inspired by the variance-bias tradeoff in high dimensions from the theory, we introduce Sketchy Moment Matching (SkMM), a scalable data selection scheme with two stages. (i) First, the bias is controlled using gradient sketching that explores the finetuning parameter space for an informative low-dimensional subspace $\mathcal{S}$; (ii) then the variance is reduced over $\mathcal{S}$ via moment matching between the original and selected datasets. Theoretically, we show that gradient sketching is fast and provably accurate: selecting $n$ samples by reducing variance over $\mathcal{S}$ preserves the fast-rate generalization $O(\dim(\mathcal{S})/n)$, independent of the parameter dimension. Empirically, we concretize the variance-bias balance via synthetic experiments and demonstrate the effectiveness of SkMM for finetuning in real vision tasks.
翻訳日:2024-11-08 23:13:33 公開日:2024-10-30
# DP-SGDに非凸損失のプライバシー対策はない

It's Our Loss: No Privacy Amplification for Hidden State DP-SGD With Non-Convex Loss ( http://arxiv.org/abs/2407.06496v3 )

ライセンス: Link先を確認
Meenatchi Sundaram Muthu Selva Annamalai, (参考訳) Differentially Private Stochastic Gradient Descent (DP-SGD)は、機械学習モデルのトレーニングに使用される一般的な反復アルゴリズムである。 しかし、DP-SGDのプライバシ分析は、アルゴリズムのすべての中間イテレート(内部状態)が解放されるという非現実的な仮定を与える。 この隠れ状態設定において、先行研究は、損失関数が制約された場合にのみ、例えば、強く凸し、滑らかで、線形であるにもかかわらず、より厳密な解析を提供してきた。 一方、非凸損失関数を用いた場合であっても、隠蔽状態DP-SGDから経験的に発見されたプライバシー漏洩は、理論的なプライバシー分析と実際に達成されたプライバシー保証との間にギャップがあることを示唆している。 したがって、DP-SGDの隠蔽状態のプライバシの増幅が、一般にすべての(おそらくは非凸)損失関数に対して可能であるかどうかについては、未解決のままである。 本研究では,逆例を設計し,理論上も実証上もDP-SGDのすべての損失関数に対する隠れ状態のプライバシアンプリフィケーション結果が不可能であることを示す。 DP-SGDの損失関数を慎重に構築することにより、DP-SGDの最終的な繰り返しは、全ての繰り返しの順序が組み合わされた情報だけをリークすることを示す。 さらに,DP-SGDの最終繰り返しからのプライバシー漏洩を損失関数と評価することにより,この結果を実証的に検証し,DPが保証する理論上界と正確に一致することを示す。 したがって、DP-SGDの現在のプライバシ分析は、一般の損失関数に対して厳密であり、一般の(非凸的な)損失関数に対しては、DP-SGDのプライバシ増幅が不可能であることを示す。

Differentially Private Stochastic Gradient Descent (DP-SGD) is a popular iterative algorithm used to train machine learning models while formally guaranteeing the privacy of users. However, the privacy analysis of DP-SGD makes the unrealistic assumption that all intermediate iterates (aka internal state) of the algorithm are released since, in practice, only the final trained model, i.e., the final iterate of the algorithm is released. In this hidden state setting, prior work has provided tighter analyses, albeit only when the loss function is constrained, e.g., strongly convex and smooth or linear. On the other hand, the privacy leakage observed empirically from hidden state DP-SGD, even when using non-convex loss functions, suggests that there is in fact a gap between the theoretical privacy analysis and the privacy guarantees achieved in practice. Therefore, it remains an open question whether hidden state privacy amplification for DP-SGD is possible for all (possibly non-convex) loss functions in general. In this work, we design a counter-example and show, both theoretically and empirically, that a hidden state privacy amplification result for DP-SGD for all loss functions in general is not possible. By carefully constructing a loss function for DP-SGD, we show that for specific loss functions, the final iterate of DP-SGD alone leaks as much information as the sequence of all iterates combined. Furthermore, we empirically verify this result by evaluating the privacy leakage from the final iterate of DP-SGD with our loss function and show that this exactly matches the theoretical upper bound guaranteed by DP. Therefore, we show that the current privacy analysis for DP-SGD is tight for general loss functions and conclude that no privacy amplification is possible for DP-SGD in general for all (possibly non-convex) loss functions.
翻訳日:2024-11-08 23:02:19 公開日:2024-10-30
# 効率的な連続制御のためのQ関数付き拡散挙動の調整

Aligning Diffusion Behaviors with Q-functions for Efficient Continuous Control ( http://arxiv.org/abs/2407.09024v2 )

ライセンス: Link先を確認
Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu, (参考訳) 言語モデルアライメントの最近の進歩に基づき、オフライン強化学習を2段階最適化問題として定式化します。 まず、報酬のない行動データセットに対して表現豊かな生成ポリシーを事前訓練し、次に、これらのポリシーをQ値のようなタスク固有のアノテーションに合わせるように微調整します。 この戦略により、多種多様な行動データを活用し、一般化を強化し、最小限のアノテーションを使って下流タスクへの迅速な適応を可能にする。 特に,連続制御問題を解くための効率的な拡散アライメント(EDA)を導入する。 EDAは拡散モデルを用いて行動モデリングを行う。 しかし、従来のアプローチとは異なり、我々は拡散ポリシーを行動入力に対するスカラーニューラルネットワークの微分として表現する。 この表現は拡散モデルの直接密度計算を可能にするため、既存のLLMアライメント理論と互換性がある。 ポリシーの微調整中に、直接優先度最適化(DPO)のような嗜好に基づくアライメント手法を拡張して、拡散挙動を連続的なQ-関数と整合させる。 D4RL ベンチマークによる評価の結果,EDA は全体の性能においてすべての基準手法を超越していることがわかった。 特に、EDAは95%程度のパフォーマンスを維持し、微調整中にQラベル付きデータのわずか1倍の精度でいくつかのベースラインを上回ります。

Drawing upon recent advances in language model alignment, we formulate offline Reinforcement Learning as a two-stage optimization problem: First pretraining expressive generative policies on reward-free behavior datasets, then fine-tuning these policies to align with task-specific annotations like Q-values. This strategy allows us to leverage abundant and diverse behavior data to enhance generalization and enable rapid adaptation to downstream tasks using minimal annotations. In particular, we introduce Efficient Diffusion Alignment (EDA) for solving continuous control problems. EDA utilizes diffusion models for behavior modeling. However, unlike previous approaches, we represent diffusion policies as the derivative of a scalar neural network with respect to action inputs. This representation is critical because it enables direct density calculation for diffusion models, making them compatible with existing LLM alignment theories. During policy fine-tuning, we extend preference-based alignment methods like Direct Preference Optimization (DPO) to align diffusion behaviors with continuous Q-functions. Our evaluation on the D4RL benchmark shows that EDA exceeds all baseline methods in overall performance. Notably, EDA maintains about 95\% of performance and still outperforms several baselines given only 1\% of Q-labelled data during fine-tuning.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-30
# 異なる言語による画像キャプション

Image captioning in different languages ( http://arxiv.org/abs/2407.09495v2 )

ライセンス: Link先を確認
Emiel van Miltenburg, (参考訳) 本論文は、非英語画像キャプションデータセット(2024年5月現在)を手作業でキュレートしたリストを提供する。 このリストを通じて、異なる言語におけるデータセットの変形を観察できる。 クロスモーダル3600データセット(Thapliyal et al , 2022, 36言語)が加わったことにより、この数字は幾らか増加するが、それでも+/-500の制度言語に比べれば少ない。 本稿では、ビジョン&ランゲージの分野について、いくつかのオープンな質問で締めくくります。

This short position paper provides a manually curated list of non-English image captioning datasets (as of May 2024). Through this list, we can observe the dearth of datasets in different languages: only 23 different languages are represented. With the addition of the Crossmodal-3600 dataset (Thapliyal et al., 2022, 36 languages) this number increases somewhat, but still this number is small compared to the +/-500 institutional languages that are out there. This paper closes with some open questions for the field of Vision & Language.
翻訳日:2024-11-08 21:54:45 公開日:2024-10-30
# ペルシャのLLMを教育に活用する:新しいデータセットとトレーニングアプローチ

Empowering Persian LLMs for Instruction Following: A Novel Dataset and Training Approach ( http://arxiv.org/abs/2407.11186v3 )

ライセンス: Link先を確認
Hojjat Mokhtarabadi, Ziba Zamani, Abbas Maazallahi, Mohammad Hossein Manshaei, (参考訳) 命令調整型大規模言語モデルは、様々な領域にまたがる人間の指示に従う際、顕著な能力を示した。 しかし、その習熟度は多くの低リソース言語で顕著に不足している。 この課題に対処するために、我々はFarsInstructという包括的命令データセットを導入し、ペルシャ語に特化して大きな言語モデルを世界規模で有意に表現されていない言語として活用する能力の向上を図った。 FarsInstructには幅広いタスクタイプとデータセットが含まれており、それぞれが単純で複雑な手書きの命令と、Promptsのパブリックプールからの翻訳が混在しており、豊かな言語的・文化的表現が確保されている。 さらに,LoRA設計モデルのマルチタスク適応性向上を目的としたフレームワークであるCo-CoLAを紹介する。 本研究では,Co-CoLAフレームワークによるトレーニングと組み合わせたFarsInstructデータセットの有効性を示すとともに,ペルシャの文脈における大規模言語モデルの性能向上について検討した。 現在の執筆時点で、FarsInstructは21の異なるデータセットにわたる197のテンプレートで構成されています。

Instruction-tuned large language models have demonstrated remarkable capabilities in following human instructions across various domains. However, their proficiency remains notably deficient in many low-resource languages. To address this challenge, we begin by introducing FarsInstruct a comprehensive instruction dataset designed to enhance the instruction following ability of large language models specifically for the Persian language a significant yet underrepresented language globally. FarsInstruct encompasses a wide range of task types and datasets, each containing a mix of straightforward to complex manual written instructions, as well as translations from the Public Pool of Prompts, ensuring a rich linguistic and cultural representation. Furthermore, we introduce Co-CoLA, a framework designed to enhance the multi-task adaptability of LoRA-tuned models. Through extensive experimental analyses, our study showcases the effectiveness of the FarsInstruct dataset coupled with training by the Co-CoLA framework, in improving the performance of large language models within the Persian context. As of the current writing, FarsInstruct comprises 197 templates across 21 distinct datasets, and we intend to update it consistently, thus augmenting its applicability.
翻訳日:2024-11-08 21:21:36 公開日:2024-10-30
# 機械学習における疑わしい実践

Questionable practices in machine learning ( http://arxiv.org/abs/2407.12220v2 )

ライセンス: Link先を確認
Gavin Leech, Juan J. Vazquez, Niclas Kupper, Misha Yagudin, Laurence Aitchison, (参考訳) 最新のMLモデルを評価するのは難しい。 研究者や企業が何らかの指標で最先端の結果を報告する強いインセンティブは、しばしば疑わしい研究慣行(QRP)につながる。 報告結果を損なうことのできる44のプラクティスについて説明する。 我々のリストは、公開ベンチマークにおける大規模言語モデル(LLM)の評価に重点を置いている。 また、他の研究者が以前の研究を再現し、構築し、監査することを困難または不可能にする「再現不可能な研究慣行」についても論じる。

Evaluating modern ML models is hard. The strong incentive for researchers and companies to report a state-of-the-art result on some metric often leads to questionable research practices (QRPs): bad practices which fall short of outright research fraud. We describe 44 such practices which can undermine reported results, giving examples where possible. Our list emphasises the evaluation of large language models (LLMs) on public benchmarks. We also discuss "irreproducible research practices", i.e. decisions that make it difficult or impossible for other researchers to reproduce, build on or audit previous research.
翻訳日:2024-11-08 20:48:00 公開日:2024-10-30
# InterpBench:機械的解釈可能性評価のための半合成変換器

InterpBench: Semi-Synthetic Transformers for Evaluating Mechanistic Interpretability Techniques ( http://arxiv.org/abs/2407.14494v2 )

ライセンス: Link先を確認
Rohan Gupta, Iván Arcuschin, Thomas Kwa, Adrià Garriga-Alonso, (参考訳) 機械的解釈可能性法は、ニューラルネットワークが実装するアルゴリズムを特定することを目的としているが、真のアルゴリズムが不明な場合には、そのような手法を検証することは困難である。 この研究は、これらの技術を評価するための既知の回路を備えた半合成的で現実的な変換器のコレクションであるInterpBenchを提示する。 我々は、Strict IIT(SIIT)と呼ばれる、より厳密なIIT(Interchange Intervention Training)を用いて、単純なニューラルネットワークを訓練する。 元のように、SIITはニューラルネットワークをトレーニングし、内部計算を所望の高レベル因果モデルと整列させるが、非回路ノードがモデルの出力に影響を与えるのを防ぐ。 我々は,Tracr ツールが生成するスパース変換器上でSIITを評価し,SIIT モデルがトラクラのオリジナル回路をよりリアルに維持していることを確認した。 SIITは、Indirect Object Identification (IOI)のような大きな回路でトランスフォーマーを訓練することもできる。 最後に,既存の回路発見技術の評価にベンチマークを用いた。

Mechanistic interpretability methods aim to identify the algorithm a neural network implements, but it is difficult to validate such methods when the true algorithm is unknown. This work presents InterpBench, a collection of semi-synthetic yet realistic transformers with known circuits for evaluating these techniques. We train simple neural networks using a stricter version of Interchange Intervention Training (IIT) which we call Strict IIT (SIIT). Like the original, SIIT trains neural networks by aligning their internal computation with a desired high-level causal model, but it also prevents non-circuit nodes from affecting the model's output. We evaluate SIIT on sparse transformers produced by the Tracr tool and find that SIIT models maintain Tracr's original circuit while being more realistic. SIIT can also train transformers with larger circuits, like Indirect Object Identification (IOI). Finally, we use our benchmark to evaluate existing circuit discovery techniques.
翻訳日:2024-11-08 19:27:32 公開日:2024-10-30
# ハイブリッド金属-誘電体平面フォトニック構造におけるパーセル効果によって決定されるhBNにおける量子エミッタの量子効率と垂直位置

Quantum efficiency and vertical position of quantum emitters in hBN determined by Purcell effect in hybrid metal-dielectric planar photonic structures ( http://arxiv.org/abs/2407.20160v2 )

ライセンス: Link先を確認
Domitille Gérard, Aurélie Pierret, Helmi Fartas, Bruno Bérini, Stéphanie Buil, Jean-Pierre Hermier, Aymeric Delteil, (参考訳) 六方晶窒化ホウ素(hBN)の発色中心は、優れた光物性と高度にコンパクトなデバイスへの集積の可能性とを有利に組み合わせている。 スケーラブルな統合への進歩は、高い量子効率と効率的な光子収集を必要とする。 この文脈では、2つの異なる電磁環境において、電子照射によって生成される個々のhBN色中心の光学的特性を比較する。 剥離した結晶の乾燥移動前後で特徴付ける、よく同定された発光体の追跡を継続する。 この比較は、それらの量子効率(単位に近い)に関する情報と、結晶内の垂直位置をナノメートル精度で示し、フレーク面から逸脱している。 本研究は, 2次元材料や平面フォトニック構造において, 量子エミッタのキャラクタリゼーションだけでなく, 量子エミッタのキャラクタリゼーションにも有効なハイブリッド誘電体-金属平板構造を提案する。

Color centers in hexagonal boron nitride (hBN) advantageously combine excellent photophysical properties with a potential for integration in highly compact devices. Progress towards scalable integration necessitates a high quantum efficiency and an efficient photon collection. In this context, we compare the optical characteristics of individual hBN color centers generated by electron irradiation, in two different electromagnetic environments. We keep track of well-identified emitters that we characterize before and after dry transfer of exfoliated crystals. This comparison provides information about their quantum efficiency - which we find close to unity - as well as their vertical position in the crystal with nanometric precision, which we find away from the flake surfaces. Our work suggests hybrid dielectric-metal planar structures as an efficient tool for characterizing quantum emitters in addition to improving the count rate, and can be generalized to other emitters in 2D materials or in planar photonic structures.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-30
# ハイブリッド金属-誘電体平面フォトニック構造におけるパーセル効果によって決定されるhBNにおける量子エミッタの量子効率と垂直位置

Quantum efficiency and vertical position of quantum emitters in hBN determined by Purcell effect in hybrid metal-dielectric planar photonic structures ( http://arxiv.org/abs/2407.20160v3 )

ライセンス: Link先を確認
Domitille Gérard, Aurélie Pierret, Helmi Fartas, Bruno Bérini, Stéphanie Buil, Jean-Pierre Hermier, Aymeric Delteil, (参考訳) 六方晶窒化ホウ素(hBN)の発色中心は、優れた光物性と高度にコンパクトなデバイスへの集積の可能性とを有利に組み合わせている。 スケーラブルな統合への進歩は、高い量子効率と効率的な光子収集を必要とする。 この文脈では、2つの異なる電磁環境において、電子照射によって生成される個々のhBN色中心の光学的特性を比較する。 剥離した結晶の乾燥移動前後で特徴付ける、よく同定された発光体の追跡を継続する。 この比較は、それらの量子効率(単位に近い)に関する情報と、結晶内の垂直位置をナノメートル精度で示し、フレーク面から逸脱している。 本研究は, 2次元材料や平面フォトニック構造において, 量子エミッタのキャラクタリゼーションだけでなく, 量子エミッタのキャラクタリゼーションにも有効なハイブリッド誘電体-金属平板構造を提案する。

Color centers in hexagonal boron nitride (hBN) advantageously combine excellent photophysical properties with a potential for integration in highly compact devices. Progress towards scalable integration necessitates a high quantum efficiency and an efficient photon collection. In this context, we compare the optical characteristics of individual hBN color centers generated by electron irradiation, in two different electromagnetic environments. We keep track of well-identified emitters that we characterize before and after dry transfer of exfoliated crystals. This comparison provides information about their quantum efficiency - which we find close to unity - as well as their vertical position in the crystal with nanometric precision, which we find away from the flake surfaces. Our work suggests hybrid dielectric-metal planar structures as an efficient tool for characterizing quantum emitters in addition to improving the count rate, and can be generalized to other emitters in 2D materials or in planar photonic structures.
翻訳日:2024-11-08 14:16:02 公開日:2024-10-30
# ボードゲームモデルを用いた言語モデル解釈可能性のための辞書学習の進歩度測定

Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models ( http://arxiv.org/abs/2408.00113v2 )

ライセンス: Link先を確認
Adam Karvonen, Benjamin Wright, Can Rager, Rico Angell, Jannik Brinkmann, Logan Smith, Claudio Mayrink Verdun, David Bau, Samuel Marks, (参考訳) 言語モデル(LM)では、どの潜在機能がエンコードされているか? 近年,Sparse Autoencoder (SAEs) を訓練して,LM表現の解釈可能な特徴を分解する研究が盛んに行われている。 しかし,これらのSAEの質を評価することは困難である。 そこで本研究では,チェスやオセロの書き起こしを訓練したLMの設定を用いて,解釈可能な辞書学習の進展を測定することを提案する。 これらの設定は、解釈可能な機能の自然なコレクション -- 例えば、"F3にはナイトがあります" -- を持ち、SAE品質のための$\textit{supervised}$メトリックに活用します。 解釈可能な辞書学習の進歩を導くため,新しいSAEトレーニング手法である$\textit{p-annealing}$を導入する。

What latent features are encoded in language model (LM) representations? Recent work on training sparse autoencoders (SAEs) to disentangle interpretable features in LM representations has shown significant promise. However, evaluating the quality of these SAEs is difficult because we lack a ground-truth collection of interpretable features that we expect good SAEs to recover. We thus propose to measure progress in interpretable dictionary learning by working in the setting of LMs trained on chess and Othello transcripts. These settings carry natural collections of interpretable features -- for example, "there is a knight on F3" -- which we leverage into $\textit{supervised}$ metrics for SAE quality. To guide progress in interpretable dictionary learning, we introduce a new SAE training technique, $\textit{p-annealing}$, which improves performance on prior unsupervised metrics as well as our new metrics.
翻訳日:2024-11-08 13:40:32 公開日:2024-10-30
# 不確実なパラメトリック環境に対するロバストな政策

Certifiably Robust Policies for Uncertain Parametric Environments ( http://arxiv.org/abs/2408.03093v2 )

ライセンス: Link先を確認
Yannik Schnitzer, Alessandro Abate, David Parker, (参考訳) 我々は、未知の確率環境において、確実に堅牢なポリシーを作成するためのデータ駆動型アプローチを提案する。 既存のアプローチでは、マルコフ決定プロセス(IMDP)の間隔として単一環境のモデルを学び、その性能をほぼ正確に保証する堅牢なポリシーを生成することができる。 しかし、これらは不確実性の根底にある環境パラメータの影響を説明できない。 本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。 パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。 鍵となる課題は、(1)パラメータによって誘導される複数の環境と未知の分布、(2)IMDPによって近似される未知の環境の2つの不確実性の層を組み合わせた有意義な性能保証を作ることである。 本稿では,シナリオ最適化に基づく新たな手法を提案する。この手法により,特定性能レベルを未確認環境で保証できるリスクレベルを定量化し,リスクとパフォーマンスをトレードオフする手段を提供する。 我々は、様々なベンチマークで複数のロバストなポリシー生成手法を用いて、我々のフレームワークを実装し、評価する。 当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。

We present a data-driven approach for producing policies that are provably robust across unknown stochastic environments. Existing approaches can learn models of a single environment as an interval Markov decision processes (IMDP) and produce a robust policy with a probably approximately correct (PAC) guarantee on its performance. However these are unable to reason about the impact of environmental parameters underlying the uncertainty. We propose a framework based on parametric Markov decision processes (MDPs) with unknown distributions over parameters. We learn and analyse IMDPs for a set of unknown sample environments induced by parameters. The key challenge is then to produce meaningful performance guarantees that combine the two layers of uncertainty: (1) multiple environments induced by parameters with an unknown distribution; (2) unknown induced environments which are approximated by IMDPs. We present a novel approach based on scenario optimisation that yields a single PAC guarantee quantifying the risk level for which a specified performance level can be assured in unseen environments, plus a means to trade-off risk and performance. We implement and evaluate our framework using multiple robust policy generation methods on a range of benchmarks. We show that our approach produces tight bounds on a policy's performance with high confidence.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-30
# 不確実なパラメトリック環境に対するロバストな政策

Certifiably Robust Policies for Uncertain Parametric Environments ( http://arxiv.org/abs/2408.03093v3 )

ライセンス: Link先を確認
Yannik Schnitzer, Alessandro Abate, David Parker, (参考訳) 我々は、未知の確率環境において、確実に堅牢なポリシーを作成するためのデータ駆動型アプローチを提案する。 既存のアプローチでは、マルコフ決定プロセス(IMDP)の間隔として単一環境のモデルを学び、その性能をほぼ正確に保証する堅牢なポリシーを生成することができる。 しかし、これらは不確実性の根底にある環境パラメータの影響を説明できない。 本稿ではパラメータ上の未知分布を持つパラメトリックマルコフ決定プロセス(MDP)に基づくフレームワークを提案する。 パラメータによって誘導される未知のサンプル環境に対するIMDPの学習と解析を行う。 鍵となる課題は、(1)パラメータによって誘導される複数の環境と未知の分布、(2)IMDPによって近似される未知の環境の2つの不確実性の層を組み合わせた有意義な性能保証を作ることである。 本稿では,シナリオ最適化に基づく新たな手法を提案する。この手法により,特定性能レベルを未確認環境で保証できるリスクレベルを定量化し,リスクとパフォーマンスをトレードオフする手段を提供する。 我々は、様々なベンチマークで複数のロバストなポリシー生成手法を用いて、我々のフレームワークを実装し、評価する。 当社のアプローチは,信頼度の高い政策のパフォーマンスに厳密な拘束力をもたらすことを示す。

We present a data-driven approach for producing policies that are provably robust across unknown stochastic environments. Existing approaches can learn models of a single environment as an interval Markov decision processes (IMDP) and produce a robust policy with a probably approximately correct (PAC) guarantee on its performance. However these are unable to reason about the impact of environmental parameters underlying the uncertainty. We propose a framework based on parametric Markov decision processes (MDPs) with unknown distributions over parameters. We learn and analyse IMDPs for a set of unknown sample environments induced by parameters. The key challenge is then to produce meaningful performance guarantees that combine the two layers of uncertainty: (1) multiple environments induced by parameters with an unknown distribution; (2) unknown induced environments which are approximated by IMDPs. We present a novel approach based on scenario optimisation that yields a single PAC guarantee quantifying the risk level for which a specified performance level can be assured in unseen environments, plus a means to trade-off risk and performance. We implement and evaluate our framework using multiple robust policy generation methods on a range of benchmarks. We show that our approach produces tight bounds on a policy's performance with high confidence.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-30
# 2D-OOB: 共同評価フレームワークによるデータのコントリビューション

2D-OOB: Attributing Data Contribution Through Joint Valuation Framework ( http://arxiv.org/abs/2408.03572v2 )

ライセンス: Link先を確認
Yifan Sun, Jingyan Shen, Yongchan Kwon, (参考訳) データバリュエーションは、機械学習モデルのトレーニングに対する各ダムの貢献を定量化するための強力なフレームワークとして登場した。 しかし、単一のデータポイント内のセルの品質が実際に大きく異なる可能性があることを認識することが重要である。 例えば、異常なデータポイントであっても、すべての細胞がうるさいとは限らない。 既存のデータ評価手法によって割り当てられた単一のスカラースコアは、データポイントのノイズとクリーンなセルの区別を曖昧にし、データ値の解釈が困難になる。 本稿では,有用(あるいは有害な)サンプルを共同で決定する2D-OOBと,それらを駆動する特定の細胞を提案する。 包括的実験により、2D-OOBは指数関数的に高速でありながら、複数のユースケースで最先端のパフォーマンスを実現することが示された。 具体的には、2D-OOBは、細胞レベルできめ細かなアウトリーチを検出し、修正し、データ中毒攻撃においてバックドアトリガーを局所化する有望な結果を示す。

Data valuation has emerged as a powerful framework for quantifying each datum's contribution to the training of a machine learning model. However, it is crucial to recognize that the quality of cells within a single data point can vary greatly in practice. For example, even in the case of an abnormal data point, not all cells are necessarily noisy. The single scalar score assigned by existing data valuation methods blurs the distinction between noisy and clean cells of a data point, making it challenging to interpret the data values. In this paper, we propose 2D-OOB, an out-of-bag estimation framework for jointly determining helpful (or detrimental) samples as well as the particular cells that drive them. Our comprehensive experiments demonstrate that 2D-OOB achieves state-of-the-art performance across multiple use cases while being exponentially faster. Specifically, 2D-OOB shows promising results in detecting and rectifying fine-grained outliers at the cell level, and localizing backdoor triggers in data poisoning attacks.
翻訳日:2024-11-08 12:33:46 公開日:2024-10-30
# MMSummary:胎児超音波ビデオのためのマルチモーダル概要生成

MMSummary: Multimodal Summary Generation for Fetal Ultrasound Video ( http://arxiv.org/abs/2408.03761v2 )

ライセンス: Link先を確認
Xiaoqing Guo, Qianhui Men, J. Alison Noble, (参考訳) 本稿では, 医療用画像撮影システムMMSummaryについて, 胎児超音波解析を中心に紹介する。 MMSummaryは、人間のソノグラフィーによる検査プロセスを省略し、3段階のパイプラインとして設計され、キーフレーム検出からキーフレームキャプション、最後に解剖学的セグメンテーションと測定へと進展する。 キーフレーム検出の段階では、キーフレームの簡潔なセットを段階的に選択し、冗長性のない十分な映像情報を保存するための革新的な自動化ワークフローが提案されている。 その後、大口径の言語モデルを用いて、胎児超音波のキーフレームをキーフレームキャプションの段階で意味のあるキャプションを生成する。 キーフレームが胎児のバイオメトリとしてキャプションされている場合、セグメンテーションと測定段階は、テキストの先行に基づいて関心領域をセグメンテーションすることで生体パラメータを推定する。 MMSummaryシステムは胎児超音波検査の総合的なサマリーを提供し、報告された実験に基づいてスキャン時間を約31.5%削減し、臨床ワークフロー効率を高める可能性を示唆している。

We present the first automated multimodal summary generation system, MMSummary, for medical imaging video, particularly with a focus on fetal ultrasound analysis. Imitating the examination process performed by a human sonographer, MMSummary is designed as a three-stage pipeline, progressing from keyframe detection to keyframe captioning and finally anatomy segmentation and measurement. In the keyframe detection stage, an innovative automated workflow is proposed to progressively select a concise set of keyframes, preserving sufficient video information without redundancy. Subsequently, we adapt a large language model to generate meaningful captions for fetal ultrasound keyframes in the keyframe captioning stage. If a keyframe is captioned as fetal biometry, the segmentation and measurement stage estimates biometric parameters by segmenting the region of interest according to the textual prior. The MMSummary system provides comprehensive summaries for fetal ultrasound examinations and based on reported experiments is estimated to reduce scanning time by approximately 31.5%, thereby suggesting the potential to enhance clinical workflow efficiency.
翻訳日:2024-11-08 12:22:45 公開日:2024-10-30
# 大規模言語モデルを用いた意味的拡張間接呼分析

Semantic-Enhanced Indirect Call Analysis with Large Language Models ( http://arxiv.org/abs/2408.04344v3 )

ライセンス: Link先を確認
Baijun Cheng, Cen Zhang, Kailong Wang, Ling Shi, Yang Liu, Haoyu Wang, Yao Guo, Ding Li, Xiangqun Chen, (参考訳) 現代のソフトウェア開発において、動的特徴を達成するために間接呼び出しが広く使われることは、正確な制御フローグラフ(CFG)を構築する上での課題を招き、下流の静的解析タスクのパフォーマンスにさらに影響を及ぼす。 この問題に対処するために、様々な種類の間接呼び出しアナライザが提案されている。 しかし、プログラムのセマンティック情報を完全に活用せず、現実のシナリオでの有効性を制限している。 これらの問題に対処するために,間接的な呼分析の有効性を高めるための新しいアプローチであるセマンティック・エンハンスメント・アナリティクス(SEA)を提案する。 私たちの基本的な洞察は、一般的なプログラミングプラクティスでは、間接呼び出しは、しばしば呼び出されたターゲットとセマンティックな類似性を示します。 このセマンティックアライメントは、偽ターゲットをフィルタリングする静的解析手法の補助メカニズムとして機能する。 特に、現代の大規模言語モデル(LLM)は、コード要約などのタスクを含む広範なコードコーパスで訓練されており、セマンティック分析に適している。 特に、SEAはLLMを活用し、複数の視点から間接呼び出しとターゲット関数の両方の自然言語要約を生成する。 これらの要約をさらに分析することで、SEAは呼び出しとキャリーのペアとして適合性を決定することができる。 実験により,SEAは間接呼び出しのためのより正確なターゲットセットを生成することにより,既存の静的解析手法を大幅に強化できることが示された。

In contemporary software development, the widespread use of indirect calls to achieve dynamic features poses challenges in constructing precise control flow graphs (CFGs), which further impacts the performance of downstream static analysis tasks. To tackle this issue, various types of indirect call analyzers have been proposed. However, they do not fully leverage the semantic information of the program, limiting their effectiveness in real-world scenarios. To address these issues, this paper proposes Semantic-Enhanced Analysis (SEA), a new approach to enhance the effectiveness of indirect call analysis. Our fundamental insight is that for common programming practices, indirect calls often exhibit semantic similarity with their invoked targets. This semantic alignment serves as a supportive mechanism for static analysis techniques in filtering out false targets. Notably, contemporary large language models (LLMs) are trained on extensive code corpora, encompassing tasks such as code summarization, making them well-suited for semantic analysis. Specifically, SEA leverages LLMs to generate natural language summaries of both indirect calls and target functions from multiple perspectives. Through further analysis of these summaries, SEA can determine their suitability as caller-callee pairs. Experimental results demonstrate that SEA can significantly enhance existing static analysis methods by producing more precise target sets for indirect calls.
翻訳日:2024-11-08 12:22:45 公開日:2024-10-30
# LLaVA-VSD:視覚空間記述のための大規模言語・視覚アシスタント

LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description ( http://arxiv.org/abs/2408.04957v4 )

ライセンス: Link先を確認
Yizhang Jin, Jian Li, Jiangning Zhang, Jianlong Hu, Zhenye Gan, Xin Tan, Yong Liu, Yabiao Wang, Chengjie Wang, Lizhuang Ma, (参考訳) ビジュアル空間記述(VSD)は、画像内のオブジェクト間の空間的関係を記述するテキストを生成することを目的としている。 従来の視覚的空間関係分類(VSRC)法は、通常、画像内の2つのオブジェクト間の空間関係を出力し、しばしば世界の知識を無視し、一般的な言語能力に欠ける。 本稿では、視覚空間関係の分類、記述、オープンな記述を目的としたLLaVA-VSDという、視覚空間記述のためのLarge Language-and-Vision Assistantを提案する。 具体的には、3つのタスクに対して与えられたフィギュア・キャプションペアを使用して、まずVSD命令追従データセットを構築する。 次にLoRAを使用して、VSD用のLarge Language and Vision Assistantを微調整する。 最後に、大きな言語モデル(Qwen-2)を使用して生成された文を洗練し、その多様性と精度を高める。 LLaVA-VSDは、優れたマルチモーダル対話機能を示し、画像内のオブジェクト関係に関する問い合わせを支援するために、オープンな指示に従うことができる。

Visual Spatial Description (VSD) aims to generate texts that describe the spatial relationships between objects within images. Traditional visual spatial relationship classification (VSRC) methods typically output the spatial relationship between two objects in an image, often neglecting world knowledge and lacking general language capabilities. In this paper, we propose a Large Language-and-Vision Assistant for Visual Spatial Description, named LLaVA-VSD, which is designed for the classification, description, and open-ended description of visual spatial relationships. Specifically, the model first constructs a VSD instruction-following dataset using given figure-caption pairs for the three tasks. It then employs LoRA to fine-tune a Large Language and Vision Assistant for VSD, which has 13 billion parameters and supports high-resolution images. Finally, a large language model (Qwen-2) is used to refine the generated sentences, enhancing their diversity and accuracy. LLaVA-VSD demonstrates excellent multimodal conversational capabilities and can follow open-ended instructions to assist with inquiries about object relationships in images.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-30
# HPCとディープラーニングの再現性に及ぼす浮動小数点非連想性の影響

Impacts of floating-point non-associativity on reproducibility for HPC and deep learning applications ( http://arxiv.org/abs/2408.05148v3 )

ライセンス: Link先を確認
Sanjif Shanmugavelu, Mathieu Taillefumier, Christopher Culver, Oscar Hernandez, Mark Coletti, Ada Sedova, (参考訳) 浮動小数点非連想性に起因する並列プログラムにおける変数の実行は、誤りの蓄積による反復アルゴリズムの再現性に大きな影響を与えることが知られている。 非再現性は確率的プログラムの正当性テストの効率性と有効性に重大な影響を与える。 近年,浮動小数点非連想性に対する深層学習訓練や推論パイプラインの感度は極端であることが判明している。 商用アプリケーションの認証、堅牢性と感度の正確な評価、バグ検出を防止できる。 科学計算アプリケーションにおける新しいアプローチは、ディープラーニングモデルと高性能コンピューティングを結合し、デバッグとテストの課題が増大した。 本稿では、現代の並列プログラミングモデルにおける浮動小数点非連想性の統計的性質の調査を行い、原子演算をGPU上の決定論的代替品に置き換えることによる性能と生産性への影響を分析する。 我々は、ディープラーニングのためのGPUデプロイメントのコンテキスト内で、最近追加されたPyTorchの決定論的オプションを調べ、変数の実行を誘発する入力パラメータの影響を明らかにし、定量化し、ドキュメントの信頼性と完全性について報告する。 最後に,ディープラーニングパイプラインの推論部分にGroqアクセラレータを用いて,決定論的ハードウェアによって提供可能な自動決定性を活用する戦略を評価する。 再現性と正しさの努力の中で、ハードウェアベースの戦略がもたらすメリットを実証する。

Run to run variability in parallel programs caused by floating-point non-associativity has been known to significantly affect reproducibility in iterative algorithms, due to accumulating errors. Non-reproducibility can critically affect the efficiency and effectiveness of correctness testing for stochastic programs. Recently, the sensitivity of deep learning training and inference pipelines to floating-point non-associativity has been found to sometimes be extreme. It can prevent certification for commercial applications, accurate assessment of robustness and sensitivity, and bug detection. New approaches in scientific computing applications have coupled deep learning models with high-performance computing, leading to an aggravation of debugging and testing challenges. Here we perform an investigation of the statistical properties of floating-point non-associativity within modern parallel programming models, and analyze performance and productivity impacts of replacing atomic operations with deterministic alternatives on GPUs. We examine the recently-added deterministic options in PyTorch within the context of GPU deployment for deep learning, uncovering and quantifying the impacts of input parameters triggering run to run variability and reporting on the reliability and completeness of the documentation. Finally, we evaluate the strategy of exploiting automatic determinism that could be provided by deterministic hardware, using the Groq accelerator for inference portions of the deep learning pipeline. We demonstrate the benefits that a hardware-based strategy can provide within reproducibility and correctness efforts.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-30
# 大規模モデルストラテジック思考と小型モデル効率:大規模言語モデルにおける心の伝達理論

Large Model Strategic Thinking, Small Model Efficiency: Transferring Theory of Mind in Large Language Models ( http://arxiv.org/abs/2408.05241v4 )

ライセンス: Link先を確認
Nunzio Lore, Sepehr Ilami, Babak Heydari, (参考訳) より大きな、より新しい大規模言語モデルの性能は、戦略的思考理論(ToM)タスクの改善を続けており、これらの最先端モデルの需要は必然的に増加する。 しかし、彼らのデプロイメントは処理能力と時間の両方においてコストがかかる。 本稿では,より小型で高性能な特殊アルゴリズムの実現可能性について,微調整により検討する。 そこで我々はまず,異なる社会的文脈と異なる社会的ジレンマのゲームを組み合わせて,その回答を記録し,同じ家族のより小さなモデルを用いたQ&A微調整に使用する,20種類のシナリオを持つ大規模事前学習モデルを提案する。 我々の焦点は、人間同士の相互作用が起こるのと同じ領域であり、心の理論(またはそのセマンス)と社会的ダイナミクスの理解の両方を必要とする、コンテキスト内ゲーム理論による意思決定である。 したがって、より小さなモデルは、提供された回答だけでなく、より大きなモデルが提供するモチベーションに基づいて訓練され、戦略ジレンマと社会的手がかりの両方をナビゲートするためのアドバイスとガイドラインを含むべきである。 細調整された小さな言語モデルは、より小さな事前学習版とより大きな相対性モデルの間のパフォーマンスのギャップを一貫して橋渡しし、その改善が、全く異なるゲーム構造を含むアウト・オブ・サンプルのシナリオを含むトレーニング例以外の領域や文脈で拡張されていることを発見した。 全ゲームの平均では、微調整により、より小さなモデルでは、より大きなモデルの動作に対するアライメントとして測定された46%の改善が示され、100%は区別不能な動作を表している。 アウトオブサンプルのソーシャルコンテキストとゲームで提示された場合、微調整されたモデルでは、それぞれ18%と28%の改善が達成された。

As the performance of larger, newer Large Language Models continues to improve for strategic Theory of Mind (ToM) tasks, the demand for these state-of-the-art models increases commensurately. However, their deployment is costly both in terms of processing power and time. In this paper, we investigate the feasibility of creating smaller, highly-performing specialized algorithms by way of fine-tuning. To do this, we first present a large pre-trained model with 20 unique scenarios that combine different social contexts with games of varying social dilemmas, record its answers, and use them for Q&A fine-tuning on a smaller model of the same family. Our focus is on in-context game-theoretic decision-making, the same domain within which human interaction occurs and that requires both a theory of mind (or a semblance thereof) and an understanding of social dynamics. The smaller model is therefore trained not just on the answers provided, but also on the motivations provided by the larger model, which should contain advice and guidelines to navigate both strategic dilemmas and social cues. We find that the fine-tuned smaller language model consistently bridged the gap in performance between the smaller pre-trained version of the model and its larger relative and that its improvements extended in areas and contexts beyond the ones provided in the training examples, including on out-of-sample scenarios that include completely different game structures. On average for all games, through fine-tuning, the smaller model showed a 46% improvement measured as alignment towards the behavior of the larger model, with 100% representing indistinguishable behavior. When presented with out-of-sample social contexts and games, the fine-tuned model still displays remarkable levels of alignment, reaching an improvement of 18% and 28% respectively.
翻訳日:2024-11-08 12:00:36 公開日:2024-10-30
# ハイブリッドSD:安定拡散モデルのためのエッジクラウド協調推論

Hybrid SD: Edge-Cloud Collaborative Inference for Stable Diffusion Models ( http://arxiv.org/abs/2408.06646v2 )

ライセンス: Link先を確認
Chenqian Yan, Songwei Liu, Hongjian Liu, Xurui Peng, Xiaojian Wang, Fangmin Chen, Lean Fu, Xing Mei, (参考訳) 安定拡散モデル (SDM) は画像合成において顕著な熟練性を示した。 しかしながら、その広範なアプリケーションには、大規模なモデルサイズと集中的な計算要求があり、通常はデプロイに高価なクラウドサーバを必要とする。 一方、エッジデバイスに適したコンパクトなモデルが多く、これらの要求を削減できるが、フルサイズのSDMと比較して意味的整合性と視覚的品質に妥協することが多い。 このギャップを埋めるために,エッジクラウド協調推論用に設計された,革新的なトレーニング不要なSDM推論フレームワークであるHybrid SDを導入する。 ハイブリッドSDは、拡散プロセスの初期段階をクラウドサーバにデプロイされた大規模モデルに分散し、セマンティックプランニングを強化する。 さらに、エッジデバイスにデプロイされる小さな効率的なモデルは、後段の視覚的詳細を精査するために統合することができる。 計算能力と記憶能力の異なるエッジデバイスの多様性を認め,SDMのU-Netに構造的プルーニングを採用し,軽量なVAEを訓練する。 画像品質の競争力のあるエッジデバイス上で, 圧縮されたモデルにより, 最先端パラメータ効率(225.8M)が得られることを示す実験的検討を行った。 さらに、ハイブリッドSDは、エッジクラウドのコラボレーティブ推論により、クラウドコストを66%削減する。

Stable Diffusion Models (SDMs) have shown remarkable proficiency in image synthesis. However, their broad application is impeded by their large model sizes and intensive computational requirements, which typically require expensive cloud servers for deployment. On the flip side, while there are many compact models tailored for edge devices that can reduce these demands, they often compromise on semantic integrity and visual quality when compared to full-sized SDMs. To bridge this gap, we introduce Hybrid SD, an innovative, training-free SDMs inference framework designed for edge-cloud collaborative inference. Hybrid SD distributes the early steps of the diffusion process to the large models deployed on cloud servers, enhancing semantic planning. Furthermore, small efficient models deployed on edge devices can be integrated for refining visual details in the later stages. Acknowledging the diversity of edge devices with differing computational and storage capacities, we employ structural pruning to the SDMs U-Net and train a lightweight VAE. Empirical evaluations demonstrate that our compressed models achieve state-of-the-art parameter efficiency (225.8M) on edge devices with competitive image quality. Additionally, Hybrid SD reduces the cloud cost by 66% with edge-cloud collaborative inference.
翻訳日:2024-11-08 11:26:46 公開日:2024-10-30
# 3Qubitシステムを用いた量子エネルギーテレポーテーション

Enhanced Quantum Energy Teleportation using a 3-Qubit System ( http://arxiv.org/abs/2408.07997v5 )

ライセンス: Link先を確認
Md Shoyib Hassan, Syed Emad Uddin Shubha, M. R. C Mahdy, (参考訳) 量子エネルギーテレポーテーション(Quantum Energy Teleportation, QET)は、量子絡み合いを利用して、エネルギーを物理的に動かさずに2つの離れた場所間でエネルギーを伝達する新しい方法である。 超伝導ハードウェア上での最初のQETの実現は、2キュービットのシステムを用いて、受信機ボブによる平均エネルギー回収効率は35.4%(Vのみ)であった。 本稿では,QETのエネルギー効率を向上させるために,3量子システムを用いた新しい手法を提案する。 これは、送信者および受信者の観測可能な操作のゼロ平均エネルギーと反可換特性の制約に適合する。 実験の結果,エネルギー回収の面では有意な改善が見られた。 MISO(Multiple-Input Single-Output)モデルは、平均効率32.5%(Vのみ)となる同様の結果を示すが、Single-Input Multiple-Output(SIMO)モデルは、58.2%の実用性を考慮した2ビットシステムよりもはるかに高い結果を示す。

Quantum Energy Teleportation (QET) is a novel method that leverages quantum entanglement to transfer energy between two distant locations without any physical movement of the energy. The first realization of QET on superconducting hardware, utilizing a 2-qubit system, demonstrated an average energy retrieval efficiency of 35.4% (observing only V ) by the receiver, Bob. In this paper, we present a new approach using a 3-qubit system to enhance the energy efficiency of QET. We have incorporated a novel 3-qubit ground state Hamiltonian H to achieve this, which conforms to the constraints of Zero mean energy and anti-commutative properties of the operations on the observable of the senders and receiver. Our experimental results show a significant improvement in terms of energy retrieval. Though the Multiple-Input Single-Output (MISO) model demonstrates a similar result achieving an average efficiency of 32.5% (observing only V ), the Single-Input Multiple-Output (SIMO) model shows a significantly higher result than that of the 2-qubit system considering practical usage, which is 58.2%
翻訳日:2024-11-08 07:40:14 公開日:2024-10-30
# 3Qubitシステムを用いた量子エネルギーテレポーテーション

Enhanced Quantum Energy Teleportation using a 3-Qubit System ( http://arxiv.org/abs/2408.07997v6 )

ライセンス: Link先を確認
Md Shoyib Hassan, Syed Emad Uddin Shubha, M. R. C Mahdy, (参考訳) 量子エネルギーテレポーテーション(Quantum Energy Teleportation, QET)は、量子絡み合いを利用して、エネルギーを物理的に動かさずに2つの離れた場所間でエネルギーを伝達する新しい方法である。 超伝導ハードウェア上でのQETの最初の実現は、2キュービットのシステムを用いて、受信機ボブによる平均エネルギー回収効率は35.4%(Vのみ)であった。 本稿では,QETのエネルギー効率を向上させるために,3量子システムを用いた新しい手法を提案する。 これは、送信者および受信者の観測可能な操作のゼロ平均エネルギーと反可換特性の制約に適合する。 実験の結果,エネルギー回収の面では有意な改善が見られた。 MISO(Multiple-Input Single-Output)モデルは、平均効率32.5%(Vのみ)となる同様の結果を示すが、Single-Input Multiple-Output(SIMO)モデルは、67.2%の実用性を考慮した2ビットシステムよりもはるかに高い結果を示す。

Quantum Energy Teleportation (QET) is a novel method that leverages quantum entanglement to transfer energy between two distant locations without any physical movement of the energy. The first realization of QET on superconducting hardware, utilizing a 2-qubit system, demonstrated an average energy retrieval efficiency of 35.4% (observing only V ) by the receiver, Bob. In this paper, we present a new approach using a 3-qubit system to enhance the energy efficiency of QET. We have incorporated a novel 3-qubit ground state Hamiltonian H to achieve this, which conforms to the constraints of Zero mean energy and anti-commutative properties of the operations on the observable of the senders and receiver. Our experimental results show a significant improvement in terms of energy retrieval. Though the Multiple-Input Single-Output (MISO) model demonstrates a similar result achieving an average efficiency of 32.5% (observing only V ), the Single-Input Multiple-Output (SIMO) model shows a significantly higher result than that of the 2-qubit system considering practical usage, which is 67.2%.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-30
# Z-Gromov-Wasserstein距離

The Z-Gromov-Wasserstein Distance ( http://arxiv.org/abs/2408.08233v2 )

ライセンス: Link先を確認
Martin Bauer, Facundo Mémoli, Tom Needham, Mao Nishino, (参考訳) グロモフ=ワッサーシュタイン距離(Gromov-Wasserstein distance, GW)は、測度空間を比較する強力なツールであり、データサイエンスと機械学習に広く応用されている。 オブジェクトがますます複雑な構造を持つデータセット(ノードグラフやエッジグラフなど)を分析する必要があるため、近年の文献ではGW距離のバリエーションがいくつか紹介されている。 GW のような距離の理論の一般的な枠組みを確立するために、この論文は計量測度空間の概念の広大な一般化を考える:任意の計量空間 $Z$ に対して、Z$ の値を持つカーネルを持つ測度空間として$Z$-ネットワークを定義する。 本稿では、GW距離の一般化を定義することにより、$Z$-networksを比較する方法を紹介し、これを$Z$-Gromov-Wasserstein(Z$-GW)距離と呼ぶ。 この構成は多くの既知のメトリクスを仮定し、共有プロパティを理解するための統一的なアプローチを提供する。 本稿では、Z$-GW距離が、分離性、完全性、測地性などのZ$の望ましい性質を保持するZ$-networksの空間上の計量を定義することを実証する。 これらの性質の多くは、我々の枠組みに該当する既存のGW距離の変種について不明である。 基礎理論に焦点が当てられているが、我々の結果は計算可能な下界と実際の応用に役立つ距離の近似も含んでいる。

The Gromov-Wasserstein (GW) distance is a powerful tool for comparing metric measure spaces which has found broad applications in data science and machine learning. Driven by the need to analyze datasets whose objects have increasingly complex structure (such as node and edge-attributed graphs), several variants of GW distance have been introduced in the recent literature. With a view toward establishing a general framework for the theory of GW-like distances, this paper considers a vast generalization of the notion of a metric measure space: for an arbitrary metric space $Z$, we define a $Z$-network to be a measure space endowed with a kernel valued in $Z$. We introduce a method for comparing $Z$-networks by defining a generalization of GW distance, which we refer to as $Z$-Gromov-Wasserstein ($Z$-GW) distance. This construction subsumes many previously known metrics and offers a unified approach to understanding their shared properties. This paper demonstrates that the $Z$-GW distance defines a metric on the space of $Z$-networks which retains desirable properties of $Z$, such as separability, completeness, and geodesicity. Many of these properties were unknown for existing variants of GW distance that fall under our framework. Our focus is on foundational theory, but our results also include computable lower bounds and approximations of the distance which will be useful for practical applications.
翻訳日:2024-11-08 07:29:14 公開日:2024-10-30
# 言語モデルを用いた連続学習における動的適応合成のための経路学習

Learning to Route for Dynamic Adapter Composition in Continual Learning with Language Models ( http://arxiv.org/abs/2408.09053v2 )

ライセンス: Link先を確認
Vladimir Araujo, Marie-Francine Moens, Tinne Tuytelaars, (参考訳) パラメータ効率のよい微細チューニング(PEFT)手法は、継続学習(CL)のための事前学習言語モデル(PLM)でますます使われている。 これらの手法は通常、新しいタスクごとにPEFTモジュールをトレーニングし、推論中にモジュールをルーティングするために類似性に基づいた選択を採用する。 しかし、それらは2つの大きな制限に直面している。 1)既に学んだモジュールによるモジュールトレーニング中の干渉 2)モジュールを構成する際の最適部分ルーティング。 本稿では,新しいPEFTモジュールのトレーニングを分離し,タスクの専門化を保証する手法であるL2Rを提案する。 その後、L2Rは学習したモジュールを学習し、以前見たタスクの例を含む小さなメモリを利用するルータのネットワークをトレーニングする。 各種ベンチマークを用いて2つのCLセットアップで本手法の評価を行った。 その結果,L2RはPEFTモジュールの効率的な構成を提供し,他の手法と比較して一般化と性能が向上した。

Parameter-efficient fine-tuning (PEFT) methods are increasingly used with pre-trained language models (PLMs) for continual learning (CL). These methods typically involve training a PEFT module for each new task and employing similarity-based selection to route modules during inference. However, they face two major limitations: 1) interference during module training with already learned modules and 2) suboptimal routing when composing modules. In this paper, we present L2R, a method that isolates the training of new PEFT modules to ensure their task specialization. L2R then learns to compose the learned modules by training a network of routers that leverages a small memory containing examples of previously seen tasks. We evaluate our method in two CL setups using various benchmarks. Our results demonstrate that L2R provides an effective composition of PEFT modules, leading to improved generalization and performance compared to other methods.
翻訳日:2024-11-08 07:07:05 公開日:2024-10-30
# オフラインRLHFにおけるサンプル再加重の逆差最適化

Reward Difference Optimization For Sample Reweighting In Offline RLHF ( http://arxiv.org/abs/2408.09385v2 )

ライセンス: Link先を確認
Shiqi Wang, Zhengze Zhang, Rui Zhao, Fei Tan, Cam Tu Nguyen, (参考訳) LLM(Large Language Models)の急速な進歩に伴い、LLMと人間の嗜好の整合がますます重要になっている。 Reinforcement Learning with Human Feedback (RLHF) は有効であるが,複雑で資源集約性が高い。 そのため、オフラインのRLHFが代替ソリューションとして導入され、固定された選好データセット上でのランキング損失を直接LLMを最適化する。 現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。 この問題に対処するために、リワード差分最適化(RDO)と呼ばれる単純で効果的な解を提案する。 具体的には、オフラインRLHFにおけるサンプルペアの相対的な報酬差係数を導入する。 次に、これらの差分係数を予測するために、一対の応答間のリッチな相互作用をキャプチャする差分モデルを開発する。 HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、我々の手法の有効性を実証し、LLMと人間の意図と価値を一致させる可能性を強調している。

With the rapid advances in Large Language Models (LLMs), aligning LLMs with human preferences become increasingly important. Although Reinforcement Learning with Human Feedback (RLHF) proves effective, it is complicated and highly resource-intensive. As such, offline RLHF has been introduced as an alternative solution, which directly optimizes LLMs with ranking losses on a fixed preference dataset. Current offline RLHF only captures the "ordinal relationship" between responses, overlooking the crucial aspect of how much one is preferred over the others. To address this issue, we propose a simple yet effective solution called Reward Difference Optimization, shorted as RDO. Specifically, we introduce reward difference coefficients to reweigh sample pairs in offline RLHF. We then develop a difference model which captures rich interactions between a pair of responses for predicting these difference coefficients. Experiments with 7B LLMs on the HH and TL;DR datasets substantiate the effectiveness of our method in both automatic metrics and human evaluation, thereby highlighting its potential for aligning LLMs with human intent and values
翻訳日:2024-11-08 06:55:48 公開日:2024-10-30
# AIに基づく気象データ同化のためのベンチマーク

A Benchmark for AI-based Weather Data Assimilation ( http://arxiv.org/abs/2408.11438v2 )

ライセンス: Link先を確認
Wuxin Wang, Weicheng Ni, Tao Han, Taikang Yuan, Xiaoyong Li, Lei Bai, Boheng Duan, Kaijun Ren, (参考訳) 人工知能(AI)の最近の進歩は、ステートオフ・ザ・アート(SOTA)数値気象予測(NWP)システムと競合する大規模気象モデル(LWM)の開発につながっている。 これまでこれらのモデルは、入力として従来のNWP生成分析フィールドに依存しており、自律性には程遠い。 現在、科学者はLWMのためのデータ駆動データ同化(DA)モデルの開発に注力している。 この分野での進歩を迅速化し、データ駆動型エンドツーエンド気象予報システムの運用を容易にするため、シミュレーション観測、実世界観測、ERA5再解析によるベンチマークであるDABenchを提案する。 DABench は,(1) シミュレーションと実世界の両方の実験のために提供されるスパースとノイズの観測,(2) 予測に対する同化結果の影響を厳格に評価しながら背景場を生成するための熟練したトランスフォーマーベースの天気予報モデル Sformer,(3) モデル比較のための標準化された評価指標 4DVarFormerV2。 実験の結果,4DVarFormerV2とSformerを統合したエンド・ツー・エンドの天気予報システムでは,実世界の観測を同化し,安定したDAサイクルを1年持続させ,熟練した予報リードタイムを最大7日間達成できることがわかった。 提案されたDABenchは、AIベースのDA、AIベースの天気予報、および関連するドメインの研究を大幅に前進させる。

Recent advancements in Artificial Intelligence (AI) have led to the development of several Large Weather Models (LWMs) that rival State-Of-The-Art (SOTA) Numerical Weather Prediction (NWP) systems. Until now, these models have still relied on traditional NWP-generated analysis fields as input and are far from autonomous. Currently, scientists are increasingly focusing on developing data-driven data assimilation (DA) models for LWMs. To expedite advancements in this field and facilitate the operationalization of data-driven end-to-end weather forecasting systems, we propose DABench, a benchmark constructed by simulated observations, real-world observations, and ERA5 reanalysis. DABench contributes four standard features: (1) sparse and noisy observations provided for both simulated and real-world experiments; (2) a Skillful pre-trained Transformer-based weather prediction model, Sformer, designed to generate background fields while rigorously assessing the impact of assimilation outcomes on predictions; (3) standardized evaluation metrics for the model comparison; (4) a strong DA baseline, 4DVarFormerV2. Our experimental results demonstrate that the end-to-end weather forecasting system, integrating 4DVarFormerV2 and Sformer, can assimilate real-world observations, thereby facilitating a stable DA cycle lasting one year and achieving a skillful forecasting lead time of up to 7 days. The proposed DABench will significantly advance research in AI-based DA, AI-based weather forecasting, and related domains.
翻訳日:2024-11-08 06:11:36 公開日:2024-10-30
# CT-AGRG : 3次元胸部CTボリュームから自動異常ガイド作成

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes ( http://arxiv.org/abs/2408.11965v3 )

ライセンス: Link先を確認
Theo Di Piazza, (参考訳) CT(Computerd tomography)スキャンの急激な増加と,その時間を要する手作業による分析は,臨床現場での堅牢な自動解析技術の必要性を突発的に生み出している。 これらは、放射線学者を支援し、成長するワークロードの管理を支援することを目的としている。 既存の方法では、観察された異常に明示的に焦点をあてることなく、3D CT画像から直接レポートを生成するのが一般的である。 このガイドなしのアプローチは、しばしば反復的な内容や不完全な報告をもたらし、異常固有の記述の優先順位付けに失敗する。 本稿では,まず異常を予測し,それぞれが対象とする記述を生成する,新たな異常誘導型レポート生成モデルを提案する。 パブリックデータセットの評価は、レポートの品質と臨床関連性を大幅に改善したことを示している。 我々はその効果を実証するためにアブレーション研究を行うことで研究を拡大する。

The rapid increase of computed tomography (CT) scans and their time-consuming manual analysis have created an urgent need for robust automated analysis techniques in clinical settings. These aim to assist radiologists and help them managing their growing workload. Existing methods typically generate entire reports directly from 3D CT images, without explicitly focusing on observed abnormalities. This unguided approach often results in repetitive content or incomplete reports, failing to prioritize anomaly-specific descriptions. We propose a new anomaly-guided report generation model, which first predicts abnormalities and then generates targeted descriptions for each. Evaluation on a public dataset demonstrates significant improvements in report quality and clinical relevance. We extend our work by conducting an ablation study to demonstrate its effectiveness.
翻訳日:2024-11-08 06:00:03 公開日:2024-10-30
# CT-AGRG : 3次元胸部CTボリュームから自動異常ガイド作成

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes ( http://arxiv.org/abs/2408.11965v4 )

ライセンス: Link先を確認
Theo Di Piazza, (参考訳) CT(Computerd tomography)スキャンの急激な増加と,その時間を要する手作業による分析は,臨床現場での堅牢な自動解析技術の必要性を突発的に生み出している。 これらは、放射線学者を支援し、成長するワークロードの管理を支援することを目的としている。 既存の方法では、観察された異常に明示的に焦点をあてることなく、3D CT画像から直接レポートを生成するのが一般的である。 このガイドなしのアプローチは、しばしば反復的な内容や不完全な報告をもたらし、異常固有の記述の優先順位付けに失敗する。 本稿では,まず異常を予測し,それぞれが対象とする記述を生成する,新たな異常誘導型レポート生成モデルを提案する。 パブリックデータセットの評価は、レポートの品質と臨床関連性を大幅に改善したことを示している。 我々はその効果を実証するためにアブレーション研究を行うことで研究を拡大する。

The rapid increase of computed tomography (CT) scans and their time-consuming manual analysis have created an urgent need for robust automated analysis techniques in clinical settings. These aim to assist radiologists and help them managing their growing workload. Existing methods typically generate entire reports directly from 3D CT images, without explicitly focusing on observed abnormalities. This unguided approach often results in repetitive content or incomplete reports, failing to prioritize anomaly-specific descriptions. We propose a new anomaly-guided report generation model, which first predicts abnormalities and then generates targeted descriptions for each. Evaluation on a public dataset demonstrates significant improvements in report quality and clinical relevance. We extend our work by conducting an ablation study to demonstrate its effectiveness.
翻訳日:2024-11-08 06:00:03 公開日:2024-10-30
# 物理界における物体検出器に対するバックドア攻撃の信頼性について

On the Credibility of Backdoor Attacks Against Object Detectors in the Physical World ( http://arxiv.org/abs/2408.12122v2 )

ライセンス: Link先を確認
Bao Gia Doan, Dang Quang Nguyen, Callum Lindquist, Paul Montague, Tamas Abraham, Olivier De Vel, Seyit Camtepe, Salil S. Kanhere, Ehsan Abbasnejad, Damith C. Ranasinghe, (参考訳) 物体検出器はバックドア攻撃に弱い。 分類器とは対照的に、検出器はアーキテクチャ上およびタスク実行時に特有の特性を持ち、しばしば、自動運転車の交通標識を検出するなどの困難な状況で動作している。 しかし、我々の知識は「デジタルドメイン」における分類器やテストに対する攻撃を支配している。 この重要なギャップに対処するため、我々は複数の検出器アーキテクチャを対象とし、実環境における2つの困難な検出タスクである交通標識と車両について広範な実験を行った。 運転車や飛行ドローンから収集した多種多様なビデオを用いて、実際のシーンに物理的なオブジェクトトリガーを配置し、アプリケーション環境における物理的オブジェクトトリガーによるバックドア攻撃の可能性を検証した。 その結果,8つの重要な知見が得られた。 重要なことに、バックドアをモデルに注入する一般的な「デジタル」データ中毒法は、分類タスクで有効であるにもかかわらず、現実世界の検出器に対する効果的な攻撃にはならない。 我々は、MORPHingと呼ばれる新しいコスト効率の高い攻撃方法を構築し、物理オブジェクトトリガーのバックドアを注入することに成功し、物理的オブジェクトトリガーのバックドアの成功を損なうことなく、クリーンなラベルアノテーションや目に見えないトリガーでトリガーを中毒させることに成功した。 このような攻撃に対して検知器を保護するのに、硬化した防御装置が不備であることが判明した。 脅威の深刻さを強調し、さらなる研究を促進するために、私たちは初めて、現実世界のバックドア攻撃の広範なビデオテストセットをリリースしました。 我々の研究は、この脅威の信頼性と真剣さを確立するだけでなく、物体検出の文脈において、バックドア防御を進めるための研究コミュニティへの呼びかけにも役立ちます。

Object detectors are vulnerable to backdoor attacks. In contrast to classifiers, detectors possess unique characteristics, architecturally and in task execution; often operating in challenging conditions, for instance, detecting traffic signs in autonomous cars. But, our knowledge dominates attacks against classifiers and tests in the "digital domain". To address this critical gap, we conducted an extensive empirical study targeting multiple detector architectures and two challenging detection tasks in real-world settings: traffic signs and vehicles. Using the diverse, methodically collected videos captured from driving cars and flying drones, incorporating physical object trigger deployments in authentic scenes, we investigated the viability of physical object-triggered backdoor attacks in application settings. Our findings revealed 8 key insights. Importantly, the prevalent "digital" data poisoning method for injecting backdoors into models does not lead to effective attacks against detectors in the real world, although proven effective in classification tasks. We construct a new, cost-efficient attack method, dubbed MORPHING, incorporating the unique nature of detection tasks; ours is remarkably successful in injecting physical object-triggered backdoors, even capable of poisoning triggers with clean label annotations or invisible triggers without diminishing the success of physical object triggered backdoors. We discovered that the defenses curated are ill-equipped to safeguard detectors against such attacks. To underscore the severity of the threat and foster further research, we, for the first time, release an extensive video test set of real-world backdoor attacks. Our study not only establishes the credibility and seriousness of this threat but also serves as a clarion call to the research community to advance backdoor defenses in the context of object detection.
翻訳日:2024-11-08 05:49:00 公開日:2024-10-30
# 基礎からブレークスルーまで:技術・研究・ベストプラクティス・応用研究課題・機会の抜粋

The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities ( http://arxiv.org/abs/2408.13296v2 )

ライセンス: Link先を確認
Venkatesh Balavadhani Parthasarathy, Ahtsham Zafar, Aafaq Khan, Arsalan Shahid, (参考訳) 本報告では,Large Language Models (LLMs) の微調整について検討し,理論的な洞察と実践的応用を統合する。 従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。 教師なし、教師なし、命令ベースのアプローチを含む微調整手法の比較は、異なるタスクに適用可能であることを強調している。 このレポートでは、データ準備、モデル初期化、ハイパーパラメータチューニング、モデル展開を微調整するための構造化された7段階パイプラインを紹介している。 不均衡なデータセットと最適化技術の管理に重点を置いている。 計算効率と性能のバランスをとるために,ローランド適応 (LoRA) やハーフファインチューニング (Half Fine-Tuning) のようなパラメータ効率の手法を検討した。 メモリファインチューニング、Mixture of Experts(MoE)、Mixture of Agents(MoA)といった高度な技術は、専門的なネットワークとマルチエージェントのコラボレーションの活用に有効である。 また,LLMと人間の嗜好を一致させるPPO(Pximal Policy Optimization)やDPO(Direct Preference Optimization)といった新しいアプローチと,プルーニングとルーティングの最適化を併用して効率を向上する手法についても検討した。 さらなるセクションでは、検証フレームワーク、デプロイ後の監視、推論最適化について、分散およびクラウドベースのプラットフォームにLLMをデプロイすることに注目している。 マルチモーダルLLM、オーディオと音声の微調整、スケーラビリティ、プライバシ、説明責任などに関わる課題にも対処する。 本報告は, LLMの微調整を行う研究者や実践者に対して, 進化途上の景観における実用的な知見を提供する。

This report examines the fine-tuning of Large Language Models (LLMs), integrating theoretical insights with practical applications. It outlines the historical evolution of LLMs from traditional Natural Language Processing (NLP) models to their pivotal role in AI. A comparison of fine-tuning methodologies, including supervised, unsupervised, and instruction-based approaches, highlights their applicability to different tasks. The report introduces a structured seven-stage pipeline for fine-tuning LLMs, spanning data preparation, model initialization, hyperparameter tuning, and model deployment. Emphasis is placed on managing imbalanced datasets and optimization techniques. Parameter-efficient methods like Low-Rank Adaptation (LoRA) and Half Fine-Tuning are explored for balancing computational efficiency with performance. Advanced techniques such as memory fine-tuning, Mixture of Experts (MoE), and Mixture of Agents (MoA) are discussed for leveraging specialized networks and multi-agent collaboration. The report also examines novel approaches like Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO), which align LLMs with human preferences, alongside pruning and routing optimizations to improve efficiency. Further sections cover validation frameworks, post-deployment monitoring, and inference optimization, with attention to deploying LLMs on distributed and cloud-based platforms. Emerging areas such as multimodal LLMs, fine-tuning for audio and speech, and challenges related to scalability, privacy, and accountability are also addressed. This report offers actionable insights for researchers and practitioners navigating LLM fine-tuning in an evolving landscape.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-30
# 基礎からブレークスルーまで:技術・研究・ベストプラクティス・応用研究課題・機会の抜粋

The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities ( http://arxiv.org/abs/2408.13296v3 )

ライセンス: Link先を確認
Venkatesh Balavadhani Parthasarathy, Ahtsham Zafar, Aafaq Khan, Arsalan Shahid, (参考訳) 本報告では,Large Language Models (LLMs) の微調整について検討し,理論的な洞察と実践的応用を統合する。 従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。 教師なし、教師なし、命令ベースのアプローチを含む微調整手法の比較は、異なるタスクに適用可能であることを強調している。 このレポートでは、データ準備、モデル初期化、ハイパーパラメータチューニング、モデル展開を微調整するための構造化された7段階パイプラインを紹介している。 不均衡なデータセットと最適化技術の管理に重点を置いている。 計算効率と性能のバランスをとるために,ローランド適応 (LoRA) やハーフファインチューニング (Half Fine-Tuning) のようなパラメータ効率の手法を検討した。 メモリファインチューニング、Mixture of Experts(MoE)、Mixture of Agents(MoA)といった高度な技術は、専門的なネットワークとマルチエージェントのコラボレーションの活用に有効である。 また,LLMと人間の嗜好を一致させるPPO(Pximal Policy Optimization)やDPO(Direct Preference Optimization)といった新しいアプローチと,プルーニングとルーティングの最適化を併用して効率を向上する手法についても検討した。 さらなるセクションでは、検証フレームワーク、デプロイ後の監視、推論最適化について、分散およびクラウドベースのプラットフォームにLLMをデプロイすることに注目している。 マルチモーダルLLM、オーディオと音声の微調整、スケーラビリティ、プライバシ、説明責任などに関わる課題にも対処する。 本報告は, LLMの微調整を行う研究者や実践者に対して, 進化途上の景観における実用的な知見を提供する。

This report examines the fine-tuning of Large Language Models (LLMs), integrating theoretical insights with practical applications. It outlines the historical evolution of LLMs from traditional Natural Language Processing (NLP) models to their pivotal role in AI. A comparison of fine-tuning methodologies, including supervised, unsupervised, and instruction-based approaches, highlights their applicability to different tasks. The report introduces a structured seven-stage pipeline for fine-tuning LLMs, spanning data preparation, model initialization, hyperparameter tuning, and model deployment. Emphasis is placed on managing imbalanced datasets and optimization techniques. Parameter-efficient methods like Low-Rank Adaptation (LoRA) and Half Fine-Tuning are explored for balancing computational efficiency with performance. Advanced techniques such as memory fine-tuning, Mixture of Experts (MoE), and Mixture of Agents (MoA) are discussed for leveraging specialized networks and multi-agent collaboration. The report also examines novel approaches like Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO), which align LLMs with human preferences, alongside pruning and routing optimizations to improve efficiency. Further sections cover validation frameworks, post-deployment monitoring, and inference optimization, with attention to deploying LLMs on distributed and cloud-based platforms. Emerging areas such as multimodal LLMs, fine-tuning for audio and speech, and challenges related to scalability, privacy, and accountability are also addressed. This report offers actionable insights for researchers and practitioners navigating LLM fine-tuning in an evolving landscape.
翻訳日:2024-11-08 05:26:28 公開日:2024-10-30
# 多言語大言語モデル解析のための言語特化校正の検討

Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models ( http://arxiv.org/abs/2408.14398v3 )

ライセンス: Link先を確認
Simon Kurz, Jian-Jia Chen, Lucie Flek, Zhixue Zhao, (参考訳) 大規模言語モデル(LLM)プルーニングの最近の進歩は、高い予測性能を維持しつつ、後トレーニングや再トレーニング不要な設定において、最先端(SotA)圧縮結果を示している。 しかし、以前の研究では、現代のLLMの多言語的性質と非英語言語で頻繁に使われているにもかかわらず、英語のテキストに基づく校正を主に検討していた。 本稿では,モノリンガルアプリケーションのための多言語言語モデルのプルーニングの校正について検討する。 多様な言語,タスク,モデル,およびソトAプルーニング技術を用いて,多言語モデルをプルーニングするための様々なキャリブレーション言語の比較を行った。 例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。 プルーニングモデルにおける潜在部分空間、プルーニングマスク、および個々のニューロンのさらなる解析により、プルーニングは言語固有の特徴を一般的に保持するが、言語固有のニューロン活性化パターンや、複雑なタスクに必要な知識や推論に関連する微妙で言語に依存しない特徴を保持することに失敗する可能性がある。

Recent advances in large language model (LLM) pruning have shown state-of-the-art (SotA) compression results in post-training and retraining-free settings while maintaining high predictive performance. However, previous research mainly considered calibrating based on English text, despite the multilingual nature of modern LLMs and their frequent use in non-English languages. In this paper, we set out to investigate calibrating the pruning of multilingual language models for monolingual applications. We present the first comprehensive empirical study, comparing different calibration languages for pruning multilingual models across diverse languages, tasks, models, and SotA pruning techniques. Our results offer practical suggestions, for example, calibrating in the target language can efficiently retain the language modeling capability but does not necessarily benefit downstream tasks. Through further analysis of latent subspaces, pruning masks, and individual neurons within pruned models, we find that while pruning generally preserves strong language-specific features, it may fail to retain language-specific neuron activation patterns and subtle, language-agnostic features associated with knowledge and reasoning that are needed for complex tasks.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-30
# 超対称性アプローチによるLevi Rosenzweig-Porterモデルのスペクトル特性

Spectral properties of Levy Rosenzweig-Porter model via supersymmetric approach ( http://arxiv.org/abs/2408.15072v2 )

ライセンス: Link先を確認
Elizaveta Safonova, Mikhail Feigelman, Vladimir Kravtsov, (参考訳) エフェトフの超対称形式論を用いて解析的に、外対角要素が強非ガウス的尾を持つ非ガウス的尾を持つ L'evy および L'evy-Rosenzweig-Porter ランダム行列の平均スペクトル密度 $\rho(E)$ を計算した。 これにより、標準的なHubbard-Stratonovich変換はそのような問題には適用できない。 代わりに、関数的ハバード・ストラトノビッチ変換を用いて、行列の大規模な問題に対して解析的に問題を解けるようにした。 我々は, エルゴディックとフラクタル相の遷移を通じてシステムを駆動する制御パラメータに, $\rho(E)$ が決定的に依存していることを示し, 順序パラメータとして使用することができる。

By using the Efetov's super-symmetric formalism we computed analytically the mean spectral density $\rho(E)$ for the L\'evy and the L\'evy -Rosenzweig-Porter random matrices which off-diagonal elements are strongly non-Gaussian with power-law tails. This makes the standard Hubbard-Stratonovich transformation inapplicable to such problems. We used, instead, the functional Hubbard-Stratonovich transformation which allowed to solve the problem analytically for large sizes of matrices. We show that $\rho(E)$ depends crucially on the control parameter that drives the system through the transition between the ergodic and the fractal phases and it can be used as an order parameter.
翻訳日:2024-11-08 04:52:58 公開日:2024-10-30
# 高縮退ハミルトニアンのマクロ熱化

Macroscopic Thermalization for Highly Degenerate Hamiltonians ( http://arxiv.org/abs/2408.15832v2 )

ライセンス: Link先を確認
Barbara Roos, Stefan Teufel, Roderich Tumulka, Cornelia Vogel, (参考訳) 純粋な状態 $\psi$ の孤立したマクロ量子系について、$\psi$ がヒルベルト空間の適当な部分空間 $\mathcal{H}_{eq}$ の内か近くにある場合、それはマクロ熱平衡であると言う。 全ての初期状態 $\psi_0$ が最終的にマクロ熱平衡に達し、ハミルトニアンが非縮退し、固有状態熱化仮説(ETH)の適切なバージョンを満たす場合、ほとんどの時間(熱分解)はそこに留まることが知られている。 シラシとタサキは、最近、一次元格子上のハミルトニアン$H_0$ of $N\gg 1$自由フェルミオンの摂動$H_\theta$に対してETHを証明した。 摂動は、$H_0$の高退化を取り除くために必要である。 ここでは、縮退ハミルトニアンについても、ETHがすべての固有基底を保っている場合、すべての$\psi_0$が熱化されることを指摘し、これが$H_0$の場合であると証明する。 その上、より一般的には、ETHをより容易に、より小さな誤差境界で証明できるH_0$の固有基底が1つ存在するという事実から着想を得た、熱化を証明する別の戦略を開発する。 この戦略は、任意に小さな一般摂動$H$ of $H_0$と任意の空間次元に適用できる。 実際、任意の与えられた$H_0$を考えると、ETHは$H_0$のすべての固有基底を持ち、$H=H_0+\lambda V$を$\lambda\ll 1$とすると仮定する。 すると、$H$ (非退化) は依然として ETH を満たすことができないかもしれないが、それでもそのことを示す。 (i)全ての$\psi_0$は、ほとんどの摂動に対して熱化し、より一般的には$V$である。 (ii) 任意の部分空間 $\mathcal{H}_\nu$ (非平衡マクロ状態に対応するような) に対して、ほとんどの摂動$V$ は $\mathcal{H}_\nu$ のほとんどの $\psi_0$ が熱化されるようなものである。

We say of an isolated macroscopic quantum system in a pure state $\psi$ that it is in macroscopic thermal equilibrium if $\psi$ lies in or close to a suitable subspace $\mathcal{H}_{eq}$ of Hilbert space. It is known that every initial state $\psi_0$ will eventually reach macroscopic thermal equilibrium and stay there most of the time ("thermalize") if the Hamiltonian is non-degenerate and satisfies the appropriate version of the eigenstate thermalization hypothesis (ETH), i.e., that every eigenvector is in macroscopic thermal equilibrium. Shiraishi and Tasaki recently proved the ETH for a certain perturbation $H_\theta$ of the Hamiltonian $H_0$ of $N\gg 1$ free fermions on a one-dimensional lattice. The perturbation is needed to remove the high degeneracies of $H_0$. Here, we point out that also for degenerate Hamiltonians, all $\psi_0$ thermalize if the ETH holds for every eigenbasis, and we prove that this is the case for $H_0$. On top of that and more generally, we develop another strategy of proving thermalization, inspired by the fact that there is one eigenbasis of $H_0$ for which ETH can be proven more easily and with smaller error bounds than for the others. This strategy applies to arbitrarily small generic perturbations $H$ of $H_0$ and to arbitrary spatial dimensions. In fact, we consider any given $H_0$, suppose that the ETH holds for some but not necessarily every eigenbasis of $H_0$, and add a small generic perturbation, $H=H_0+\lambda V$ with $\lambda\ll 1$. Then, although $H$ (which is non-degenerate) may still not satisfy the ETH, we show that nevertheless (i) every $\psi_0$ thermalizes for most perturbations $V$, and more generally, (ii) for any subspace $\mathcal{H}_\nu$ (such as corresponding to a non-equilibrium macro state), most perturbations $V$ are such that most $\psi_0$ from $\mathcal{H}_\nu$ thermalize.
翻訳日:2024-11-08 04:30:58 公開日:2024-10-30
# 外乱スコアのロバストな統計的スケーリング:外乱確率の改善(拡張版)

Robust Statistical Scaling of Outlier Scores: Improving the Quality of Outlier Probabilities for Outliers (Extended Version) ( http://arxiv.org/abs/2408.15874v3 )

ライセンス: Link先を確認
Philipp Röchner, Henrique O. Marques, Ricardo J. G. B. Campello, Arthur Zimek, Franz Rothlauf, (参考訳) 外乱検出アルゴリズムは通常、データセット内の各観測値に外乱スコアを割り当て、観測値が外乱値である度合いを示す。 しかしながら、これらのスコアはアルゴリズム間で比較されないことが多く、人間が解釈するのは困難である。 統計的スケーリングは、外接点スコアを接地トラスラベルを使わずに外接点確率に変換することでこの問題に対処し、アルゴリズム間の解釈性とコンパビリティを向上させる。 しかし、この変換の質は、外れ値と入値に対して異なる可能性がある。 医療、金融、エンジニアリングなど、特に関心のあるシナリオでは、アウトリーチを欠くのは、コストがかかるか、危険な場合があります。 したがって、外れ値の良好な確率を確保することが不可欠である。 本論文は, 統計的スケーリングは, 文献でよく用いられるように, 外れ値に対して等しく良い確率を生じるものではないことを論じる。 そこで我々は, 頑健な統計的スケーリングを提案し, 頑健な推定器を用いて, 外れ値の確率を向上する。 実世界のデータセットと外乱検出アルゴリズムに対する他の外乱スコア変換に対して,本手法のいくつかの変種を評価し,外乱スコアの確率を向上する。

Outlier detection algorithms typically assign an outlier score to each observation in a dataset, indicating the degree to which an observation is an outlier. However, these scores are often not comparable across algorithms and can be difficult for humans to interpret. Statistical scaling addresses this problem by transforming outlier scores into outlier probabilities without using ground-truth labels, thereby improving interpretability and comparability across algorithms. However, the quality of this transformation can be different for outliers and inliers. Missing outliers in scenarios where they are of particular interest - such as healthcare, finance, or engineering - can be costly or dangerous. Thus, ensuring good probabilities for outliers is essential. This paper argues that statistical scaling, as commonly used in the literature, does not produce equally good probabilities for outliers as for inliers. Therefore, we propose robust statistical scaling, which uses robust estimators to improve the probabilities for outliers. We evaluate several variants of our method against other outlier score transformations for real-world datasets and outlier detection algorithms, where it can improve the probabilities for outliers.
翻訳日:2024-11-08 04:30:58 公開日:2024-10-30
# 大規模言語モデルの知恵を解き放つ:人工知能への道のり

Unlocking the Wisdom of Large Language Models: An Introduction to The Path to Artificial General Intelligence ( http://arxiv.org/abs/2409.01007v2 )

ライセンス: Link先を確認
Edward Y. Chang, (参考訳) この小冊子"Unlocking the Wisdom of LLM Collaborative Intelligence"は総合的な作品"The Path to Artificial General Intelligence"を紹介している。 10のアフォリスムを通じて、ALMコラボレーティブ・インテリジェンス(LCI)の中核となる原則をAGIを達成するための有望な枠組みとして抽出する。 本書には、本章からのタイトル、要約、紹介、および最初の2章の全文も記載されている。 今週リリースされた第2版には、第6章から第9章への大幅な拡張と、Yann LeCun氏のAGIに対する懐疑論に対処する序文の改訂が含まれている。 LeCun は LLM は記憶、計画、基礎を欠いていると主張しているが、LCI の協調アーキテクチャは、行政、立法、司法の役割を伴うマルチモーダル LLM がこれらの制限を克服することを提案している。 SocraSynth, EVINCE, 意識モデリング, 行動モデリングの章では, チェックとバランスを伴う協調LLMが, 単一モデルの能力を超えたインテリジェンスを達成できることが示されている。 世界モデリングや高度な感覚能力といった補完的な強みを組み合わせることで、LCIはモデルが協力し、人間の限界を超えた現実を知覚することができる。 人間の組織と同様に、進歩は孤立ではなく協力に依存している。 協力的なLLMは新たなレベルのインテリジェンスを解き放ち、AGIへの道を歩むかもしれない。

This booklet, "Unlocking the Wisdom of LLM Collaborative Intelligence," introduces the comprehensive work "The Path to Artificial General Intelligence." Through ten aphorisms, it distills the core principles of LLM Collaborative Intelligence (LCI) as a promising framework toward achieving AGI. The booklet also offers titles, abstracts, and introductions from the main chapters, along with the first two chapters in full. The second edition, released this week, includes significant enhancements to Chapters 6 to 9 and a revised preface addressing Yann LeCun's skepticism about AGI. LeCun argues that LLMs lack memory, planning, and grounding, but we propose that LCI's collaborative architecture, involving multimodal LLMs with executive, legislative, and judicial roles, overcomes these limitations. Chapters on SocraSynth, EVINCE, consciousness modeling, and behavior modeling demonstrate that collaborative LLMs with checks and balances can achieve intelligence beyond any single model's capability. By combining complementary strengths, such as world modeling and advanced sensory capabilities, LCI enables models to work together and perceive reality beyond human limitations. As with human institutions, progress depends on cooperation, not isolation. Collaborative LLMs may unlock new levels of intelligence, paving the way toward AGI.
翻訳日:2024-11-08 03:35:26 公開日:2024-10-30
# 強化学習におけるトレース単位を用いたリアルタイム反復学習

Real-Time Recurrent Learning using Trace Units in Reinforcement Learning ( http://arxiv.org/abs/2409.01449v2 )

ライセンス: Link先を確認
Esraa Elelimy, Adam White, Michael Bowling, Martha White, (参考訳) リカレントニューラルネットワーク(RNN)は、部分的に観測可能な環境で表現を学ぶために使用される。 オンライン学習や環境との継続的な対話を行うエージェントに対しては、RTRL(Real-time Recurrent Learning)を用いてRNNをトレーニングすることが望ましい。 有望な方向はリニアリカレントアーキテクチャ(LRU)を使用することで、高密度リカレント重みを複素値の対角線に置き換え、RTRLを効率的にする。 本研究では、これらの知見に基づいて、オンラインRLにおけるRNNのトレーニングに軽量で効果的なアプローチを提供する。 RTU(Recurrent Trace Units)は,RTLのトレーニングにおいて,LRUに対して大きなパフォーマンス上のメリットがあるにもかかわらず,LRUに対する小さな修正である。 RTUは、いくつかの部分観測可能な環境において、計算量を大幅に減らしながら、他の再帰的アーキテクチャを著しく上回っている。

Recurrent Neural Networks (RNNs) are used to learn representations in partially observable environments. For agents that learn online and continually interact with the environment, it is desirable to train RNNs with real-time recurrent learning (RTRL); unfortunately, RTRL is prohibitively expensive for standard RNNs. A promising direction is to use linear recurrent architectures (LRUs), where dense recurrent weights are replaced with a complex-valued diagonal, making RTRL efficient. In this work, we build on these insights to provide a lightweight but effective approach for training RNNs in online RL. We introduce Recurrent Trace Units (RTUs), a small modification on LRUs that we nonetheless find to have significant performance benefits over LRUs when trained with RTRL. We find RTUs significantly outperform other recurrent architectures across several partially observable environments while using significantly less computation.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-30
# Occlusion-Enhanced Distillation によるApple オブジェクト検出の改善

Improving Apple Object Detection with Occlusion-Enhanced Distillation ( http://arxiv.org/abs/2409.01573v2 )

ライセンス: Link先を確認
Liang Geng, (参考訳) 自然環境で成長するリンゴは、しばしば葉や枝から激しい視覚障害に直面する。 これにより、オブジェクト検出タスクにおける偽検出のリスクが大幅に増加し、課題がエスカレートされる。 この問題に対処するため,オクルージョン強化蒸留(OED)と呼ばれる技術を導入する。 このアプローチでは、隠蔽情報を用いて、隠蔽されたデータセット上の意味的に整合した特徴の学習を規則化し、訓練安定性を高めるために指数移動平均(EMA)を用いる。 具体的には,まずDINO法とSAM法を統合したオクルージョン強化データセットを設計し,各試料から葉や枝などのオクルージョン要素を抽出し,果実の自然成長状態を反映したオクルージョン例を作成する。 また, 学生ネットワークでは, 教師ネットワークでは, 自然閉塞のない画像を用いているのに対し, 教師ネットワークでは, 学習者ネットワークでは, 入力としてオクルージョンが増大した画像を使用するマルチスケールの知識蒸留戦略を提案する。 この設定により、教師ネットワークは、意味的・局所的な特徴アライメントのスケールを越えて学習し、隠蔽対象と非隠蔽対象との間の特徴距離を効果的に狭め、オブジェクト検出の堅牢性を高める。 最後に,学生ネットワークの安定性を向上させるために,個々の画像閉塞音の影響を受けない,より一般化された特徴表現の学習を支援するEMA戦略を導入する。 提案手法は, 広範囲な比較実験により, 最先端技術よりも優れていた。

Apples growing in natural environments often face severe visual obstructions from leaves and branches. This significantly increases the risk of false detections in object detection tasks, thereby escalating the challenge. Addressing this issue, we introduce a technique called "Occlusion-Enhanced Distillation" (OED). This approach utilizes occlusion information to regularize the learning of semantically aligned features on occluded datasets and employs Exponential Moving Average (EMA) to enhance training stability. Specifically, we first design an occlusion-enhanced dataset that integrates Grounding DINO and SAM methods to extract occluding elements such as leaves and branches from each sample, creating occlusion examples that reflect the natural growth state of fruits. Additionally, we propose a multi-scale knowledge distillation strategy, where the student network uses images with increased occlusions as inputs, while the teacher network employs images without natural occlusions. Through this setup, the strategy guides the student network to learn from the teacher across scales of semantic and local features alignment, effectively narrowing the feature distance between occluded and non-occluded targets and enhancing the robustness of object detection. Lastly, to improve the stability of the student network, we introduce the EMA strategy, which aids the student network in learning more generalized feature expressions that are less affected by the noise of individual image occlusions. Our method significantly outperforms current state-of-the-art techniques through extensive comparative experiments.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-30
# 異常・アウト・オブ・ディストリビューション検出のための大規模言語モデル:調査

Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey ( http://arxiv.org/abs/2409.01980v2 )

ライセンス: Link先を確認
Ruiyao Xu, Kaize Ding, (参考訳) 異常検出やアウト・オブ・ディストリビューション(OOD)サンプルの検出は、マシンラーニングシステムの信頼性と信頼性を維持する上で重要である。 近年,Large Language Models (LLMs) は,自然言語処理だけでなく,その高度な理解と生成能力により,より広範な応用においてもその有効性を実証している。 LLMの異常とOOD検出への統合は、この分野の伝統的なパラダイムから大きく変わった。 本調査は,LLMの文脈下での異常検出とOOD検出の問題点に焦点を当てた。 LLMが果たす役割に基づいて,既存のアプローチを2つのクラスに分類する新たな分類法を提案する。 提案した分類学に続いて,各カテゴリの関連研究についてさらに議論し,今後の研究の課題と方向性について論じる。 関連論文の最新の読解リストも提供します。

Detecting anomalies or out-of-distribution (OOD) samples is critical for maintaining the reliability and trustworthiness of machine learning systems. Recently, Large Language Models (LLMs) have demonstrated their effectiveness not only in natural language processing but also in broader applications due to their advanced comprehension and generative capabilities. The integration of LLMs into anomaly and OOD detection marks a significant shift from the traditional paradigm in the field. This survey focuses on the problem of anomaly and OOD detection under the context of LLMs. We propose a new taxonomy to categorize existing approaches into two classes based on the role played by LLMs. Following our proposed taxonomy, we further discuss the related work under each of the categories and finally discuss potential challenges and directions for future research in this field. We also provide an up-to-date reading list of relevant papers.
翻訳日:2024-11-07 23:56:04 公開日:2024-10-30
# 神経多変量回帰における神経崩壊の頻度

The Prevalence of Neural Collapse in Neural Multivariate Regression ( http://arxiv.org/abs/2409.04180v2 )

ライセンス: Link先を確認
George Andriopoulos, Zixuan Dong, Li Guo, Zifan Zhao, Keith Ross, (参考訳) 近年,ニューラルネットワークは分類問題のトレーニングの最終段階にニューラル・コラプス(NC)を示すことが観察されている。 NRC1) 最後の層特徴ベクトルは、特徴ベクトルの$n$主成分で区切られた部分空間に崩壊し、$n$は、目標の次元である(単変量回帰、$n=1$); (NRC2) 最後の層特徴ベクトルも、最終層重みベクトルで区切られた部分空間に崩壊する(NRC3) 重みベクトルのグラム行列は、目標の共分散行列に依存する特定の機能形式に収束する。 種々のデータセットやネットワークアーキテクチャに対する(NRC1)-(NRC3)の妥当性を実証的に確立した後、損失関数を最小化する際に最終層特徴ベクトルを自由変数として扱う非制約特徴モデル(UFM)の文脈で回帰タスクをモデル化することにより、これらの現象を説明する。 UFMモデルにおける正規化パラメータが厳密な正の場合, (NRC1)-(NRC3) も UFM 最適化問題の解として現れる。 また、正規化パラメータが 0 に等しい場合、崩壊しないことを示す。 我々の知る限り、これは回帰の文脈における神経崩壊に関する最初の経験的、理論的研究である。 この拡張は、ニューラル崩壊の応用範囲を新しい問題カテゴリに広げるだけでなく、ニューラル崩壊の現象がディープラーニングにおける普遍的な振る舞いであることを示唆している。

Recently it has been observed that neural networks exhibit Neural Collapse (NC) during the final stage of training for the classification problem. We empirically show that multivariate regression, as employed in imitation learning and other applications, exhibits Neural Regression Collapse (NRC), a new form of neural collapse: (NRC1) The last-layer feature vectors collapse to the subspace spanned by the $n$ principal components of the feature vectors, where $n$ is the dimension of the targets (for univariate regression, $n=1$); (NRC2) The last-layer feature vectors also collapse to the subspace spanned by the last-layer weight vectors; (NRC3) The Gram matrix for the weight vectors converges to a specific functional form that depends on the covariance matrix of the targets. After empirically establishing the prevalence of (NRC1)-(NRC3) for a variety of datasets and network architectures, we provide an explanation of these phenomena by modeling the regression task in the context of the Unconstrained Feature Model (UFM), in which the last layer feature vectors are treated as free variables when minimizing the loss function. We show that when the regularization parameters in the UFM model are strictly positive, then (NRC1)-(NRC3) also emerge as solutions in the UFM optimization problem. We also show that if the regularization parameters are equal to zero, then there is no collapse. To our knowledge, this is the first empirical and theoretical study of neural collapse in the context of regression. This extension is significant not only because it broadens the applicability of neural collapse to a new category of problems but also because it suggests that the phenomena of neural collapse could be a universal behavior in deep learning.
翻訳日:2024-11-07 23:11:54 公開日:2024-10-30
# 人の反応時間による嗜好に基づく線形帯域の強化

Enhancing Preference-based Linear Bandits via Human Response Time ( http://arxiv.org/abs/2409.05798v2 )

ライセンス: Link先を確認
Shen Li, Yuyang Zhang, Zhaolin Ren, Claire Liang, Na Li, Julie A. Shah, (参考訳) 対話的な嗜好学習システムは、クエリを選択肢のペアとして人間に提示する。 二分選択フィードバックはシンプルで広く使われているが、好みの強さに関する限られた情報を提供する。 これを解決するために、人間の反応時間を利用する。それは、相補的な情報として、逆に好みの強さと相関する。 本研究では,EZ拡散モデルに基づく計算効率のよい手法を導入し,選択時間と応答時間を組み合わせて基礎となる実用性関数を推定する。 従来の選択のみの推定器との理論的および実証的な比較は、人間が強い嗜好(すなわち"easy"クエリ)を持つクエリの場合、応答時間が貴重な相補的な情報を提供し、ユーティリティ推定を向上することを示している。 我々は、この推定器を、固定予算のベストアーム識別のための嗜好に基づく線形バンドレットに統合する。 実世界の3つのデータセットのシミュレーションは、応答時間の導入が好みの学習を著しく加速することを示した。

Interactive preference learning systems present humans with queries as pairs of options; humans then select their preferred choice, allowing the system to infer preferences from these binary choices. While binary choice feedback is simple and widely used, it offers limited information about preference strength. To address this, we leverage human response times, which inversely correlate with preference strength, as complementary information. We introduce a computationally efficient method based on the EZ-diffusion model, combining choices and response times to estimate the underlying human utility function. Theoretical and empirical comparisons with traditional choice-only estimators show that for queries where humans have strong preferences (i.e., "easy" queries), response times provide valuable complementary information and enhance utility estimates. We integrate this estimator into preference-based linear bandits for fixed-budget best-arm identification. Simulations on three real-world datasets demonstrate that incorporating response times significantly accelerates preference learning.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-30
# 人の反応時間による嗜好に基づく線形帯域の強化

Enhancing Preference-based Linear Bandits via Human Response Time ( http://arxiv.org/abs/2409.05798v3 )

ライセンス: Link先を確認
Shen Li, Yuyang Zhang, Zhaolin Ren, Claire Liang, Na Li, Julie A. Shah, (参考訳) 対話的な嗜好学習システムは、クエリを選択肢のペアとして人間に提示する。 二分選択フィードバックはシンプルで広く使われているが、好みの強さに関する限られた情報を提供する。 これを解決するために、人間の反応時間を利用する。それは、相補的な情報として、逆に好みの強さと相関する。 本研究では,EZ拡散モデルに基づく計算効率のよい手法を導入し,選択時間と応答時間を組み合わせて基礎となる実用性関数を推定する。 従来の選択のみの推定器との理論的および実証的な比較は、人間が強い嗜好(すなわち"easy"クエリ)を持つクエリの場合、応答時間が貴重な相補的な情報を提供し、ユーティリティ推定を向上することを示している。 我々は、この推定器を、固定予算のベストアーム識別のための嗜好に基づく線形バンドレットに統合する。 実世界の3つのデータセットのシミュレーションは、応答時間の導入が好みの学習を著しく加速することを示した。

Interactive preference learning systems present humans with queries as pairs of options; humans then select their preferred choice, allowing the system to infer preferences from these binary choices. While binary choice feedback is simple and widely used, it offers limited information about preference strength. To address this, we leverage human response times, which inversely correlate with preference strength, as complementary information. We introduce a computationally efficient method based on the EZ-diffusion model, combining choices and response times to estimate the underlying human utility function. Theoretical and empirical comparisons with traditional choice-only estimators show that for queries where humans have strong preferences (i.e., "easy" queries), response times provide valuable complementary information and enhance utility estimates. We integrate this estimator into preference-based linear bandits for fixed-budget best-arm identification. Simulations on three real-world datasets demonstrate that incorporating response times significantly accelerates preference learning.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-30
# SongCreator: 歌詞ベースのユニバーサルソングジェネレーション

SongCreator: Lyrics-based Universal Song Generation ( http://arxiv.org/abs/2409.06029v2 )

ライセンス: Link先を確認
Shun Lei, Yixuan Zhou, Boshi Tang, Max W. Y. Lam, Feng Liu, Hangyu Liu, Jingcheng Wu, Shiyin Kang, Zhiyong Wu, Helen Meng, (参考訳) 音楽は人間の文化の不可欠な部分であり、人間の知性と創造性を具現化している。 歌声、声楽曲、楽器の編曲など、以前の作品で歌唱のさまざまな側面が検討されてきたが、声楽と伴奏の両方で歌を創出することは、実際の世界での曲生成モデルの適用を妨げる重要な課題である。 そこで本研究では,この課題に対処するための曲生成システムであるSongCreatorを提案する。 モデルには2つの新しいデザインがある: 声と伴奏の情報を取得するための巧妙に設計された二重系列言語モデル (DSLM) と、特定の注意マスクを利用することで、曲を理解し、生成し、編集することができるDSLMのための一連の注意マスク戦略である。 総合的な実験は8つのタスクすべてに対して最先端または競争的なパフォーマンスを達成することでSongCreatorの有効性を実証する。 特に、前作の歌詞と歌詞とボーカルの差を大きく上回っている。 さらに、異なる音声プロンプトを通じて、生成された歌声の音響条件と伴奏を独立に制御することができ、その潜在的な適用性を示すことができる。 サンプルはhttps://thuhcsi.github.io/SongCreator/で公開しています。

Music is an integral part of human culture, embodying human intelligence and creativity, of which songs compose an essential part. While various aspects of song generation have been explored by previous works, such as singing voice, vocal composition and instrumental arrangement, etc., generating songs with both vocals and accompaniment given lyrics remains a significant challenge, hindering the application of music generation models in the real world. In this light, we propose SongCreator, a song-generation system designed to tackle this challenge. The model features two novel designs: a meticulously designed dual-sequence language model (DSLM) to capture the information of vocals and accompaniment for song generation, and a series of attention mask strategies for DSLM, which allows our model to understand, generate and edit songs, making it suitable for various songrelated generation tasks by utilizing specific attention masks. Extensive experiments demonstrate the effectiveness of SongCreator by achieving state-of-the-art or competitive performances on all eight tasks. Notably, it surpasses previous works by a large margin in lyrics-to-song and lyrics-to-vocals. Additionally, it is able to independently control the acoustic conditions of the vocals and accompaniment in the generated song through different audio prompts, exhibiting its potential applicability. Our samples are available at https://thuhcsi.github.io/SongCreator/.
翻訳日:2024-11-07 22:27:40 公開日:2024-10-30
# ソフトな選好ラベルに対する幾何学的平均選好最適化

Geometric-Averaged Preference Optimization for Soft Preference Labels ( http://arxiv.org/abs/2409.06691v2 )

ライセンス: Link先を確認
Hiroki Furuta, Kuang-Huei Lee, Shixiang Shane Gu, Yutaka Matsuo, Aleksandra Faust, Heiga Zen, Izzeddin Gur, (参考訳) LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。 しかし、人間の好みは個人によって異なり、それゆえに分布的に表現されるべきである。 本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。 このアプローチは、ソフトラベルに基づいて学習損失のスケールを調整し、応答が等しく好まれるときに損失がゼロに近づくようにする。 この単純な修正は、どんなDPOベースの手法にも容易に適用でき、事前の作業に苦しむ過度な最適化と客観的なミスマッチを軽減することができる。 我々の実験は、LLMからのAIフィードバックでソフトな嗜好ラベルをシミュレートし、幾何平均化がアライメント研究のための標準ベンチマークの性能を一貫して改善することを示した。 特に、バイナリラベルよりもより望ましい応答と、適度に信頼されたラベルが多数を占める大幅な改善を観察する。

Many algorithms for aligning LLMs with human preferences assume that human preferences are binary and deterministic. However, human preferences can vary across individuals, and therefore should be represented distributionally. In this work, we introduce the distributional soft preference labels and improve Direct Preference Optimization (DPO) with a weighted geometric average of the LLM output likelihood in the loss function. This approach adjusts the scale of learning loss based on the soft labels such that the loss would approach zero when the responses are closer to equally preferred. This simple modification can be easily applied to any DPO-based methods and mitigate over-optimization and objective mismatch, which prior works suffer from. Our experiments simulate the soft preference labels with AI feedback from LLMs and demonstrate that geometric averaging consistently improves performance on standard benchmarks for alignment research. In particular, we observe more preferable responses than binary labels and significant improvements where modestly-confident labels are in the majority.
翻訳日:2024-11-07 22:05:05 公開日:2024-10-30
# マルチモーダル・アフェクティブ・コンピューティングの最新動向:NLPの視点から

Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective ( http://arxiv.org/abs/2409.07388v2 )

ライセンス: Link先を確認
Guimin Hu, Yi Xin, Weimin Lyu, Haojian Huang, Chang Sun, Zhihong Zhu, Lin Gui, Ruichu Cai, Erik Cambria, Hasti Seifi, (参考訳) マルチモーダル感情コンピューティング(MAC)は、人間の行動や意図、特にテキストが支配するマルチモーダル感情コンピューティング分野において広く応用されているため、注目を集めている。 マルチモーダル感情分析,会話におけるマルチモーダル感情認識,マルチモーダル・アスペクトベース感情分析,マルチモーダル・マルチラベル感情認識という4つのホットタスクを通じて,NLPの観点からのマルチモーダル感情コンピューティングの最近の動向を示す。 本調査の目的は、マルチモーダル感情研究の現在の状況を探究し、開発動向を特定し、様々なタスクの類似点と相違点を明らかにすることであり、NLPの観点からのマルチモーダル感情コンピューティングの最近の進歩に関する総合的なレポートを提供する。 本調査では、タスクの形式化、関連する作業の概要、ベンチマークデータセットの説明、各タスクの評価基準の詳細について紹介する。 さらに、表情、音響信号、生理的信号、感情の原因を含むマルチモーダル感情コンピューティングの研究についても、簡潔に論じる。 さらに,マルチモーダル感情コンピューティングにおける技術的アプローチ,課題,今後の方向性についても論じる。 さらなる研究を支援するため、我々はマルチモーダルな感情コンピューティングにおける関連研究をコンパイルし、コミュニティに詳細なリソースと参照を提供するレポジトリをリリースした。

Multimodal affective computing (MAC) has garnered increasing attention due to its broad applications in analyzing human behaviors and intentions, especially in text-dominated multimodal affective computing field. This survey presents the recent trends of multimodal affective computing from NLP perspective through four hot tasks: multimodal sentiment analysis, multimodal emotion recognition in conversation, multimodal aspect-based sentiment analysis and multimodal multi-label emotion recognition. The goal of this survey is to explore the current landscape of multimodal affective research, identify development trends, and highlight the similarities and differences across various tasks, offering a comprehensive report on the recent progress in multimodal affective computing from an NLP perspective. This survey covers the formalization of tasks, provides an overview of relevant works, describes benchmark datasets, and details the evaluation metrics for each task. Additionally, it briefly discusses research in multimodal affective computing involving facial expressions, acoustic signals, physiological signals, and emotion causes. Additionally, we discuss the technical approaches, challenges, and future directions in multimodal affective computing. To support further research, we released a repository that compiles related works in multimodal affective computing, providing detailed resources and references for the community.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-30
# L3Cube-IndicQuest: 指標文脈におけるLLMの知識評価のためのベンチマーク質問回答データセット

L3Cube-IndicQuest: A Benchmark Question Answering Dataset for Evaluating Knowledge of LLMs in Indic Context ( http://arxiv.org/abs/2409.08706v2 )

ライセンス: Link先を確認
Pritika Rohera, Chaitrali Ginimav, Akanksha Salunke, Gayatri Sawant, Raviraj Joshi, (参考訳) 大規模言語モデル(LLM)は多言語モデルにインデックス言語を組み込むことで大きな進歩を遂げた。 しかし、これらの言語が、英語などの世界的に支配的な言語と相容れないかどうかを定量的に評価することが重要である。 現在、様々な Indic 言語における LLM の地域的知識を評価するために特別に設計されたベンチマークデータセットが不足している。 本稿では,多言語LLMが多言語言語間の地域知識をいかに捉えるかを評価するために,ゴールドスタンダードの事実探索ベンチマークデータセットであるL3Cube-IndicQuestを提案する。 データセットには200の質問応答ペアが含まれており、それぞれ英語と19のIndic言語に対応しており、Indicリージョン固有の5つのドメインを含んでいる。 本データセットは,インドにおける文脈に関する知識の理解と表現において,LLMの性能を評価するための基礎的真実を提供するためのベンチマークとして機能することを目的としている。 IndicQuestは、参照ベース評価とLCM-as-a-judge評価の両方に使用することができる。 データセットはhttps://github.com/l3cube-pune/indic-nlp で公開されています。

Large Language Models (LLMs) have made significant progress in incorporating Indic languages within multilingual models. However, it is crucial to quantitatively assess whether these languages perform comparably to globally dominant ones, such as English. Currently, there is a lack of benchmark datasets specifically designed to evaluate the regional knowledge of LLMs in various Indic languages. In this paper, we present the L3Cube-IndicQuest, a gold-standard factual question-answering benchmark dataset designed to evaluate how well multilingual LLMs capture regional knowledge across various Indic languages. The dataset contains 200 question-answer pairs, each for English and 19 Indic languages, covering five domains specific to the Indic region. We aim for this dataset to serve as a benchmark, providing ground truth for evaluating the performance of LLMs in understanding and representing knowledge relevant to the Indian context. The IndicQuest can be used for both reference-based evaluation and LLM-as-a-judge evaluation. The dataset is shared publicly at https://github.com/l3cube-pune/indic-nlp .
翻訳日:2024-11-07 21:09:04 公開日:2024-10-30
# 適応情報変調を用いたLLMエージェント間の協調構築

Instigating Cooperation among LLM Agents Using Adaptive Information Modulation ( http://arxiv.org/abs/2409.10372v3 )

ライセンス: Link先を確認
Qiliang Chen, Sepehr Ilami, Nunzio Lore, Babak Heydari, (参考訳) 本稿では,LLMエージェントを人間戦略行動プロキシとして,強化学習(RL)と組み合わせて,これらのエージェントをチーム環境内での戦略的相互作用に関与させる新しいフレームワークを提案する。 我々のアプローチは、戦略的LLMエージェント(SLA)を用いて従来のエージェントベースのシミュレーションを拡張し、ネットワーク内のエージェント間の情報アクセスを調節し、社会的福祉を最適化し、社会的行動を促進するPPA(Pro-social promoted RL agent)を介して動的かつ適応的なガバナンスを導入する。 囚人ジレンマを含む反復型ゲームにおける検証を通じて、SLAエージェントが曖昧な戦略適応を示すことを示す。 PPAエージェントは、情報の透明性を効果的に調整し、協力率が向上する。 このフレームワークは、実世界のチーム設定におけるAIの展開に寄与する、AIを介するソーシャルダイナミクスに関する重要な洞察を提供する。

This paper introduces a novel framework combining LLM agents as proxies for human strategic behavior with reinforcement learning (RL) to engage these agents in evolving strategic interactions within team environments. Our approach extends traditional agent-based simulations by using strategic LLM agents (SLA) and introducing dynamic and adaptive governance through a pro-social promoting RL agent (PPA) that modulates information access across agents in a network, optimizing social welfare and promoting pro-social behavior. Through validation in iterative games, including the prisoner dilemma, we demonstrate that SLA agents exhibit nuanced strategic adaptations. The PPA agent effectively learns to adjust information transparency, resulting in enhanced cooperation rates. This framework offers significant insights into AI-mediated social dynamics, contributing to the deployment of AI in real-world team settings.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-30
# WaveMixSR-V2:高効率で高解像度を実現する

WaveMixSR-V2: Enhancing Super-resolution with Higher Efficiency ( http://arxiv.org/abs/2409.10582v2 )

ライセンス: Link先を確認
Pranav Jeevan, Neeraj Nixon, Amit Sethi, (参考訳) シングルイメージ超解像の最近の進歩は、主にトークンミキサーとトランスフォーマーアーキテクチャによって推進されている。 WaveMixSRは、空間トークンの混合に2次元の離散ウェーブレット変換を用い、資源効率の優れた超解像タスクにおいて優れた性能を実現した。 本稿では,(1)従来の変換畳み込み層をピクセルシャッフル操作に置き換え,(2)高分解能タスクのための多段階設計(4\times$)を実装することで,WaveMixSRアーキテクチャの強化版を提案する。 我々の実験は、強化されたモデルであるWaveMixSR-V2が、BSD100データセットの最先端を達成すると同時に、リソースの消費も少なく、パラメータ効率の向上、レイテンシの低減、スループットの向上など、複数の超高解像度タスクにおいて、他のアーキテクチャよりも優れていることを示した。 私たちのコードはhttps://github.com/pranavphoenix/WaveMixSR.comで利用可能です。

Recent advancements in single image super-resolution have been predominantly driven by token mixers and transformer architectures. WaveMixSR utilized the WaveMix architecture, employing a two-dimensional discrete wavelet transform for spatial token mixing, achieving superior performance in super-resolution tasks with remarkable resource efficiency. In this work, we present an enhanced version of the WaveMixSR architecture by (1) replacing the traditional transpose convolution layer with a pixel shuffle operation and (2) implementing a multistage design for higher resolution tasks ($4\times$). Our experiments demonstrate that our enhanced model -- WaveMixSR-V2 -- outperforms other architectures in multiple super-resolution tasks, achieving state-of-the-art for the BSD100 dataset, while also consuming fewer resources, exhibits higher parameter efficiency, lower latency and higher throughput. Our code is available at https://github.com/pranavphoenix/WaveMixSR.
翻訳日:2024-11-07 20:24:12 公開日:2024-10-30
# WaveMixSR-V2:高効率で高解像度を実現する

WaveMixSR-V2: Enhancing Super-resolution with Higher Efficiency ( http://arxiv.org/abs/2409.10582v3 )

ライセンス: Link先を確認
Pranav Jeevan, Neeraj Nixon, Amit Sethi, (参考訳) シングルイメージ超解像の最近の進歩は、主にトークンミキサーとトランスフォーマーアーキテクチャによって推進されている。 WaveMixSRは、空間トークンの混合に2次元の離散ウェーブレット変換を用い、資源効率の優れた超解像タスクにおいて優れた性能を実現した。 本稿では,(1)従来の変換畳み込み層をピクセルシャッフル操作に置き換え,(2)高分解能タスクのための多段階設計(4\times$)を実装することで,WaveMixSRアーキテクチャの強化版を提案する。 我々の実験は、強化されたモデルであるWaveMixSR-V2が、BSD100データセットの最先端を達成すると同時に、リソースの消費も少なく、パラメータ効率の向上、レイテンシの低減、スループットの向上など、複数の超高解像度タスクにおいて、他のアーキテクチャよりも優れていることを示した。 私たちのコードはhttps://github.com/pranavphoenix/WaveMixSR.comで利用可能です。

Recent advancements in single image super-resolution have been predominantly driven by token mixers and transformer architectures. WaveMixSR utilized the WaveMix architecture, employing a two-dimensional discrete wavelet transform for spatial token mixing, achieving superior performance in super-resolution tasks with remarkable resource efficiency. In this work, we present an enhanced version of the WaveMixSR architecture by (1) replacing the traditional transpose convolution layer with a pixel shuffle operation and (2) implementing a multistage design for higher resolution tasks ($4\times$). Our experiments demonstrate that our enhanced model -- WaveMixSR-V2 -- outperforms other architectures in multiple super-resolution tasks, achieving state-of-the-art for the BSD100 dataset, while also consuming fewer resources, exhibits higher parameter efficiency, lower latency and higher throughput. Our code is available at https://github.com/pranavphoenix/WaveMixSR.
翻訳日:2024-11-07 20:24:12 公開日:2024-10-30
# DynaMo: Visuo-Motorコントロールのためのドメイン内ダイナミクス事前トレーニング

DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control ( http://arxiv.org/abs/2409.12192v2 )

ライセンス: Link先を確認
Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto, (参考訳) 模倣学習は、複雑なビジュモータポリシーを訓練するための強力なツールであることが証明されている。 しかし、現在の手法では、高次元の視覚的観察を扱うために数百から数千の専門家によるデモンストレーションが必要となることが多い。 この貧弱なデータ効率の重要な理由は、視覚的表現がドメイン外のデータで事前訓練されているか、行動クローニングの目的を通じて直接訓練されていることである。 本研究では、視覚表現を学習するための新しいドメイン内自己教師型DynaMoを提案する。 一組の専門的な実演が与えられた場合、画像埋め込みの列上で潜在逆動力学モデルと前方動力学モデルを共同で学習し、拡張、コントラストサンプリング、接地真理行動へのアクセスなしに次のフレームを潜時空間で予測する。 重要なのは、DynaMoは、インターネットデータセットやクロスエボダイドデータセットのようなドメイン外のデータを必要としないことだ。 6つのシミュレーションおよび実環境において、DynaMoで学習した表現は、従来の自己教師付き学習目標や事前訓練された表現よりも、下流での模倣学習性能を著しく向上することを示す。 DynaMoの使用による利益は、振舞い変換器、拡散ポリシー、MLP、および最も近い隣人といったポリシークラスにまたがる。 最後に、DynaMoの重要なコンポーネントを吸収し、下流ポリシーのパフォーマンスへの影響を測定します。 ロボットビデオはhttps://dynamo-ssl.github.ioでよく見られる。

Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io
翻訳日:2024-11-07 19:26:16 公開日:2024-10-30
# GTSinger: グローバルなマルチテクニック歌唱コーポレーション

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks ( http://arxiv.org/abs/2409.13832v1 )

ライセンス: Link先を確認
Yu Zhang, Changhao Pan, Wenxiang Guo, Ruiqi Li, Zhiyuan Zhu, Jialei Wang, Wenhao Xu, Jingyu Lu, Zhiqing Hong, Chuxin Wang, LiChao Zhang, Jinzheng He, Ziyue Jiang, Yuxin Chen, Chen Yang, Jiecheng Zhou, Xinyu Cheng, Zhou Zhao, (参考訳) 高品質でマルチタスクな歌唱データセットの不足は、既存の歌唱データセットが低品質、言語や歌手の多様性の制限、マルチテクニク情報やリアルな楽譜の欠如、タスク適合性の低下など、さまざまなコントロール可能でパーソナライズされた歌唱タスクの開発を著しく妨げている。 これらの問題に対処するため、我々は、大規模な \textbf{G}lobal, multi-\textbf{T}echnique, free-to-use, high-quality singing corpus with real music scores, designed for all singing task, with its benchmarks を提示する。 特に,(1)80.59時間の高品質な歌唱音声を収集し,最大記録の歌唱データセットを作成し,(2)9言語にまたがる20人のプロの歌手が多様な音色とスタイルを提供し,(3)6つの一般的な歌唱技法の比較と音素レベルのアノテーションを提供し,技術モデリングと制御を支援し,(4)GTSingerはリアルな音楽スコアを提供し,現実的な作曲を支援し,(5)手動による音素間のアライメント,グローバルなスタイルラベル,16.16時間のペア音声を提供する。 さらに,GTSingerの使用を容易にするために,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。 コーパスとデモはhttp://gtsinger.github.io.comで見ることができる。 我々は、データ処理とベンチマークを行うためのデータセットとコードを、https://huggingface.co/datasets/GTSinger/GTSingerとhttps://github.com/GTSinger/GTSingerで提供します。

The scarcity of high-quality and multi-task singing datasets significantly hinders the development of diverse controllable and personalized singing tasks, as existing singing datasets suffer from low quality, limited diversity of languages and singers, absence of multi-technique information and realistic music scores, and poor task suitability. To tackle these problems, we present \textbf{GTSinger}, a large \textbf{G}lobal, multi-\textbf{T}echnique, free-to-use, high-quality singing corpus with realistic music scores, designed for all singing tasks, along with its benchmarks. Particularly, (1) we collect 80.59 hours of high-quality singing voices, forming the largest recorded singing dataset; (2) 20 professional singers across nine widely spoken languages offer diverse timbres and styles; (3) we provide controlled comparison and phoneme-level annotations of six commonly used singing techniques, helping technique modeling and control; (4) GTSinger offers realistic music scores, assisting real-world musical composition; (5) singing voices are accompanied by manual phoneme-to-audio alignments, global style labels, and 16.16 hours of paired speech for various singing tasks. Moreover, to facilitate the use of GTSinger, we conduct four benchmark experiments: technique-controllable singing voice synthesis, technique recognition, style transfer, and speech-to-singing conversion. The corpus and demos can be found at http://gtsinger.github.io. We provide the dataset and the code for processing data and conducting benchmarks at https://huggingface.co/datasets/GTSinger/GTSinger and https://github.com/GTSinger/GTSinger.
翻訳日:2024-11-07 05:01:49 公開日:2024-10-30
# GTSinger: グローバルなマルチテクニック歌唱コーポレーション

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks ( http://arxiv.org/abs/2409.13832v2 )

ライセンス: Link先を確認
Yu Zhang, Changhao Pan, Wenxiang Guo, Ruiqi Li, Zhiyuan Zhu, Jialei Wang, Wenhao Xu, Jingyu Lu, Zhiqing Hong, Chuxin Wang, LiChao Zhang, Jinzheng He, Ziyue Jiang, Yuxin Chen, Chen Yang, Jiecheng Zhou, Xinyu Cheng, Zhou Zhao, (参考訳) 高品質でマルチタスクな歌唱データセットの不足は、既存の歌唱データセットが低品質、言語や歌手の多様性の制限、マルチテクニク情報やリアルな楽譜の欠如、タスク適合性の低下など、さまざまなコントロール可能でパーソナライズされた歌唱タスクの開発を著しく妨げている。 これらの問題に対処するため、GTSingerは、グローバルでマルチテクニク、フリーユース、高品質な歌唱コーパスで、すべての歌唱タスクとベンチマーク用に設計されている。 特に,(1)80.59時間の高品質な歌唱音声を収集し,最大記録の歌唱データセットを作成し,(2)9言語にまたがる20人のプロの歌手が多様な音色とスタイルを提供し,(3)6つの一般的な歌唱技法の比較と音素レベルのアノテーションを提供し,技術モデリングと制御を支援し,(4)GTSingerはリアルな音楽スコアを提供し,現実的な作曲を支援し,(5)手動による音素間のアライメント,グローバルなスタイルラベル,16.16時間のペア音声を提供する。 さらに,GTSingerの使用を容易にするために,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。 コーパスとデモはhttp://gtsinger.github.io.comで見ることができる。 我々は、データ処理とベンチマークを行うためのデータセットとコードを、https://huggingface.co/datasets/GTSinger/GTSingerとhttps://github.com/GTSinger/GTSingerで提供します。

The scarcity of high-quality and multi-task singing datasets significantly hinders the development of diverse controllable and personalized singing tasks, as existing singing datasets suffer from low quality, limited diversity of languages and singers, absence of multi-technique information and realistic music scores, and poor task suitability. To tackle these problems, we present GTSinger, a large global, multi-technique, free-to-use, high-quality singing corpus with realistic music scores, designed for all singing tasks, along with its benchmarks. Particularly, (1) we collect 80.59 hours of high-quality singing voices, forming the largest recorded singing dataset; (2) 20 professional singers across nine widely spoken languages offer diverse timbres and styles; (3) we provide controlled comparison and phoneme-level annotations of six commonly used singing techniques, helping technique modeling and control; (4) GTSinger offers realistic music scores, assisting real-world musical composition; (5) singing voices are accompanied by manual phoneme-to-audio alignments, global style labels, and 16.16 hours of paired speech for various singing tasks. Moreover, to facilitate the use of GTSinger, we conduct four benchmark experiments: technique-controllable singing voice synthesis, technique recognition, style transfer, and speech-to-singing conversion. The corpus and demos can be found at http://gtsinger.github.io. We provide the dataset and the code for processing data and conducting benchmarks at https://huggingface.co/datasets/GTSinger/GTSinger and https://github.com/GTSinger/GTSinger.
翻訳日:2024-11-07 05:01:49 公開日:2024-10-30
# GTSinger: グローバルなマルチテクニック歌唱コーポレーション

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks ( http://arxiv.org/abs/2409.13832v3 )

ライセンス: Link先を確認
Yu Zhang, Changhao Pan, Wenxiang Guo, Ruiqi Li, Zhiyuan Zhu, Jialei Wang, Wenhao Xu, Jingyu Lu, Zhiqing Hong, Chuxin Wang, LiChao Zhang, Jinzheng He, Ziyue Jiang, Yuxin Chen, Chen Yang, Jiecheng Zhou, Xinyu Cheng, Zhou Zhao, (参考訳) 高品質でマルチタスクな歌唱データセットの不足は、既存の歌唱データセットが低品質、言語や歌手の多様性の制限、マルチテクニク情報やリアルな楽譜の欠如、タスク適合性の低下など、さまざまなコントロール可能でパーソナライズされた歌唱タスクの開発を著しく妨げている。 これらの問題に対処するため、GTSingerは、グローバルでマルチテクニク、フリーユース、高品質な歌唱コーパスで、すべての歌唱タスクとベンチマーク用に設計されている。 特に,(1)80.59時間の高品質な歌唱音声を収集し,最大記録の歌唱データセットを作成し,(2)9言語にまたがる20人のプロの歌手が多様な音色とスタイルを提供し,(3)6つの一般的な歌唱技法の比較と音素レベルのアノテーションを提供し,技術モデリングと制御を支援し,(4)GTSingerはリアルな音楽スコアを提供し,現実的な作曲を支援し,(5)手動による音素間のアライメント,グローバルなスタイルラベル,16.16時間のペア音声を提供する。 さらに,GTSingerの使用を容易にするために,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。 コーパスとデモはhttp://gtsinger.github.io.comで見ることができる。 我々は、データ処理とベンチマークを行うためのデータセットとコードを、https://huggingface.co/datasets/GTSinger/GTSingerとhttps://github.com/GTSinger/GTSingerで提供します。

The scarcity of high-quality and multi-task singing datasets significantly hinders the development of diverse controllable and personalized singing tasks, as existing singing datasets suffer from low quality, limited diversity of languages and singers, absence of multi-technique information and realistic music scores, and poor task suitability. To tackle these problems, we present GTSinger, a large global, multi-technique, free-to-use, high-quality singing corpus with realistic music scores, designed for all singing tasks, along with its benchmarks. Particularly, (1) we collect 80.59 hours of high-quality singing voices, forming the largest recorded singing dataset; (2) 20 professional singers across nine widely spoken languages offer diverse timbres and styles; (3) we provide controlled comparison and phoneme-level annotations of six commonly used singing techniques, helping technique modeling and control; (4) GTSinger offers realistic music scores, assisting real-world musical composition; (5) singing voices are accompanied by manual phoneme-to-audio alignments, global style labels, and 16.16 hours of paired speech for various singing tasks. Moreover, to facilitate the use of GTSinger, we conduct four benchmark experiments: technique-controllable singing voice synthesis, technique recognition, style transfer, and speech-to-singing conversion. The corpus and demos can be found at http://gtsinger.github.io. We provide the dataset and the code for processing data and conducting benchmarks at https://huggingface.co/datasets/GTSinger/GTSinger and https://github.com/GTSinger/GTSinger.
翻訳日:2024-11-07 05:01:49 公開日:2024-10-30
# GTSinger: グローバルなマルチテクニック歌唱コーポレーション

GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks ( http://arxiv.org/abs/2409.13832v4 )

ライセンス: Link先を確認
Yu Zhang, Changhao Pan, Wenxiang Guo, Ruiqi Li, Zhiyuan Zhu, Jialei Wang, Wenhao Xu, Jingyu Lu, Zhiqing Hong, Chuxin Wang, LiChao Zhang, Jinzheng He, Ziyue Jiang, Yuxin Chen, Chen Yang, Jiecheng Zhou, Xinyu Cheng, Zhou Zhao, (参考訳) 高品質でマルチタスクな歌唱データセットの不足は、既存の歌唱データセットが低品質、言語や歌手の多様性の制限、マルチテクニク情報やリアルな楽譜の欠如、タスク適合性の低下など、さまざまなコントロール可能でパーソナライズされた歌唱タスクの開発を著しく妨げている。 これらの問題に対処するため、GTSingerは、グローバルでマルチテクニク、フリーユース、高品質な歌唱コーパスで、すべての歌唱タスクとベンチマーク用に設計されている。 特に,(1)80.59時間の高品質な歌唱音声を収集し,最大記録の歌唱データセットを作成し,(2)9言語にまたがる20人のプロの歌手が多様な音色とスタイルを提供し,(3)6つの一般的な歌唱技法の比較と音素レベルのアノテーションを提供し,技術モデリングと制御を支援し,(4)GTSingerはリアルな音楽スコアを提供し,現実的な作曲を支援し,(5)手動による音素間のアライメント,グローバルなスタイルラベル,16.16時間のペア音声を提供する。 さらに,GTSingerの使用を容易にするために,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。 コーパスとデモはhttp://gtsinger.github.io.comで見ることができる。 我々は、データ処理とベンチマークを行うためのデータセットとコードを、https://huggingface.co/datasets/GTSinger/GTSingerとhttps://github.com/GTSinger/GTSingerで提供します。

The scarcity of high-quality and multi-task singing datasets significantly hinders the development of diverse controllable and personalized singing tasks, as existing singing datasets suffer from low quality, limited diversity of languages and singers, absence of multi-technique information and realistic music scores, and poor task suitability. To tackle these problems, we present GTSinger, a large global, multi-technique, free-to-use, high-quality singing corpus with realistic music scores, designed for all singing tasks, along with its benchmarks. Particularly, (1) we collect 80.59 hours of high-quality singing voices, forming the largest recorded singing dataset; (2) 20 professional singers across nine widely spoken languages offer diverse timbres and styles; (3) we provide controlled comparison and phoneme-level annotations of six commonly used singing techniques, helping technique modeling and control; (4) GTSinger offers realistic music scores, assisting real-world musical composition; (5) singing voices are accompanied by manual phoneme-to-audio alignments, global style labels, and 16.16 hours of paired speech for various singing tasks. Moreover, to facilitate the use of GTSinger, we conduct four benchmark experiments: technique-controllable singing voice synthesis, technique recognition, style transfer, and speech-to-singing conversion. The corpus and demos can be found at http://gtsinger.github.io. We provide the dataset and the code for processing data and conducting benchmarks at https://huggingface.co/datasets/GTSinger/GTSinger and https://github.com/GTSinger/GTSinger.
翻訳日:2024-11-07 05:01:49 公開日:2024-10-30
# 2024年アメリカ合衆国大統領選挙オンライン討論会の整合性を脅かす協調型クロスプラットフォーム情報操作の発見

Uncovering Coordinated Cross-Platform Information Operations Threatening the Integrity of the 2024 U.S. Presidential Election Online Discussion ( http://arxiv.org/abs/2409.15402v2 )

ライセンス: Link先を確認
Marco Minici, Luca Luceri, Federico Cinus, Emilio Ferrara, (参考訳) 情報操作(IO)は民主的プロセスの完全性に対して重大な脅威となり、選挙関連のオンライン談話に影響を与える可能性がある。 2024年のアメリカ合衆国大統領選挙を期待して、調整されたIOのデジタルトレースを$\mathbb{X}$(元Twitter)で発見することを目的とした研究を発表した。 オンラインコーディネーションを検出するための機械学習フレームワークを用いて,2024年5月より$\mathbb{X}$の選挙関連会話を含むデータセットを分析した。 これは、協調した非正統なアクターのネットワークを明らかにし、リンク共有行動に顕著な類似点を示す。 このネットワークが共有するリンクは、ユーザーを他のソーシャルメディアプラットフォームや、低品質の政治コンテンツを含む疑わしいウェブサイトに誘導し、同じ$\mathbb{X}$とYouTubeアカウントを宣伝します。 このネットワークのメンバーは、AIが生成した欺くイメージも共有し、言語が政治的人物を攻撃し、権力と支配を伝達することを意図した象徴的なイメージを共有した。 $\mathbb{X}$はこれらのアカウントのサブセットを停止しているが、調整されたネットワークの75%以上がアクティブである。 本研究は,大規模ソーシャルメディアプラットフォーム上での脅威検出をスケールアップする計算モデルの開発において重要な役割を担っている。

Information Operations (IOs) pose a significant threat to the integrity of democratic processes, with the potential to influence election-related online discourse. In anticipation of the 2024 U.S. presidential election, we present a study aimed at uncovering the digital traces of coordinated IOs on $\mathbb{X}$ (formerly Twitter). Using our machine learning framework for detecting online coordination, we analyze a dataset comprising election-related conversations on $\mathbb{X}$ from May 2024. This reveals a network of coordinated inauthentic actors, displaying notable similarities in their link-sharing behaviors. Our analysis shows concerted efforts by these accounts to disseminate misleading, redundant, and biased information across the Web through a coordinated cross-platform information operation: The links shared by this network frequently direct users to other social media platforms or suspicious websites featuring low-quality political content and, in turn, promoting the same $\mathbb{X}$ and YouTube accounts. Members of this network also shared deceptive images generated by AI, accompanied by language attacking political figures and symbolic imagery intended to convey power and dominance. While $\mathbb{X}$ has suspended a subset of these accounts, more than 75% of the coordinated network remains active. Our findings underscore the critical role of developing computational models to scale up the detection of threats on large social media platforms, and emphasize the broader implications of these techniques to detect IOs across the wider Web.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-30
# パリティ違反が量子絡み合いとベル非局所性に及ぼす影響

Impact of parity violation on quantum entanglement and Bell nonlocality ( http://arxiv.org/abs/2409.15418v1 )

ライセンス: Link先を確認
Yong Du, Xiao-Gang He, Chia-Wei Liu, Jian-Ping Ma, (参考訳) 量子エンタングルメント(QE)とベル不等式(BI)は、パリティ(P)を保った相互作用に対して広く研究されているが、Pを侵害する相互作用との相互作用は未解明のままである。 我々は、P違反が特定のスピン結合を優先し、QEおよびBI違反の程度に大きな影響を及ぼすことを見出した。 量子場理論(QFT)の枠組みでは、スピン-0粒子が2つのフェルミオンに崩壊する際、クレーター=ホルネ=シモニー=ホルト事件のパラメータとBIは、それぞれ$\sqrt{1 - \alpha^2}$と$2 \sqrt{2 - \alpha^2}$であり、$-1\leq \alpha\ \leq 1$はP違反の大きさを定量化する。 スピン1粒子崩壊の場合、P-違反相互作用はスピン0の場合と同様の効果をもたらす。 QFT の知識がなければ、スピン-0 の場合、密度行列の一般的な形式は、P 保存崩壊のパラメータを 1 つだけ測定し、そうでなければ 3 つのパラメータを測る必要がある。 スピン1の場合、一般に9つのパラメータが存在する。 さらに、検出器内の磁場によって誘起されるQEおよびBIに対する見落とし効果について検討し、PおよびCP対称性の真の試験に欠かせないことを発見した。

Quantum entanglement (QE) and Bell inequalities (BI) have been extensively studied for interactions that conserve parity (P), while their interplay with P-violating ones remains underexplored. We find P violation leads to a preference for particular spin combinations and has significant effects on QE and the extent of BI violation. Within the quantum field theory (QFT) framework, for spin-0 particles decaying into two fermions, parameters for the concurrence and the BI for the Clauser-Horne-Shimony-Holt case are found to be $\sqrt{1 - \alpha^2}$ and $2 \sqrt{2 - \alpha^2}$, respectively, where $-1\leq \alpha\ \leq 1$ quantifies the size of P violation. For spin-1 particle decays, we find that P-violating interactions introduce effects similar to those in the spin-0 case. Without knowledge from the QFT, for the spin-0 case, the general form of density matrices requires measuring only one parameter for P-conserving decays and three otherwise. For spin-1 cases, there would be nine parameters in general. We further study the overlooked effect on QE and BI induced by the magnetic field in detectors and find it essential for a genuine test of P and CP symmetries.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-30
# パリティ違反が量子絡み合いとベル非局所性に及ぼす影響

Impact of parity violation on quantum entanglement and Bell nonlocality ( http://arxiv.org/abs/2409.15418v2 )

ライセンス: Link先を確認
Yong Du, Xiao-Gang He, Chia-Wei Liu, Jian-Ping Ma, (参考訳) ベルの不等式(BI)違反によって証明された量子絡み合い(QE)は、自然の非局所性を明らかにする。 基本的な相互作用は様々な形で現れ、それぞれがQEとBIに異なる影響を及ぼすが、まだ深く研究されていない。 量子場理論(QFT)におけるスピン-0粒子とスピン-1粒子の崩壊に起因するスピン-1/2二部晶系におけるQE,ベル非局所性,パリティ-違反相互作用の関係を詳細に検討する。 その結果,パリティ(P)違反は粒子対を完全に解離させることができ,ベル試験は古典理論と量子理論の区別に効果がないことが明らかとなった。 スピン-0の場合、完全解離は極大P違反時に起こるが、これは同様にスピン-1の崩壊にも当てはまる。 QFTの制約がなければ、絡み合いとベル非局所性の関係はもはや有効ではなく、テストのための有望な方法を提案する。 さらに,QEおよびベル非局所性の予測を変化させる検出器内の磁場の影響について,これまで見過ごされていた点を強調した。 この環境効果は、突発性Pと電荷パリティ(CP)違反を引き起こすため、真のP、CP、ベル試験のために減算する必要がある。

Quantum entanglement (QE), evidenced by Bell inequality (BI) violations, reveals the nonlocality of nature. Fundamental interactions manifest in various forms, each with distinct effects on QE and BI, but have not yet been studied in depth. We investigate in detail the relationship between QE, Bell nonlocality, and parity-violating interactions in spin-1/2 bipartite systems arising from the decays of spin-0 and spin-1 particles within the quantum field theory (QFT). Our findings reveal that parity (P) violation can completely disentangle particle pairs, rendering Bell tests ineffective in distinguishing between classical and quantum theories. In the spin-0 case, complete disentanglement occurs at maximal P violation, which is similarly true for spin-1 decays. Without restrictions from the QFT, the predicted relation between entanglement and the Bell nonlocality may no longer be valid and we propose promising methods for testing it. Additionally, we emphasize the previously overlooked influence of magnetic fields within detectors, which alters predictions for QE and Bell nonlocality. This environmental effect induces spurious P and charge-parity (CP) violations and thus has to be subtracted for genuine P, CP, and Bell tests.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-30
# M$^2$PT:ゼロショットインストラクション学習のためのマルチモーダルプロンプトチューニング

M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning ( http://arxiv.org/abs/2409.15657v3 )

ライセンス: Link先を確認
Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu, (参考訳) MLLM(Multimodal Large Language Models)は、さまざまな領域にわたる顕著なパフォーマンスを示し、さまざまなモダリティにまたがる未確認タスクに対するゼロショットの一般化能力の向上に重点を置いている。 多様なマルチモーダルタスク上で事前学習したモデルを微調整することにより、ゼロショットの一般化を実現するための効果的な戦略として、インストラクションチューニングが登場した。 MLLMのスケールが拡大するにつれて、パラメータ効率の高い微調整がますます重要になる。 しかし、既存のパラメータ効率のアプローチのほとんどは単一のモダリティにのみ焦点をあて、ファインタニング中のマルチモーダル特性をしばしば見落としている。 本稿では,MLLMの効率的な命令チューニングのための新しいマルチモーダル・プロンプト・チューニング(M$^2$PT)手法を提案する。 M$^2$PTは、視覚エンコーダと言語プロセッサに視覚的プロンプトとテキスト的プロンプトを効果的に統合し、モダリティ間の機能の抽出とアライメントを容易にする。 各種マルチモーダル評価データセットの実証実験結果から, 提案手法の性能は, 最先端のベースラインに比べて優れていた。 包括的アブレーション研究は、我々の迅速な設計の有効性と、我々のアプローチの効率性を検証する。

Multimodal Large Language Models (MLLMs) demonstrate remarkable performance across a wide range of domains, with increasing emphasis on enhancing their zero-shot generalization capabilities for unseen tasks across various modalities. Instruction tuning has emerged as an effective strategy for achieving zero-shot generalization by finetuning pretrained models on diverse multimodal tasks. As the scale of MLLMs continues to grow, parameter-efficient finetuning becomes increasingly critical. However, most existing parameter-efficient approaches focus only on single modalities and often overlook the multimodal characteristics during finetuning. In this work, we introduce a novel Multimodal Prompt Tuning (M$^2$PT) approach for efficient instruction tuning of MLLMs. M$^2$PT effectively integrates visual and textual prompts into the vision encoder and language processor respectively during finetuning, facilitating the extraction and alignment of features across modalities. Empirical results on various multimodal evaluation datasets demonstrate the superior performance of our approach compared to several state-of-the-art baselines. A comprehensive set of ablation studies validates the effectiveness of our prompt design and the efficiency of our approach.
翻訳日:2024-11-06 19:32:29 公開日:2024-10-30
# M$^2$PT:ゼロショットインストラクション学習のためのマルチモーダルプロンプトチューニング

M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning ( http://arxiv.org/abs/2409.15657v4 )

ライセンス: Link先を確認
Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu, (参考訳) MLLM(Multimodal Large Language Models)は、さまざまな領域にわたる顕著なパフォーマンスを示し、さまざまなモダリティにまたがる未確認タスクに対するゼロショットの一般化能力の向上に重点を置いている。 多様なマルチモーダルタスク上で事前学習したモデルを微調整することにより、ゼロショットの一般化を実現するための効果的な戦略として、インストラクションチューニングが登場した。 MLLMのスケールが拡大するにつれて、パラメータ効率の高い微調整がますます重要になる。 しかし、既存のパラメータ効率のアプローチのほとんどは単一のモダリティにのみ焦点をあて、ファインタニング中のマルチモーダル特性をしばしば見落としている。 本稿では,MLLMの効率的な命令チューニングのための新しいマルチモーダル・プロンプト・チューニング(M$^2$PT)手法を提案する。 M$^2$PTは、視覚エンコーダと言語プロセッサに視覚的プロンプトとテキスト的プロンプトを効果的に統合し、モダリティ間の機能の抽出とアライメントを容易にする。 各種マルチモーダル評価データセットの実証実験結果から, 提案手法の性能は, 最先端のベースラインに比べて優れていた。 包括的アブレーション研究は、我々の迅速な設計の有効性と、我々のアプローチの効率性を検証する。

Multimodal Large Language Models (MLLMs) demonstrate remarkable performance across a wide range of domains, with increasing emphasis on enhancing their zero-shot generalization capabilities for unseen tasks across various modalities. Instruction tuning has emerged as an effective strategy for achieving zero-shot generalization by finetuning pretrained models on diverse multimodal tasks. As the scale of MLLMs continues to grow, parameter-efficient finetuning becomes increasingly critical. However, most existing parameter-efficient approaches focus only on single modalities and often overlook the multimodal characteristics during finetuning. In this work, we introduce a novel Multimodal Prompt Tuning (M$^2$PT) approach for efficient instruction tuning of MLLMs. M$^2$PT effectively integrates visual and textual prompts into the vision encoder and language processor respectively during finetuning, facilitating the extraction and alignment of features across modalities. Empirical results on various multimodal evaluation datasets demonstrate the superior performance of our approach compared to several state-of-the-art baselines. A comprehensive set of ablation studies validates the effectiveness of our prompt design and the efficiency of our approach.
翻訳日:2024-11-06 19:32:29 公開日:2024-10-30
# 自己監督型グラフ埋め込みクラスタリング

Self-Supervised Graph Embedding Clustering ( http://arxiv.org/abs/2409.15887v2 )

ライセンス: Link先を確認
Fangfang Li, Quanxue Gao, Cheng Deng, Wei Xia, (参考訳) K-平均1ステップの次元削減クラスタリング法は,クラスタリングタスクにおける次元の呪いに対処する上で,いくつかの進歩をもたらした。 しかし、K平均クラスタリングと最適化のための次元削減プロセスを組み合わせることで、導入されたハイパーパラメーターによるクラスタリング効果の制限とクラスタリングセンターの初期化につながる。 さらに、クラスタリング中にクラスバランスを維持することは依然として困難である。 これらの問題を克服するために,K-meansと多様体学習を統合した統合フレームワークを提案し,その結果,自己教師付きグラフ埋め込みフレームワークが誕生した。 具体的には、K-平均と多様体構造との接続を確立し、セントロイドを明示的に定義せずにK-平均を実行できる。 さらに,このセントロイドフリーK平均値を用いて低次元空間のラベルを生成し,そのラベル情報を用いてサンプル間の類似性を決定する。 このアプローチは多様体構造とラベルの整合性を保証する。 我々のモデルは、ハイパーパラメータの冗長なバランスを必要とせずに、1ステップのクラスタリングを効果的に実現している。 特に、$\ell_{2,1}$-normの最大化はクラスタリング中にクラスバランスを自然に維持することを発見した。 最後に、複数のデータセットに対する実験により、Our-LPPとOur-MFAのクラスタリング結果が優れた信頼性と信頼性を示すことが示された。

The K-means one-step dimensionality reduction clustering method has made some progress in addressing the curse of dimensionality in clustering tasks. However, it combines the K-means clustering and dimensionality reduction processes for optimization, leading to limitations in the clustering effect due to the introduced hyperparameters and the initialization of clustering centers. Moreover, maintaining class balance during clustering remains challenging. To overcome these issues, we propose a unified framework that integrates manifold learning with K-means, resulting in the self-supervised graph embedding framework. Specifically, we establish a connection between K-means and the manifold structure, allowing us to perform K-means without explicitly defining centroids. Additionally, we use this centroid-free K-means to generate labels in low-dimensional space and subsequently utilize the label information to determine the similarity between samples. This approach ensures consistency between the manifold structure and the labels. Our model effectively achieves one-step clustering without the need for redundant balancing hyperparameters. Notably, we have discovered that maximizing the $\ell_{2,1}$-norm naturally maintains class balance during clustering, a result that we have theoretically proven. Finally, experiments on multiple datasets demonstrate that the clustering results of Our-LPP and Our-MFA exhibit excellent and reliable performance.
翻訳日:2024-11-06 19:21:13 公開日:2024-10-30
# 現代のホップフィールドネットワークは、符号化されたニューラル表現と出会う -- 実践的考察に対処する

Modern Hopfield Networks meet Encoded Neural Representations -- Addressing Practical Considerations ( http://arxiv.org/abs/2409.16408v2 )

ライセンス: Link先を確認
Satyananda Kashyap, Niharika S. D'Souza, Luyao Shi, Ken C. L. Wong, Hongzhi Wang, Tanveer Syeda-Mahmood, (参考訳) Modern Hopfield Networks (MHN) のようなコンテンツ適応型メモリは、人間の宣言型メモリにおける自己連想と記憶/検索の数学的モデルとして研究されてきたが、大規模なコンテンツストレージの実用化は課題に直面している。 特に大量の高次元コンテンツを扱う場合、特にメタ安定状態の発生が主な原因である。 本稿では、符号化されたニューラル表現をMHNに統合し、パターン分離性を改善し、メタ安定状態を低減するフレームワークであるHopfield Encoding Networks (HEN)を紹介する。 HENは、画像と自然言語クエリのヘテロ結合の文脈での検索にも利用でき、したがって、同じドメイン内の部分的コンテンツへのアクセスの制限を取り除くことができる。 実験により,メタ安定状態の大幅な削減と記憶容量の増大が図られ,実際のタスクにおける連想メモリネットワークの実用性を推し進める膨大なインプットの完全なリコールが可能となった。

Content-addressable memories such as Modern Hopfield Networks (MHN) have been studied as mathematical models of auto-association and storage/retrieval in the human declarative memory, yet their practical use for large-scale content storage faces challenges. Chief among them is the occurrence of meta-stable states, particularly when handling large amounts of high dimensional content. This paper introduces Hopfield Encoding Networks (HEN), a framework that integrates encoded neural representations into MHNs to improve pattern separability and reduce meta-stable states. We show that HEN can also be used for retrieval in the context of hetero association of images with natural language queries, thus removing the limitation of requiring access to partial content in the same domain. Experimental results demonstrate substantial reduction in meta-stable states and increased storage capacity while still enabling perfect recall of a significantly larger number of inputs advancing the practical utility of associative memory networks for real-world tasks.
翻訳日:2024-11-06 17:42:27 公開日:2024-10-30
# 効率的大言語モデルの探索

Search for Efficient Large Language Models ( http://arxiv.org/abs/2409.17372v2 )

ライセンス: Link先を確認
Xuan Shen, Pu Zhao, Yifan Gong, Zhenglun Kong, Zheng Zhan, Yushu Wu, Ming Lin, Chao Wu, Xue Lin, Yanzhi Wang, (参考訳) 大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。 減量、量子化、蒸留など多くの効率的な技術がLLMの圧縮に取り入れられ、LLMの冗長性を裏付けるメモリ削減と推論の加速を狙った。 しかし、ほとんどのモデル圧縮技術は、最適なアーキテクチャの探索を見越して、重量最適化に重点を置いている。 さらに,従来のアーキテクチャ探索手法は,LLM上での有効性を示すのに苦慮している。 本稿では,推定加速度を達成しつつ,元のLLMの基本強度を保ちながら最適なサブネットを識別する学習自由アーキテクチャ探索フレームワークを提案する。 さらに,従来のLCMから特定の重みを継承するサブネットを生成した上で,省略した重みを利用して,少量のキャリブレーションデータを用いて遺伝的重みを補正する改質アルゴリズムを導入する。 より小さなネットワークを生成できるSOTA学習不要な構造化プルーニング処理と比較して,本手法は標準ベンチマークよりも優れた性能を示す。 さらに、生成したサブネットはGPUメモリの使用を直接削減し、推論アクセラレーションを実現することができる。 コード:https://github.com/shawnricecake/search-llm

Large Language Models (LLMs) have long held sway in the realms of artificial intelligence research. Numerous efficient techniques, including weight pruning, quantization, and distillation, have been embraced to compress LLMs, targeting memory reduction and inference acceleration, which underscore the redundancy in LLMs. However, most model compression techniques concentrate on weight optimization, overlooking the exploration of optimal architectures. Besides, traditional architecture search methods, limited by the elevated complexity with extensive parameters, struggle to demonstrate their effectiveness on LLMs. In this paper, we propose a training-free architecture search framework to identify optimal subnets that preserve the fundamental strengths of the original LLMs while achieving inference acceleration. Furthermore, after generating subnets that inherit specific weights from the original LLMs, we introduce a reformation algorithm that utilizes the omitted weights to rectify the inherited weights with a small amount of calibration data. Compared with SOTA training-free structured pruning works that can generate smaller networks, our method demonstrates superior performance across standard benchmarks. Furthermore, our generated subnets can directly reduce the usage of GPU memory and achieve inference acceleration. Code: https://github.com/shawnricecake/search-llm
翻訳日:2024-11-06 16:30:51 公開日:2024-10-30
# ニュースから予測へ:LLMに基づく時系列予測におけるイベント分析とリフレクションの統合

From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Reflection ( http://arxiv.org/abs/2409.17515v2 )

ライセンス: Link先を確認
Xinlei Wang, Maike Feng, Jing Qiu, Jinjin Gu, Junhua Zhao, (参考訳) 本稿では,Large Language Models(LLMs)とGenerative Agents(ジェネレーティブエージェント)を利用して,テキストと時系列データの両方を解析することで時系列予測を強化する手法を提案する。 言語を媒体として,社会イベントを予測モデルに適応的に統合し,ニュースコンテンツと時系列のゆらぎを一致させてより豊かな洞察を提供する。 具体的には、LSMをベースとしたエージェントを用いて、無関係なニュースを反復的にフィルタリングし、人間ライクな推論を用いて予測を評価する。 これにより、予期せぬ出来事や社会行動の変化などの複雑な事象を分析し、ニュースの選択ロジックとエージェントの出力の堅牢さを継続的に洗練することができる。 選択したニュースイベントと時系列データを統合することで、事前学習されたLLMを微調整し、時系列の桁列を予測する。 その結果,予測精度が大幅に向上し,非構造化ニュースデータの有効利用による時系列予測のパラダイムシフトが示唆された。

This paper introduces a novel approach that leverages Large Language Models (LLMs) and Generative Agents to enhance time series forecasting by reasoning across both text and time series data. With language as a medium, our method adaptively integrates social events into forecasting models, aligning news content with time series fluctuations to provide richer insights. Specifically, we utilize LLM-based agents to iteratively filter out irrelevant news and employ human-like reasoning to evaluate predictions. This enables the model to analyze complex events, such as unexpected incidents and shifts in social behavior, and continuously refine the selection logic of news and the robustness of the agent's output. By integrating selected news events with time series data, we fine-tune a pre-trained LLM to predict sequences of digits in time series. The results demonstrate significant improvements in forecasting accuracy, suggesting a potential paradigm shift in time series forecasting through the effective utilization of unstructured news data.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-30
# ニュースから予測へ:LLMに基づく時系列予測におけるイベント分析とリフレクションの統合

From News to Forecast: Integrating Event Analysis in LLM-Based Time Series Forecasting with Reflection ( http://arxiv.org/abs/2409.17515v3 )

ライセンス: Link先を確認
Xinlei Wang, Maike Feng, Jing Qiu, Jinjin Gu, Junhua Zhao, (参考訳) 本稿では,Large Language Models(LLMs)とGenerative Agents(ジェネレーティブエージェント)を利用して,テキストと時系列データの両方を解析することで時系列予測を強化する手法を提案する。 言語を媒体として,社会イベントを予測モデルに適応的に統合し,ニュースコンテンツと時系列のゆらぎを一致させてより豊かな洞察を提供する。 具体的には、LSMをベースとしたエージェントを用いて、無関係なニュースを反復的にフィルタリングし、人間ライクな推論を用いて予測を評価する。 これにより、予期せぬ出来事や社会行動の変化などの複雑な事象を分析し、ニュースの選択ロジックとエージェントの出力の堅牢さを継続的に洗練することができる。 選択したニュースイベントと時系列データを統合することで、事前学習されたLLMを微調整し、時系列の桁列を予測する。 その結果,予測精度が大幅に向上し,非構造化ニュースデータの有効利用による時系列予測のパラダイムシフトが示唆された。

This paper introduces a novel approach that leverages Large Language Models (LLMs) and Generative Agents to enhance time series forecasting by reasoning across both text and time series data. With language as a medium, our method adaptively integrates social events into forecasting models, aligning news content with time series fluctuations to provide richer insights. Specifically, we utilize LLM-based agents to iteratively filter out irrelevant news and employ human-like reasoning to evaluate predictions. This enables the model to analyze complex events, such as unexpected incidents and shifts in social behavior, and continuously refine the selection logic of news and the robustness of the agent's output. By integrating selected news events with time series data, we fine-tune a pre-trained LLM to predict sequences of digits in time series. The results demonstrate significant improvements in forecasting accuracy, suggesting a potential paradigm shift in time series forecasting through the effective utilization of unstructured news data.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-30
# AMARO:タンパク質熱力学の重原子移動型ニューラルネットワークの可能性

AMARO: All Heavy-Atom Transferable Neural Network Potentials of Protein Thermodynamics ( http://arxiv.org/abs/2409.17852v2 )

ライセンス: Link先を確認
Antonio Mirarchi, Raul P. Pelaez, Guillem Simeon, Gianni De Fabritiis, (参考訳) 全原子分子シミュレーションはマクロ分子現象に関する詳細な知見を提供するが、その計算コストは複雑な生物学的過程の探索を妨げる。 我々は,O(3)等価なメッセージパッシングニューラルネットワークアーキテクチャであるTensorNetと,水素原子を排除した粗粒度マップを組み合わせた,新しいニューラルネットワークポテンシャル(NNP)であるAdvanced Machine-learning Atomic Representation Omni-force-field(AMARO)を紹介する。 AMAROは、エネルギー用語を使わずに、拡張性と一般化機能を備えた安定なタンパク質力学を実行するための訓練粗大化NNPの実現可能性を実証している。

All-atom molecular simulations offer detailed insights into macromolecular phenomena, but their substantial computational cost hinders the exploration of complex biological processes. We introduce Advanced Machine-learning Atomic Representation Omni-force-field (AMARO), a new neural network potential (NNP) that combines an O(3)-equivariant message-passing neural network architecture, TensorNet, with a coarse-graining map that excludes hydrogen atoms. AMARO demonstrates the feasibility of training coarser NNP, without prior energy terms, to run stable protein dynamics with scalability and generalization capabilities.
翻訳日:2024-11-06 16:00:56 公開日:2024-10-30
# CemiFace: 顔認識のためのセンターベース半ハード合成顔生成

CemiFace: Center-based Semi-hard Synthetic Face Generation for Face Recognition ( http://arxiv.org/abs/2409.18876v2 )

ライセンス: Link先を確認
Zhonglin Sun, Siyang Song, Ioannis Patras, Georgios Tzimiropoulos, (参考訳) プライバシー問題は顔認識技術の開発において主要な関心事である。 合成顔画像は、有効な顔認識(FR)性能を維持しながら、潜在的な法的リスクを部分的に軽減することができるが、既存の生成的アプローチで合成された顔画像によって訓練されたFRモデルは、これらの合成サンプルの識別品質が不十分なため、しばしば性能劣化の問題に悩まされる。 本稿では,ソリッド・フェース・モデル・トレーニングにどのような影響を及ぼすのかを体系的に検討し,その特徴とある程度の類似性を持つフェース・イメージが訓練されたFRモデルの性能に与える影響を明らかにする。 そこで本研究では,新たな拡散型アプローチ(CemiFace)を提案する。この手法は,被験者中心と様々なレベルの類似性を持つ顔サンプルを生成し,顔認識のための効果的な識別用サンプルを含む顔データセットを生成する。 実験結果から, 類似度が比較的低い場合には, 生成したデータセットのトレーニングにより, 従来の生成手法と比較して, 競争性能が向上することが示された。

Privacy issue is a main concern in developing face recognition techniques. Although synthetic face images can partially mitigate potential legal risks while maintaining effective face recognition (FR) performance, FR models trained by face images synthesized by existing generative approaches frequently suffer from performance degradation problems due to the insufficient discriminative quality of these synthesized samples. In this paper, we systematically investigate what contributes to solid face recognition model training, and reveal that face images with certain degree of similarities to their identity centers show great effectiveness in the performance of trained FR models. Inspired by this, we propose a novel diffusion-based approach (namely Center-based Semi-hard Synthetic Face Generation (CemiFace)) which produces facial samples with various levels of similarity to the subject center, thus allowing to generate face datasets containing effective discriminative samples for training face recognition. Experimental results show that with a modest degree of similarity, training on the generated dataset can produce competitive performance compared to previous generation methods.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-30
# 非有界な滑らかさ下での確率的二値最適化のための高速化アルゴリズム

An Accelerated Algorithm for Stochastic Bilevel Optimization under Unbounded Smoothness ( http://arxiv.org/abs/2409.19212v1 )

ライセンス: Link先を確認
Xiaochuan Gong, Jie Hao, Mingrui Liu, (参考訳) 本稿では,上層関数が非凸であり,潜在的に非有界な滑らかさを持ち,下層関数が強凸である確率的二段階最適化問題のクラスについて検討する。 これらの問題は、リカレントニューラルネットワークを用いたテキスト分類など、シーケンシャルなデータ学習に重要な応用がある。 非有界な滑らかさは、勾配ノルムと線形にスケーリングする上層関数の滑らかさ定数が特徴であり、一様の上界が欠如している。 既存の最先端アルゴリズムでは、$\widetilde{O}(1/\epsilon^4)$ oracle call of stochastic gradient or Hessian/Jacobian-vector product to find $\epsilon$-stationary point。 しかし、集団レベルの函数の仮定が各ランダムな実現に対してほぼ確実に成り立つ場合(例えば、確率的勾配の各実現のリプシッツ性)、収束率をさらに改善できるかどうかは不明である。 この問題に対処するため,AccBO というアルゴリズムを新たに提案する。 アルゴリズムは、正規化確率勾配降下法と再帰運動量による上層変数と、平均化を伴う確率ネステロフ加速勾配降下法により下層変数を更新する。 我々は,このアルゴリズムが$\widetilde{O}(1/\epsilon^3)$のオラクル複雑性を達成し,$\epsilon$-定常点を求めることを証明した。 我々の証明は,確率論的ネステロフ加速勾配降下アルゴリズムの分布流下での力学を特徴付ける新しい補題に依拠するが,これは独立性があり,時間とともに過次推定誤差を分析する上でも重要な役割を担っている。 実験結果から,提案アルゴリズムが予測された理論的加速度を達成し,二段階最適化のベースラインを著しく上回ったことが確認された。

This paper investigates a class of stochastic bilevel optimization problems where the upper-level function is nonconvex with potentially unbounded smoothness and the lower-level problem is strongly convex. These problems have significant applications in sequential data learning, such as text classification using recurrent neural networks. The unbounded smoothness is characterized by the smoothness constant of the upper-level function scaling linearly with the gradient norm, lacking a uniform upper bound. Existing state-of-the-art algorithms require $\widetilde{O}(1/\epsilon^4)$ oracle calls of stochastic gradient or Hessian/Jacobian-vector product to find an $\epsilon$-stationary point. However, it remains unclear if we can further improve the convergence rate when the assumptions for the function in the population level also hold for each random realization almost surely (e.g., Lipschitzness of each realization of the stochastic gradient). To address this issue, we propose a new Accelerated Bilevel Optimization algorithm named AccBO. The algorithm updates the upper-level variable by normalized stochastic gradient descent with recursive momentum and the lower-level variable by the stochastic Nesterov accelerated gradient descent algorithm with averaging. We prove that our algorithm achieves an oracle complexity of $\widetilde{O}(1/\epsilon^3)$ to find an $\epsilon$-stationary point. Our proof relies on a novel lemma characterizing the dynamics of stochastic Nesterov accelerated gradient descent algorithm under distribution drift with high probability for the lower-level variable, which is of independent interest and also plays a crucial role in analyzing the hypergradient estimation error over time. Experimental results on various tasks confirm that our proposed algorithm achieves the predicted theoretical acceleration and significantly outperforms baselines in bilevel optimization.
翻訳日:2024-11-06 04:01:11 公開日:2024-10-30
# 非有界な滑らかさ下での確率的二値最適化のための高速化アルゴリズム

An Accelerated Algorithm for Stochastic Bilevel Optimization under Unbounded Smoothness ( http://arxiv.org/abs/2409.19212v2 )

ライセンス: Link先を確認
Xiaochuan Gong, Jie Hao, Mingrui Liu, (参考訳) 本稿では,上層関数が非凸であり,潜在的に非有界な滑らかさを持ち,下層関数が強凸である確率的二段階最適化問題のクラスについて検討する。 これらの問題は、リカレントニューラルネットワークを用いたテキスト分類など、シーケンシャルなデータ学習に重要な応用がある。 非有界な滑らかさは、勾配ノルムと線形にスケーリングする上層関数の滑らかさ定数が特徴であり、一様の上界が欠如している。 既存の最先端アルゴリズムでは、$\widetilde{O}(1/\epsilon^4)$ oracle call of stochastic gradient or Hessian/Jacobian-vector product to find $\epsilon$-stationary point。 しかし、集団レベルの函数の仮定が各ランダムな実現に対してほぼ確実に成り立つ場合(例えば、確率的勾配の各実現のリプシッツ性)、収束率をさらに改善できるかどうかは不明である。 この問題に対処するため,AccBO というアルゴリズムを新たに提案する。 アルゴリズムは、正規化確率勾配降下法と再帰運動量による上層変数と、平均化を伴う確率ネステロフ加速勾配降下法により下層変数を更新する。 我々は,このアルゴリズムが$\widetilde{O}(1/\epsilon^3)$のオラクル複雑性を達成し,$\epsilon$-定常点を求めることを証明した。 我々の証明は,確率論的ネステロフ加速勾配降下アルゴリズムの分布流下での力学を特徴付ける新しい補題に依拠するが,これは独立性があり,時間とともに過次推定誤差を分析する上でも重要な役割を担っている。 実験結果から,提案アルゴリズムが予測された理論的加速度を達成し,二段階最適化のベースラインを著しく上回ったことが確認された。

This paper investigates a class of stochastic bilevel optimization problems where the upper-level function is nonconvex with potentially unbounded smoothness and the lower-level problem is strongly convex. These problems have significant applications in sequential data learning, such as text classification using recurrent neural networks. The unbounded smoothness is characterized by the smoothness constant of the upper-level function scaling linearly with the gradient norm, lacking a uniform upper bound. Existing state-of-the-art algorithms require $\widetilde{O}(1/\epsilon^4)$ oracle calls of stochastic gradient or Hessian/Jacobian-vector product to find an $\epsilon$-stationary point. However, it remains unclear if we can further improve the convergence rate when the assumptions for the function in the population level also hold for each random realization almost surely (e.g., Lipschitzness of each realization of the stochastic gradient). To address this issue, we propose a new Accelerated Bilevel Optimization algorithm named AccBO. The algorithm updates the upper-level variable by normalized stochastic gradient descent with recursive momentum and the lower-level variable by the stochastic Nesterov accelerated gradient descent algorithm with averaging. We prove that our algorithm achieves an oracle complexity of $\widetilde{O}(1/\epsilon^3)$ to find an $\epsilon$-stationary point. Our proof relies on a novel lemma characterizing the dynamics of stochastic Nesterov accelerated gradient descent algorithm under distribution drift with high probability for the lower-level variable, which is of independent interest and also plays a crucial role in analyzing the hypergradient estimation error over time. Experimental results on various tasks confirm that our proposed algorithm achieves the predicted theoretical acceleration and significantly outperforms baselines in bilevel optimization.
翻訳日:2024-11-06 04:01:11 公開日:2024-10-30
# 拡散モデルによる時空間力学における因果解法と着色

Causal Deciphering and Inpainting in Spatio-Temporal Dynamics via Diffusion Model ( http://arxiv.org/abs/2409.19608v1 )

ライセンス: Link先を確認
Yifan Duan, Jian Zhao, pengcheng, Junyuan Mao, Hao Wu, Jingyu Xu, shilong wang, Caoyuan Ma, Kai Wang, Kun Wang, Xuelong Li, (参考訳) 時空間(ST)予測は、気象学予測、人間の移動知覚などの地球科学において事実上の注意を引いている。 しかし、センサーの配置に伴う高コストとデータ不足は、顕著なデータ不均衡をもたらす。 さらに、因果関係を欠いた過度にカスタマイズされたモデルは、一般化可能性や解釈可能性をさらに損なう。 そこで本研究では,2段階のプロセスにおける因果推論能力を備えたデータおよびエンドウモデルにおける因果領域の同定を目的とした,CaPaintと呼ばれるST予測のための因果的フレームワークを構築した。 このプロセスを超えて、アップストリームフェーズにおいて非因果関係と特定されるサブリージョンに特に対処するために、バックドア調整を利用する。 具体的には,新しい画像インペイント技術を用いている。 本研究では, 微調整未条件拡散確率モデル(DDPM)を生成前として, 環境成分として定義されたマスクを埋め込み, 潜在的なデータ分布に対する信頼性の高い外挿を可能にする。 CaPaintは、データ生成の複雑さを指数関数から準線形レベルに減らし、最適なST因果探索モデルの高複雑性ジレンマを克服する。 5つの実世界のSTベンチマークで実施された大規模な実験は、CaPaintの概念の統合により、モデルが4.3%から77.3%の改善を達成できることを示した。 さらに、従来のST拡張器と比較して、CaPaintはST拡張における拡散モデルの可能性を強調し、この分野に新しいパラダイムを提供する。 私たちのプロジェクトはhttps://anonymous.4open.science/r/12345-DFCCで利用可能です。

Spatio-temporal (ST) prediction has garnered a De facto attention in earth sciences, such as meteorological prediction, human mobility perception. However, the scarcity of data coupled with the high expenses involved in sensor deployment results in notable data imbalances. Furthermore, models that are excessively customized and devoid of causal connections further undermine the generalizability and interpretability. To this end, we establish a causal framework for ST predictions, termed CaPaint, which targets to identify causal regions in data and endow model with causal reasoning ability in a two-stage process. Going beyond this process, we utilize the back-door adjustment to specifically address the sub-regions identified as non-causal in the upstream phase. Specifically, we employ a novel image inpainting technique. By using a fine-tuned unconditional Diffusion Probabilistic Model (DDPM) as the generative prior, we in-fill the masks defined as environmental parts, offering the possibility of reliable extrapolation for potential data distributions. CaPaint overcomes the high complexity dilemma of optimal ST causal discovery models by reducing the data generation complexity from exponential to quasi-linear levels. Extensive experiments conducted on five real-world ST benchmarks demonstrate that integrating the CaPaint concept allows models to achieve improvements ranging from 4.3% to 77.3%. Moreover, compared to traditional mainstream ST augmenters, CaPaint underscores the potential of diffusion models in ST enhancement, offering a novel paradigm for this field. Our project is available at https://anonymous.4open.science/r/12345-DFCC.
翻訳日:2024-11-05 22:18:46 公開日:2024-10-30
# 拡散モデルによる時空間力学における因果解法と着色

Causal Deciphering and Inpainting in Spatio-Temporal Dynamics via Diffusion Model ( http://arxiv.org/abs/2409.19608v2 )

ライセンス: Link先を確認
Yifan Duan, Jian Zhao, pengcheng, Junyuan Mao, Hao Wu, Jingyu Xu, Shilong Wang, Caoyuan Ma, Kai Wang, Kun Wang, Xuelong Li, (参考訳) 時空間(ST)予測は、気象学予測、人間の移動知覚などの地球科学において事実上の注意を引いている。 しかし、センサーの配置に伴う高コストとデータ不足は、顕著なデータ不均衡をもたらす。 さらに、因果関係を欠いた過度にカスタマイズされたモデルは、一般化可能性や解釈可能性をさらに損なう。 そこで本研究では,2段階のプロセスにおける因果推論能力を備えたデータおよびエンドウモデルにおける因果領域の同定を目的とした,CaPaintと呼ばれるST予測のための因果的フレームワークを構築した。 このプロセスを超えて、アップストリームフェーズにおいて非因果関係と特定されるサブリージョンに特に対処するために、バックドア調整を利用する。 具体的には,新しい画像インペイント技術を用いている。 本研究では, 微調整未条件拡散確率モデル(DDPM)を生成前として, 環境成分として定義されたマスクを埋め込み, 潜在的なデータ分布に対する信頼性の高い外挿を可能にする。 CaPaintは、データ生成の複雑さを指数関数から準線形レベルに減らし、最適なST因果探索モデルの高複雑性ジレンマを克服する。 5つの実世界のSTベンチマークで実施された大規模な実験は、CaPaintの概念の統合により、モデルが4.3%から77.3%の改善を達成できることを示した。 さらに、従来のST拡張器と比較して、CaPaintはST拡張における拡散モデルの可能性を強調し、この分野に新しいパラダイムを提供する。 私たちのプロジェクトはhttps://anonymous.4open.science/r/12345-DFCCで利用可能です。

Spatio-temporal (ST) prediction has garnered a De facto attention in earth sciences, such as meteorological prediction, human mobility perception. However, the scarcity of data coupled with the high expenses involved in sensor deployment results in notable data imbalances. Furthermore, models that are excessively customized and devoid of causal connections further undermine the generalizability and interpretability. To this end, we establish a causal framework for ST predictions, termed CaPaint, which targets to identify causal regions in data and endow model with causal reasoning ability in a two-stage process. Going beyond this process, we utilize the back-door adjustment to specifically address the sub-regions identified as non-causal in the upstream phase. Specifically, we employ a novel image inpainting technique. By using a fine-tuned unconditional Diffusion Probabilistic Model (DDPM) as the generative prior, we in-fill the masks defined as environmental parts, offering the possibility of reliable extrapolation for potential data distributions. CaPaint overcomes the high complexity dilemma of optimal ST causal discovery models by reducing the data generation complexity from exponential to quasi-linear levels. Extensive experiments conducted on five real-world ST benchmarks demonstrate that integrating the CaPaint concept allows models to achieve improvements ranging from 4.3% to 77.3%. Moreover, compared to traditional mainstream ST augmenters, CaPaint underscores the potential of diffusion models in ST enhancement, offering a novel paradigm for this field. Our project is available at https://anonymous.4open.science/r/12345-DFCC.
翻訳日:2024-11-05 22:09:00 公開日:2024-10-30
# LLMのための合成データ生成手法のバランシングコストと有効性

Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs ( http://arxiv.org/abs/2409.19759v1 )

ライセンス: Link先を確認
Yung-Chieh Chan, George Pu, Apaar Shanker, Parth Suresh, Penn Jenks, John Heyer, Sam Denton, (参考訳) 大規模言語モデル(LLM)がより多くのユースケースに適用されるにつれて、微調整のための高品質なタスク固有のデータセットを作成することが、モデル改善のボトルネックとなる。 高品質な人的データを使用することは、モデルのパフォーマンスをアンロックするための最も一般的なアプローチであるが、多くのシナリオでは違法に高価である。 合成データやハイブリッドデータの生成など、いくつかの代替手法も登場しているが、これらの手法の有効性は、特にリソース制約のあるシナリオや、容易に検証できないタスクにおいて不明確である。 そこで本研究では, 各種合成データ生成戦略を, 回答拡張, 質問文, 新質問の3つのカテゴリに分類し, シード命令セットサイズ, クエリ予算など, 様々な制約下で訓練された学生LLMの性能について検討する。 これらの戦略は、設定間で等しく効果的ではないことを実証します。 特に、最適なデータ生成戦略は、利用可能な教師クエリ予算とシード命令セットのサイズとの比率に強く依存する。 この比率が低い場合には、既存の質問に対する新しい回答を生成するのが最も効果的であるが、この比率が大きくなると、新しい質問を生成するのが最適となる。 すべてのタスクにおいて、高次データ構造よりも、低次データ構造において、拡張方法や他の設計選択が重要であることが分かりました。 本稿では、各手法のスケーラビリティ、合成データの検証の重要性、合成データ生成における異なるLLMの使用など、追加的な要素を考慮して、設定間で適切な拡張方法を選択するための実用的なフレームワークを提案する。

As large language models (LLMs) are applied to more use cases, creating high quality, task-specific datasets for fine-tuning becomes a bottleneck for model improvement. Using high quality human data has been the most common approach to unlock model performance, but is prohibitively expensive in many scenarios. Several alternative methods have also emerged, such as generating synthetic or hybrid data, but the effectiveness of these approaches remain unclear, especially in resource-constrained scenarios and tasks that are not easily verified. To investigate this, we group various synthetic data generation strategies into three representative categories -- Answer Augmentation, Question Rephrase and New Question -- and study the performance of student LLMs trained under various constraints, namely seed instruction set size and query budget. We demonstrate that these strategies are not equally effective across settings. Notably, the optimal data generation strategy depends strongly on the ratio between the available teacher query budget and the size of the seed instruction set. When this ratio is low, generating new answers to existing questions proves most effective, but as this ratio increases, generating new questions becomes optimal. Across all tasks, we find that choice of augmentation method and other design choices matter substantially more in low to mid data regimes than in high data regimes. We provide a practical framework for selecting the appropriate augmentation method across settings, taking into account additional factors such as the scalability of each method, the importance of verifying synthetic data, and the use of different LLMs for synthetic data generation.
翻訳日:2024-11-05 17:49:48 公開日:2024-10-30
# LLMのための合成データ生成手法のバランシングコストと有効性

Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs ( http://arxiv.org/abs/2409.19759v2 )

ライセンス: Link先を確認
Yung-Chieh Chan, George Pu, Apaar Shanker, Parth Suresh, Penn Jenks, John Heyer, Sam Denton, (参考訳) 大規模言語モデル(LLM)がより多くのユースケースに適用されるにつれて、微調整のための高品質なタスク固有のデータセットを作成することが、モデル改善のボトルネックとなる。 高品質な人的データを使用することは、モデルのパフォーマンスをアンロックするための最も一般的なアプローチであるが、多くのシナリオでは違法に高価である。 合成データやハイブリッドデータの生成など、いくつかの代替手法も登場しているが、これらの手法の有効性は、特にリソース制約のあるシナリオや、容易に検証できないタスクにおいて不明確である。 そこで本研究では, 各種合成データ生成戦略を, 回答拡張, 質問文, 新質問の3つのカテゴリに分類し, シード命令セットサイズ, クエリ予算など, 様々な制約下で訓練された学生LLMの性能について検討する。 これらの戦略は、設定間で等しく効果的ではないことを実証します。 特に、最適なデータ生成戦略は、利用可能な教師クエリ予算とシード命令セットのサイズとの比率に強く依存する。 この比率が低い場合には、既存の質問に対する新しい回答を生成するのが最も効果的であるが、この比率が大きくなると、新しい質問を生成するのが最適となる。 すべてのタスクにおいて、高次データ構造よりも、低次データ構造において、拡張方法や他の設計選択が重要であることが分かりました。 本稿では、各手法のスケーラビリティ、合成データの検証の重要性、合成データ生成における異なるLLMの使用など、追加的な要素を考慮して、設定間で適切な拡張方法を選択するための実用的なフレームワークを提案する。

As large language models (LLMs) are applied to more use cases, creating high quality, task-specific datasets for fine-tuning becomes a bottleneck for model improvement. Using high quality human data has been the most common approach to unlock model performance, but is prohibitively expensive in many scenarios. Several alternative methods have also emerged, such as generating synthetic or hybrid data, but the effectiveness of these approaches remain unclear, especially in resource-constrained scenarios and tasks that are not easily verified. To investigate this, we group various synthetic data generation strategies into three representative categories -- Answer Augmentation, Question Rephrase and New Question -- and study the performance of student LLMs trained under various constraints, namely seed instruction set size and query budget. We demonstrate that these strategies are not equally effective across settings. Notably, the optimal data generation strategy depends strongly on the ratio between the available teacher query budget and the size of the seed instruction set. When this ratio is low, generating new answers to existing questions proves most effective, but as this ratio increases, generating new questions becomes optimal. Across all tasks, we find that choice of augmentation method and other design choices matter substantially more in low to mid data regimes than in high data regimes. We provide a practical framework for selecting the appropriate augmentation method across settings, taking into account additional factors such as the scalability of each method, the importance of verifying synthetic data, and the use of different LLMs for synthetic data generation.
翻訳日:2024-11-05 17:49:48 公開日:2024-10-30
# LLMのための合成データ生成手法のバランシングコストと有効性

Balancing Cost and Effectiveness of Synthetic Data Generation Strategies for LLMs ( http://arxiv.org/abs/2409.19759v3 )

ライセンス: Link先を確認
Yung-Chieh Chan, George Pu, Apaar Shanker, Parth Suresh, Penn Jenks, John Heyer, Sam Denton, (参考訳) 大規模言語モデル(LLM)がより多くのユースケースに適用されるにつれて、微調整のための高品質なタスク固有のデータセットを作成することが、モデル改善のボトルネックとなる。 高品質な人的データを使用することは、モデルのパフォーマンスをアンロックするための最も一般的なアプローチであるが、多くのシナリオでは違法に高価である。 合成データやハイブリッドデータの生成など、いくつかの代替手法も登場しているが、これらの手法の有効性は、特にリソース制約のあるシナリオや、容易に検証できないタスクにおいて不明確である。 そこで本研究では, 各種合成データ生成戦略を, 回答拡張, 質問文, 新質問の3つのカテゴリに分類し, シード命令セットサイズ, クエリ予算など, 様々な制約下で訓練された学生LLMの性能について検討する。 これらの戦略は、設定間で等しく効果的ではないことを実証します。 特に、最適なデータ生成戦略は、利用可能な教師クエリ予算とシード命令セットのサイズとの比率に強く依存する。 この比率が低い場合には、既存の質問に対する新しい回答を生成するのが最も効果的であるが、この比率が大きくなると、新しい質問を生成するのが最適となる。 すべてのタスクにおいて、高次データ構造よりも、低次データ構造において、拡張方法や他の設計選択が重要であることが分かりました。 本稿では、各手法のスケーラビリティ、合成データの検証の重要性、合成データ生成における異なるLLMの使用など、追加的な要素を考慮して、設定間で適切な拡張方法を選択するための実用的なフレームワークを提案する。

As large language models (LLMs) are applied to more use cases, creating high quality, task-specific datasets for fine-tuning becomes a bottleneck for model improvement. Using high quality human data has been the most common approach to unlock model performance, but is prohibitively expensive in many scenarios. Several alternative methods have also emerged, such as generating synthetic or hybrid data, but the effectiveness of these approaches remain unclear, especially in resource-constrained scenarios and tasks that are not easily verified. To investigate this, we group various synthetic data generation strategies into three representative categories -- Answer Augmentation, Question Rephrase and New Question -- and study the performance of student LLMs trained under various constraints, namely seed instruction set size and query budget. We demonstrate that these strategies are not equally effective across settings. Notably, the optimal data generation strategy depends strongly on the ratio between the available teacher query budget and the size of the seed instruction set. When this ratio is low, generating new answers to existing questions proves most effective, but as this ratio increases, generating new questions becomes optimal. Across all tasks, we find that choice of augmentation method and other design choices matter substantially more in low to mid data regimes than in high data regimes. We provide a practical framework for selecting the appropriate augmentation method across settings, taking into account additional factors such as the scalability of each method, the importance of verifying synthetic data, and the use of different LLMs for synthetic data generation.
翻訳日:2024-11-05 17:49:48 公開日:2024-10-30
# CycleCrash: 衝突予測と解析のための自転車衝突ビデオのデータセット

CycleCrash: A Dataset of Bicycle Collision Videos for Collision Prediction and Analysis ( http://arxiv.org/abs/2409.19942v1 )

ライセンス: Link先を確認
Nishq Poorav Desai, Ali Etemad, Michael Greenspan, (参考訳) 自動運転車の研究は、しばしばサイクリストの衝突と安全を過小評価している。 この問題を解決するために、CycleCrashという、3000のダッシュカムビデオと436,347フレームからなる新しいデータセットを紹介します。 このデータセットは、サイクリストにとって潜在的に有害な条件に焦点を当てた9つの異なるサイクリスト衝突予測と分類タスクを可能にし、衝突関連、サイクリスト関連、シーン関連ラベルで注釈付けされる。 次に,ConvNeXt空間エンコーダと非定常トランスフォーマーを併用した新しい手法であるVidNeXtを提案する。 提案手法の有効性を実証し,CycleCrashに追加のベースラインを作成するために,詳細なアブレーションとともに7つのモデルを適用し,比較する。 データセットとコードはhttps://github.com/DeSinister/CycleCrash/で公開しています。

Self-driving research often underrepresents cyclist collisions and safety. To address this, we present CycleCrash, a novel dataset consisting of 3,000 dashcam videos with 436,347 frames that capture cyclists in a range of critical situations, from collisions to safe interactions. This dataset enables 9 different cyclist collision prediction and classification tasks focusing on potentially hazardous conditions for cyclists and is annotated with collision-related, cyclist-related, and scene-related labels. Next, we propose VidNeXt, a novel method that leverages a ConvNeXt spatial encoder and a non-stationary transformer to capture the temporal dynamics of videos for the tasks defined in our dataset. To demonstrate the effectiveness of our method and create additional baselines on CycleCrash, we apply and compare 7 models along with a detailed ablation. We release the dataset and code at https://github.com/DeSinister/CycleCrash/ .
翻訳日:2024-11-05 16:47:30 公開日:2024-10-30
# CycleCrash: 衝突予測と解析のための自転車衝突ビデオのデータセット

CycleCrash: A Dataset of Bicycle Collision Videos for Collision Prediction and Analysis ( http://arxiv.org/abs/2409.19942v2 )

ライセンス: Link先を確認
Nishq Poorav Desai, Ali Etemad, Michael Greenspan, (参考訳) 自動運転車の研究は、しばしばサイクリストの衝突と安全を過小評価している。 この問題を解決するために、CycleCrashという、3000のダッシュカムビデオと436,347フレームからなる新しいデータセットを紹介します。 このデータセットは、サイクリストにとって潜在的に有害な条件に焦点を当てた9つの異なるサイクリスト衝突予測と分類タスクを可能にし、衝突関連、サイクリスト関連、シーン関連ラベルで注釈付けされる。 次に,ConvNeXt空間エンコーダと非定常トランスフォーマーを併用した新しい手法であるVidNeXtを提案する。 提案手法の有効性を実証し,CycleCrashに追加のベースラインを作成するために,詳細なアブレーションとともに7つのモデルを適用し,比較する。 データセットとコードはhttps://github.com/DeSinister/CycleCrash/で公開しています。

Self-driving research often underrepresents cyclist collisions and safety. To address this, we present CycleCrash, a novel dataset consisting of 3,000 dashcam videos with 436,347 frames that capture cyclists in a range of critical situations, from collisions to safe interactions. This dataset enables 9 different cyclist collision prediction and classification tasks focusing on potentially hazardous conditions for cyclists and is annotated with collision-related, cyclist-related, and scene-related labels. Next, we propose VidNeXt, a novel method that leverages a ConvNeXt spatial encoder and a non-stationary transformer to capture the temporal dynamics of videos for the tasks defined in our dataset. To demonstrate the effectiveness of our method and create additional baselines on CycleCrash, we apply and compare 7 models along with a detailed ablation. We release the dataset and code at https://github.com/DeSinister/CycleCrash/ .
翻訳日:2024-11-05 16:47:30 公開日:2024-10-30
# LexEval: 大規模言語モデルを評価するための包括的な中国の法律ベンチマーク

LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language Models ( http://arxiv.org/abs/2409.20288v2 )

ライセンス: Link先を確認
Haitao Li, You Chen, Qingyao Ai, Yueyue Wu, Ruizhe Zhang, Yiqun Liu, (参考訳) 大規模言語モデル (LLM) は自然言語処理タスクにおいて大きな進歩を遂げており、法的領域においてかなりの可能性を示している。 しかし、法的な応用は高い精度、信頼性、公平性を要求する。 既存のLLMを法制度に適用し、その可能性や限界を慎重に評価することなく適用することは、法律実務において重大なリスクをもたらす可能性がある。 この目的のために、我々は標準化された総合的な中国の法律ベンチマークLexEvalを紹介した。 このベンチマークは,(1)能力モデリング: 異なるタスクを組織化するための,法的認知能力の新しい分類法を提案する。 2) スケール: 私たちの知る限り,LexEvalは現在,23のタスクと14150の質問からなる,中国最大の法的評価データセットである。 (3) 既存のデータセット,試験データセット,新たに注釈付けされたデータセットを法律専門家が活用し,LCMの様々な能力を総合的に評価する。 LexEvalは、LLMの基本的な法的知識の適用能力だけでなく、その応用に関わる倫理的問題を調べる努力にも力を入れている。 オープンソースおよび商用LLMを38種類評価し,いくつかの興味深い知見を得た。 実験と調査結果は、中国の法制度とLLM評価パイプラインを開発する上での課題と潜在的な解決策に関する貴重な洞察を提供する。 LexEvalデータセットとリーダボードは、 \url{https://github.com/CSHaitao/LexEval}で公開されており、継続的に更新される。

Large language models (LLMs) have made significant progress in natural language processing tasks and demonstrate considerable potential in the legal domain. However, legal applications demand high standards of accuracy, reliability, and fairness. Applying existing LLMs to legal systems without careful evaluation of their potential and limitations could pose significant risks in legal practice. To this end, we introduce a standardized comprehensive Chinese legal benchmark LexEval. This benchmark is notable in the following three aspects: (1) Ability Modeling: We propose a new taxonomy of legal cognitive abilities to organize different tasks. (2) Scale: To our knowledge, LexEval is currently the largest Chinese legal evaluation dataset, comprising 23 tasks and 14,150 questions. (3) Data: we utilize formatted existing datasets, exam datasets and newly annotated datasets by legal experts to comprehensively evaluate the various capabilities of LLMs. LexEval not only focuses on the ability of LLMs to apply fundamental legal knowledge but also dedicates efforts to examining the ethical issues involved in their application. We evaluated 38 open-source and commercial LLMs and obtained some interesting findings. The experiments and findings offer valuable insights into the challenges and potential solutions for developing Chinese legal systems and LLM evaluation pipelines. The LexEval dataset and leaderboard are publicly available at \url{https://github.com/CSHaitao/LexEval} and will be continuously updated.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-30
# LexEval: 大規模言語モデルを評価するための包括的な中国の法律ベンチマーク

LexEval: A Comprehensive Chinese Legal Benchmark for Evaluating Large Language Models ( http://arxiv.org/abs/2409.20288v3 )

ライセンス: Link先を確認
Haitao Li, You Chen, Qingyao Ai, Yueyue Wu, Ruizhe Zhang, Yiqun Liu, (参考訳) 大規模言語モデル (LLM) は自然言語処理タスクにおいて大きな進歩を遂げており、法的領域においてかなりの可能性を示している。 しかし、法的な応用は高い精度、信頼性、公平性を要求する。 既存のLLMを法制度に適用し、その可能性や限界を慎重に評価することなく適用することは、法律実務において重大なリスクをもたらす可能性がある。 この目的のために、我々は標準化された総合的な中国の法律ベンチマークLexEvalを紹介した。 このベンチマークは,(1)能力モデリング: 異なるタスクを組織化するための,法的認知能力の新しい分類法を提案する。 2) スケール: 私たちの知る限り,LexEvalは現在,23のタスクと14150の質問からなる,中国最大の法的評価データセットである。 (3) 既存のデータセット,試験データセット,新たに注釈付けされたデータセットを法律専門家が活用し,LCMの様々な能力を総合的に評価する。 LexEvalは、LLMの基本的な法的知識の適用能力だけでなく、その応用に関わる倫理的問題を調べる努力にも力を入れている。 オープンソースおよび商用LLMを38種類評価し,いくつかの興味深い知見を得た。 実験と調査結果は、中国の法制度とLLM評価パイプラインを開発する上での課題と潜在的な解決策に関する貴重な洞察を提供する。 LexEvalデータセットとリーダボードは、 \url{https://github.com/CSHaitao/LexEval}で公開されており、継続的に更新される。

Large language models (LLMs) have made significant progress in natural language processing tasks and demonstrate considerable potential in the legal domain. However, legal applications demand high standards of accuracy, reliability, and fairness. Applying existing LLMs to legal systems without careful evaluation of their potential and limitations could pose significant risks in legal practice. To this end, we introduce a standardized comprehensive Chinese legal benchmark LexEval. This benchmark is notable in the following three aspects: (1) Ability Modeling: We propose a new taxonomy of legal cognitive abilities to organize different tasks. (2) Scale: To our knowledge, LexEval is currently the largest Chinese legal evaluation dataset, comprising 23 tasks and 14,150 questions. (3) Data: we utilize formatted existing datasets, exam datasets and newly annotated datasets by legal experts to comprehensively evaluate the various capabilities of LLMs. LexEval not only focuses on the ability of LLMs to apply fundamental legal knowledge but also dedicates efforts to examining the ethical issues involved in their application. We evaluated 38 open-source and commercial LLMs and obtained some interesting findings. The experiments and findings offer valuable insights into the challenges and potential solutions for developing Chinese legal systems and LLM evaluation pipelines. The LexEval dataset and leaderboard are publicly available at \url{https://github.com/CSHaitao/LexEval} and will be continuously updated.
翻訳日:2024-11-05 15:58:31 公開日:2024-10-30
# 脳腫瘍局所化のための物理規則化多重モード画像同化法

Physics-Regularized Multi-Modal Image Assimilation for Brain Tumor Localization ( http://arxiv.org/abs/2409.20409v2 )

ライセンス: Link先を確認
Michal Balcerak, Tamaz Amiranashvili, Andreas Wagner, Jonas Weidner, Petr Karnakov, Johannes C. Paetzold, Ivan Ezhov, Petros Koumoutsakos, Benedikt Wiestler, Bjoern Menze, (参考訳) 偏微分方程式の形での物理モデルは、多くの非制約問題において重要な先行を表現している。 1つの例は腫瘍治療計画であり、患者の解剖学における腫瘍細胞の空間分布の正確な推定に大きく依存している。 医用画像スキャンは腫瘍の大部分を識別できるが、その全空間分布を明らかにすることはできない。 低濃度の腫瘍細胞は、例えば、最も頻度の高い一次脳腫瘍であるグリオ芽腫において、検出不能である。 ディープラーニングベースのアプローチでは、信頼できるトレーニングデータがないため、完全な腫瘍細胞の分布を推定できない。 したがって、既存のほとんどの研究は観察された腫瘍と一致させるために物理学に基づくシミュレーションに依存しており、解剖学的および生理学的に推定できる。 しかし、これらのアプローチは複雑で未知の初期条件に悩まされ、過度に厳密な物理モデルによって制限される。 本研究では,データ駆動と物理に基づくコスト関数のバランスをとる新しい手法を提案する。 特に,我々の学習した時空間腫瘍と脳組織分布の対応する成長・弾性方程式への付着度を定量化する独自の離散化手法を提案する。 この定量化は、ハード制約ではなく正規化用語として機能し、既存のモデルよりも患者データを同化する際の柔軟性と習熟性を高める。 症例のコホートから得られた実世界データに対する既存手法と比較して,腫瘍再発領域のカバー範囲の改善が示された。 この方法は、グリオ芽腫に対するモデル駆動治療計画の臨床的導入を促進する可能性を秘めている。

Physical models in the form of partial differential equations represent an important prior for many under-constrained problems. One example is tumor treatment planning, which heavily depends on accurate estimates of the spatial distribution of tumor cells in a patient's anatomy. Medical imaging scans can identify the bulk of the tumor, but they cannot reveal its full spatial distribution. Tumor cells at low concentrations remain undetectable, for example, in the most frequent type of primary brain tumors, glioblastoma. Deep-learning-based approaches fail to estimate the complete tumor cell distribution due to a lack of reliable training data. Most existing works therefore rely on physics-based simulations to match observed tumors, providing anatomically and physiologically plausible estimations. However, these approaches struggle with complex and unknown initial conditions and are limited by overly rigid physical models. In this work, we present a novel method that balances data-driven and physics-based cost functions. In particular, we propose a unique discretization scheme that quantifies the adherence of our learned spatiotemporal tumor and brain tissue distributions to their corresponding growth and elasticity equations. This quantification, serving as a regularization term rather than a hard constraint, enables greater flexibility and proficiency in assimilating patient data than existing models. We demonstrate improved coverage of tumor recurrence areas compared to existing techniques on real-world data from a cohort of patients. The method holds the potential to enhance clinical adoption of model-driven treatment planning for glioblastoma.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-30
# 脳腫瘍局所化のための物理規則化多重モード画像同化法

Physics-Regularized Multi-Modal Image Assimilation for Brain Tumor Localization ( http://arxiv.org/abs/2409.20409v3 )

ライセンス: Link先を確認
Michal Balcerak, Tamaz Amiranashvili, Andreas Wagner, Jonas Weidner, Petr Karnakov, Johannes C. Paetzold, Ivan Ezhov, Petros Koumoutsakos, Benedikt Wiestler, Bjoern Menze, (参考訳) 偏微分方程式の形での物理モデルは、多くの非制約問題にとって重要な先行要素となる。 そのような応用の1つは腫瘍治療計画であり、患者の解剖学における腫瘍細胞の空間分布を正確に推定することに依存する。 医用画像は腫瘍の大部分を検出できるが、低濃度の腫瘍細胞は検出不能であり、特に最も一般的な一次脳腫瘍であるグリオ芽腫では検出できない。 機械学習アプローチは、適切なトレーニングデータがないため、腫瘍細胞の完全な分布を推定するのに苦労する。 その結果、既存のほとんどの手法は、解剖学的および生理学的に妥当な推定を生成するために物理学に基づくシミュレーションに依存している。 しかし、これらのアプローチは、複雑で未知の初期条件の課題に直面し、過度に厳密な物理モデルによって制約される。 本研究では,物理インフォームドニューラルネットワーク(PINN)に類似した,データ駆動型と物理ベースのコスト関数を統合する新しい手法を提案する。 しかし,本手法は動的離散メッシュ上で直接解をパラメトリズし,複雑な生体力学的挙動を効果的にモデル化する。 具体的には,腫瘍組織と脳組織の時空間分布が,それぞれの成長と弾性の方程式にどの程度順応するかを定量化する,ユニークな離散化手法を提案する。 この定量化は正規化の用語として機能し、既存のモデルと比較して柔軟性と患者のデータの統合を改善します。 症例コホートから得られた実世界のデータを用いて腫瘍再発領域のカバー範囲を拡大し,臨床におけるグリオ芽腫のモデル駆動治療計画の改善の可能性を強調した。

Physical models in the form of partial differential equations serve as important priors for many under-constrained problems. One such application is tumor treatment planning, which relies on accurately estimating the spatial distribution of tumor cells within a patient's anatomy. While medical imaging can detect the bulk of a tumor, it cannot capture the full extent of its spread, as low-concentration tumor cells often remain undetectable, particularly in glioblastoma, the most common primary brain tumor. Machine learning approaches struggle to estimate the complete tumor cell distribution due to a lack of appropriate training data. Consequently, most existing methods rely on physics-based simulations to generate anatomically and physiologically plausible estimations. However, these approaches face challenges with complex and unknown initial conditions and are constrained by overly rigid physical models. In this work, we introduce a novel method that integrates data-driven and physics-based cost functions, akin to Physics-Informed Neural Networks (PINNs). However, our approach parametrizes the solution directly on a dynamic discrete mesh, allowing for the effective modeling of complex biomechanical behaviors. Specifically, we propose a unique discretization scheme that quantifies how well the learned spatiotemporal distributions of tumor and brain tissues adhere to their respective growth and elasticity equations. This quantification acts as a regularization term, offering greater flexibility and improved integration of patient data compared to existing models. We demonstrate enhanced coverage of tumor recurrence areas using real-world data from a patient cohort, highlighting the potential of our method to improve model-driven treatment planning for glioblastoma in clinical practice.
翻訳日:2024-11-05 15:48:47 公開日:2024-10-30
# 音素分類による音声言語モデルの改良:簡単な微調整アプローチ

Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach ( http://arxiv.org/abs/2410.00025v1 )

ライセンス: Link先を確認
Maxime Poli, Emmanuel Chemla, Emmanuel Dupoux, (参考訳) 音声言語モデリングの最近の進歩は、音声から直接学習言語が実現可能であることを実証している。 テキストレベルで動作するパイプラインを通して音声を生成する場合、通常、ニュアンス、イントネーション、非言語発声が失われる。 音声から直接のモデリングは、より自然で表現力のあるシステムへの道を開く。 一方、音声のみのシステムは、意味的能力の観点からテキストベースの言語モデルに追従する傾向にある。 音素分類に基づく微調整音声表現モデルにより、文脈不変表現がより多くなり、ダウンストリーム言語モデリング性能が向上することを示す。

Recent progress in Spoken Language Modeling has demonstrated the feasibility of learning language directly from speech. Generating speech through a pipeline that operates at the text level typically loses nuances, intonations, and non-verbal vocalizations. Modeling directly from speech opens up the path to more natural and expressive systems. On the other hand, speech-only systems tend to trail behind text-based language models in terms of their semantic abilities. We show that fine-tuning speech representation models on phoneme classification leads to more context-invariant representations, which in turn improve downstream language modeling performance.
翻訳日:2024-11-05 15:29:12 公開日:2024-10-30
# 音素分類による音声言語モデルの改良:簡単な微調整アプローチ

Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach ( http://arxiv.org/abs/2410.00025v2 )

ライセンス: Link先を確認
Maxime Poli, Emmanuel Chemla, Emmanuel Dupoux, (参考訳) 音声言語モデリングの最近の進歩は、音声から直接言語を学ぶことが可能であることを示している。 テキストレベルで動作するパイプラインを通して音声を生成する場合、通常、ニュアンス、イントネーション、非言語発声が失われる。 音声から直接のモデリングは、より自然で表現力のあるシステムへの道を開く。 一方、音声のみのシステムでは、意味的能力の観点からテキストベースのシステムに追いつくには、最大で3桁以上のデータを必要とする。 音素分類に基づく微調整音声表現モデルにより、文脈不変表現がより多くなり、これらの単位で訓練された言語モデルは、数百倍のデータで訓練された言語に匹敵する語彙的理解が得られることを示す。

Recent progress in Spoken Language Modeling has shown that learning language directly from speech is feasible. Generating speech through a pipeline that operates at the text level typically loses nuances, intonations, and non-verbal vocalizations. Modeling directly from speech opens up the path to more natural and expressive systems. On the other hand, speech-only systems require up to three orders of magnitude more data to catch up to their text-based counterparts in terms of their semantic abilities. We show that fine-tuning speech representation models on phoneme classification leads to more context-invariant representations, and language models trained on these units achieve comparable lexical comprehension to ones trained on hundred times more data.
翻訳日:2024-11-05 15:29:12 公開日:2024-10-30
# Qibocal: 自己ホスト型量子デバイスの校正のためのオープンソースのフレームワーク

Qibocal: an open-source framework for calibration of self-hosted quantum devices ( http://arxiv.org/abs/2410.00101v1 )

ライセンス: Link先を確認
Andrea Pasquale, Edoardo Pedicillo, Juan Cereijo, Sergi Ramos-Calderer, Alessandro Candido, Gabriele Palazzo, Rodolfo Carobene, Marco Gobbo, Stavros Efthymiou, Yuanzheng Paul Tan, Ingo Roth, Matteo Robbiati, Jadwiga Wilkens, Alvaro Orgaz-Fuertes, David Fuentes-Ruiz, Andrea Giachero, Frederico Brito, José Ignacio Latorre, Stefano Carrazza, (参考訳) 量子デバイスの校正は、現在利用可能な量子ハードウェア上で量子アルゴリズムを正常に展開する上で基礎となる。 本稿では,Qibocalフレームワーク内の超伝導量子デバイスのキャリブレーションとキャラクタリゼーションを行うオープンソースソフトウェアライブラリであるQibocalを紹介する。 Qibocalは、自己ホスト型量子プラットフォームを簡単に(再)校正するためのすべてのツールを提供することで、Qiboミドルウェアフレームワークを完成させる。 ライブラリのレイアウトと特徴を提示した後、単一および2ビットゲートキャリブレーションを実行するために実装されたプロトコルの概要を示す。 最後に,超伝導プラットフォームの再校正とモニタリングの応用について述べる。

Calibration of quantum devices is fundamental to successfully deploy quantum algorithms on current available quantum hardware. We present Qibocal, an open-source software library to perform calibration and characterization of superconducting quantum devices within the Qibo framework. Qibocal completes the Qibo middleware framework by providing all necessary tools to easily (re)calibrate self-hosted quantum platforms. After presenting the layout and the features of the library, we give an overview on some of the protocols implemented to perform single and two-qubit gates calibration. Finally, we present applications involving recalibration and monitoring of superconducting platforms.
翻訳日:2024-11-05 14:59:58 公開日:2024-10-30
# Qibocal: 自己ホスト型量子デバイスの校正のためのオープンソースのフレームワーク

Qibocal: an open-source framework for calibration of self-hosted quantum devices ( http://arxiv.org/abs/2410.00101v2 )

ライセンス: Link先を確認
Andrea Pasquale, Edoardo Pedicillo, Juan Cereijo, Sergi Ramos-Calderer, Alessandro Candido, Gabriele Palazzo, Rodolfo Carobene, Marco Gobbo, Stavros Efthymiou, Yuanzheng Paul Tan, Ingo Roth, Matteo Robbiati, Jadwiga Wilkens, Alvaro Orgaz-Fuertes, David Fuentes-Ruiz, Andrea Giachero, Frederico Brito, José Ignacio Latorre, Stefano Carrazza, (参考訳) 量子デバイスの校正は、現在利用可能な量子ハードウェア上で量子アルゴリズムを正常に展開する上で基礎となる。 本稿では,Qibocalフレームワーク内の超伝導量子デバイスのキャリブレーションとキャラクタリゼーションを行うオープンソースソフトウェアライブラリであるQibocalを紹介する。 Qibocalは、自己ホスト型量子プラットフォームを簡単に(再)校正するためのすべてのツールを提供することで、Qiboミドルウェアフレームワークを完成させる。 ライブラリのレイアウトと特徴を提示した後、単一および2ビットゲートキャリブレーションを実行するために実装されたプロトコルの概要を示す。 最後に,超伝導プラットフォームの再校正とモニタリングの応用について述べる。

Calibration of quantum devices is fundamental to successfully deploy quantum algorithms on current available quantum hardware. We present Qibocal, an open-source software library to perform calibration and characterization of superconducting quantum devices within the Qibo framework. Qibocal completes the Qibo middleware framework by providing all necessary tools to easily (re)calibrate self-hosted quantum platforms. After presenting the layout and the features of the library, we give an overview on some of the protocols implemented to perform single and two-qubit gates calibration. Finally, we present applications involving recalibration and monitoring of superconducting platforms.
翻訳日:2024-11-05 14:59:58 公開日:2024-10-30
# コモンセンス推論を用いたファイングラインド顔偽造検出のためのヒッチハイカーガイド

A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning ( http://arxiv.org/abs/2410.00485v1 )

ライセンス: Link先を確認
Niki Maria Foteinopoulou, Enjie Ghorbel, Djamila Aouada, (参考訳) 人工知能における説明責任は、特に顔の偽造検知のような分野において、信頼回復に不可欠である。 ビジョンと大規模言語モデル(VLLM)はコンピュータビジョンと自然言語を橋渡し、強力な常識推論によって駆動される多数のアプリケーションを提供する。 様々なタスクで成功したにも拘わらず、視覚と言語の可能性は、偽造検出に直面して過小評価され続けており、そこでは、言語の本質的な推論能力を利用して、きめ細かい操作領域を分析することによって、説明可能性を高めることを約束している。 そのため、顔偽造検出を視覚質問応答(VQA)タスクに変換し、これらの機能を体系的かつ適切に評価する方法論が必要である。 ディープフェイク検出における統一ベンチマークのこれまでの取り組みは、より単純なバイナリータスクに焦点を合わせ、きめ細かい検出とテキスト生成モデルの評価プロトコルを見下ろしてきた。 このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。 最初の段階では、モデルの性能と与えられた命令に対する感度を複数のプロンプトを用いて評価する。 第2段階では、多重選択VQA設定における操作領域の同定により、きめ細かな検出を深く掘り下げる。 第3段階では、細粒度検出をオープンエンドの質問に変換し、マルチラベル分類タスクにおけるいくつかのマッチング戦略を比較する。 最後に、ベンチマークに含まれるVLLMの詳細な応答を質的に評価する。 ベンチマークをいくつかの一般的なモデルに適用し、バイナリ、多重選択、VQAの評価を7つのデータセットで詳細に比較する。 \url{https://nickyfot.github.io/hitchhickersguide.github.io/}

Explainability in artificial intelligence is crucial for restoring trust, particularly in areas like face forgery detection, where viewers often struggle to distinguish between real and fabricated content. Vision and Large Language Models (VLLM) bridge computer vision and natural language, offering numerous applications driven by strong common-sense reasoning. Despite their success in various tasks, the potential of vision and language remains underexplored in face forgery detection, where they hold promise for enhancing explainability by leveraging the intrinsic reasoning capabilities of language to analyse fine-grained manipulation areas. As such, there is a need for a methodology that converts face forgery detection to a Visual Question Answering (VQA) task to systematically and fairly evaluate these capabilities. Previous efforts for unified benchmarks in deepfake detection have focused on the simpler binary task, overlooking evaluation protocols for fine-grained detection and text-generative models. We propose a multi-staged approach that diverges from the traditional binary decision paradigm to address this gap. In the first stage, we assess the models' performance on the binary task and their sensitivity to given instructions using several prompts. In the second stage, we delve deeper into fine-grained detection by identifying areas of manipulation in a multiple-choice VQA setting. In the third stage, we convert the fine-grained detection to an open-ended question and compare several matching strategies for the multi-label classification task. Finally, we qualitatively evaluate the fine-grained responses of the VLLMs included in the benchmark. We apply our benchmark to several popular models, providing a detailed comparison of binary, multiple-choice, and open-ended VQA evaluation across seven datasets. \url{https://nickyfot.github.io/hitchhickersguide.github.io/}
翻訳日:2024-11-05 05:16:55 公開日:2024-10-30
# コモンセンス推論を用いたファイングラインド顔偽造検出のためのヒッチハイカーガイド

A Hitchhikers Guide to Fine-Grained Face Forgery Detection Using Common Sense Reasoning ( http://arxiv.org/abs/2410.00485v2 )

ライセンス: Link先を確認
Niki Maria Foteinopoulou, Enjie Ghorbel, Djamila Aouada, (参考訳) 人工知能における説明責任は、特に顔の偽造検知のような分野において、信頼回復に不可欠である。 ビジョンと大規模言語モデル(VLLM)はコンピュータビジョンと自然言語を橋渡し、強力な常識推論によって駆動される多数のアプリケーションを提供する。 様々なタスクで成功したにも拘わらず、視覚と言語の可能性は、偽造検出に直面して過小評価され続けており、そこでは、言語の本質的な推論能力を利用して、きめ細かい操作領域を分析することによって、説明可能性を高めることを約束している。 そのため、顔偽造検出を視覚質問応答(VQA)タスクに変換し、これらの機能を体系的かつ適切に評価する方法論が必要である。 ディープフェイク検出における統一ベンチマークのこれまでの取り組みは、より単純なバイナリータスクに焦点を合わせ、きめ細かい検出とテキスト生成モデルの評価プロトコルを見下ろしてきた。 このギャップに対処するために,従来の二項決定パラダイムから分岐する多段階的アプローチを提案する。 最初の段階では、モデルの性能と与えられた命令に対する感度を複数のプロンプトを用いて評価する。 第2段階では、多重選択VQA設定における操作領域の同定により、きめ細かな検出を深く掘り下げる。 第3段階では、細粒度検出をオープンエンドの質問に変換し、マルチラベル分類タスクにおけるいくつかのマッチング戦略を比較する。 最後に、ベンチマークに含まれるVLLMの詳細な応答を質的に評価する。 ベンチマークをいくつかの一般的なモデルに適用し、バイナリ、多重選択、VQAの評価を7つのデータセットで詳細に比較する。 \url{https://nickyfot.github.io/hitchhickersguide.github.io/}

Explainability in artificial intelligence is crucial for restoring trust, particularly in areas like face forgery detection, where viewers often struggle to distinguish between real and fabricated content. Vision and Large Language Models (VLLM) bridge computer vision and natural language, offering numerous applications driven by strong common-sense reasoning. Despite their success in various tasks, the potential of vision and language remains underexplored in face forgery detection, where they hold promise for enhancing explainability by leveraging the intrinsic reasoning capabilities of language to analyse fine-grained manipulation areas. As such, there is a need for a methodology that converts face forgery detection to a Visual Question Answering (VQA) task to systematically and fairly evaluate these capabilities. Previous efforts for unified benchmarks in deepfake detection have focused on the simpler binary task, overlooking evaluation protocols for fine-grained detection and text-generative models. We propose a multi-staged approach that diverges from the traditional binary decision paradigm to address this gap. In the first stage, we assess the models' performance on the binary task and their sensitivity to given instructions using several prompts. In the second stage, we delve deeper into fine-grained detection by identifying areas of manipulation in a multiple-choice VQA setting. In the third stage, we convert the fine-grained detection to an open-ended question and compare several matching strategies for the multi-label classification task. Finally, we qualitatively evaluate the fine-grained responses of the VLLMs included in the benchmark. We apply our benchmark to several popular models, providing a detailed comparison of binary, multiple-choice, and open-ended VQA evaluation across seven datasets. \url{https://nickyfot.github.io/hitchhickersguide.github.io/}
翻訳日:2024-11-05 05:16:55 公開日:2024-10-30
# 量子多体基底状態に対する不変ハミルトンブートストラップ

Invariant Hamiltonian Bootstrap for Quantum Many-body Ground States ( http://arxiv.org/abs/2410.00810v1 )

ライセンス: Link先を確認
Michael G. Scheer, (参考訳) ハミルトニアンのブートストラップ法は半有限緩和を用いて、ハミルトンの基底状態エネルギーに対する証明可能な下界と基底状態相関関数の近似を求める。 有限次元ハミルトニアンブートストラップにおける対称性の役割を徹底的に扱い, 必要な計算資源を大幅に削減できることを示す。 さらに、任意のエルミート線形制約を解析に組み込むことで、指定された部分空間内で基底状態の性質を見つけることができる。 1D Hubbardモデルによるアプローチの実証を行った。 ハーフフィリングとクォーターフィリングの両方で、正確な対角化と10ドルサイトとの定量的な合意が得られます。 さらに,この手法をハーフフィリング時に100ドルで適用し,Betheアンザッツから得られた熱力学的限界における正確な基底状態エネルギー密度と定量的に一致した。

Hamiltonian bootstrap methods use semidefinite relaxation to find certifiable lower bounds to the ground state energy of a Hamiltonian, along with approximations of ground state correlation functions. We give a thorough treatment of the role of symmetry in finite-dimensional Hamiltonian bootstrap, and show that symmetry can be used to significantly reduce the required computational resources. We additionally incorporate arbitrary Hermitian linear constraints in our analysis, which allows one to find properties of the ground state within a specified subspace. We demonstrate our approach using the 1D Hubbard model. We find quantitative agreement with exact diagonalization on $10$ sites at both half-filling and quarter-filling. Additionally, we apply our method on $100$ sites at half-filling and find quantitative agreement with the exact ground state energy density in thermodynamic limit derived from the Bethe ansatz.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-30
# Hamiltonian (複数形 Hamiltonians)

Hamiltonian Bootstrap ( http://arxiv.org/abs/2410.00810v2 )

ライセンス: Link先を確認
Michael G. Scheer, (参考訳) 我々は、エルミート線形制約を受ける量子ハミルトニアンの基底状態エネルギーに対する下界と、対応する基底状態相関関数の近似を求める半定値緩和法であるハミルトニアンのブートストラップを導入する。 我々は、対称性がメモリと時間の両方の要求を著しく低減するのに有効であることを示し、分析にユニタリ、反ユニタリ、離散、連続対称性を含める。 1次元ハバードモデルを用いてハミルトンのブートストラップを実演し、正確な対角化とベーテアンサッツとの定量的な一致を求める。

We introduce a semidefinite relaxation method called Hamiltonian bootstrap which finds lower bounds to the ground state energy of a quantum Hamiltonian subject to Hermitian linear constraints, along with approximations of the corresponding ground state correlation functions. We show that symmetry can be used to significantly reduce both the memory and time requirements, and we include unitary, antiunitary, discrete, and continuous symmetries in our analysis. We demonstrate Hamiltonian bootstrap using the 1D Hubbard model and find quantitative agreement with both exact diagonalization and the Bethe ansatz.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-30
# 物理インフォームドニューラルネットワークによる動的システムの応答推定とシステム同定

Response Estimation and System Identification of Dynamical Systems via Physics-Informed Neural Networks ( http://arxiv.org/abs/2410.01340v1 )

ライセンス: Link先を確認
Marcus Haywood-Alexander, Giacamo Arcieri, Antonios Kamariotis, Eleni Chatzi, (参考訳) 構造力学の正確なモデリングは、構造健康モニタリング(SHM)、地震解析、振動制御など、数多くの工学的応用において重要である。 しばしば、これらのモデルは物理学に基づく原理から派生し、しばしば微分方程式形式の対応する支配方程式から導かれる。 しかしながら、非線形性やエネルギー散逸機構のような複雑なシステム特性は、そのようなモデルが近似的であり、しばしば不正確であることを暗示する。 この課題はSHMでさらに複雑化され、センサーデータが疎外されることがしばしばあり、システムの状態を十分に観察することは困難である。 これらの課題に対処するために,物理強化機械学習(PEML)技術のクラスであるPhysical-Informed Neural Networks(PINNs)を用いて,力学系の同定と推定を行う。 PINNは、既知の物理法則をニューラルネットワークの損失関数に直接埋め込むことで、不確実性が存在する場合でも複雑な現象を簡単に埋め込むことで、ユニークな利点を提供する。 本研究は,スパースセンシングシステムにおける状態推定,システム応答とパラメータが不明な場合の連立状態パラメータ推定,不確かさを定量化するためのベイズフレームワーク内のパラメータ推定という,PINNの3つの重要な応用について検討する。 その結果、PINNは上記のすべてのタスクに対して、たとえモデルエラーがあっても、効率的なツールを提供することを示した。 しかしながら、これらの誤差はパラメータ推定により大きな影響を与える傾向があり、最適化プロセスは、所定のモデルと真のシステム挙動の相違を解決しなければならない。 これらの課題にもかかわらず、PINNは動的システムモデリングの約束を示し、不確実性を扱うための堅牢なアプローチを提供する。

The accurate modelling of structural dynamics is crucial across numerous engineering applications, such as Structural Health Monitoring (SHM), seismic analysis, and vibration control. Often, these models originate from physics-based principles and can be derived from corresponding governing equations, often of differential equation form. However, complex system characteristics, such as nonlinearities and energy dissipation mechanisms, often imply that such models are approximative and often imprecise. This challenge is further compounded in SHM, where sensor data is often sparse, making it difficult to fully observe the system's states. To address these issues, this paper explores the use of Physics-Informed Neural Networks (PINNs), a class of physics-enhanced machine learning (PEML) techniques, for the identification and estimation of dynamical systems. PINNs offer a unique advantage by embedding known physical laws directly into the neural network's loss function, allowing for simple embedding of complex phenomena, even in the presence of uncertainties. This study specifically investigates three key applications of PINNs: state estimation in systems with sparse sensing, joint state-parameter estimation, when both system response and parameters are unknown, and parameter estimation within a Bayesian framework to quantify uncertainties. The results demonstrate that PINNs deliver an efficient tool across all aforementioned tasks, even in presence of modelling errors. However, these errors tend to have a more significant impact on parameter estimation, as the optimization process must reconcile discrepancies between the prescribed model and the true system behavior. Despite these challenges, PINNs show promise in dynamical system modeling, offering a robust approach to handling uncertainties.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-30
# 物理インフォームドニューラルネットワークによる動的システムの応答推定とシステム同定

Response Estimation and System Identification of Dynamical Systems via Physics-Informed Neural Networks ( http://arxiv.org/abs/2410.01340v2 )

ライセンス: Link先を確認
Marcus Haywood-Alexander, Giacomo Arcieri, Antonios Kamariotis, Eleni Chatzi, (参考訳) 構造力学の正確なモデリングは、構造健康モニタリング(SHM)、地震解析、振動制御など、数多くの工学的応用において重要である。 しばしば、これらのモデルは物理学に基づく原理から派生し、しばしば微分方程式形式の対応する支配方程式から導かれる。 しかしながら、非線形性やエネルギー散逸機構のような複雑なシステム特性は、そのようなモデルが近似的であり、しばしば不正確であることを暗示する。 この課題はSHMでさらに複雑化され、センサーデータが疎外されることがしばしばあり、システムの状態を十分に観察することは困難である。 これらの課題に対処するために,物理強化機械学習(PEML)技術のクラスであるPhysical-Informed Neural Networks(PINNs)を用いて,力学系の同定と推定を行う。 PINNは、既知の物理法則をニューラルネットワークの損失関数に直接埋め込むことで、不確実性が存在する場合でも複雑な現象を簡単に埋め込むことで、ユニークな利点を提供する。 本研究は,スパースセンシングシステムにおける状態推定,システム応答とパラメータが不明な場合の連立状態パラメータ推定,不確かさを定量化するためのベイズフレームワーク内のパラメータ推定という,PINNの3つの重要な応用について検討する。 その結果、PINNは上記のすべてのタスクに対して、たとえモデルエラーがあっても、効率的なツールを提供することを示した。 しかしながら、これらの誤差はパラメータ推定により大きな影響を与える傾向があり、最適化プロセスは、所定のモデルと真のシステム挙動の相違を解決しなければならない。 これらの課題にもかかわらず、PINNは動的システムモデリングの約束を示し、不確実性を扱うための堅牢なアプローチを提供する。

The accurate modelling of structural dynamics is crucial across numerous engineering applications, such as Structural Health Monitoring (SHM), seismic analysis, and vibration control. Often, these models originate from physics-based principles and can be derived from corresponding governing equations, often of differential equation form. However, complex system characteristics, such as nonlinearities and energy dissipation mechanisms, often imply that such models are approximative and often imprecise. This challenge is further compounded in SHM, where sensor data is often sparse, making it difficult to fully observe the system's states. To address these issues, this paper explores the use of Physics-Informed Neural Networks (PINNs), a class of physics-enhanced machine learning (PEML) techniques, for the identification and estimation of dynamical systems. PINNs offer a unique advantage by embedding known physical laws directly into the neural network's loss function, allowing for simple embedding of complex phenomena, even in the presence of uncertainties. This study specifically investigates three key applications of PINNs: state estimation in systems with sparse sensing, joint state-parameter estimation, when both system response and parameters are unknown, and parameter estimation within a Bayesian framework to quantify uncertainties. The results demonstrate that PINNs deliver an efficient tool across all aforementioned tasks, even in presence of modelling errors. However, these errors tend to have a more significant impact on parameter estimation, as the optimization process must reconcile discrepancies between the prescribed model and the true system behavior. Despite these challenges, PINNs show promise in dynamical system modeling, offering a robust approach to handling uncertainties.
翻訳日:2024-11-04 21:39:21 公開日:2024-10-30
# 量子過程の条件エントロピーと情報

Conditional entropy and information of quantum processes ( http://arxiv.org/abs/2410.01740v1 )

ライセンス: Link先を確認
Siddhartha Das, Kaumudibikash Goswami, Vivek Pandey, (参考訳) 2部量子プロセスの条件エントロピーの合理的な定義と、それがもたらす新しい洞察とは何か。 4つの情報理論の公理を用いてこの概念を開発し、対応する量式を定義する。 チャネルの条件エントロピーの定義は、量子相対エントロピー、最小相対エントロピー、最大相対エントロピーなど、一般化された状態とチャネルの発散に基づいている。 量子チャネルの条件エントロピーは、量子チャネルのエントロピーやバイパルタイト状態の条件エントロピーによって捉えられない基礎となる因果構造のような、チャネルの重要な特徴を明らかにする可能性があることを示す。 具体的には、フォン・ノイマン条件エントロピー$S[A|B]_{\mathcal{N}}$の量子チャネル$\mathcal{N}_{A'B'\to AB}$が厳密に$-\log|A|$より小さい場合、チャネルは必ずしも$A'$から$B$への因果的影響を持つ。 さらに、条件付きエントロピーの定義は、量子チャネルに対するエントロピーの強い部分付加性を確立することを示す。 量子チャネルの多部間相互情報を定義することにより,量子過程による相関関係の総量について検討する。

What would be a reasonable definition of the conditional entropy of bipartite quantum processes, and what novel insight would it provide? We develop this notion using four information-theoretic axioms and define the corresponding quantitative formulas. Our definitions of the conditional entropies of channels are based on the generalized state and channel divergences, such as quantum relative entropy, min- and max-relative entropy, etc. We show that the conditional entropy of quantum channels can potentially reveal important features of the channel, such as its underlying causal structure, which cannot be captured by the entropy of quantum channels or the conditional entropy of bipartite states. Specifically, if the von Neumann conditional entropy $S[A|B]_{\mathcal{N}}$ of a quantum channel $\mathcal{N}_{A'B'\to AB}$ is strictly less than $-\log|A|$, then the channel necessarily has causal influence from $A'$ to $B$. Furthermore, we show that our definition of conditional entropy establishes the strong subadditivity of the entropy for quantum channels. We study the total amount of correlations possible due to quantum processes by defining the multipartite mutual information of quantum channels.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-30
# 量子過程の条件エントロピーと情報

Conditional entropy and information of quantum processes ( http://arxiv.org/abs/2410.01740v2 )

ライセンス: Link先を確認
Siddhartha Das, Kaumudibikash Goswami, Vivek Pandey, (参考訳) 2部量子プロセスの条件エントロピーの合理的な定義と、それがもたらす新しい洞察とは何か。 4つの情報理論の公理を用いてこの概念を開発し、対応する量式を定義する。 チャネルの条件エントロピーの定義は一般化状態とチャネルの発散、例えば量子相対エントロピーに基づいている。 量子チャネルの条件エントロピーは、状態やチャネルの既存のエントロピー関数、エントロピーや条件エントロピーによって既に捉えられていない量子過程の洞察を明らかにする可能性がある。 von Neumann 条件付きエントロピー $S[A|B]_{\mathcal{N}}$ of the channel $\mathcal{N}_{A'B'\to AB}$ は、それぞれ非条件系と条件系である系対 $A',A$,B',B$ の量子相対エントロピーに基づいている。 両部類流路の因果構造と条件エントロピーの関連性を明らかにする。 特に、2部量子チャネル $\mathcal{N}_{A'B'\to AB}$ のフォン・ノイマン条件エントロピー $S[A|B]_{\mathcal{N}}$ は、$A'$ から$B$ への因果的影響を持たない。 その結果、$S[A|B]_{\mathcal{N}}< -\log|A|$であれば、チャネルは必ずしも$A'$から$B$までの因果的影響(符号付け)を持つ。 条件エントロピーの定義は、量子チャネルに対するエントロピーの強い部分付加性を確立する。 また、量子チャネルの多部間相互情報を定義することにより、量子過程による相関の総量についても検討する。

What would be a reasonable definition of the conditional entropy of bipartite quantum processes, and what novel insight would it provide? We develop this notion using four information-theoretic axioms and define the corresponding quantitative formulas. Our definitions of the conditional entropies of channels are based on the generalized state and channel divergences, for instance, quantum relative entropy. We find that the conditional entropy of quantum channels has potential to reveal insights for quantum processes that aren't already captured by the existing entropic functions, entropy or conditional entropy, of the states and channels. The von Neumann conditional entropy $S[A|B]_{\mathcal{N}}$ of the channel $\mathcal{N}_{A'B'\to AB}$ is based on the quantum relative entropy, with system pairs $A',A$ and $B',B$ being nonconditioning and conditioning systems, respectively. We identify a connection between the underlying causal structure of a bipartite channel and its conditional entropy. In particular, we provide a necessary and sufficient condition for a bipartite quantum channel $\mathcal{N}_{A'B'\to AB}$ in terms of its von Neumann conditional entropy $S[A|B]_{\mathcal{N}}$, to have no causal influence from $A'$ to $B$. As a consequence, if $S[A|B]_{\mathcal{N}}< -\log|A|$ then the channel necessarily has causal influence (signaling) from $A'$ to $B$. Our definition of the conditional entropy establishes the strong subadditivity of the entropy for quantum channels. We also study the total amount of correlations possible due to quantum processes by defining the multipartite mutual information of quantum channels.
翻訳日:2024-11-04 15:34:04 公開日:2024-10-30
# 組み込みFPGAにおける時系列予測のための変圧器の展開性向上のための資源対応混合精度量子化

Resource-aware Mixed-precision Quantization for Enhancing Deployability of Transformers for Time-series Forecasting on Embedded FPGAs ( http://arxiv.org/abs/2410.03294v1 )

ライセンス: Link先を確認
Tianheng Ling, Chao Qian, Gregor Schiele, (参考訳) 本研究では、資源制約付き組み込みFPGA(Xilinx Spartan-7 XC7S15)における整数のみの量子化変換器の展開課題について述べる。 モデル層に中間結果を格納する選択可能なリソースタイプを導入することで,VHDLテンプレートの柔軟性を向上し,BRAMを効率的に活用することで,デプロイメントボトルネックを解消する。 さらに,ニューラルアーキテクチャサーチの専門知識を必要とせず,ハードウェアレベルの量子化戦略を研究できる資源対応型混合精度量子化手法を開発した。 本手法は,実際の展開指標と比較して,精度の低い3%の精度で正確な資源利用推定値を提供する。 提案手法は,従来の研究と比較して,混合精度量子化を用いたモデル構成の展開を成功させ,均一な量子化ビット幅を持つ5つの非デプロイ可能な構成に固有の制約を克服した。 その結果,組込みシステムにおけるTransformerの適用性が向上し,エッジデバイス上でのTransformerを利用した幅広いアプリケーションの実現が容易になった。

This study addresses the deployment challenges of integer-only quantized Transformers on resource-constrained embedded FPGAs (Xilinx Spartan-7 XC7S15). We enhanced the flexibility of our VHDL template by introducing a selectable resource type for storing intermediate results across model layers, thereby breaking the deployment bottleneck by utilizing BRAM efficiently. Moreover, we developed a resource-aware mixed-precision quantization approach that enables researchers to explore hardware-level quantization strategies without requiring extensive expertise in Neural Architecture Search. This method provides accurate resource utilization estimates with a precision discrepancy as low as 3%, compared to actual deployment metrics. Compared to previous work, our approach has successfully facilitated the deployment of model configurations utilizing mixed-precision quantization, thus overcoming the limitations inherent in five previously non-deployable configurations with uniform quantization bitwidths. Consequently, this research enhances the applicability of Transformers in embedded systems, facilitating a broader range of Transformer-powered applications on edge devices.
翻訳日:2024-11-02 23:08:51 公開日:2024-10-30
# 組み込みFPGAにおける時系列予測のための変圧器の展開性向上のための資源対応混合精度量子化

Resource-aware Mixed-precision Quantization for Enhancing Deployability of Transformers for Time-series Forecasting on Embedded FPGAs ( http://arxiv.org/abs/2410.03294v2 )

ライセンス: Link先を確認
Tianheng Ling, Chao Qian, Gregor Schiele, (参考訳) 本研究では、資源制約付き組み込みFPGA(Xilinx Spartan-7 XC7S15)における整数のみの量子化変換器の展開課題について述べる。 モデル層に中間結果を格納する選択可能なリソースタイプを導入することで,VHDLテンプレートの柔軟性を向上し,BRAMを効率的に活用することで,デプロイメントボトルネックを解消する。 さらに,ニューラルアーキテクチャサーチの専門知識を必要とせず,ハードウェアレベルの量子化戦略を研究できる資源対応型混合精度量子化手法を開発した。 本手法は,実際の展開指標と比較して,精度の低い3%の精度で正確な資源利用推定値を提供する。 提案手法は,従来の研究と比較して,混合精度量子化を用いたモデル構成の展開を成功させ,均一な量子化ビット幅を持つ5つの非デプロイ可能な構成に固有の制約を克服した。 その結果,組込みシステムにおけるTransformerの適用性が向上し,エッジデバイス上でのTransformerを利用した幅広いアプリケーションの実現が容易になった。

This study addresses the deployment challenges of integer-only quantized Transformers on resource-constrained embedded FPGAs (Xilinx Spartan-7 XC7S15). We enhanced the flexibility of our VHDL template by introducing a selectable resource type for storing intermediate results across model layers, thereby breaking the deployment bottleneck by utilizing BRAM efficiently. Moreover, we developed a resource-aware mixed-precision quantization approach that enables researchers to explore hardware-level quantization strategies without requiring extensive expertise in Neural Architecture Search. This method provides accurate resource utilization estimates with a precision discrepancy as low as 3%, compared to actual deployment metrics. Compared to previous work, our approach has successfully facilitated the deployment of model configurations utilizing mixed-precision quantization, thus overcoming the limitations inherent in five previously non-deployable configurations with uniform quantization bitwidths. Consequently, this research enhances the applicability of Transformers in embedded systems, facilitating a broader range of Transformer-powered applications on edge devices.
翻訳日:2024-11-02 23:08:51 公開日:2024-10-30
# 組み込みFPGAにおける時系列予測のための変圧器の展開性向上のための資源対応混合精度量子化

Resource-aware Mixed-precision Quantization for Enhancing Deployability of Transformers for Time-series Forecasting on Embedded FPGAs ( http://arxiv.org/abs/2410.03294v3 )

ライセンス: Link先を確認
Tianheng Ling, Chao Qian, Gregor Schiele, (参考訳) 本研究では、資源制約付き組み込みFPGA(Xilinx Spartan-7 XC7S15)における整数のみの量子化変換器の展開課題について述べる。 モデル層に中間結果を格納する選択可能なリソースタイプを導入することで,VHDLテンプレートの柔軟性を向上し,BRAMを効率的に活用することで,デプロイメントボトルネックを解消する。 さらに,ニューラルアーキテクチャサーチの専門知識を必要とせず,ハードウェアレベルの量子化戦略を研究できる資源対応型混合精度量子化手法を開発した。 本手法は,実際の展開指標と比較して,精度の低い3%の精度で正確な資源利用推定値を提供する。 提案手法は,従来の研究と比較して,混合精度量子化を用いたモデル構成の展開を成功させ,均一な量子化ビット幅を持つ5つの非デプロイ可能な構成に固有の制約を克服した。 その結果,組込みシステムにおけるTransformerの適用性が向上し,エッジデバイス上でのTransformerを利用した幅広いアプリケーションの実現が容易になった。

This study addresses the deployment challenges of integer-only quantized Transformers on resource-constrained embedded FPGAs (Xilinx Spartan-7 XC7S15). We enhanced the flexibility of our VHDL template by introducing a selectable resource type for storing intermediate results across model layers, thereby breaking the deployment bottleneck by utilizing BRAM efficiently. Moreover, we developed a resource-aware mixed-precision quantization approach that enables researchers to explore hardware-level quantization strategies without requiring extensive expertise in Neural Architecture Search. This method provides accurate resource utilization estimates with a precision discrepancy as low as 3%, compared to actual deployment metrics. Compared to previous work, our approach has successfully facilitated the deployment of model configurations utilizing mixed-precision quantization, thus overcoming the limitations inherent in five previously non-deployable configurations with uniform quantization bitwidths. Consequently, this research enhances the applicability of Transformers in embedded systems, facilitating a broader range of Transformer-powered applications on edge devices.
翻訳日:2024-11-02 23:08:51 公開日:2024-10-30
# PRF:スパイクニューラルネットワークにおける長周期学習のための並列共振器と火災ニューロン

PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks ( http://arxiv.org/abs/2410.03530v1 )

ライセンス: Link先を確認
Yulong Huang, Zunchang Liu, Changchun Feng, Xiaopeng Lin, Hongwei Ren, Haotian Fu, Yue Zhou, Hong Xing, Bojun Cheng, (参考訳) 近年,SSM(State Space Models)が長周期タスクに有効であることが証明され,効率的かつ効率的な長周期モデリングへの需要が高まっている。 エネルギー消費をさらに削減するために、SSMはスパイキング機能を使用してスパイキングニューラルネットワーク(SNN)に適応することができる。 しかし、現在のスパイキング形式化されたSSMのアプローチは、推論中に浮動小数点行列ベクトル乗法に依存しており、SNNのエネルギー優位性を損なう。 本研究では,SNNにおける長周期学習の効率性と性能の課題を同時に解決する。 まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L^2)$から$O(L\log L)$に短縮し,6.57 \times$から$16.50 \times$までのトレーニングを,シーケンス長で$1,024$から$32,768$に効果的に高速化する。 我々の知る限りでは、リセット機構による並列計算が、そのシーケンシャルな計算と等価性を実現するのはこれが初めてである。 次に, 共振機構によって駆動される振動膜電位を複素領域の微分可能リセット関数から活用するパラレル共鳴・火災ニューロンを提案する。 PRFは、並列トレーニングを維持しながら、効率的なロングシーケンス学習を可能にする。 最後に,PRFを用いたスパイク駆動型アーキテクチャは,SSM(Structured SSMs)に匹敵する性能を実現していることを示す。

Recently, there is growing demand for effective and efficient long sequence modeling, with State Space Models (SSMs) proving to be effective for long sequence tasks. To further reduce energy consumption, SSMs can be adapted to Spiking Neural Networks (SNNs) using spiking functions. However, current spiking-formalized SSMs approaches still rely on float-point matrix-vector multiplication during inference, undermining SNNs' energy advantage. In this work, we address the efficiency and performance challenges of long sequence learning in SNNs simultaneously. First, we propose a decoupled reset method for parallel spiking neuron training, reducing the typical Leaky Integrate-and-Fire (LIF) model's training time from $O(L^2)$ to $O(L\log L)$, effectively speeding up the training by $6.57 \times$ to $16.50 \times$ on sequence lengths $1,024$ to $32,768$. To our best knowledge, this is the first time that parallel computation with a reset mechanism is implemented achieving equivalence to its sequential counterpart. Secondly, to capture long-range dependencies, we propose a Parallel Resonate and Fire (PRF) neuron, which leverages an oscillating membrane potential driven by a resonate mechanism from a differentiable reset function in the complex domain. The PRF enables efficient long sequence learning while maintaining parallel training. Finally, we demonstrate that the proposed spike-driven architecture using PRF achieves performance comparable to Structured SSMs (S4), with two orders of magnitude reduction in energy consumption, outperforming Transformer on Long Range Arena tasks.
翻訳日:2024-11-02 21:39:44 公開日:2024-10-30
# PRF:スパイクニューラルネットワークにおける長周期学習のための並列共振器と火災ニューロン

PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks ( http://arxiv.org/abs/2410.03530v2 )

ライセンス: Link先を確認
Yulong Huang, Zunchang Liu, Changchun Feng, Xiaopeng Lin, Hongwei Ren, Haotian Fu, Yue Zhou, Hong Xing, Bojun Cheng, (参考訳) 近年,SSM(State Space Models)が長周期タスクに有効であることが証明され,効率的かつ効率的な長周期モデリングへの需要が高まっている。 エネルギー消費をさらに削減するために、SSMはスパイキング機能を使用してスパイキングニューラルネットワーク(SNN)に適応することができる。 しかし、現在のスパイキング形式化されたSSMのアプローチは、推論中に浮動小数点行列ベクトル乗法に依存しており、SNNのエネルギー優位性を損なう。 本研究では,SNNにおける長周期学習の効率性と性能の課題を同時に解決する。 まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L^2)$から$O(L\log L)$に短縮し,6.57 \times$から$16.50 \times$までのトレーニングを,シーケンス長で$1,024$から$32,768$に効果的に高速化する。 我々の知る限りでは、リセット機構による並列計算が、そのシーケンシャルな計算と等価性を実現するのはこれが初めてである。 次に, 共振機構によって駆動される振動膜電位を複素領域の微分可能リセット関数から活用するパラレル共鳴・火災ニューロンを提案する。 PRFは、並列トレーニングを維持しながら、効率的なロングシーケンス学習を可能にする。 最後に,PRFを用いたスパイク駆動型アーキテクチャは,SSM(Structured SSMs)に匹敵する性能を実現していることを示す。

Recently, there is growing demand for effective and efficient long sequence modeling, with State Space Models (SSMs) proving to be effective for long sequence tasks. To further reduce energy consumption, SSMs can be adapted to Spiking Neural Networks (SNNs) using spiking functions. However, current spiking-formalized SSMs approaches still rely on float-point matrix-vector multiplication during inference, undermining SNNs' energy advantage. In this work, we address the efficiency and performance challenges of long sequence learning in SNNs simultaneously. First, we propose a decoupled reset method for parallel spiking neuron training, reducing the typical Leaky Integrate-and-Fire (LIF) model's training time from $O(L^2)$ to $O(L\log L)$, effectively speeding up the training by $6.57 \times$ to $16.50 \times$ on sequence lengths $1,024$ to $32,768$. To our best knowledge, this is the first time that parallel computation with a reset mechanism is implemented achieving equivalence to its sequential counterpart. Secondly, to capture long-range dependencies, we propose a Parallel Resonate and Fire (PRF) neuron, which leverages an oscillating membrane potential driven by a resonate mechanism from a differentiable reset function in the complex domain. The PRF enables efficient long sequence learning while maintaining parallel training. Finally, we demonstrate that the proposed spike-driven architecture using PRF achieves performance comparable to Structured SSMs (S4), with two orders of magnitude reduction in energy consumption, outperforming Transformer on Long Range Arena tasks.
翻訳日:2024-11-02 21:39:44 公開日:2024-10-30
# 3Dガウス撮影のためのFisherRFによる視覚と触覚のガイド

Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting ( http://arxiv.org/abs/2410.04680v1 )

ライセンス: Link先を確認
Matthew Strong, Boshu Lei, Aiden Swann, Wen Jiang, Kostas Daniilidis, Monroe Kennedy III, (参考訳) 本稿では,3Dガウススプラッティング(3DGS)を用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワークを提案する。 3DGSは、フォトリアリスティックと幾何学的精度の両方でシーンを表現できるので、ロボット工学にとって有用な3Dシーン表現として現れつつある。 しかし、3DGSのランダムなビュー選択は、ビューが重複し、冗長であることが多いため、現実のオンラインロボットシーンでは、効率の要求に応じてビューの数が限られている。 この課題に対処するためには、エンド・ツー・エンドのオンライン・トレーニングとアクティブ・ビュー・セレクション・パイプラインを提案する。 まず, ピアソン深度と表面の正規損失を補足し, 実世界のシーンの色と深度を再現するセグメンションアライメントモデル2 (SAM2) を用いて, 新規な意味深度アライメント法を用いて, 数ショット3DGSの性能を向上する。 次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。 実写3DGSトレーニング中に,実際のロボットシステム上でオンラインビュー選択を行う。 我々は、いくつかのGSシーンの改善を動機付け、深度に基づくFisherRFを拡張して、挑戦するロボットシーンの質的および定量的な改善を実証する。 詳細については、プロジェクトページ(https://armlabstanford.github.io/next-best-sense)を参照してください。

We propose a framework for active next best view and touch selection for robotic manipulators using 3D Gaussian Splatting (3DGS). 3DGS is emerging as a useful explicit 3D scene representation for robotics, as it has the ability to represent scenes in a both photorealistic and geometrically accurate manner. However, in real-world, online robotic scenes where the number of views is limited given efficiency requirements, random view selection for 3DGS becomes impractical as views are often overlapping and redundant. We address this issue by proposing an end-to-end online training and active view selection pipeline, which enhances the performance of 3DGS in few-view robotics settings. We first elevate the performance of few-shot 3DGS with a novel semantic depth alignment method using Segment Anything Model 2 (SAM2) that we supplement with Pearson depth and surface normal loss to improve color and depth reconstruction of real-world scenes. We then extend FisherRF, a next-best-view selection method for 3DGS, to select views and touch poses based on depth uncertainty. We perform online view selection on a real robot system during live 3DGS training. We motivate our improvements to few-shot GS scenes, and extend depth-based FisherRF to them, where we demonstrate both qualitative and quantitative improvements on challenging robot scenes. For more information, please see our project page at https://armlabstanford.github.io/next-best-sense.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-30
# 3Dガウス撮影のためのFisherRFによる視覚と触覚のガイド

Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting ( http://arxiv.org/abs/2410.04680v2 )

ライセンス: Link先を確認
Matthew Strong, Boshu Lei, Aiden Swann, Wen Jiang, Kostas Daniilidis, Monroe Kennedy III, (参考訳) 本稿では,3Dガウススプラッティング(3DGS)を用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワークを提案する。 3DGSは、フォトリアリスティックと幾何学的精度の両方でシーンを表現できるので、ロボット工学にとって有用な3Dシーン表現として現れつつある。 しかし、3DGSのランダムなビュー選択は、ビューが重複し、冗長であることが多いため、現実のオンラインロボットシーンでは、効率の要求に応じてビューの数が限られている。 この課題に対処するためには、エンド・ツー・エンドのオンライン・トレーニングとアクティブ・ビュー・セレクション・パイプラインを提案する。 まず, ピアソン深度と表面の正規損失を補足し, 実世界のシーンの色と深度を再現するセグメンションアライメントモデル2 (SAM2) を用いて, 新規な意味深度アライメント法を用いて, 数ショット3DGSの性能を向上する。 次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。 実写3DGSトレーニング中に,実際のロボットシステム上でオンラインビュー選択を行う。 我々は、いくつかのGSシーンの改善を動機付け、深度に基づくFisherRFを拡張して、挑戦するロボットシーンの質的および定量的な改善を実証する。 詳細については、プロジェクトのページ(https://arm.stanford.edu/next-best-sense)を参照してください。

We propose a framework for active next best view and touch selection for robotic manipulators using 3D Gaussian Splatting (3DGS). 3DGS is emerging as a useful explicit 3D scene representation for robotics, as it has the ability to represent scenes in a both photorealistic and geometrically accurate manner. However, in real-world, online robotic scenes where the number of views is limited given efficiency requirements, random view selection for 3DGS becomes impractical as views are often overlapping and redundant. We address this issue by proposing an end-to-end online training and active view selection pipeline, which enhances the performance of 3DGS in few-view robotics settings. We first elevate the performance of few-shot 3DGS with a novel semantic depth alignment method using Segment Anything Model 2 (SAM2) that we supplement with Pearson depth and surface normal loss to improve color and depth reconstruction of real-world scenes. We then extend FisherRF, a next-best-view selection method for 3DGS, to select views and touch poses based on depth uncertainty. We perform online view selection on a real robot system during live 3DGS training. We motivate our improvements to few-shot GS scenes, and extend depth-based FisherRF to them, where we demonstrate both qualitative and quantitative improvements on challenging robot scenes. For more information, please see our project page at https://arm.stanford.edu/next-best-sense.
翻訳日:2024-11-02 02:37:51 公開日:2024-10-30
# 量子コヒーレンスの拡散に対する普遍的速度制限

A universal speed limit for spreading of quantum coherence ( http://arxiv.org/abs/2410.08204v2 )

ライセンス: Link先を確認
Gevorg Martirosyan, Martin Gazo, Jiří Etrych, Simon M. Fischer, Sebastian J. Morris, Christopher J. Ho, Christoph Eigen, Zoran Hadzibabic, (参考訳) 光の速度から情報伝播に縛られたリーブ・ロビンソンまで、物理過程の速度に対する基本的な限界の発見は、基礎となる物理学の理解にしばしば挑戦する概念的なブレークスルーである。 ここでは、弱い相互作用を持つボース=アインシュタイン凝縮体の形成におけるコヒーレンス拡散というパラダイム的な多体現象に対するそのような極限を観察する。 分離された均一な原子ガス中の凝縮体形成は, 当初は平衡から遠く, 非コヒーレントな低エネルギー状態であり, 凝縮体は平衡に向かって緩和する。 凝縮を駆動する原子間相互作用をチューニングすると、系内のコヒーレンスの拡散は、当初はより弱い相互作用では遅く、より強い相互作用では速いが、常に同じ限界に達することが示され、そこでは、コヒーレンス長の正方形がプランク定数と粒子質量の比で与えられる普遍的な速度で成長する。 これらの観測は、初期状態、ガス密度、システムサイズの変化に対して堅牢である。 我々の結果は、平衡から離れた普遍性理論のベンチマークを提供し、大規模コヒーレンスに依存する量子技術に関係し、他の量子系でも同様の測定を招待する。

Discoveries of fundamental limits for the rates of physical processes, from the speed of light to the Lieb-Robinson bound for information propagation, are conceptual breakthroughs that often challenge our understanding of the underlying physics. Here we observe such a limit for a paradigmatic many-body phenomenon, the spreading of coherence during formation of a weakly interacting Bose-Einstein condensate. We study condensate formation in an isolated homogeneous atomic gas that is initially far from equilibrium, in an incoherent low-energy state, and condenses as it relaxes towards equilibrium. Tuning the inter-atomic interactions that drive condensation, we show that the spreading of coherence through the system is initially slower for weaker interactions, and faster for stronger ones, but always eventually reaches the same limit, where the square of the coherence length grows at a universal rate given by the ratio of Planck's constant and the particle mass. These observations are robust to changes in the initial state, the gas density, and the system size. Our results provide benchmarks for theories of universality far from equilibrium, are relevant for quantum technologies that rely on large-scale coherence, and invite similar measurements in other quantum systems.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-30
# 統合埋め込み予測アーキテクチャを用いた12左心電図の一般表現

Learning General Representation of 12-Lead Electrocardiogram with a Joint-Embedding Predictive Architecture ( http://arxiv.org/abs/2410.08559v2 )

ライセンス: Link先を確認
Sehun Kim, (参考訳) 本稿では,ECG-JEPA (Joint Embedding Predictive Architecture) と呼ばれる12誘導心電図解析のための自己教師付き学習手法を提案する。 ECG-JEPAは、ECGデータのセマンティック表現を学ぶためにマスキング戦略を採用している。 既存の方法とは異なり、ECG-JEPAは生データを再構築するのではなく、隠された表現レベルで予測する。 このアプローチはECG領域にいくつかの利点をもたらす:(1)標準ECGで一般的なノイズのような不要な詳細を発生させないこと、(2)生信号間のna\\ive L2損失の制限に対処すること。 もうひとつの重要な貢献は、12リードのECGデータであるCross-Pattern Attention (CroPA)用に調整された、特別なマスク付きアテンションの導入である。 CroPAは、モデルがパッチ間の関係を効果的にキャプチャすることを可能にする。 さらに、ECG-JEPAは非常にスケーラブルで、大規模なデータセットの効率的なトレーニングを可能にする。 私たちのコードはhttps://github.com/sehunfromdaegu/ECG_JEPAで公開されています。

We propose a self-supervised learning method for 12-lead Electrocardiogram (ECG) analysis, named ECG Joint Embedding Predictive Architecture (ECG-JEPA). ECG-JEPA employs a masking strategy to learn semantic representations of ECG data. Unlike existing methods, ECG-JEPA predicts at the hidden representation level rather than reconstructing raw data. This approach offers several advantages in the ECG domain: (1) it avoids producing unnecessary details, such as noise, which is common in standard ECG; and (2) it addresses the limitations of na\"ive L2 loss between raw signals. Another key contribution is the introduction of a special masked attention tailored for 12-lead ECG data, Cross-Pattern Attention (CroPA). CroPA enables the model to effectively capture inter-patch relationships. Additionally, ECG-JEPA is highly scalable, allowing efficient training on large datasets. Our code is openly available https://github.com/sehunfromdaegu/ECG_JEPA.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-30
# Burning RED: Average-Reward Markov決定プロセスにおけるサブタスク駆動の強化学習とリスク認識のアンロック

Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes ( http://arxiv.org/abs/2410.10578v3 )

ライセンス: Link先を確認
Juan Sebastian Rojas, Chi-Guhn Lee, (参考訳) 平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。 しかし, 平均回帰MDPは, 強化学習(RL)設定においてほとんど未探索であり, RLに基づく取り組みの大部分は, エピソード的かつ割引されたMDPに割り当てられている。 本研究では, 平均回帰MDPの特異な構造特性を考察し, 平均回帰設定において, 様々なサブタスクを効果的かつ効率的に解ける新しいRLフレームワークであるReward-Extended Differential (RED) 強化学習を導入する。 本稿では,表ケースに対する実証収束アルゴリズムを含む,予測と制御のためのRED学習アルゴリズムのファミリーを紹介する。 次に、明示的な二段階最適化スキームや拡張状態空間を使わずに、よく知られた条件付きリスク尺度(CVaR)を完全なオンライン方式で最適化するポリシーを初めて学習する方法を示すことで、これらのアルゴリズムのパワーを実証する。

Average-reward Markov decision processes (MDPs) provide a foundational framework for sequential decision-making under uncertainty. However, average-reward MDPs have remained largely unexplored in reinforcement learning (RL) settings, with the majority of RL-based efforts having been allocated to episodic and discounted MDPs. In this work, we study a unique structural property of average-reward MDPs and utilize it to introduce Reward-Extended Differential (or RED) reinforcement learning: a novel RL framework that can be used to effectively and efficiently solve various subtasks simultaneously in the average-reward setting. We introduce a family of RED learning algorithms for prediction and control, including proven-convergent algorithms for the tabular case. We then showcase the power of these algorithms by demonstrating how they can be used to learn a policy that optimizes, for the first time, the well-known conditional value-at-risk (CVaR) risk measure in a fully-online manner, without the use of an explicit bi-level optimization scheme or an augmented state-space.
翻訳日:2024-11-01 17:09:37 公開日:2024-10-30
# LeanAgent: 形式理論の証明のための生涯学習

LeanAgent: Lifelong Learning for Formal Theorem Proving ( http://arxiv.org/abs/2410.06209v1 )

ライセンス: Link先を確認
Adarsh Kumarappan, Mo Tiwari, Peiyang Song, Robert Joseph George, Chaowei Xiao, Anima Anandkumar, (参考訳) 大規模言語モデル(LLM)は、リーンのようなインタラクティブな証明アシスタントと統合された際の形式的定理証明のような数学的推論タスクで成功している。 既存のアプローチでは、学部レベルの数学のような特定の領域でうまく機能するために、特定のデータセット上でLLMを訓練または微調整する。 これらの手法は高度な数学への一般化性に苦しむ。 基本的な制限は、これらのアプローチが静的なドメイン上で動作し、数学者が複数のドメインやプロジェクトを同時に、あるいは循環的にどのように機能するかを捉えることができないことである。 LeanAgentは定理証明のための新しい生涯学習フレームワークで、従来学習されていた知識を忘れずに、絶え間なく拡張された数学的知識を継続的に一般化し改善する。 LeanAgentは、数学的難易度の観点から学習軌道を最適化するカリキュラム学習戦略、進化する数学的知識の効率的な管理のための動的データベース、安定性と可塑性のバランスをとるための進歩的なトレーニングなど、いくつかの重要なイノベーションを紹介している。 LeanAgentは、23のリーンリポジトリで、以前は人間が証明していなかった162の定理の証明に成功した。 静的 LLM ベースラインよりも最大 11$\times$ の性能を発揮し、抽象代数や代数トポロジーのような領域における挑戦的な定理を証明し、基礎概念から先進的なトピックへの学習の明確な進展を示す。 さらに、LeanAgentの長寿命学習メトリクスにおける優れたパフォーマンスを分析します。 LeanAgentは、新しいタスクを学ぶことで、以前に学んだタスクのパフォーマンスが向上する、安定性と後方移行において、例外的なスコアを達成します。 これはLeanAgentの継続的一般化性と改善を強調し、その優れた定理による性能の証明を説明する。

Large Language Models (LLMs) have been successful in mathematical reasoning tasks such as formal theorem proving when integrated with interactive proof assistants like Lean. Existing approaches involve training or fine-tuning an LLM on a specific dataset to perform well on particular domains, such as undergraduate-level mathematics. These methods struggle with generalizability to advanced mathematics. A fundamental limitation is that these approaches operate on static domains, failing to capture how mathematicians often work across multiple domains and projects simultaneously or cyclically. We present LeanAgent, a novel lifelong learning framework for theorem proving that continuously generalizes to and improves on ever-expanding mathematical knowledge without forgetting previously learned knowledge. LeanAgent introduces several key innovations, including a curriculum learning strategy that optimizes the learning trajectory in terms of mathematical difficulty, a dynamic database for efficient management of evolving mathematical knowledge, and progressive training to balance stability and plasticity. LeanAgent successfully proves 162 theorems previously unproved by humans across 23 diverse Lean repositories, many from advanced mathematics. It performs up to 11$\times$ better than the static LLM baseline, proving challenging theorems in domains like abstract algebra and algebraic topology while showcasing a clear progression of learning from basic concepts to advanced topics. In addition, we analyze LeanAgent's superior performance on key lifelong learning metrics. LeanAgent achieves exceptional scores in stability and backward transfer, where learning new tasks improves performance on previously learned tasks. This emphasizes LeanAgent's continuous generalizability and improvement, explaining its superior theorem proving performance.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-30
# LeanAgent: 形式理論の証明のための生涯学習

LeanAgent: Lifelong Learning for Formal Theorem Proving ( http://arxiv.org/abs/2410.06209v2 )

ライセンス: Link先を確認
Adarsh Kumarappan, Mo Tiwari, Peiyang Song, Robert Joseph George, Chaowei Xiao, Anima Anandkumar, (参考訳) 大規模言語モデル(LLM)は、リーンのようなインタラクティブな証明アシスタントと統合された際の形式的定理証明のような数学的推論タスクで成功している。 既存のアプローチでは、学部レベルの数学のような特定の領域でうまく機能するために、特定のデータセット上でLLMを訓練または微調整する。 これらの手法は高度な数学への一般化性に苦しむ。 基本的な制限は、これらのアプローチが静的なドメイン上で動作し、数学者が複数のドメインやプロジェクトを同時に、あるいは循環的にどのように機能するかを捉えることができないことである。 LeanAgentは定理証明のための新しい生涯学習フレームワークで、従来学習されていた知識を忘れずに、絶え間なく拡張された数学的知識を継続的に一般化し改善する。 LeanAgentは、数学的難易度の観点から学習軌道を最適化するカリキュラム学習戦略、進化する数学的知識の効率的な管理のための動的データベース、安定性と可塑性のバランスをとるための進歩的なトレーニングなど、いくつかの重要なイノベーションを紹介している。 LeanAgentは、23のリーンリポジトリで、以前は人間が証明していなかった162の定理の証明に成功した。 静的 LLM ベースラインよりも最大 11$\times$ の性能を発揮し、抽象代数や代数トポロジーのような領域における挑戦的な定理を証明し、基礎概念から先進的なトピックへの学習の明確な進展を示す。 さらに、LeanAgentの長寿命学習メトリクスにおける優れたパフォーマンスを分析します。 LeanAgentは、新しいタスクを学ぶことで、以前に学んだタスクのパフォーマンスが向上する、安定性と後方移行において、例外的なスコアを達成します。 これはLeanAgentの継続的一般化性と改善を強調し、その優れた定理による性能の証明を説明する。

Large Language Models (LLMs) have been successful in mathematical reasoning tasks such as formal theorem proving when integrated with interactive proof assistants like Lean. Existing approaches involve training or fine-tuning an LLM on a specific dataset to perform well on particular domains, such as undergraduate-level mathematics. These methods struggle with generalizability to advanced mathematics. A fundamental limitation is that these approaches operate on static domains, failing to capture how mathematicians often work across multiple domains and projects simultaneously or cyclically. We present LeanAgent, a novel lifelong learning framework for theorem proving that continuously generalizes to and improves on ever-expanding mathematical knowledge without forgetting previously learned knowledge. LeanAgent introduces several key innovations, including a curriculum learning strategy that optimizes the learning trajectory in terms of mathematical difficulty, a dynamic database for efficient management of evolving mathematical knowledge, and progressive training to balance stability and plasticity. LeanAgent successfully proves 162 theorems previously unproved by humans across 23 diverse Lean repositories, many from advanced mathematics. It performs up to 11$\times$ better than the static LLM baseline, proving challenging theorems in domains like abstract algebra and algebraic topology while showcasing a clear progression of learning from basic concepts to advanced topics. In addition, we analyze LeanAgent's superior performance on key lifelong learning metrics. LeanAgent achieves exceptional scores in stability and backward transfer, where learning new tasks improves performance on previously learned tasks. This emphasizes LeanAgent's continuous generalizability and improvement, explaining its superior theorem proving performance.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-30
# LeanAgent: 形式理論の証明のための生涯学習

LeanAgent: Lifelong Learning for Formal Theorem Proving ( http://arxiv.org/abs/2410.06209v3 )

ライセンス: Link先を確認
Adarsh Kumarappan, Mo Tiwari, Peiyang Song, Robert Joseph George, Chaowei Xiao, Anima Anandkumar, (参考訳) 大規模言語モデル(LLM)は、リーンのようなインタラクティブな証明アシスタントと統合された際の形式的定理証明のような数学的推論タスクで成功している。 既存のアプローチでは、学部レベルの数学のような特定の領域でうまく機能するために、特定のデータセット上でLLMを訓練または微調整する。 これらの手法は高度な数学への一般化性に苦しむ。 基本的な制限は、これらのアプローチが静的なドメイン上で動作し、数学者が複数のドメインやプロジェクトを同時に、あるいは循環的にどのように機能するかを捉えることができないことである。 LeanAgentは定理証明のための新しい生涯学習フレームワークで、従来学習されていた知識を忘れずに、絶え間なく拡張された数学的知識を継続的に一般化し改善する。 LeanAgentは、数学的難易度の観点から学習軌道を最適化するカリキュラム学習戦略、進化する数学的知識の効率的な管理のための動的データベース、安定性と可塑性のバランスをとるための進歩的なトレーニングなど、いくつかの重要なイノベーションを紹介している。 LeanAgentは、23のリーンリポジトリで、以前は人間が証明していなかった162の定理の証明に成功した。 静的 LLM ベースラインよりもはるかに優れた性能を示し、抽象代数や代数トポロジーのような領域における挑戦的な定理を証明し、基礎概念から高度なトピックへの学習の明確な進展を示している。 さらに、LeanAgentの長寿命学習メトリクスにおける優れたパフォーマンスを分析します。 LeanAgentは、新しいタスクを学ぶことで、以前に学んだタスクのパフォーマンスが向上する、安定性と後方移行において、例外的なスコアを達成します。 これはLeanAgentの継続的一般化性と改善を強調し、その優れた定理を提供するパフォーマンスを説明する。

Large Language Models (LLMs) have been successful in mathematical reasoning tasks such as formal theorem proving when integrated with interactive proof assistants like Lean. Existing approaches involve training or fine-tuning an LLM on a specific dataset to perform well on particular domains, such as undergraduate-level mathematics. These methods struggle with generalizability to advanced mathematics. A fundamental limitation is that these approaches operate on static domains, failing to capture how mathematicians often work across multiple domains and projects simultaneously or cyclically. We present LeanAgent, a novel lifelong learning framework for theorem proving that continuously generalizes to and improves on ever-expanding mathematical knowledge without forgetting previously learned knowledge. LeanAgent introduces several key innovations, including a curriculum learning strategy that optimizes the learning trajectory in terms of mathematical difficulty, a dynamic database for efficient management of evolving mathematical knowledge, and progressive training to balance stability and plasticity. LeanAgent successfully proves 162 theorems previously unproved by humans across 23 diverse Lean repositories, many from advanced mathematics. It performs significantly better than the static LLM baseline, proving challenging theorems in domains like abstract algebra and algebraic topology while showcasing a clear progression of learning from basic concepts to advanced topics. In addition, we analyze LeanAgent's superior performance on key lifelong learning metrics. LeanAgent achieves exceptional scores in stability and backward transfer, where learning new tasks improves performance on previously learned tasks. This emphasizes LeanAgent's continuous generalizability and improvement, explaining its superior theorem-proving performance.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-30
# LeanAgent: 形式理論の証明のための生涯学習

LeanAgent: Lifelong Learning for Formal Theorem Proving ( http://arxiv.org/abs/2410.06209v4 )

ライセンス: Link先を確認
Adarsh Kumarappan, Mo Tiwari, Peiyang Song, Robert Joseph George, Chaowei Xiao, Anima Anandkumar, (参考訳) 大規模言語モデル(LLM)は、リーンのようなインタラクティブな証明アシスタントと統合された際の形式的定理証明のような数学的推論タスクで成功している。 既存のアプローチでは、学部レベルの数学のような特定の領域でうまく機能するために、特定のデータセット上でLLMを訓練または微調整する。 これらの手法は高度な数学への一般化性に苦しむ。 基本的な制限は、これらのアプローチが静的なドメイン上で動作し、数学者が複数のドメインやプロジェクトを同時に、あるいは循環的にどのように機能するかを捉えることができないことである。 LeanAgentは定理証明のための新しい生涯学習フレームワークで、従来学習されていた知識を忘れずに、絶え間なく拡張された数学的知識を継続的に一般化し改善する。 LeanAgentは、数学的難易度の観点から学習軌道を最適化するカリキュラム学習戦略、進化する数学的知識の効率的な管理のための動的データベース、安定性と可塑性のバランスをとるための進歩的なトレーニングなど、いくつかの重要なイノベーションを紹介している。 LeanAgentは、23のリーンリポジトリで、以前は人間が証明していなかった162の定理の証明に成功した。 静的 LLM ベースラインよりもはるかに優れた性能を示し、抽象代数や代数トポロジーのような領域における挑戦的な定理を証明し、基礎概念から高度なトピックへの学習の明確な進展を示している。 さらに、LeanAgentの長寿命学習メトリクスにおける優れたパフォーマンスを分析します。 LeanAgentは、新しいタスクを学ぶことで、以前に学んだタスクのパフォーマンスが向上する、安定性と後方移行において、例外的なスコアを達成します。 これはLeanAgentの継続的一般化性と改善を強調し、その優れた定理を提供するパフォーマンスを説明する。

Large Language Models (LLMs) have been successful in mathematical reasoning tasks such as formal theorem proving when integrated with interactive proof assistants like Lean. Existing approaches involve training or fine-tuning an LLM on a specific dataset to perform well on particular domains, such as undergraduate-level mathematics. These methods struggle with generalizability to advanced mathematics. A fundamental limitation is that these approaches operate on static domains, failing to capture how mathematicians often work across multiple domains and projects simultaneously or cyclically. We present LeanAgent, a novel lifelong learning framework for theorem proving that continuously generalizes to and improves on ever-expanding mathematical knowledge without forgetting previously learned knowledge. LeanAgent introduces several key innovations, including a curriculum learning strategy that optimizes the learning trajectory in terms of mathematical difficulty, a dynamic database for efficient management of evolving mathematical knowledge, and progressive training to balance stability and plasticity. LeanAgent successfully proves 162 theorems previously unproved by humans across 23 diverse Lean repositories, many from advanced mathematics. It performs significantly better than the static LLM baseline, proving challenging theorems in domains like abstract algebra and algebraic topology while showcasing a clear progression of learning from basic concepts to advanced topics. In addition, we analyze LeanAgent's superior performance on key lifelong learning metrics. LeanAgent achieves exceptional scores in stability and backward transfer, where learning new tasks improves performance on previously learned tasks. This emphasizes LeanAgent's continuous generalizability and improvement, explaining its superior theorem-proving performance.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-30
# LeanAgent: 形式理論の証明のための生涯学習

LeanAgent: Lifelong Learning for Formal Theorem Proving ( http://arxiv.org/abs/2410.06209v5 )

ライセンス: Link先を確認
Adarsh Kumarappan, Mo Tiwari, Peiyang Song, Robert Joseph George, Chaowei Xiao, Anima Anandkumar, (参考訳) 大規模言語モデル(LLM)は、リーンのようなインタラクティブな証明アシスタントと統合された際の形式的定理証明のような数学的推論タスクで成功している。 既存のアプローチでは、学部レベルの数学のような特定の領域でうまく機能するために、特定のデータセット上でLLMを訓練または微調整する。 これらの手法は高度な数学への一般化性に苦しむ。 基本的な制限は、これらのアプローチが静的なドメイン上で動作し、数学者が複数のドメインやプロジェクトを同時に、あるいは循環的にどのように機能するかを捉えることができないことである。 LeanAgentは定理証明のための新しい生涯学習フレームワークで、従来学習されていた知識を忘れずに、絶え間なく拡張された数学的知識を継続的に一般化し改善する。 LeanAgentは、数学的難易度の観点から学習軌道を最適化するカリキュラム学習戦略、進化する数学的知識の効率的な管理のための動的データベース、安定性と可塑性のバランスをとるための進歩的なトレーニングなど、いくつかの重要なイノベーションを紹介している。 LeanAgentは、23のリーンリポジトリで、以前は人間が証明していなかった162の定理の証明に成功した。 静的 LLM ベースラインよりもはるかに優れた性能を示し、抽象代数や代数トポロジーのような領域における挑戦的な定理を証明し、基礎概念から高度なトピックへの学習の明確な進展を示している。 さらに、LeanAgentの長寿命学習メトリクスにおける優れたパフォーマンスを分析します。 LeanAgentは、新しいタスクを学ぶことで、以前に学んだタスクのパフォーマンスが向上する、安定性と後方移行において、例外的なスコアを達成します。 これはLeanAgentの継続的一般化性と改善を強調し、その優れた定理を提供するパフォーマンスを説明する。

Large Language Models (LLMs) have been successful in mathematical reasoning tasks such as formal theorem proving when integrated with interactive proof assistants like Lean. Existing approaches involve training or fine-tuning an LLM on a specific dataset to perform well on particular domains, such as undergraduate-level mathematics. These methods struggle with generalizability to advanced mathematics. A fundamental limitation is that these approaches operate on static domains, failing to capture how mathematicians often work across multiple domains and projects simultaneously or cyclically. We present LeanAgent, a novel lifelong learning framework for theorem proving that continuously generalizes to and improves on ever-expanding mathematical knowledge without forgetting previously learned knowledge. LeanAgent introduces several key innovations, including a curriculum learning strategy that optimizes the learning trajectory in terms of mathematical difficulty, a dynamic database for efficient management of evolving mathematical knowledge, and progressive training to balance stability and plasticity. LeanAgent successfully proves 162 theorems previously unproved by humans across 23 diverse Lean repositories, many from advanced mathematics. It performs significantly better than the static LLM baseline, proving challenging theorems in domains like abstract algebra and algebraic topology while showcasing a clear progression of learning from basic concepts to advanced topics. In addition, we analyze LeanAgent's superior performance on key lifelong learning metrics. LeanAgent achieves exceptional scores in stability and backward transfer, where learning new tasks improves performance on previously learned tasks. This emphasizes LeanAgent's continuous generalizability and improvement, explaining its superior theorem-proving performance.
翻訳日:2024-11-01 10:41:07 公開日:2024-10-30
# ES-Gaussian:Error Space-based Gaussian Completionによるガウススティングマッピング

ES-Gaussian: Gaussian Splatting Mapping via Error Space-Based Gaussian Completion ( http://arxiv.org/abs/2410.06613v1 )

ライセンス: Link先を確認
Lu Chen, Yingfu Zeng, Haoang Li, Zhitao Deng, Jiafu Yan, Zhenjun Zhao, (参考訳) 高精度で手頃な屋内3D再構築は、効果的なロボットナビゲーションと対話に不可欠である。 従来のLiDARベースのマッピングは高い精度を提供するが、コスト、重み、電力集約性があり、新しいビューレンダリングの能力は限られている。 視覚ベースのマッピングはコスト効率が高く、視覚データをキャプチャする能力があるが、小さな点の雲のために高品質な3D再構成に苦しむことが多い。 低高度カメラと単線LiDARを用いた高品質3次元室内再構成システムES-Gaussianを提案する。 本システムでは,2次元誤差マップの幾何学的詳細が不十分な領域を識別・修正することで,スパース点雲を拡大するビジュアルエラー構築(VEC)を特徴としている。 さらに,従来のマルチビュー設定の限界を克服し,資源制約のある環境における効率的な再構築を可能にする,単一ラインLiDARでガイドされた新しい3DGS初期化手法を提案する。 新しいDreame-SRデータセットと公開データセットに関する大規模な実験結果によると、ES-Gaussianは既存の手法、特に困難なシナリオよりも優れています。 プロジェクトページはhttps://chenlu-china.github.io/ES-Gaussian/で公開されている。

Accurate and affordable indoor 3D reconstruction is critical for effective robot navigation and interaction. Traditional LiDAR-based mapping provides high precision but is costly, heavy, and power-intensive, with limited ability for novel view rendering. Vision-based mapping, while cost-effective and capable of capturing visual data, often struggles with high-quality 3D reconstruction due to sparse point clouds. We propose ES-Gaussian, an end-to-end system using a low-altitude camera and single-line LiDAR for high-quality 3D indoor reconstruction. Our system features Visual Error Construction (VEC) to enhance sparse point clouds by identifying and correcting areas with insufficient geometric detail from 2D error maps. Additionally, we introduce a novel 3DGS initialization method guided by single-line LiDAR, overcoming the limitations of traditional multi-view setups and enabling effective reconstruction in resource-constrained environments. Extensive experimental results on our new Dreame-SR dataset and a publicly available dataset demonstrate that ES-Gaussian outperforms existing methods, particularly in challenging scenarios. The project page is available at https://chenlu-china.github.io/ES-Gaussian/.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-30
# ES-Gaussian:Error Space-based Gaussian Completionによるガウススティングマッピング

ES-Gaussian: Gaussian Splatting Mapping via Error Space-Based Gaussian Completion ( http://arxiv.org/abs/2410.06613v2 )

ライセンス: Link先を確認
Lu Chen, Yingfu Zeng, Haoang Li, Zhitao Deng, Jiafu Yan, Zhenjun Zhao, (参考訳) 高精度で手頃な屋内3D再構築は、効果的なロボットナビゲーションと対話に不可欠である。 従来のLiDARベースのマッピングは高い精度を提供するが、コスト、重み、電力集約性があり、新しいビューレンダリングの能力は限られている。 視覚ベースのマッピングはコスト効率が高く、視覚データをキャプチャする能力があるが、小さな点の雲のために高品質な3D再構成に苦しむことが多い。 低高度カメラと単線LiDARを用いた高品質3次元室内再構成システムES-Gaussianを提案する。 本システムでは,2次元誤差マップの幾何学的詳細が不十分な領域を識別・修正することで,スパース点雲を拡大するビジュアルエラー構築(VEC)を特徴としている。 さらに,従来のマルチビュー設定の限界を克服し,資源制約のある環境における効率的な再構築を可能にする,単一ラインLiDARでガイドされた新しい3DGS初期化手法を提案する。 新しいDreame-SRデータセットと公開データセットに関する大規模な実験結果によると、ES-Gaussianは既存の手法、特に困難なシナリオよりも優れています。 プロジェクトページはhttps://chenlu-china.github.io/ES-Gaussian/で公開されている。

Accurate and affordable indoor 3D reconstruction is critical for effective robot navigation and interaction. Traditional LiDAR-based mapping provides high precision but is costly, heavy, and power-intensive, with limited ability for novel view rendering. Vision-based mapping, while cost-effective and capable of capturing visual data, often struggles with high-quality 3D reconstruction due to sparse point clouds. We propose ES-Gaussian, an end-to-end system using a low-altitude camera and single-line LiDAR for high-quality 3D indoor reconstruction. Our system features Visual Error Construction (VEC) to enhance sparse point clouds by identifying and correcting areas with insufficient geometric detail from 2D error maps. Additionally, we introduce a novel 3DGS initialization method guided by single-line LiDAR, overcoming the limitations of traditional multi-view setups and enabling effective reconstruction in resource-constrained environments. Extensive experimental results on our new Dreame-SR dataset and a publicly available dataset demonstrate that ES-Gaussian outperforms existing methods, particularly in challenging scenarios. The project page is available at https://chenlu-china.github.io/ES-Gaussian/.
翻訳日:2024-11-01 04:49:21 公開日:2024-10-30
# 大規模言語モデルの量子状態シミュレーションへの応用

Application of Large Language Models to Quantum State Simulation ( http://arxiv.org/abs/2410.06629v1 )

ライセンス: Link先を確認
Shuangxiang Zhou, Ronghang Chen, Zheng An, Shi-Yao Hou, (参考訳) 量子コンピュータは量子力学の独特な利点を利用して、ある種の問題に対して古典的コンピュータよりも加速する。 現在、様々な量子シミュレーターが研究者に強力なツールを提供しているが、これらのシミュレーターで量子進化をシミュレートすると、しばしば高コストが発生する。 さらに、量子ビットの数が増加するにつれて、資源消費は指数関数的に増加する。 本研究の目的は,Large Language Models (LLM) を用いて量子回路のシミュレーションを行うことである。 本稿では、1量子ビットと2量子ビットの量子シミュレータモデルを構築し、複数の量子ビットに拡張し、最終的には3量子ビットの例を実装する過程を詳述する。 本研究は,LLMが量子ビット間の進化パターンを理論的出力状態と比較して最小限の誤差で効果的に学習し,予測できることを実証する。 指数関数的な数の量子ゲートを含む量子回路を扱う場合でも、LLMは計算的に効率的である。 以上の結果から,LLMによる複雑な量子力学の出力予測の可能性を強調し,同じ処理を量子コンピュータ上で実行する速度をはるかに上回る速度を達成した。 この発見は、量子コンピューティングの分野で機械学習手法を適用するための新しい洞察とツールを提供する。

Quantum computers leverage the unique advantages of quantum mechanics to achieve acceleration over classical computers for certain problems. Currently, various quantum simulators provide powerful tools for researchers, but simulating quantum evolution with these simulators often incurs high time costs. Additionally, resource consumption grows exponentially as the number of quantum bits increases. To address this issue, our research aims to utilize Large Language Models (LLMs) to simulate quantum circuits. This paper details the process of constructing 1-qubit and 2-qubit quantum simulator models, extending to multiple qubits, and ultimately implementing a 3-qubit example. Our study demonstrates that LLMs can effectively learn and predict the evolution patterns among quantum bits, with minimal error compared to the theoretical output states. Even when dealing with quantum circuits comprising an exponential number of quantum gates, LLMs remain computationally efficient. Overall, our results highlight the potential of LLMs to predict the outputs of complex quantum dynamics, achieving speeds far surpassing those required to run the same process on a quantum computer. This finding provides new insights and tools for applying machine learning methods in the field of quantum computing.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-30
# 大規模言語モデルの量子状態シミュレーションへの応用

Application of Large Language Models to Quantum State Simulation ( http://arxiv.org/abs/2410.06629v2 )

ライセンス: Link先を確認
Shuangxiang Zhou, Ronghang Chen, Zheng An, Shi-Yao Hou, (参考訳) 量子コンピュータは量子力学の独特な利点を利用して、ある種の問題に対して古典的コンピュータよりも加速する。 現在、様々な量子シミュレーターが研究者に強力なツールを提供しているが、これらのシミュレーターで量子進化をシミュレートすると、しばしば高コストが発生する。 さらに、量子ビットの数が増加するにつれて、資源消費は指数関数的に増加する。 本研究の目的は,Large Language Models (LLM) を用いて量子回路のシミュレーションを行うことである。 本稿では、1量子ビットと2量子ビットの量子シミュレータモデルを構築し、複数の量子ビットに拡張し、最終的には3量子ビットの例を実装する過程を詳述する。 本研究は,LLMが量子ビット間の進化パターンを理論的出力状態と比較して最小限の誤差で効果的に学習し,予測できることを実証する。 指数関数的な数の量子ゲートを含む量子回路を扱う場合でも、LLMは計算的に効率的である。 以上の結果から,LLMによる複雑な量子力学の出力予測の可能性を強調し,同じ処理を量子コンピュータ上で実行する速度をはるかに上回る速度を達成した。 この発見は、量子コンピューティングの分野で機械学習手法を適用するための新しい洞察とツールを提供する。

Quantum computers leverage the unique advantages of quantum mechanics to achieve acceleration over classical computers for certain problems. Currently, various quantum simulators provide powerful tools for researchers, but simulating quantum evolution with these simulators often incurs high time costs. Additionally, resource consumption grows exponentially as the number of quantum bits increases. To address this issue, our research aims to utilize Large Language Models (LLMs) to simulate quantum circuits. This paper details the process of constructing 1-qubit and 2-qubit quantum simulator models, extending to multiple qubits, and ultimately implementing a 3-qubit example. Our study demonstrates that LLMs can effectively learn and predict the evolution patterns among quantum bits, with minimal error compared to the theoretical output states. Even when dealing with quantum circuits comprising an exponential number of quantum gates, LLMs remain computationally efficient. Overall, our results highlight the potential of LLMs to predict the outputs of complex quantum dynamics, achieving speeds far surpassing those required to run the same process on a quantum computer. This finding provides new insights and tools for applying machine learning methods in the field of quantum computing.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-30
# 周波数領域における連続学習

Continual Learning in the Frequency Domain ( http://arxiv.org/abs/2410.06645v1 )

ライセンス: Link先を確認
Ruiqi Liu, Boyu Diao, Libo Huang, Zijia An, Zhulin An, Yongjun Xu, (参考訳) 継続学習(CL)は、既存の知識を維持しながら新しいタスクを学習するように設計されている。 以前のタスクからのサンプルの再生は、以前取得した知識の忘れを緩和する効果的な方法であることが証明されている。 しかし、リハーサル方式の訓練効率に関する現在の研究は不十分であり、リソース制限シナリオにおけるCLシステムの実践的適用を制限している。 ヒト視覚システム(HVS)は、異なる周波数成分に対する様々な感度を示し、視覚的に冗長な情報の効率的な除去を可能にする。 HVSに触発されて、我々はCLFD(Continuous Learning in the Frequency Domain)と呼ばれる新しいフレームワークを提案する。 我々の知る限り、エッジデバイスにおけるCLトレーニングの性能と効率を高めるために周波数領域の特徴を利用する最初の研究である。 特徴抽出器の入力特徴に対して、CLFDはウェーブレット変換を用いて元の入力画像を周波数領域にマッピングすることにより、入力特徴写像のサイズを効果的に削減する。 特徴抽出器の出力特性について、CLFDはクラスごとに異なる出力特徴を選択的に利用し、クラス間の周波数領域の類似性に基づいて出力特徴の再使用性と干渉のバランスをとる。 特徴抽出器の入力と出力のみを最適化することで、CLFDを様々なリハーサルベースのメソッドとシームレスに統合することができる。 クラウドとエッジの両方で実施された大規模な実験により、CLFDは、精度とトレーニング効率の両方において、最先端(SOTA)メソッドのパフォーマンスを一貫して改善することを示した。 具体的には、CLFDはSOTA CL法の精度を最大6.83%向上させ、トレーニング時間を2.6$\times$に短縮することができる。

Continual learning (CL) is designed to learn new tasks while preserving existing knowledge. Replaying samples from earlier tasks has proven to be an effective method to mitigate the forgetting of previously acquired knowledge. However, the current research on the training efficiency of rehearsal-based methods is insufficient, which limits the practical application of CL systems in resource-limited scenarios. The human visual system (HVS) exhibits varying sensitivities to different frequency components, enabling the efficient elimination of visually redundant information. Inspired by HVS, we propose a novel framework called Continual Learning in the Frequency Domain (CLFD). To our knowledge, this is the first study to utilize frequency domain features to enhance the performance and efficiency of CL training on edge devices. For the input features of the feature extractor, CLFD employs wavelet transform to map the original input image into the frequency domain, thereby effectively reducing the size of input feature maps. Regarding the output features of the feature extractor, CLFD selectively utilizes output features for distinct classes for classification, thereby balancing the reusability and interference of output features based on the frequency domain similarity of the classes across various tasks. Optimizing only the input and output features of the feature extractor allows for seamless integration of CLFD with various rehearsal-based methods. Extensive experiments conducted in both cloud and edge environments demonstrate that CLFD consistently improves the performance of state-of-the-art (SOTA) methods in both precision and training efficiency. Specifically, CLFD can increase the accuracy of the SOTA CL method by up to 6.83% and reduce the training time by 2.6$\times$.
翻訳日:2024-11-01 04:39:35 公開日:2024-10-30
# 周波数領域における連続学習

Continual Learning in the Frequency Domain ( http://arxiv.org/abs/2410.06645v2 )

ライセンス: Link先を確認
Ruiqi Liu, Boyu Diao, Libo Huang, Zijia An, Zhulin An, Yongjun Xu, (参考訳) 継続学習(CL)は、既存の知識を維持しながら新しいタスクを学習するように設計されている。 以前のタスクからのサンプルの再生は、以前取得した知識の忘れを緩和する効果的な方法であることが証明されている。 しかし、リハーサル方式の訓練効率に関する現在の研究は不十分であり、リソース制限シナリオにおけるCLシステムの実践的適用を制限している。 ヒト視覚システム(HVS)は、異なる周波数成分に対する様々な感度を示し、視覚的に冗長な情報の効率的な除去を可能にする。 HVSに触発されて、我々はCLFD(Continuous Learning in the Frequency Domain)と呼ばれる新しいフレームワークを提案する。 我々の知る限り、エッジデバイスにおけるCLトレーニングの性能と効率を高めるために周波数領域の特徴を利用する最初の研究である。 特徴抽出器の入力特徴に対して、CLFDはウェーブレット変換を用いて元の入力画像を周波数領域にマッピングすることにより、入力特徴写像のサイズを効果的に削減する。 特徴抽出器の出力特性について、CLFDはクラスごとに異なる出力特徴を選択的に利用し、クラス間の周波数領域の類似性に基づいて出力特徴の再使用性と干渉のバランスをとる。 特徴抽出器の入力と出力のみを最適化することで、CLFDを様々なリハーサルベースのメソッドとシームレスに統合することができる。 クラウドとエッジの両方で実施された大規模な実験により、CLFDは、精度とトレーニング効率の両方において、最先端(SOTA)メソッドのパフォーマンスを一貫して改善することを示した。 具体的には、CLFDはSOTA CL法の精度を最大6.83%向上させ、トレーニング時間を2.6$\times$に短縮することができる。

Continual learning (CL) is designed to learn new tasks while preserving existing knowledge. Replaying samples from earlier tasks has proven to be an effective method to mitigate the forgetting of previously acquired knowledge. However, the current research on the training efficiency of rehearsal-based methods is insufficient, which limits the practical application of CL systems in resource-limited scenarios. The human visual system (HVS) exhibits varying sensitivities to different frequency components, enabling the efficient elimination of visually redundant information. Inspired by HVS, we propose a novel framework called Continual Learning in the Frequency Domain (CLFD). To our knowledge, this is the first study to utilize frequency domain features to enhance the performance and efficiency of CL training on edge devices. For the input features of the feature extractor, CLFD employs wavelet transform to map the original input image into the frequency domain, thereby effectively reducing the size of input feature maps. Regarding the output features of the feature extractor, CLFD selectively utilizes output features for distinct classes for classification, thereby balancing the reusability and interference of output features based on the frequency domain similarity of the classes across various tasks. Optimizing only the input and output features of the feature extractor allows for seamless integration of CLFD with various rehearsal-based methods. Extensive experiments conducted in both cloud and edge environments demonstrate that CLFD consistently improves the performance of state-of-the-art (SOTA) methods in both precision and training efficiency. Specifically, CLFD can increase the accuracy of the SOTA CL method by up to 6.83% and reduce the training time by 2.6$\times$.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-30
# 周波数領域における連続学習

Continual Learning in the Frequency Domain ( http://arxiv.org/abs/2410.06645v3 )

ライセンス: Link先を確認
Ruiqi Liu, Boyu Diao, Libo Huang, Zijia An, Zhulin An, Yongjun Xu, (参考訳) 継続学習(CL)は、既存の知識を維持しながら新しいタスクを学習するように設計されている。 以前のタスクからのサンプルの再生は、以前取得した知識の忘れを緩和する効果的な方法であることが証明されている。 しかし、リハーサル方式の訓練効率に関する現在の研究は不十分であり、リソース制限シナリオにおけるCLシステムの実践的適用を制限している。 ヒト視覚システム(HVS)は、異なる周波数成分に対する様々な感度を示し、視覚的に冗長な情報の効率的な除去を可能にする。 HVSに触発されて、我々はCLFD(Continuous Learning in the Frequency Domain)と呼ばれる新しいフレームワークを提案する。 我々の知る限り、エッジデバイスにおけるCLトレーニングの性能と効率を高めるために周波数領域の特徴を利用する最初の研究である。 特徴抽出器の入力特徴に対して、CLFDはウェーブレット変換を用いて元の入力画像を周波数領域にマッピングすることにより、入力特徴写像のサイズを効果的に削減する。 特徴抽出器の出力特性について、CLFDはクラスごとに異なる出力特徴を選択的に利用し、クラス間の周波数領域の類似性に基づいて出力特徴の再使用性と干渉のバランスをとる。 特徴抽出器の入力と出力のみを最適化することで、CLFDを様々なリハーサルベースのメソッドとシームレスに統合することができる。 クラウドとエッジの両方で実施された大規模な実験により、CLFDは、精度とトレーニング効率の両方において、最先端(SOTA)メソッドのパフォーマンスを一貫して改善することを示した。 具体的には、CLFDはSOTA CL法の精度を最大6.83%向上させ、トレーニング時間を2.6$\times$に短縮することができる。

Continual learning (CL) is designed to learn new tasks while preserving existing knowledge. Replaying samples from earlier tasks has proven to be an effective method to mitigate the forgetting of previously acquired knowledge. However, the current research on the training efficiency of rehearsal-based methods is insufficient, which limits the practical application of CL systems in resource-limited scenarios. The human visual system (HVS) exhibits varying sensitivities to different frequency components, enabling the efficient elimination of visually redundant information. Inspired by HVS, we propose a novel framework called Continual Learning in the Frequency Domain (CLFD). To our knowledge, this is the first study to utilize frequency domain features to enhance the performance and efficiency of CL training on edge devices. For the input features of the feature extractor, CLFD employs wavelet transform to map the original input image into the frequency domain, thereby effectively reducing the size of input feature maps. Regarding the output features of the feature extractor, CLFD selectively utilizes output features for distinct classes for classification, thereby balancing the reusability and interference of output features based on the frequency domain similarity of the classes across various tasks. Optimizing only the input and output features of the feature extractor allows for seamless integration of CLFD with various rehearsal-based methods. Extensive experiments conducted in both cloud and edge environments demonstrate that CLFD consistently improves the performance of state-of-the-art (SOTA) methods in both precision and training efficiency. Specifically, CLFD can increase the accuracy of the SOTA CL method by up to 6.83% and reduce the training time by 2.6$\times$.
翻訳日:2024-11-01 04:29:49 公開日:2024-10-30
# ベンチマークエージェントワークフロー生成

Benchmarking Agentic Workflow Generation ( http://arxiv.org/abs/2410.07869v2 )

ライセンス: Link先を確認
Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, (参考訳) 大きな言語モデル(LLM)は、幅広いタスクを処理できる優れた能力を備えており、推論や計画タスクに対処する上で大きな進歩をもたらしている。 既存のワークフロー評価フレームワークは、全体的なパフォーマンスのみにフォーカスするか、制限されたシナリオカバレッジ、単純化されたワークフロー構造、ラックス評価標準といった制限に悩まされている。 この目的のために,多面的なシナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。 さらに,LLMエージェントのワークフロー生成能力を正確に定量化するために,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルであるWorFEvalを提案する。 LLMエージェントのシーケンス計画能力とグラフ計画能力の間には, GPT-4でも約15%のギャップがみられた。 また、2つのオープンソースモデルをトレーニングし、ホールドアウトタスクにおけるそれらの一般化能力を評価する。 さらに、生成されたワークフローが下流タスクを強化し、推論中により少ない時間で優れたパフォーマンスを実現できることを観察する。 コードとデータセットはhttps://github.com/zjunlp/WorFBench.comで入手できる。

Large Language Models (LLMs), with their exceptional ability to handle a wide range of tasks, have driven significant advancements in tackling reasoning and planning tasks, wherein decomposing complex problems into executable workflows is a crucial step in this process. Existing workflow evaluation frameworks either focus solely on holistic performance or suffer from limitations such as restricted scenario coverage, simplistic workflow structures, and lax evaluation standards. To this end, we introduce WorFBench, a unified workflow generation benchmark with multi-faceted scenarios and intricate graph workflow structures. Additionally, we present WorFEval, a systemic evaluation protocol utilizing subsequence and subgraph matching algorithms to accurately quantify the LLM agent's workflow generation capabilities. Through comprehensive evaluations across different types of LLMs, we discover distinct gaps between the sequence planning capabilities and graph planning capabilities of LLM agents, with even GPT-4 exhibiting a gap of around 15%. We also train two open-source models and evaluate their generalization abilities on held-out tasks. Furthermore, we observe that the generated workflows can enhance downstream tasks, enabling them to achieve superior performance with less time during inference. Code and dataset are available at https://github.com/zjunlp/WorFBench.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-30
# コンフォーメーション最適化による分子基底状態の予測

Predicting Molecular Ground-State Conformation via Conformation Optimization ( http://arxiv.org/abs/2410.09795v2 )

ライセンス: Link先を確認
Fanmeng Wang, Minjie Cheng, Hongteng Xu, (参考訳) 対応する分子グラフから基底状態のコンフォメーションを予測することは、分子モデリング、分子ドッキング、分子特性予測などの多くの化学応用にとって重要である。 近年,この作業に要する時間的シミュレーションを代替する学習手法が数多く提案されている。 しかしながら、これらの手法はしばしば非効率で準最適であり、分子グラフ情報にのみ依存してゼロから予測を行う。 本研究では,分子の低品質なコンフォメーションが容易に利用できることを考慮し,コンフォメーション最適化の観点から分子基底状態コンフォメーションを予測するConfOptという新しいフレームワークを提案する。 具体的には、ConfOptは分子グラフとそれに対応する低品質な3Dコンホメーションを入力として取り、その後、分子グラフの誘導の下で低品質なコンホメーションを反復的に最適化することで基底状態コンホメーションを導出する。 ConfOptはトレーニング中、予測された原子3D座標と対応する原子間距離を同時に最適化し、強い予測モデルをもたらす。 大規模な実験により、ConfOptは既存の方法よりも大幅に優れており、分子基底状態の配座を効率的に正確に予測するための新しいパラダイムを提供する。

Predicting ground-state conformation from the corresponding molecular graph is crucial for many chemical applications, such as molecular modeling, molecular docking, and molecular property prediction. Recently, many learning-based methods have been proposed to replace time-consuming simulations for this task. However, these methods are often inefficient and sub-optimal as they merely rely on molecular graph information to make predictions from scratch. In this work, considering that molecular low-quality conformations are readily available, we propose a novel framework called ConfOpt to predict molecular ground-state conformation from the perspective of conformation optimization. Specifically, ConfOpt takes the molecular graph and corresponding low-quality 3D conformation as inputs, and then derives the ground-state conformation by iteratively optimizing the low-quality conformation under the guidance of the molecular graph. During training, ConfOpt concurrently optimizes the predicted atomic 3D coordinates and the corresponding interatomic distances, resulting in a strong predictive model. Extensive experiments demonstrate that ConfOpt significantly outperforms existing methods, thus providing a new paradigm for efficiently and accurately predicting molecular ground-state conformation.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-30
# 未知のハイパーパラメータによるベイズ最適化:レグレト境界は最適に対数的に接近する

Bayesian Optimisation with Unknown Hyperparameters: Regret Bounds Logarithmically Closer to Optimal ( http://arxiv.org/abs/2410.10384v2 )

ライセンス: Link先を確認
Juliusz Ziomek, Masaki Adachi, Michael A. Osborne, (参考訳) ベイズ最適化(BO)はブラックボックス関数の最適化に広く用いられているが、最適化者が考慮すべき関数の滑らかさを定義する長尺ハイパーパラメータを指定する必要がある。 現在のBOアルゴリズムの多くは、観測されたデータの限界確率を最大化することで、このハイパーパラメータを選択するが、まだ探索されていない領域では、目的関数がよりスムーズでない場合は、誤特定のリスクを負う。 A-GP-UCBはBerkenkamp et al (2019)によって提唱された。 このアルゴリズムは、オプティマイザが考慮する関数のクラスを拡張して、長さスケールを徐々に減少させる。 しかし、A-GP-UCBは停止機構がなく、過剰探索と緩やかな収束をもたらす。 これを解決するために、Longth Scale Balancing (LB) という新しいアプローチを導入し、異なる長さスケールで複数のベースサロゲートモデルを集約する。 LBは間欠的に、長いスケールを維持しながら、探索とエクスプロイトのバランスをとりながら、より小さい長さスケールの候補値を追加します。 我々はLBの累積残差を公式に導出し、最適な長さ尺度を用いたオラクルBOアルゴリズムの残差と比較する。 A-GP-UCB の後悔境界を $g(T)$ とすると、LB は oracle regret から $\log g(T)$ だけ離れていることを示す。 また,A-GP-UCB,最大推定,MCMCよりも優れた性能を示した。

Bayesian Optimization (BO) is widely used for optimising black-box functions but requires us to specify the length scale hyperparameter, which defines the smoothness of the functions the optimizer will consider. Most current BO algorithms choose this hyperparameter by maximizing the marginal likelihood of the observed data, albeit risking misspecification if the objective function is less smooth in regions we have not yet explored. The only prior solution addressing this problem with theoretical guarantees was A-GP-UCB, proposed by Berkenkamp et al. (2019). This algorithm progressively decreases the length scale, expanding the class of functions considered by the optimizer. However, A-GP-UCB lacks a stopping mechanism, leading to over-exploration and slow convergence. To overcome this, we introduce Length scale Balancing (LB) - a novel approach, aggregating multiple base surrogate models with varying length scales. LB intermittently adds smaller length scale candidate values while retaining longer scales, balancing exploration and exploitation. We formally derive a cumulative regret bound of LB and compare it with the regret of an oracle BO algorithm using the optimal length scale. Denoting the factor by which the regret bound of A-GP-UCB was away from oracle as $g(T)$, we show that LB is only $\log g(T)$ away from oracle regret. We also empirically evaluate our algorithm on synthetic and real-world benchmarks and show it outperforms A-GP-UCB, maximum likelihood estimation and MCMC.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-30
# 動的損失関数がランドスケープ地形を形作り、ニューラルネットワークにおける学習を改善する

Dynamical loss functions shape landscape topography and improve learning in artificial neural networks ( http://arxiv.org/abs/2410.10690v2 )

ライセンス: Link先を確認
Eduardo Lavin, Miguel Ruiz-Garcia, (参考訳) 動的損失関数は、教師付き分類タスクで使用される標準的な損失関数から導かれるが、各クラスからの寄与が周期的に増加し減少するように修正される。 これらの振動は、全世界のミニマに影響を与えずに、世界規模で損失景観を変化させる。 本稿では,クロスエントロピーと平均二乗誤差を動的損失関数に変換する方法を示す。 まず、ニューラルネットワークのサイズや学習速度が学習プロセスに与える影響について議論する。 この直感に基づいて、動的損失関数のいくつかのバージョンを提案し、異なるサイズのネットワークに対する検証精度を大幅に向上させる方法を示す。 最後に、これらの動的損失関数のランドスケープが、トレーニング中にどのように進化するかを考察し、不安定性の極小化と結びつく可能性のある不安定性の出現を浮き彫りにする。

Dynamical loss functions are derived from standard loss functions used in supervised classification tasks, but they are modified such that the contribution from each class periodically increases and decreases. These oscillations globally alter the loss landscape without affecting the global minima. In this paper, we demonstrate how to transform cross-entropy and mean squared error into dynamical loss functions. We begin by discussing the impact of increasing the size of the neural network or the learning rate on the learning process. Building on this intuition, we propose several versions of dynamical loss functions and show how they significantly improve validation accuracy for networks of varying sizes. Finally, we explore how the landscape of these dynamical loss functions evolves during training, highlighting the emergence of instabilities that may be linked to edge-of-instability minimization.
翻訳日:2024-10-31 14:36:04 公開日:2024-10-30
# ベンチマークエージェントワークフロー生成

Benchmarking Agentic Workflow Generation ( http://arxiv.org/abs/2410.07869v1 )

ライセンス: Link先を確認
Shuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen, (参考訳) 大きな言語モデル(LLM)は、幅広いタスクを処理できる優れた能力を備えており、推論や計画タスクに対処する上で大きな進歩をもたらしている。 既存のワークフロー評価フレームワークは、全体的なパフォーマンスのみにフォーカスするか、制限されたシナリオカバレッジ、単純化されたワークフロー構造、ラックス評価標準といった制限に悩まされている。 この目的のために,多面的なシナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。 さらに,LLMエージェントのワークフロー生成能力を正確に定量化するために,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルであるWorFEvalを提案する。 LLMエージェントのシーケンス計画能力とグラフ計画能力の間には, GPT-4でも約15%のギャップがみられた。 また、2つのオープンソースモデルをトレーニングし、ホールドアウトタスクにおけるそれらの一般化能力を評価する。 さらに、生成されたワークフローが下流タスクを強化し、推論中により少ない時間で優れたパフォーマンスを実現できることを観察する。 コードとデータセットはhttps://github.com/zjunlp/WorFBench.comから入手できる。

Large Language Models (LLMs), with their exceptional ability to handle a wide range of tasks, have driven significant advancements in tackling reasoning and planning tasks, wherein decomposing complex problems into executable workflows is a crucial step in this process. Existing workflow evaluation frameworks either focus solely on holistic performance or suffer from limitations such as restricted scenario coverage, simplistic workflow structures, and lax evaluation standards. To this end, we introduce WorFBench, a unified workflow generation benchmark with multi-faceted scenarios and intricate graph workflow structures. Additionally, we present WorFEval, a systemic evaluation protocol utilizing subsequence and subgraph matching algorithms to accurately quantify the LLM agent's workflow generation capabilities. Through comprehensive evaluations across different types of LLMs, we discover distinct gaps between the sequence planning capabilities and graph planning capabilities of LLM agents, with even GPT-4 exhibiting a gap of around 15%. We also train two open-source models and evaluate their generalization abilities on held-out tasks. Furthermore, we observe that the generated workflows can enhance downstream tasks, enabling them to achieve superior performance with less time during inference. Code and dataset will be available at https://github.com/zjunlp/WorFBench.
翻訳日:2024-10-31 14:16:01 公開日:2024-10-30