このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20241024となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# fastpropによるDeepQSPRの一般化と高速化
Generalizable, Fast, and Accurate DeepQSPR with fastprop ( http://arxiv.org/abs/2404.02058v3 ) ライセンス: Link先を確認 | Jackson Burns, William Green, | (参考訳) 定量的構造特性関係研究は、分子構造と任意の量の興味のマッピングを定義することを目的としている。
これは歴史的に、ドメインの専門知識と一般化の難しさを必要とする記述子の開発によって達成された。
このように、場は分子特性予測に変化し、非常に一般化可能な学習された表現に渡された。
本稿では,DeepQSPRフレームワークであるFastpropを紹介した。このフレームワークは,分子レベル記述子のコジェントなセットを用いて,多様なデータセット上での学習表現の性能を劇的に向上させる。
fastpropはgithub.com/JacksonBurns/fastpropで無料で利用できる。
Quantitative Structure Property Relationship studies aim to define a mapping between molecular structure and arbitrary quantities of interest. This was historically accomplished via the development of descriptors which requires significant domain expertise and struggles to generalize. Thus the field has morphed into Molecular Property Prediction and been given over to learned representations which are highly generalizable. The paper introduces fastprop, a DeepQSPR framework which uses a cogent set of molecular level descriptors to meet and exceed the performance of learned representations on diverse datasets in dramatically less time. fastprop is freely available on github at github.com/JacksonBurns/fastprop. | 翻訳日:2024-11-09 03:26:10 公開日:2024-10-24 |
# 近接類型化器の高次元的修正について
On high-dimensional modifications of the nearest neighbor classifier ( http://arxiv.org/abs/2407.05145v2 ) ライセンス: Link先を確認 | Annesha Ghosh, Bilol Banerjee, Anil K. Ghosh, | (参考訳) 最も近い隣の分類器は間違いなく最も単純で一般的な非パラメトリック分類器である。
しかし、対距離の集中と近傍構造の違反により、この分類器は高次元、低サンプルサイズ(HDLSS)の状況に悩まされることが多い。
この問題に対処するため、文献でいくつかの試みがなされている。
本稿では,これらの既存手法について考察し,新しい手法を提案する。
この点について理論的研究を行い、いくつかのシミュレーションおよびベンチマークデータセットを分析し、提案手法の実証的な性能と既存手法との比較を行う。
Nearest neighbor classifier is arguably the most simple and popular nonparametric classifier available in the literature. However, due to the concentration of pairwise distances and the violation of the neighborhood structure, this classifier often suffers in high-dimension, low-sample size (HDLSS) situations, especially when the scale difference between the competing classes dominates their location difference. Several attempts have been made in the literature to take care of this problem. In this article, we discuss some of these existing methods and propose some new ones. We carry out some theoretical investigations in this regard and analyze several simulated and benchmark datasets to compare the empirical performances of proposed methods with some of the existing ones. | 翻訳日:2024-11-08 23:35:45 公開日:2024-10-24 |
# 近接類型化器の高次元的修正について
On high-dimensional modifications of the nearest neighbor classifier ( http://arxiv.org/abs/2407.05145v3 ) ライセンス: Link先を確認 | Annesha Ghosh, Deep Ghoshal, Bilol Banerjee, Anil K. Ghosh, | (参考訳) 最も近い隣の分類器は間違いなく最も単純で一般的な非パラメトリック分類器である。
しかし、対距離の集中と近傍構造の違反により、この分類器は高次元、低サンプルサイズ(HDLSS)の状況に悩まされることが多い。
この問題に対処するため、文献でいくつかの試みがなされている。
本稿では,これらの既存手法について考察し,新しい手法を提案する。
この点について理論的研究を行い、いくつかのシミュレーションおよびベンチマークデータセットを分析し、提案手法の実証的な性能と既存手法との比較を行う。
Nearest neighbor classifier is arguably the most simple and popular nonparametric classifier available in the literature. However, due to the concentration of pairwise distances and the violation of the neighborhood structure, this classifier often suffers in high-dimension, low-sample size (HDLSS) situations, especially when the scale difference between the competing classes dominates their location difference. Several attempts have been made in the literature to take care of this problem. In this article, we discuss some of these existing methods and propose some new ones. We carry out some theoretical investigations in this regard and analyze several simulated and benchmark datasets to compare the empirical performances of proposed methods with some of the existing ones. | 翻訳日:2024-11-08 23:35:45 公開日:2024-10-24 |
# ReCAP:ロボット手術技能評価における擬似ラベル生成のための再帰的クロスアテンションネットワーク
ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment ( http://arxiv.org/abs/2407.05180v2 ) ライセンス: Link先を確認 | Julien Quarez, Matthew Elliot, Oscar Maccormac, Marc Modat, Sebastien Ourselin, Jonathan Shapey, Alejandro Granados, | (参考訳) 外科的スキル評価では,OATS(Objective Structured Assessments of Technical Skills)とGRS(Global Rating Scale)が,訓練中の外科医のパフォーマンスを評価するためのツールとして確立されている。
これらのメトリクスは、パフォーマンスに関するフィードバックと相まって、外科医が実践の標準を改善し、達成することを可能にする。
GRSとOSATSのラベルを含むオープンソースのデータセットJIGSAWに関する最近の研究は、運動信号、ビデオデータ、または両方の組み合わせからGRSスコアを回帰することに焦点を当てている。
本稿では, GRS スコアの回帰は単位値ではなく, それ自体が制限的すぎること, 外科的治験のバリエーションが臨床的意義を有さないこと, などについて議論する。
このギャップに対処するため,本モデルでは,トレーニングセッションを通じて,隠れた状態と,運動信号から得られる5つのOSATSスコアを関連付けることで,外科医のパフォーマンスを出力するリカレントトランスフォーマーモデルを開発した。
これらのスコアは、GRS予測を生成するために平均化および集計され、モデルのパフォーマンスを最先端(SOTA)に対して評価することができる。
スピアマン相関係数(SCC)を報告し,本モデルがLOSO(Left-one-subject-out)スキーム(SCC 0.68-0.89)下でのSOTAモデルよりも優れており,LOUO(Left-one-user-out)スキーム(SCC 0.45-0.68)およびニードルパス(STA for Needle Passing,0.69)下でのSOTAモデルよりも優れていることを示す。
外科手術全体を通して,OSATSの最終的なスコアを短い症例に関連付けることは,単一のGRSスコアよりも臨床的に有意である,と我々は主張する。
このアプローチにより,定量的な予測を質的なフィードバックに変換することが可能になる。
高齢者の外科医がモデルの動作を検証し,77 \% (p = 0.006) の半教師付き予測と一致した。
In surgical skill assessment, Objective Structured Assessments of Technical Skills (OSATS scores) and the Global Rating Scale (GRS) are established tools for evaluating the performance of surgeons during training. These metrics, coupled with feedback on their performance, enable surgeons to improve and achieve standards of practice. Recent studies on the open-source dataset JIGSAW, which contains both GRS and OSATS labels, have focused on regressing GRS scores from kinematic signals, video data, or a combination of both. In this paper, we argue that regressing the GRS score, a unitless value, by itself is too restrictive, and variations throughout the surgical trial do not hold significant clinical meaning. To address this gap, we developed a recurrent transformer model that outputs the surgeon's performance throughout their training session by relating the model's hidden states to five OSATS scores derived from kinematic signals. These scores are averaged and aggregated to produce a GRS prediction, enabling assessment of the model's performance against the state-of-the-art (SOTA). We report Spearman's Correlation Coefficient (SCC), demonstrating that our model outperforms SOTA models for all tasks, except for Suturing under the leave-one-subject-out (LOSO) scheme (SCC 0.68-0.89), while achieving comparable performance for suturing and across tasks under the leave-one-user-out (LOUO) scheme (SCC 0.45-0.68) and beating SOTA for Needle Passing (0.69). We argue that relating final OSATS scores to short instances throughout a surgeon's procedure is more clinically meaningful than a single GRS score. This approach also allows us to translate quantitative predictions into qualitative feedback, which is crucial for any automated surgical skill assessment pipeline. A senior surgeon validated our model's behaviour and agreed with the semi-supervised predictions 77 \% (p = 0.006) of the time. | 翻訳日:2024-11-08 23:35:45 公開日:2024-10-24 |
# ReCAP:ロボット手術技能評価における擬似ラベル生成のための再帰的クロスアテンションネットワーク
ReCAP: Recursive Cross Attention Network for Pseudo-Label Generation in Robotic Surgical Skill Assessment ( http://arxiv.org/abs/2407.05180v3 ) ライセンス: Link先を確認 | Julien Quarez, Marc Modat, Sebastien Ourselin, Jonathan Shapey, Alejandro Granados, | (参考訳) 外科的スキル評価において、OATS(Objective Structured Assessments of Technical Skills)とGRS(Global Rating Scale)は、訓練中の外科医を評価するための確立されたツールである。
これらのメトリクスは、パフォーマンスフィードバックとともに、外科医がトレーニング標準を改善し、到達するのに役立ちます。
GRSとOSATSのラベルを含むオープンソースのJIGSAWSデータセットに関する最近の研究は、キネマティックデータ、ビデオ、またはそれらの組み合わせからGRSスコアを回帰することに重点を置いている。
しかし,OSATSのスコアを集計し,外科的臨床試験において臨床的に有意な変動を見落としているため,GRSのみの回帰は制限されていると論じる。
そこで本研究では,臨床目的関数を用いて,隠れた状態を6つのOSATSにマッピングすることで,セッション中の外科医の動作を追跡するリカレントトランスフォーマーモデルを開発した。
これらのOSATSスコアはGRSを予測するために平均化され、モデルの性能を最先端(SOTA)手法と比較することができる。
我々はスピアマン相関係数(SCC)を報告し、我々のモデルがキネマティックデータ(SCC 0.83-0.88)を用いてSOTAより優れており、ビデオベースモデルと性能が一致していることを示した。
我々のモデルは、平均OSATS予測(SCC 0.46-0.70)や特定のOSATS(SCC 0.56-0.95)において、ほとんどのタスクにおいてSOTAを上回る。
セグメントレベルでの擬似ラベルの生成は、定量的予測を質的なフィードバックに翻訳する。
主治医は, 弱教師付き予測の77% (p=0.006) と一致し, 結果の妥当性を検証した。
In surgical skill assessment, the Objective Structured Assessments of Technical Skills (OSATS) and Global Rating Scale (GRS) are well-established tools for evaluating surgeons during training. These metrics, along with performance feedback, help surgeons improve and reach practice standards. Recent research on the open-source JIGSAWS dataset, which includes both GRS and OSATS labels, has focused on regressing GRS scores from kinematic data, video, or their combination. However, we argue that regressing GRS alone is limiting, as it aggregates OSATS scores and overlooks clinically meaningful variations during a surgical trial. To address this, we developed a recurrent transformer model that tracks a surgeon's performance throughout a session by mapping hidden states to six OSATS, derived from kinematic data, using a clinically motivated objective function. These OSATS scores are averaged to predict GRS, allowing us to compare our model's performance against state-of-the-art (SOTA) methods. We report Spearman's Correlation Coefficients (SCC) demonstrating that our model outperforms SOTA using kinematic data (SCC 0.83-0.88), and matches performance with video-based models. Our model also surpasses SOTA in most tasks for average OSATS predictions (SCC 0.46-0.70) and specific OSATS (SCC 0.56-0.95). The generation of pseudo-labels at the segment level translates quantitative predictions into qualitative feedback, vital for automated surgical skill assessment pipelines. A senior surgeon validated our model's outputs, agreeing with 77% of the weakly-supervised predictions (p=0.006). | 翻訳日:2024-11-08 23:35:45 公開日:2024-10-24 |
# 高騒音下における不均衡医用画像分類タスクのロバストトレーニングのためのアクティブラベルリファインメント
Active Label Refinement for Robust Training of Imbalanced Medical Image Classification Tasks in the Presence of High Label Noise ( http://arxiv.org/abs/2407.05973v2 ) ライセンス: Link先を確認 | Bidur Khanal, Tianhong Dai, Binod Bhattarai, Cristian Linte, | (参考訳) 教師付き深層学習に基づく医用画像分類の堅牢性はラベルノイズによって著しく損なわれている。
ノイズラベルの存在下での分類性能を高めるためのいくつかの手法が提案されているが、いくつかの課題に直面している。
1) クラス不均衡データセットとの闘いは,少数クラスをノイズの多いサンプルとして頻繁に見落としてしまう。
2) ノイズのあるラベルを積極的に掃除するために,プリンシパル・イン・ザ・ループを組み込むことなく,ノイズの多いデータセットによるパフォーマンスの最大化に特化する。
これらの課題を軽減するために,学習と雑音ラベル(LNL)とアクティブラーニングを組み合わせた2段階のアプローチを提案する。
このアプローチは,ノイズラベルの存在下での医用画像分類の堅牢性を向上するだけでなく,重要な不正確なラベルを限定的なアノテーション予算の下で緩和することにより,データセットの品質を反復的に向上させる。
さらに,LNL 相において,低表現型サンプルをサンプリングすることで,損失に基づくサンプル選択を補完する新しい分散勾配法を提案する。
2つの不均衡な医学分類データセットを用いて,提案手法は,少数クラスのクリーンなサンプルをほとんどノイズの多いサンプルとして誤識別しないことで,クラス不均衡を扱う従来の手法よりも優れていることを実証した。
The robustness of supervised deep learning-based medical image classification is significantly undermined by label noise. Although several methods have been proposed to enhance classification performance in the presence of noisy labels, they face some challenges: 1) a struggle with class-imbalanced datasets, leading to the frequent overlooking of minority classes as noisy samples; 2) a singular focus on maximizing performance using noisy datasets, without incorporating experts-in-the-loop for actively cleaning the noisy labels. To mitigate these challenges, we propose a two-phase approach that combines Learning with Noisy Labels (LNL) and active learning. This approach not only improves the robustness of medical image classification in the presence of noisy labels, but also iteratively improves the quality of the dataset by relabeling the important incorrect labels, under a limited annotation budget. Furthermore, we introduce a novel Variance of Gradients approach in LNL phase, which complements the loss-based sample selection by also sampling under-represented samples. Using two imbalanced noisy medical classification datasets, we demonstrate that that our proposed technique is superior to its predecessors at handling class imbalance by not misidentifying clean samples from minority classes as mostly noisy samples. | 翻訳日:2024-11-08 23:13:33 公開日:2024-10-24 |
# 高騒音下における不均衡医用画像分類タスクのロバストトレーニングのためのアクティブラベルリファインメント
Active Label Refinement for Robust Training of Imbalanced Medical Image Classification Tasks in the Presence of High Label Noise ( http://arxiv.org/abs/2407.05973v3 ) ライセンス: Link先を確認 | Bidur Khanal, Tianhong Dai, Binod Bhattarai, Cristian Linte, | (参考訳) 教師付き深層学習に基づく医用画像分類の堅牢性はラベルノイズによって著しく損なわれている。
ノイズラベルの存在下での分類性能を高めるためのいくつかの手法が提案されているが、いくつかの課題に直面している。
1) クラス不均衡データセットとの闘いは,少数クラスをノイズの多いサンプルとして頻繁に見落としてしまう。
2) ノイズのあるラベルを積極的に掃除するために,プリンシパル・イン・ザ・ループを組み込むことなく,ノイズの多いデータセットによるパフォーマンスの最大化に特化する。
これらの課題を軽減するために,学習と雑音ラベル(LNL)とアクティブラーニングを組み合わせた2段階のアプローチを提案する。
このアプローチは,ノイズラベルの存在下での医用画像分類の堅牢性を向上するだけでなく,重要な不正確なラベルを限定的なアノテーション予算の下で緩和することにより,データセットの品質を反復的に向上させる。
さらに,LNL 相において,低表現型サンプルをサンプリングすることで,損失に基づくサンプル選択を補完する新しい分散勾配法を提案する。
2つの不均衡な医学分類データセットを用いて,提案手法は,少数クラスのクリーンなサンプルをほとんどノイズの多いサンプルとして誤識別しないことで,クラス不均衡を扱う従来の手法よりも優れていることを実証した。
The robustness of supervised deep learning-based medical image classification is significantly undermined by label noise. Although several methods have been proposed to enhance classification performance in the presence of noisy labels, they face some challenges: 1) a struggle with class-imbalanced datasets, leading to the frequent overlooking of minority classes as noisy samples; 2) a singular focus on maximizing performance using noisy datasets, without incorporating experts-in-the-loop for actively cleaning the noisy labels. To mitigate these challenges, we propose a two-phase approach that combines Learning with Noisy Labels (LNL) and active learning. This approach not only improves the robustness of medical image classification in the presence of noisy labels, but also iteratively improves the quality of the dataset by relabeling the important incorrect labels, under a limited annotation budget. Furthermore, we introduce a novel Variance of Gradients approach in LNL phase, which complements the loss-based sample selection by also sampling under-represented samples. Using two imbalanced noisy medical classification datasets, we demonstrate that that our proposed technique is superior to its predecessors at handling class imbalance by not misidentifying clean samples from minority classes as mostly noisy samples. | 翻訳日:2024-11-08 23:13:33 公開日:2024-10-24 |
# Gromov-Monge Gapを用いたアンタングル表現学習
Disentangled Representation Learning with the Gromov-Monge Gap ( http://arxiv.org/abs/2407.07829v2 ) ライセンス: Link先を確認 | Théo Uscidda, Luca Eyring, Karsten Roth, Fabian Theis, Zeynep Akata, Marco Cuturi, | (参考訳) 乱れのないデータから歪んだ表現を学習することは、機械学習における根本的な課題である。
これを解決することで、一般化、解釈可能性、公平性といった他の問題を解き放つことができる。
理論上は解くのは非常に難しいが、実際には事前マッチングによって解離が達成されることが多い。
さらに、最近の研究では、例えば、点間の距離や角度など、データの幾何学的特徴を保存することによる学習により、幾何学的考察を活用することで、事前マッチングアプローチを向上できることが示されている。
しかし、これらの特徴を完全に保存し、データ分布を前と整合させるマッピングは一般に存在しないため、幾何学的特徴を保存しながら前と一致させることは困難である。
これらの課題に対処するために,2次最適輸送に基づく非交叉表現学習手法を提案する。
我々は、Gromov-Monge マップを用いて、あらかじめ定義された幾何学的特徴の歪みを最小限に抑えながら、ある分布を別の分布へ輸送する問題を定式化する。
このような写像を計算するために,地図が最小の幾何歪みで基準分布を移動するかどうかを定量化する正規化器であるGromov-Monge-Gap (GMG)を提案する。
提案手法の有効性を4つの標準ベンチマークで示すとともに,幾何学的考察を生かした他の手法よりも優れていることを示す。
Learning disentangled representations from unlabelled data is a fundamental challenge in machine learning. Solving it may unlock other problems, such as generalization, interpretability, or fairness. Although remarkably challenging to solve in theory, disentanglement is often achieved in practice through prior matching. Furthermore, recent works have shown that prior matching approaches can be enhanced by leveraging geometrical considerations, e.g., by learning representations that preserve geometric features of the data, such as distances or angles between points. However, matching the prior while preserving geometric features is challenging, as a mapping that fully preserves these features while aligning the data distribution with the prior does not exist in general. To address these challenges, we introduce a novel approach to disentangled representation learning based on quadratic optimal transport. We formulate the problem using Gromov-Monge maps that transport one distribution onto another with minimal distortion of predefined geometric features, preserving them as much as can be achieved. To compute such maps, we propose the Gromov-Monge-Gap (GMG), a regularizer quantifying whether a map moves a reference distribution with minimal geometry distortion. We demonstrate the effectiveness of our approach for disentanglement across four standard benchmarks, outperforming other methods leveraging geometric considerations. | 翻訳日:2024-11-08 22:40:08 公開日:2024-10-24 |
# MoESD:ジェンダーバイアスを緩和する専門家の拡散を安定させる
MoESD: Mixture of Experts Stable Diffusion to Mitigate Gender Bias ( http://arxiv.org/abs/2407.11002v2 ) ライセンス: Link先を確認 | Guorun Wang, Lucia Specia, | (参考訳) テキスト・ツー・イメージのモデルは、社会的偏見を伝播させることで知られている。
例えば、特定の職業の人々のイメージを生成するように促されると、これらのモデルは特定の性別や民族を体系的に生成する傾向がある。
本稿では,このバイアスがモデルのテキストエンコーダにすでに存在していることを示し,テキストエンコードされたバイアスを潜在空間で識別し,バイアス識別ゲート機構を作成することで,Mixture-of-Expertsアプローチを導入する。
具体的には,MoESD (Mixture of Experts Stable Diffusion) をBiAs (Bias Adapters) で提案し,テキスト・画像モデルにおける性別バイアスを軽減する。
また、緩和プロセスにおいて、任意の特別なトークンをプロンプトに導入することが不可欠であることを示す。
性別バイアスに着目した実験により, 画像品質を維持しながら, 性別バイアスを軽減できることが示唆された。
Text-to-image models are known to propagate social biases. For example, when prompted to generate images of people in certain professions, these models tend to systematically generate specific genders or ethnicities. In this paper, we show that this bias is already present in the text encoder of the model and introduce a Mixture-of-Experts approach by identifying text-encoded bias in the latent space and then creating a Bias-Identification Gate mechanism. More specifically, we propose MoESD (Mixture of Experts Stable Diffusion) with BiAs (Bias Adapters) to mitigate gender bias in text-to-image models. We also demonstrate that introducing an arbitrary special token to the prompt is essential during the mitigation process. With experiments focusing on gender bias, we show that our approach successfully mitigates gender bias while maintaining image quality. | 翻訳日:2024-11-08 21:21:36 公開日:2024-10-24 |
# 大規模言語モデルの LoRA に関する調査
A Survey on LoRA of Large Language Models ( http://arxiv.org/abs/2407.11046v4 ) ライセンス: Link先を確認 | Yuren Mao, Yuhang Ge, Yijiang Fan, Wenyi Xu, Yu Mi, Zhonghao Hu, Yunjun Gao, | (参考訳) Low-Rank Adaptation~(LoRA)は、高密度ニューラルネットワーク層をプラグ可能な低ランク行列で更新する、パラメータ効率の良い微調整パラダイムの1つである。
さらに、クロスタスクの一般化とプライバシ保護において大きな利点がある。
したがって、LoRAは近年注目を集めており、関連する文献の数は指数関数的な成長を示している。
LoRAの現状を概観する必要がある。
本調査は,(1)ダウンストリーム適応の改善による下流タスクの性能向上,(2)複数のLoRAプラグインを混合してタスク間一般化を実現するクロスタスク一般化手法,(3)LoRAの計算効率を高める効率改善手法,(4)LoRAをフェデレート学習に使用するデータプライバシ保護手法,(5)アプリケーションの観点から,進捗を分類し,レビューする。
また,本調査では今後の方向性についても論じる。
最後に、私たちはGithubページ~\footnote{\href{https://github.com/ZJU-LLMs/Awesome-LoRAs.git}{https://github.com/ZJU-LLMs/Awesome-LoRAs.git}}を読者に提供し、この調査論文の更新を確認し、議論を開始する。
Low-Rank Adaptation~(LoRA), which updates the dense neural network layers with pluggable low-rank matrices, is one of the best performed parameter efficient fine-tuning paradigms. Furthermore, it has significant advantages in cross-task generalization and privacy-preserving. Hence, LoRA has gained much attention recently, and the number of related literature demonstrates exponential growth. It is necessary to conduct a comprehensive overview of the current progress on LoRA. This survey categorizes and reviews the progress from the perspectives of (1) downstream adaptation improving variants that improve LoRA's performance on downstream tasks; (2) cross-task generalization methods that mix multiple LoRA plugins to achieve cross-task generalization; (3) efficiency-improving methods that boost the computation-efficiency of LoRA; (4) data privacy-preserving methods that use LoRA in federated learning; (5) application. Besides, this survey also discusses the future directions in this field. At last, we provide a Github page~\footnote{\href{https://github.com/ZJU-LLMs/Awesome-LoRAs.git}{https://github.com/ZJU-LLMs/Awesome-LoRAs.git}} for readers to check the updates and initiate discussions on this survey paper. | 翻訳日:2024-11-08 21:21:36 公開日:2024-10-24 |
# 長距離干渉型スピン鎖における破壊干渉による光円錐の発生
Emergence of Light Cones in Long-range Interacting Spin Chains due to Destructive Interference ( http://arxiv.org/abs/2407.11639v2 ) ライセンス: Link先を確認 | Peyman Azodi, Herschel A. Rabitz, | (参考訳) 低温におけるハイゼンベルクスピン鎖の長距離相互作用機構について, 有効絡み合い光円錐の出現に繋がる機構について述べる。
この機構は、特定光円錐の外側のスピンの絡み合いに寄与する量子効果の間の破壊的干渉から生じる。
結果として、この領域では絡み合いが抑制され、効果的な絡み合い光円錐の形成が促進される。
解析の結果, 相互作用範囲の縮小が破壊的干渉を弱め, 鎖に沿った絡み合い輸送の予期せぬ加速を引き起こすことが明らかとなった。
この予測は実験的に観測可能であることが示唆されている。
我々の研究は、長距離相互作用量子系における光円錐の出現を促進する物理的なメカニズムについて、新たな視点を提供する。
We present a mechanism in long-range interacting Heisenberg spin chains at low temperatures that leads to the emergence of effective entanglement light cones. This mechanism arises from destructive interference among quantum effects that contribute to the entanglement of spins outside an identified light cone. As a result, entanglement remains suppressed in this region, facilitating the formation of effective entanglement light cones. Our analysis reveals that truncating the range of interactions weakens the destructive interference, resulting in an unexpected acceleration of entanglement transport along the chain. This prediction is proposed to be experimentally observable. Our work provides a fresh perspective on the physical mechanisms driving the emergence of light cones in long-range interacting quantum systems. | 翻訳日:2024-11-08 20:59:00 公開日:2024-10-24 |
# 深層強化学習による反応障壁の推定
Estimating Reaction Barriers with Deep Reinforcement Learning ( http://arxiv.org/abs/2407.12453v2 ) ライセンス: Link先を確認 | Adittya Pal, | (参考訳) 複雑な系の安定状態は、関連するポテンシャルエネルギー表面上の局所ミニマに対応する。
これらの局所ミニマ間の遷移は、そのような系の力学を支配している。
複雑系と高次元系の遷移経路を正確に決定することは、これらの遷移は稀な出来事であり、実験において関連する種を分離することが困難である。
たいていの場合、システムは局所的な最小値に近づき、希少な大きなゆらぎがミニマ間の遷移に繋がる。
このような遷移の確率はエネルギー障壁の高さとともに指数関数的に減少し、システムのダイナミクスは計算されたエネルギー障壁に非常に敏感になる。
本研究の目的は,システム状態空間における2つの安定状態間の最小エネルギー障壁をコスト最小化問題として求めることである。
本稿では、強化学習アルゴリズムを用いてこの問題を解決することを提案する。
強化学習剤の探索的性質は、遷移の最小エネルギー障壁の効率的なサンプリングと決定を可能にする。
Stable states in complex systems correspond to local minima on the associated potential energy surface. Transitions between these local minima govern the dynamics of such systems. Precisely determining the transition pathways in complex and high-dimensional systems is challenging because these transitions are rare events, and isolating the relevant species in experiments is difficult. Most of the time, the system remains near a local minimum, with rare, large fluctuations leading to transitions between minima. The probability of such transitions decreases exponentially with the height of the energy barrier, making the system's dynamics highly sensitive to the calculated energy barriers. This work aims to formulate the problem of finding the minimum energy barrier between two stable states in the system's state space as a cost-minimization problem. We propose solving this problem using reinforcement learning algorithms. The exploratory nature of reinforcement learning agents enables efficient sampling and determination of the minimum energy barrier for transitions. | 翻訳日:2024-11-08 20:36:48 公開日:2024-10-24 |
# BRIGHT: 推論集約検索のための現実的でカオスなベンチマーク
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval ( http://arxiv.org/abs/2407.12883v2 ) ライセンス: Link先を確認 | Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu, | (参考訳) 既存の検索ベンチマークは主に、キーワードまたは意味に基づく検索が通常十分である情報検索クエリ(例えば、検索エンジンからの集約された質問)で構成されている。
しかし、多くの複雑な現実世界のクエリは、サーフェスフォームマッチングを超える関連ドキュメントを特定するために、詳細な推論を必要とする。
例えば、コーディング問題のためのドキュメントを見つけるには、関連する関数のロジックと構文を理解する必要がある。
このような難解なクエリに対する検索のベンチマークを改善するために,関係文書の検索に集中的推論を必要とする最初のテキスト検索ベンチマークBRIGHTを導入する。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
これらのクエリは、自然に発生し、慎重にキュレートされた人間のデータから引き出される。
広範囲な評価により,最先端の検索モデルでさえBRIGHTでは性能が良くないことが明らかとなった。
MTEBのリーダーボード(Muennighoff et al , 2023)では59.0 nDCG@10のスコアを達成し、BRIGHTでは18.3のnDCG@10のスコアを生成する。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
さらに、トップパフォーマンスレトリバーから取得した文書を組み込むことで、質問応答性能が6.6ポイント以上向上する。
BRIGHTは、より現実的で困難な環境での検索システムに関する将来の研究の道を開くものだと考えています。
Existing retrieval benchmarks primarily consist of information-seeking queries (e.g., aggregated questions from search engines) where keyword or semantic-based retrieval is usually sufficient. However, many complex real-world queries require in-depth reasoning to identify relevant documents that go beyond surface form matching. For example, finding documentation for a coding question requires understanding the logic and syntax of the functions involved. To better benchmark retrieval on such challenging queries, we introduce BRIGHT, the first text retrieval benchmark that requires intensive reasoning to retrieve relevant documents. Our dataset consists of 1,384 real-world queries spanning diverse domains, such as economics, psychology, mathematics, and coding. These queries are drawn from naturally occurring and carefully curated human data. Extensive evaluation reveals that even state-of-the-art retrieval models perform poorly on BRIGHT. The leading model on the MTEB leaderboard (Muennighoff et al., 2023), which achieves a score of 59.0 nDCG@10, produces a score of nDCG@10 of 18.3 on BRIGHT. We show that incorporating explicit reasoning about the query improves retrieval performance by up to 12.2 points. Moreover, incorporating retrieved documents from the top-performing retriever boosts question-answering performance by over 6.6 points. We believe that BRIGHT paves the way for future research on retrieval systems in more realistic and challenging settings. | 翻訳日:2024-11-08 20:25:29 公開日:2024-10-24 |
# BRIGHT: 推論集約検索のための現実的でカオスなベンチマーク
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval ( http://arxiv.org/abs/2407.12883v3 ) ライセンス: Link先を確認 | Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu, | (参考訳) 既存の検索ベンチマークは主に、キーワードまたは意味に基づく検索が通常十分である情報検索クエリ(例えば、検索エンジンからの集約された質問)で構成されている。
しかし、多くの複雑な現実世界のクエリは、サーフェスフォームマッチングを超える関連ドキュメントを特定するために、詳細な推論を必要とする。
例えば、コーディング問題のためのドキュメントを見つけるには、関連する関数のロジックと構文を理解する必要がある。
このような難解なクエリに対する検索のベンチマークを改善するために,関係文書の検索に集中的推論を必要とする最初のテキスト検索ベンチマークBRIGHTを導入する。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
これらのクエリは、自然に発生し、慎重にキュレートされた人間のデータから引き出される。
広範囲な評価により,最先端の検索モデルでさえBRIGHTでは性能が良くないことが明らかとなった。
MTEBのリーダーボード(Muennighoff et al , 2023)では59.0 nDCG@10のスコアを達成し、BRIGHTでは18.3のnDCG@10のスコアを生成する。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
さらに、トップパフォーマンスレトリバーから取得した文書を組み込むことで、質問応答性能が6.6ポイント以上向上する。
BRIGHTは、より現実的で困難な環境での検索システムに関する将来の研究の道を開くものだと考えています。
Existing retrieval benchmarks primarily consist of information-seeking queries (e.g., aggregated questions from search engines) where keyword or semantic-based retrieval is usually sufficient. However, many complex real-world queries require in-depth reasoning to identify relevant documents that go beyond surface form matching. For example, finding documentation for a coding question requires understanding the logic and syntax of the functions involved. To better benchmark retrieval on such challenging queries, we introduce BRIGHT, the first text retrieval benchmark that requires intensive reasoning to retrieve relevant documents. Our dataset consists of 1,384 real-world queries spanning diverse domains, such as economics, psychology, mathematics, and coding. These queries are drawn from naturally occurring and carefully curated human data. Extensive evaluation reveals that even state-of-the-art retrieval models perform poorly on BRIGHT. The leading model on the MTEB leaderboard (Muennighoff et al., 2023), which achieves a score of 59.0 nDCG@10, produces a score of nDCG@10 of 18.3 on BRIGHT. We show that incorporating explicit reasoning about the query improves retrieval performance by up to 12.2 points. Moreover, incorporating retrieved documents from the top-performing retriever boosts question-answering performance by over 6.6 points. We believe that BRIGHT paves the way for future research on retrieval systems in more realistic and challenging settings. | 翻訳日:2024-11-08 20:25:29 公開日:2024-10-24 |
# シンキットフィンガープリント : Pythonにおける分子指紋の簡便かつ効率的な計算法
Scikit-fingerprints: easy and efficient computation of molecular fingerprints in Python ( http://arxiv.org/abs/2407.13291v3 ) ライセンス: Link先を確認 | Jakub Adamczyk, Piotr Ludynia, | (参考訳) 本研究では,化学情報学応用のための分子指紋計算のためのPythonパッケージである \skfp について述べる。
私たちのライブラリは業界標準のScikit-learnインターフェースを提供しており、直感的な使用と機械学習パイプラインとの統合が容易です。
また、大きな分子データセットの効率的な処理を可能にする並列計算を特徴とする高度に最適化されている。
現在、 \skfp~はオープンソースのPythonエコシステムで最も機能豊富なライブラリであり、30以上の分子指紋を提供している。
本ライブラリは,分子特性予測や仮想スクリーニングなど,分子指紋に基づくケモインフォマティクスタスクを簡略化する。
また、柔軟性があり、非常に効率的で、完全にオープンソースです。
In this work, we present \skfp, a Python package for computation of molecular fingerprints for applications in chemoinformatics. Our library offers an industry-standard scikit-learn interface, allowing intuitive usage and easy integration with machine learning pipelines. It is also highly optimized, featuring parallel computation that enables efficient processing of large molecular datasets. Currently, \skfp~stands as the most feature-rich library in the open source Python ecosystem, offering over 30 molecular fingerprints. Our library simplifies chemoinformatics tasks based on molecular fingerprints, including molecular property prediction and virtual screening. It is also flexible, highly efficient, and fully open source. | 翻訳日:2024-11-08 20:14:30 公開日:2024-10-24 |
# ソコバンを再生するリカレントニューラルネットワークの計画
Planning in a recurrent neural network that plays Sokoban ( http://arxiv.org/abs/2407.15421v2 ) ライセンス: Link先を確認 | Mohammad Taufeeque, Philip Quirke, Maximilian Li, Chris Cundy, Aaron David Tucker, Adam Gleave, Adrià Garriga-Alonso, | (参考訳) ニューラルネットワーク(NN)が新しい状況にどのように一般化するかは、ヒューリスティックに行動を選択することを学んだか、計画プロセスを通じて学んだかによって異なる。
『モデルフリープランニングの調査』(Guezら、2019年)では、リカレントNN(RNN)がソコバンのプレイを訓練し、RNNの成功率を改善する余分な計算ステップを計画しているように見える。
我々は彼らの行動分析を再現し、拡張し、RNNがサイクルで「ペースト」することで複雑な状況で余分な計算ステップを与えることを学習した。
さらに,ネットワークによる将来の行動を予測する線形プローブを訓練し,これらのプローブを用いて隠蔽状態に介入することで,エージェントのその後の行動を制御する。
これらの知見を活用して、モデル手術を行い、畳み込みNNは、任意のサイズの入力に対して10×10のアーキテクチャ限界を超えて一般化することができる。
結果として得られるモデルは、難しい、高い分配レベルを解決します。
当社はモデルとコードをオープンソースとして公開し、ニューラルネットワークの小さなサイズ(1.29Mパラメータ)が学習計画の理解を深めるための優れたモデル生物であると信じています。
How a neural network (NN) generalizes to novel situations depends on whether it has learned to select actions heuristically or via a planning process. "An investigation of model-free planning" (Guez et al. 2019) found that a recurrent NN (RNN) trained to play Sokoban appears to plan, with extra computation steps improving the RNN's success rate. We replicate and expand on their behavioral analysis, finding the RNN learns to give itself extra computation steps in complex situations by "pacing" in cycles. Moreover, we train linear probes that predict the future actions taken by the network and find that intervening on the hidden state using these probes controls the agent's subsequent actions. Leveraging these insights, we perform model surgery, enabling the convolutional NN to generalize beyond its 10x10 architectural limit to arbitrarily sized inputs. The resulting model solves challenging, highly off-distribution levels. We open-source our model and code, and believe the neural network's small size (1.29M parameters) makes it an excellent model organism to deepen our understanding of learned planning. | 翻訳日:2024-11-08 15:56:37 公開日:2024-10-24 |
# テキストフィードバックによる言語モデルの調整に向けて
Towards Aligning Language Models with Textual Feedback ( http://arxiv.org/abs/2407.16970v2 ) ライセンス: Link先を確認 | Saüc Abadal Lloret, Shehzaad Dhuliawala, Keerthiram Murugesan, Mrinmaya Sachan, | (参考訳) ALT(Alignment with Textual feedback)は,言語モデルとユーザの好みをテキストで表現したアプローチである。
テキストはより表現力が高く、ユーザーは簡単な比較選好よりもリッチなフィードバックを提供でき、このリッチなフィードバックはより効率的で効果的なアライメントをもたらす可能性がある、と我々は主張する。
ALTは、その生成をテキストフィードバックに条件付けすることでモデルを整列させる。
提案手法は,言語モデリング技術のみに頼り,最小限のハイパーパラメータチューニングを必要とするが,RLに基づくアライメントアルゴリズムの主な利点は残っており,テキストフィードバックから効果的に学習することができる。
本稿では, 有害度低減, 要約, 対話応答生成など, さまざまなタスクにおけるテキストフィードバックの有効性と効率について検討する。
その結果, ALT は PPO よりも有毒度低減の課題に優れており, 総和時の性能は 20% のサンプルで一致していることがわかった。
また、既存のLLMからのフィードバックでALTをどのように利用できるかを検討し、制約付きおよび制約なしのテキストフィードバックを提供するLLMを探索する。
また、モデルと自然言語のフィードバックを合わせるための今後の方向性について概説する。
We present ALT (ALignment with Textual feedback), an approach that aligns language models with user preferences expressed in text. We argue that text offers greater expressiveness, enabling users to provide richer feedback than simple comparative preferences and this richer feedback can lead to more efficient and effective alignment. ALT aligns the model by conditioning its generation on the textual feedback. Our method relies solely on language modeling techniques and requires minimal hyper-parameter tuning, though it still presents the main benefits of RL-based alignment algorithms and can effectively learn from textual feedback. We explore the efficacy and efficiency of textual feedback across different tasks such as toxicity reduction, summarization, and dialog response generation. We find that ALT outperforms PPO for the task of toxicity reduction while being able to match its performance on summarization with only 20% of the samples. We also explore how ALT can be used with feedback provided by an existing LLM where we explore an LLM providing constrained and unconstrained textual feedback. We also outline future directions to align models with natural language feedback. | 翻訳日:2024-11-08 15:23:20 公開日:2024-10-24 |
# 拡散微細加工の自己消費鎖におけるモデル崩壊 : 定量的トレートモデリングからの新しい視点
Model Collapse in the Self-Consuming Chain of Diffusion Finetuning: A Novel Perspective from Quantitative Trait Modeling ( http://arxiv.org/abs/2407.17493v2 ) ライセンス: Link先を確認 | Youngseok Yoon, Dainong Hu, Iain Weissburg, Yao Qin, Haewon Jeong, | (参考訳) 生成モデルの成功は、出力が実際のデータと区別できないユニークなしきい値に達しており、将来のデータ収集パイプラインを合成データで汚染することは避けられない。
無限のサンプルを生成する可能性は当初、データ収集コストの削減とデータスカースフィールドの課題への対処の約束を提供するが、トレーニングと生成の反復ループが発生すると、パフォーマンスの深刻な劣化が観察されている。
本稿では,前回の反復から生成した合成画像を用いて,事前学習したテキスト・画像拡散モデルを微調整する実践シナリオについて考察する。
まず,この反復的プロセスによる画像品質の著しい劣化を実証し,厳密な実証研究を通じて,この低下を駆動する要因を特定した。
拡散の連鎖と生物学的進化の類似性を引き合いに出し、定量的な特性モデリングに基づく新しい理論的分析を導入する。
我々の理論的解析は拡散の連鎖における生成した画像の経験的観察と一致している。
最後に,遺伝子変異に触発された簡便かつ効果的な方法であるReuseable Diffusion Finetuning(ReDiFine)を提案する。
ReDiFineはハイパーパラメータチューニングを必要とせずにモデル崩壊を緩和し、再利用可能な画像生成のためのプラグアンドプレイソリューションとなる。
The success of generative models has reached a unique threshold where their outputs are indistinguishable from real data, leading to the inevitable contamination of future data collection pipelines with synthetic data. While their potential to generate infinite samples initially offers promise for reducing data collection costs and addressing challenges in data-scarce fields, the severe degradation in performance has been observed when iterative loops of training and generation occur -- known as ``model collapse.'' This paper explores a practical scenario in which a pretrained text-to-image diffusion model is finetuned using synthetic images generated from a previous iteration, a process we refer to as the ``Chain of Diffusion.'' We first demonstrate the significant degradation in image quality caused by this iterative process and identify the key factor driving this decline through rigorous empirical investigations. Drawing an analogy between the Chain of Diffusion and biological evolution, we then introduce a novel theoretical analysis based on quantitative trait modeling. Our theoretical analysis aligns with empirical observations of the generated images in the Chain of Diffusion. Finally, we propose Reusable Diffusion Finetuning (ReDiFine), a simple yet effective strategy inspired by genetic mutations. ReDiFine mitigates model collapse without requiring any hyperparameter tuning, making it a plug-and-play solution for reusable image generation. | 翻訳日:2024-11-08 15:12:19 公開日:2024-10-24 |
# スケールが言語モデルロバスト性に及ぼす影響
Effects of Scale on Language Model Robustness ( http://arxiv.org/abs/2407.18213v3 ) ライセンス: Link先を確認 | Nikolaus Howe, Ian McKenzie, Oskar Hollinsworth, Michał Zajac, Tom Tseng, Aaron Tucker, Pierre-Luc Bacon, Adam Gleave, | (参考訳) 言語モデルはスケーリングの法則を示しており、モデルとデータセットのサイズが増加すると、負のログ可能性の予測可能な減少が生まれ、めちゃくちゃな機能列がアンロックされる。
この現象は、多くの企業がより大規模なモデルを訓練し、パフォーマンスの向上を追求するきっかけとなった。
しかし、これらのモデルは '`jailbreaks'' のような敵の入力に対して脆弱であり、望ましくない振る舞いをモデルに誘導するインジェクションを誘導し、モデルがより有能になるにつれてリスクが増大する。
以前の研究は、コンピュータビジョンモデルがモデルとデータのスケーリングによってより堅牢になることを示している。
本研究は, 明示的な防御訓練がなければ, 多くのタスクにおいて, より大きなモデルの方がわずかに頑健である傾向にあるが, 信頼性は低い。
スケールによって与えられる優位性にもかかわらず、無防備なモデルは絶対的に攻撃しやすく、従って、敵の強靭性に対する明示的なトレーニングモデルに注意を向ける。
この設定では、逆向きに訓練されたより大きなモデルがより高速に一般化され、より小さなモデルと比較した場合、トレーニング中に見えない修正攻撃がより良くなることも観察する。
最後に,計算量の増加による悪用/防御バランスを分析し,ある設定で同等性を見つけ,他の設定で悪用する利点を見出した結果,より大規模なモデルスケールでも,敵の訓練だけでは堅牢性を解決するには不十分であることが示唆された。
Language models exhibit scaling laws, whereby increasing model and dataset size yields predictable decreases in negative log likelihood, unlocking a dazzling array of capabilities. This phenomenon spurs many companies to train ever larger models in pursuit of ever improved performance. Yet, these models are vulnerable to adversarial inputs such as ``jailbreaks'' and prompt injections that induce models to perform undesired behaviors, posing a growing risk as models become more capable. Prior work indicates that computer vision models become more robust with model and data scaling, raising the question: does language model robustness also improve with scale? We study this question empirically in the classification setting, finding that without explicit defense training, larger models tend to be modestly more robust on most tasks, though the effect is not reliable. Even with the advantage conferred by scale, undefended models remain easy to attack in absolute terms, and we thus turn our attention to explicitly training models for adversarial robustness, which we show to be a much more compute-efficient defense than scaling model size alone. In this setting, we also observe that adversarially trained larger models generalize faster and better to modified attacks not seen during training when compared with smaller models. Finally, we analyze the offense/defense balance of increasing compute, finding parity in some settings and an advantage for offense in others, suggesting that adversarial training alone is not sufficient to solve robustness, even at greater model scales. | 翻訳日:2024-11-08 15:01:09 公開日:2024-10-24 |
# 2エミッター固体系における強度相関測定における超輝度のシグナチャ
Signatures of superradiance in intensity correlation measurements in a two-emitter solid-state system ( http://arxiv.org/abs/2408.01799v3 ) ライセンス: Link先を確認 | Madhura Ghosh Dastidar, Aprameyan Desikan, Gniewomir Sarbicki, Vidya Praveen Bhallamudi, | (参考訳) ダイヤモンドナノピラーに埋め込まれた窒素空孔(NV)エミッタの強度相関(g^{(2)}(\tau)$)測定を行った。
柱内の複数のエミッタ間の協調効果を室温で示し, 一重項および三重項状態の遷移速度を$\approx 6$で観測した。
同時に、$g^{(2)}(0) > 0.5 (\to 1$) を $g^{(2)}(0) < 0.5$ として観測し、少なくとも2つのエミッターが存在することを示す。
さらに、単一のNVエミッタで見られる標準的な二重指数的挙動とは対照的に、$g^{(2)}$に対して3つの指数的挙動を観察する。
実験結果を理解するため,理論モデルを開発した。
我々は1つのNV中心と2つのNV中心のために調整されたリンドブラッドマスター方程式を解く。
これにより、2エミッター系からの超放射能放射を観測データの最も可能性の高い説明として同定する。
また、結合エミッタシステムを用いた乱数生成は、NISTテストスイート下でより優れており、結合エミッタシステムのエントロピー駆動モデルの観点から説明できる。
この結果から, 量子フォトニック技術の発展に重要となる超ラジアント状態などの多光子状態に対して, 強度相関測定を用いた新しいシグネチャが得られた。
We perform intensity correlation ($g^{(2)}(\tau)$) measurements on nitrogen-vacancy (NV) emitters embedded in diamond nanopillars. We observe an increase in transition rates from both the singlet and triplet states by a factor of $\approx 6$, indicating cooperative effects between the multiple emitters in the pillar, at room temperature. We simultaneously observe a $g^{(2)}(0) > 0.5 (\to 1$) as opposed to $g^{(2)}(0) < 0.5$ for others (and as expected for single emitters), indicating the presence of at least two emitters. Furthermore, we observe a triple exponential behaviour for the $g^{(2)}$ in contrast to the standard double exponential behaviour seen for single NV emitters. To understand our experimental observations, we developed a theoretical model. We solve the Lindblad master equation, tailored for single and two NV centers, to study their dissipative dynamics when coupled to a common electromagnetic field, at a finite temperature. Through this, we identify superradiant emission from a two-emitter system as the most likely explanation for our observed data. We also find that random number generation using the coupled emitter system performs better under the NIST test suite and explain it in terms of an entropy-driven model for a coupled emitter system. Our results provide a new signature for multiphotonic states, such as superradiant states, using intensity correlation measurements, that will become important for quantum photonic technologies progress. | 翻訳日:2024-11-08 13:07:08 公開日:2024-10-24 |
# 基準指標を用いた合成医用画像の評価における5つの落とし穴
Five Pitfalls When Assessing Synthetic Medical Images with Reference Metrics ( http://arxiv.org/abs/2408.06075v2 ) ライセンス: Link先を確認 | Melanie Dohmen, Tuan Truong, Ivo M. Baltruschat, Matthias Lenga, | (参考訳) 2つのイメージを客観的かつ定量的に比較するために、参照メトリクスが開発された。
特に、再構成された画像や圧縮された画像の品質を評価するために、これらの指標は非常に有用であることが示されている。
人工的に歪んだ自然画像のベンチマークにおけるこれらの指標の広範囲な試験により、どの指標が品質の人間の知覚と最もよく相関しているかが明らかになった。
しかし、これらの指標を医用画像における生成モデル評価に直接転送することは、画像の内容、画像データフォーマット、画像解釈に関する仮定がしばしば非常に異なるため、容易に落とし穴につながる可能性がある。
また、基準指標と品質に対する人間の知覚の相関は、様々な種類の歪みに対して強く異なり、SSIM、PSNR、MAEといった一般的なメトリクスは、あらゆる状況において最良の選択肢ではない。
我々は、予期せぬ、おそらく望ましくない基準スコアを示す5つの落とし穴を選択し、それを避けるための戦略について議論した。
Reference metrics have been developed to objectively and quantitatively compare two images. Especially for evaluating the quality of reconstructed or compressed images, these metrics have shown very useful. Extensive tests of such metrics on benchmarks of artificially distorted natural images have revealed which metric best correlate with human perception of quality. Direct transfer of these metrics to the evaluation of generative models in medical imaging, however, can easily lead to pitfalls, because assumptions about image content, image data format and image interpretation are often very different. Also, the correlation of reference metrics and human perception of quality can vary strongly for different kinds of distortions and commonly used metrics, such as SSIM, PSNR and MAE are not the best choice for all situations. We selected five pitfalls that showcase unexpected and probably undesired reference metric scores and discuss strategies to avoid them. | 翻訳日:2024-11-08 11:38:16 公開日:2024-10-24 |
# Segment Anything Model を用いたオフナディア画像における多角形フットプリントの抽出
Extracting polygonal footprints in off-nadir images with Segment Anything Model ( http://arxiv.org/abs/2408.08645v2 ) ライセンス: Link先を確認 | Kai Li, Jingbo Chen, Yupeng Deng, Yu Meng, Diyou Liu, Junxian Ma, Chenhao Wang, Xiangyu Zhao, | (参考訳) オフナディア航空画像からのフットプリント抽出(BFE)の構築は、しばしば屋根のセグメンテーションとオフセット予測を伴い、屋根の境界を建物のフットプリントに調整する。
しかし、このマルチステージアプローチは一般的に低品質な結果をもたらし、実際のデータ生産に適用性を制限する。
この問題に対処するために、多角形フットプリント予測のためのエンドツーエンドおよびプロンプト可能なモデルであるOBMv2を提案する。
OBMと異なり、OBMv2は新しいSOFAメカニズムを導入し、バンガローから高層ビルまで様々なタイプの建物のパフォーマンスを改善し、後処理なしでエンドツーエンドのフットプリント予測を可能にする。
さらに,屋上マスク,ビルディングマスク,オフセットを効果的に活用し,フットプリントの正確な予測を行うマルチレベル情報システム(MISS)を提案する。
我々は,BONAIおよびOmniCity-view3データセット上でOBMv2を評価し,Huizhouテストセット上でのOBMv2の一般化を実証した。
コードはhttps://github.com/likaiucas/OBMv2.comから入手できる。
Building Footprint Extraction (BFE) from off-nadir aerial images often involves roof segmentation and offset prediction to adjust roof boundaries to the building footprint. However, this multi-stage approach typically produces low-quality results, limiting its applicability in real-world data production. To address this issue, we present OBMv2, an end-to-end and promptable model for polygonal footprint prediction. Unlike its predecessor OBM, OBMv2 introduces a novel Self Offset Attention (SOFA) mechanism that improves performance across diverse building types, from bungalows to skyscrapers, enabling end-to-end footprint prediction without post-processing. Additionally, we propose a Multi-level Information System (MISS) to effectively leverage roof masks, building masks, and offsets for accurate footprint prediction. We evaluate OBMv2 on the BONAI and OmniCity-view3 datasets and demonstrate its generalization on the Huizhou test set. The code will be available at https://github.com/likaiucas/OBMv2. | 翻訳日:2024-11-08 07:18:07 公開日:2024-10-24 |
# PCP-MAE:ポイントメイクオートエンコーダのセンター予測学習
PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders ( http://arxiv.org/abs/2408.08753v2 ) ライセンス: Link先を確認 | Xiangdong Zhang, Shaofeng Zhang, Junchi Yan, | (参考訳) マスクオートエンコーダは、ポイントクラウドの自己教師型学習において広く研究されており、ポイントクラウドは一般的に可視部とマスク部に分けられている。
これらの方法は通常、可視パッチ(正規化)と対応するパッチセンター(配置)を入力として受け入れるエンコーダを含み、デコーダはエンコーダの出力とマスクされた部分の中心(配置)を受け入れて、マスクされたパッチの各点を再構築する。
次に、トレーニング済みのエンコーダが下流タスクに使用される。
本稿では,マスクされたパッチの中央をエンコーダからの情報無しでデコーダに直接送る場合,それでもよく再構成できるという,モチベーションのある実証結果を示す。
言い換えれば、パッチの中心は重要であり、再構築の対象はエンコーダの表現に必ずしも依存していないため、エンコーダが意味表現を学習するのを防ぐことができる。
このキーとなる観察に基づいて、本研究では、重要なセンターを予測し、予測されたセンターを用いて直接提供されたセンターを置き換えることを学ぶための、単純な、効果的な方法、すなわち、ポイントマスクオートエンコーダの予測センター(PCP-MAE)の学習を提案する。
具体的には,予測センターモジュール (PCM) を提案する。
特にOBJ-BGでは5.50%,OBJ-ONLYでは6.03%,ScanObjectNNデータセットでは5.17%,PB-T50-RSでは3Dオブジェクト分類では5.17%,ポイント-MAEでは大きな改善を実現している。
コードはhttps://github.com/aHapBean/PCP-MAEで入手できる。
Masked autoencoder has been widely explored in point cloud self-supervised learning, whereby the point cloud is generally divided into visible and masked parts. These methods typically include an encoder accepting visible patches (normalized) and corresponding patch centers (position) as input, with the decoder accepting the output of the encoder and the centers (position) of the masked parts to reconstruct each point in the masked patches. Then, the pre-trained encoders are used for downstream tasks. In this paper, we show a motivating empirical result that when directly feeding the centers of masked patches to the decoder without information from the encoder, it still reconstructs well. In other words, the centers of patches are important and the reconstruction objective does not necessarily rely on representations of the encoder, thus preventing the encoder from learning semantic representations. Based on this key observation, we propose a simple yet effective method, i.e., learning to Predict Centers for Point Masked AutoEncoders (PCP-MAE) which guides the model to learn to predict the significant centers and use the predicted centers to replace the directly provided centers. Specifically, we propose a Predicting Center Module (PCM) that shares parameters with the original encoder with extra cross-attention to predict centers. Our method is of high pre-training efficiency compared to other alternatives and achieves great improvement over Point-MAE, particularly surpassing it by 5.50% on OBJ-BG, 6.03% on OBJ-ONLY, and 5.17% on PB-T50-RS for 3D object classification on the ScanObjectNN dataset. The code is available at https://github.com/aHapBean/PCP-MAE. | 翻訳日:2024-11-08 07:18:07 公開日:2024-10-24 |
# 分散カーネルに基づく量子機械学習
Distributed and Secure Kernel-Based Quantum Machine Learning ( http://arxiv.org/abs/2408.10265v2 ) ライセンス: Link先を確認 | Arjhun Swaminathan, Mete Akgün, | (参考訳) 量子コンピューティングは機械学習に革命をもたらすことを約束し、クラスタリングや距離推定といったタスクにおいて、大幅な効率向上を提供する。
さらに、量子テレポーテーションや量子鍵分布といったセキュアなプロトコルを可能にするため、測定仮定や非閉鎖定理といった基本原理を通じてセキュリティを強化している。
セキュアな量子機械学習の進歩は注目に値するが、カーネルベースの機械学習技術のセキュアで分散的な量子アナログの開発はいまだに未調査である。
本研究では,データ分散時の多項式,ラジアル基底関数(RBF),ラプラシアカーネルなどの共通カーネルを量子特徴写像を用いてセキュアに計算する手法を提案する。
本手法では,セキュアで分散的なカーネル学習を実現するために,量子テレポーテーションを利用する堅牢なフレームワークを提案する。
提案したアーキテクチャは、IBMのQiskit Aer Simulatorを使って、さまざまな公開データセットで検証されている。
Quantum computing promises to revolutionize machine learning, offering significant efficiency gains in tasks such as clustering and distance estimation. Additionally, it provides enhanced security through fundamental principles like the measurement postulate and the no-cloning theorem, enabling secure protocols such as quantum teleportation and quantum key distribution. While advancements in secure quantum machine learning are notable, the development of secure and distributed quantum analogues of kernel-based machine learning techniques remains underexplored. In this work, we present a novel approach for securely computing common kernels, including polynomial, radial basis function (RBF), and Laplacian kernels, when data is distributed, using quantum feature maps. Our methodology introduces a robust framework that leverages quantum teleportation to ensure secure and distributed kernel learning. The proposed architecture is validated using IBM's Qiskit Aer Simulator on various public datasets. | 翻訳日:2024-11-08 06:44:48 公開日:2024-10-24 |
# Deep-MacroFin:連続時間経済モデルのためのインフォームド平衡ニューラルネットワーク
Deep-MacroFin: Informed Equilibrium Neural Network for Continuous Time Economic Models ( http://arxiv.org/abs/2408.10368v3 ) ライセンス: Link先を確認 | Yuntao Wu, Jiayuan Guo, Goutham Gopalakrishna, Zisis Poulos, | (参考訳) 本稿では、偏微分方程式を解くために設計された包括的フレームワークであるDeep-MacroFinについて述べる。
このフレームワークは、従来のマルチ層パーセプトロンや新しく開発されたコルモゴロフ・アルノルドネットワークなど、ディープラーニング手法を活用する。
ハミルトン・ヤコビ・ベルマン方程式と結合代数方程式でカプセル化された経済情報を用いて最適化される。
ニューラルネットワークの適用は、標準的な数値法と比較して計算要求や制限を少なくして、高次元の問題を正確に解決するという約束を果たす。
この汎用的枠組みは、解が不連続性を示す場合であっても、素微分方程式や微分方程式の系に容易に適用できる。
重要なのは、既存のライブラリよりも単純でユーザフレンドリーな実装を提供することです。
In this paper, we present Deep-MacroFin, a comprehensive framework designed to solve partial differential equations, with a particular focus on models in continuous time economics. This framework leverages deep learning methodologies, including conventional Multi-Layer Perceptrons and the newly developed Kolmogorov-Arnold Networks. It is optimized using economic information encapsulated by Hamilton-Jacobi-Bellman equations and coupled algebraic equations. The application of neural networks holds the promise of accurately resolving high-dimensional problems with fewer computational demands and limitations compared to standard numerical methods. This versatile framework can be readily adapted for elementary differential equations, and systems of differential equations, even in cases where the solutions may exhibit discontinuities. Importantly, it offers a more straightforward and user-friendly implementation than existing libraries. | 翻訳日:2024-11-08 06:44:48 公開日:2024-10-24 |
# 学習速度アニーリングによる法則のスケーリング
Scaling Law with Learning Rate Annealing ( http://arxiv.org/abs/2408.11029v2 ) ライセンス: Link先を確認 | Howe Tissue, Venus Wang, Lu Wang, | (参考訳) L(s) = L_0 + A\cdot S_1^{-\alpha} - C\cdot S_2,$$ where $L(s)$ is the validation loss at step $s$, $S_1$ is the area of the LR curve, $S_2$ is the LR annealing area, $L_0$, $A$, $C$, $\alpha$ is constant parameters。
この定式化は,(1)データサイズに対する電力則スケーリング,(2)LR焼鈍時の損失低減の2つの要因を考慮に入れている。
したがって、この定式化は訓練終了時の単一損失点ではなく、各ステップにおける全損失曲線を記述することができる。
LRアニールによるスケーリング法則の適用により、学習速度スケジューラ(LRS)の任意のステップにおける損失を正確に予測することができる。
このアプローチは、スケーリング法則を定式化する際の計算コストを大幅に削減し、より正確で、動的に訓練するための表現性を提供する。
大規模な実験により、我々の研究結果はハイパーパラメータとモデルアーキテクチャにまたがって保持され、我々の方程式はモデルサイズのスケーリング効果にまで拡張できることを示した。
さらに,本定式化は,多くの先行研究,特にLRスケジュールと焼鈍に着目した実験結果の正確な理論的検証と説明を提供する。
本研究は, スケーリング法則の大幅な民主化を図りながら, LLMトレーニングダイナミクスの理解を深めることが期待できる。
We find that the cross-entropy loss curves of neural language models empirically adhere to a scaling law with learning rate (LR) annealing over training steps: $$L(s) = L_0 + A\cdot S_1^{-\alpha} - C\cdot S_2,$$ where $L(s)$ is the validation loss at step $s$, $S_1$ is the area under the LR curve, $S_2$ is the LR annealing area, and $L_0$, $A$, $C$, $\alpha$ are constant parameters. This formulation takes into account two factors: (1) power-law scaling over data size, and (2) the additional loss reduction during LR annealing. Therefore, this formulation can describe the full loss curve at each step, rather than the single loss point at the end of training. Applying the scaling law with LR annealing and fitting only one or two training curves, we can accurately predict the loss at any given step across any learning rate scheduler (LRS). This approach significantly reduces computational cost in formulating scaling laws while providing more accuracy and expressiveness for training dynamics. Extensive experiments demonstrate that our findings hold across a range of hyper-parameters and model architectures, and our equation can extend to scaling effect of model sizes. Moreover, our formulation provides accurate theoretical verification and explanation for empirical results observed in numerous previous studies, particularly those focusing on LR schedule and annealing. We believe that this work is promising to enhance the understanding of LLM training dynamics while greatly democratizing scaling laws, and it can guide researchers in refining training strategies (e.g. critical LRS) for further LLMs. | 翻訳日:2024-11-08 06:22:37 公開日:2024-10-24 |
# 反射型大言語モデルによるバイアスの発見
Uncovering Biases with Reflective Large Language Models ( http://arxiv.org/abs/2408.13464v2 ) ライセンス: Link先を確認 | Edward Y. Chang, | (参考訳) 人間のラベル付きデータのバイアスとエラーは、マシンラーニング、特に潜在的に欠陥のある地上真実データに依存する教師付き学習において重要な課題を示す。
診断エラーや社会的バイアスを含むこれらの欠陥は、最大推定値を用いて訓練されたモデルを通じて伝播され、増幅される。
本稿では,LLMと異なるLLMの複数インスタンス間の構造的対角対話を利用して,多様な視点と不整合を解明する反射型LLM対話フレームワークRTDFを提案する。
LLMを反対のスタンスを採用するよう条件付けすることで、RLDFは条件付き統計、情報理論、分散メトリクスを通じて体系的なバイアス検出を可能にする。
実験の結果、RDDFは人間のラベル付きデータの制限を露呈しながら、公開コンテンツの潜在的なバイアスを特定することに成功した。
我々のフレームワークは、透明で多視点分析によるコンテンツ中立性向上のためのスケーラブルなアプローチとして、測定可能な進捗追跡と説明可能な修復行動をサポートします。
Biases and errors in human-labeled data present significant challenges for machine learning, especially in supervised learning reliant on potentially flawed ground truth data. These flaws, including diagnostic errors and societal biases, risk being propagated and amplified through models trained using maximum likelihood estimation. We present the Reflective LLM Dialogue Framework RLDF, which leverages structured adversarial dialogues between multiple instances of a single LLM or different LLMs to uncover diverse perspectives and correct inconsistencies. By conditioning LLMs to adopt opposing stances, RLDF enables systematic bias detection through conditional statistics, information theory, and divergence metrics. Experiments show RLDF successfully identifies potential biases in public content while exposing limitations in human-labeled data. Our framework supports measurable progress tracking and explainable remediation actions, offering a scalable approach for improving content neutrality through transparent, multi-perspective analysis. | 翻訳日:2024-11-08 05:15:13 公開日:2024-10-24 |
# ERX:ハイパースペクトル線走査のための高速リアルタイム異常検出アルゴリズム
ERX: A Fast Real-Time Anomaly Detection Algorithm for Hyperspectral Line Scanning ( http://arxiv.org/abs/2408.14947v2 ) ライセンス: Link先を確認 | Samuel Garske, Bradley Evans, Christopher Artlett, KC Wong, | (参考訳) 予期せぬオブジェクト(異常)をリアルタイムで検出することは、環境を監視し、管理し、保護する大きな可能性がある。
ハイパースペクトルラインスキャンカメラは、RGBおよびマルチスペクトル画像に対する異常検出の信頼性を高めるための低コストなソリューションである。
しかし、既存のラインスキャンアルゴリズムは、小型コンピュータ(例えばドローンや小型衛星に搭載されているもの)を使用すると遅すぎるため、景色の変化に適応せず、幾何学的歪みに対して堅牢性に欠ける。
本稿では,これらの問題に対処するために,指数移動RXアルゴリズム(ERX)を導入し,高スペクトル線走査のための既存のRXに基づく異常検出手法と比較する。
3つの大規模で複雑なデータセットも導入され、ラインスキャンカメラ(2つのハイパースペクトルと1つのマルチスペクトル)を使用する際の現実的な課題をよりよく評価する。
ERXはJetson Xavier NX計算モジュールを用いて評価され、速度と検出性能の最良の組み合わせを実現する。
本研究は, 異常物体の分類・配置, 適応的および自動しきい値選択, 実時間フィールドテストにおける今後の研究の道を開くものである。
データセットとPythonコードは、https://github.com/WiseGamgee/HyperAD.comで入手できる。
Detecting unexpected objects (anomalies) in real time has great potential for monitoring, managing, and protecting the environment. Hyperspectral line-scan cameras are a low-cost solution that enhance confidence in anomaly detection over RGB and multispectral imagery. However, existing line-scan algorithms are too slow when using small computers (e.g. those onboard a drone or small satellite), do not adapt to changing scenery, or lack robustness against geometric distortions. This paper introduces the Exponentially moving RX algorithm (ERX) to address these issues, and compares it with existing RX-based anomaly detection methods for hyperspectral line scanning. Three large and more complex datasets are also introduced to better assess the practical challenges when using line-scan cameras (two hyperspectral and one multispectral). ERX is evaluated using a Jetson Xavier NX compute module, achieving the best combination of speed and detection performance. This research paves the way for future studies in grouping and locating anomalous objects, adaptive and automatic threshold selection, and real-time field tests. The datasets and the Python code are available at: https://github.com/WiseGamgee/HyperAD. | 翻訳日:2024-11-08 04:52:58 公開日:2024-10-24 |
# ERX:ハイパースペクトル線走査のための高速リアルタイム異常検出アルゴリズム
ERX: A Fast Real-Time Anomaly Detection Algorithm for Hyperspectral Line Scanning ( http://arxiv.org/abs/2408.14947v3 ) ライセンス: Link先を確認 | Samuel Garske, Bradley Evans, Christopher Artlett, KC Wong, | (参考訳) 予期せぬオブジェクト(異常)をリアルタイムで検出することは、環境を監視し、管理し、保護する大きな可能性がある。
ハイパースペクトルラインスキャンカメラは、RGBおよびマルチスペクトル画像に対する異常検出の信頼性を高めるための低コストなソリューションである。
しかし、既存のラインスキャンアルゴリズムは、小型コンピュータ(例えばドローンや小型衛星に搭載されているもの)を使用すると遅すぎるため、景色の変化に適応せず、幾何学的歪みに対して堅牢性に欠ける。
本稿では,これらの問題に対処するために,指数移動RXアルゴリズム(ERX)を導入し,高スペクトル線走査のための既存のRXに基づく異常検出手法と比較する。
3つの大規模で複雑なデータセットも導入され、ラインスキャンカメラ(2つのハイパースペクトルと1つのマルチスペクトル)を使用する際の現実的な課題をよりよく評価する。
ERXはJetson Xavier NX計算モジュールを用いて評価され、速度と検出性能の最良の組み合わせを実現する。
本研究は, 異常物体の分類・配置, 適応的および自動しきい値選択, 実時間フィールドテストにおける今後の研究の道を開くものである。
データセットとPythonコードは、https://github.com/WiseGamgee/HyperAD.comで入手できる。
Detecting unexpected objects (anomalies) in real time has great potential for monitoring, managing, and protecting the environment. Hyperspectral line-scan cameras are a low-cost solution that enhance confidence in anomaly detection over RGB and multispectral imagery. However, existing line-scan algorithms are too slow when using small computers (e.g. those onboard a drone or small satellite), do not adapt to changing scenery, or lack robustness against geometric distortions. This paper introduces the Exponentially moving RX algorithm (ERX) to address these issues, and compares it with existing RX-based anomaly detection methods for hyperspectral line scanning. Three large and more complex datasets are also introduced to better assess the practical challenges when using line-scan cameras (two hyperspectral and one multispectral). ERX is evaluated using a Jetson Xavier NX compute module, achieving the best combination of speed and detection performance. This research paves the way for future studies in grouping and locating anomalous objects, adaptive and automatic threshold selection, and real-time field tests. The datasets and the Python code are available at: https://github.com/WiseGamgee/HyperAD. | 翻訳日:2024-11-08 04:52:58 公開日:2024-10-24 |
# リッチ曲率を用いた物理リファラルネットワークのキャラクタリゼーション
Characterizing Physician Referral Networks with Ricci Curvature ( http://arxiv.org/abs/2408.16022v2 ) ライセンス: Link先を確認 | Jeremy Wayland, Russel J. Funk, Bastian Rieck, | (参考訳) 特定
(a)医療アクセスの質とシステム的障壁
(b)米国でのケア効果の指標は依然として重要な課題である。
ケアデリバリーにおける地域格差の理解を深めるため,ネットワークの幾何学的トポロジカルな特性である曲率の新たな応用をPhysian Referral Networksに導入した。
ネットワーク構造の表現力で知られているForman-RicciとOllivier-Ricciの曲率測定は,医療効果の変動を検出する上で有望な指標となる。
我々はまた、Ricci曲率やその他のネットワーク機能を利用したオープンソースツールであるAPPARENTを、地域物理学的参照ネットワーク構造、地域国勢調査データ、医療効果、患者結果の相関関係を調べるために提案する。
Identifying (a) systemic barriers to quality healthcare access and (b) key indicators of care efficacy in the United States remains a significant challenge. To improve our understanding of regional disparities in care delivery, we introduce a novel application of curvature, a geometrical-topological property of networks, to Physician Referral Networks. Our initial findings reveal that Forman-Ricci and Ollivier-Ricci curvature measures, which are known for their expressive power in characterizing network structure, offer promising indicators for detecting variations in healthcare efficacy while capturing a range of significant regional demographic features. We also present APPARENT, an open-source tool that leverages Ricci curvature and other network features to examine correlations between regional Physician Referral Networks structure, local census data, healthcare effectiveness, and patient outcomes. | 翻訳日:2024-11-08 04:30:58 公開日:2024-10-24 |
# 畳み込みニューラルネットワークを用いた効率的,スケーラブル,セキュアな画像推論のためのMoTION2NXの高速化
Enhancing MOTION2NX for Efficient, Scalable and Secure Image Inference using Convolutional Neural Networks ( http://arxiv.org/abs/2408.16387v2 ) ライセンス: Link先を確認 | Haritha K, Ramya Burra, Srishti Mittal, Sarthak Sharma, Abhilash Venkatesh, Anshoo Tandon, | (参考訳) この研究は、適度な計算資源を持つマシン上で、効率的でスケーラブルなオープンソースのセキュア・マルチパーティ・コンピューティング(SMPC)プロトコルの開発に寄与する。
我々は,C++ベースのMOTION2NXフレームワーク上に実装されたABY2.0 SMPCプロトコルを用いて,半正直なセキュリティを備えたセキュア畳み込みニューラルネットワーク(CNN)推論アプリケーションを開発した。
コントリビューションのリストは以下の通りです。
まず、アダマール積、インジケータ関数、argmax関数を含むいくつかの原始関数のテンソル化バージョンを提供することにより、MOTION2NXを強化する。
ベースラインMOTION2NX実装で利用可能なセキュアなRelu関数を利用する新しいアプローチに基づくセキュアなインジケータ関数の設計。
セキュアなインジケータ関数は、新しいセキュアなargmaxの実装のためのビルディングブロックとして使用される。
第二に、各CNN層における計算を複数の構成可能なチャンクに分割し、RAM使用量を大幅に削減する。
第3に、効率的な畳み込み計算のために既存のヘルパーノードアルゴリズムをABY2.0プロトコルと併用して適用する。
このアルゴリズムは実行時間を短縮するだけでなく、CNNモデルの実行に必要なRAM使用量を削減します。
さらに,本論文で提示したアイデアは,ニューラルネットワークのセキュアなトレーニングにも適用可能である。
This work contributes towards the development of an efficient and scalable open-source Secure Multi-Party Computation (SMPC) protocol on machines with moderate computational resources. We use the ABY2.0 SMPC protocol implemented on the C++ based MOTION2NX framework for secure convolutional neural network (CNN) inference application with semi-honest security. Our list of contributions are as follows. Firstly, we enhance MOTION2NX by providing a tensorized version of several primitive functions including the Hadamard product, indicator function and argmax function. Our design of secure indicator function based on a novel approach that uses secure Relu function available in the baseline MOTION2NX implementation. The secure indicator function is used, in turn, as a building block for a novel implementation of secure argmax. Secondly, we also develop a novel splitting of the computations at each CNN layer into multiple configurable chunks thereby resulting in significant reduction in RAM usage. Thirdly, we adapt an existing Helper node algorithm, working in tandem with the ABY2.0 protocol, for efficient convolution computation. This algorithm not only reduces execution time but also reduces the RAM usage required to execute CNN models, but comes at a cost of an additional compute server. Moreover, the ideas presented in this paper can also be applied to secure neural network training. | 翻訳日:2024-11-08 04:19:50 公開日:2024-10-24 |
# 畳み込みニューラルネットワークを用いた効率的,スケーラブル,セキュアな画像推論のためのMoTION2NXの高速化
Enhancing MOTION2NX for Efficient, Scalable and Secure Image Inference using Convolutional Neural Networks ( http://arxiv.org/abs/2408.16387v3 ) ライセンス: Link先を確認 | Haritha K, Ramya Burra, Srishti Mittal, Sarthak Sharma, Abhilash Venkatesh, Anshoo Tandon, | (参考訳) この研究は、適度な計算資源を持つマシン上で、効率的でスケーラブルなオープンソースのセキュア・マルチパーティ・コンピューティング(SMPC)プロトコルの開発に寄与する。
我々は,C++ベースのMOTION2NXフレームワーク上に実装されたABY2.0 SMPCプロトコルを用いて,半正直なセキュリティを備えたセキュア畳み込みニューラルネットワーク(CNN)推論アプリケーションを開発した。
コントリビューションのリストは以下の通りです。
まず、アダマール積、インジケータ関数、argmax関数を含むいくつかの原始関数のテンソル化バージョンを提供することにより、MOTION2NXを強化する。
次に,既存のHelperノードアルゴリズムをABY2.0プロトコルと併用して,効率的な畳み込み計算を行い,実行時間とRAM使用量を削減する。
第3に、各CNN層における計算を複数の構成可能なチャンクに分割する新しい分割アルゴリズムを提案する。
この斬新な分割アルゴリズムはRAM使用量を大幅に削減し、独立した興味を持ち、一般的なSMPCプロトコルに適用できる。
This work contributes towards the development of an efficient and scalable open-source Secure Multi-Party Computation (SMPC) protocol on machines with moderate computational resources. We use the ABY2.0 SMPC protocol implemented on the C++ based MOTION2NX framework for secure convolutional neural network (CNN) inference application with semi-honest security. Our list of contributions are as follows. Firstly, we enhance MOTION2NX by providing a tensorized version of several primitive functions including the Hadamard product, indicator function and argmax function. Secondly, we adapt an existing Helper node algorithm, working in tandem with the ABY2.0 protocol, for efficient convolution computation to reduce execution time and RAM usage. Thirdly, we also present a novel splitting algorithm that divides the computations at each CNN layer into multiple configurable chunks. This novel splitting algorithm, providing significant reduction in RAM usage, is of independent interest and is applicable to general SMPC protocols. | 翻訳日:2024-11-08 04:19:50 公開日:2024-10-24 |
# 化学動力学の実験量子シミュレーション
Experimental Quantum Simulation of Chemical Dynamics ( http://arxiv.org/abs/2409.04044v2 ) ライセンス: Link先を確認 | T. Navickas, R. J. MacDonell, C. H. Valahu, V. C. Olaya-Agudelo, F. Scuccimarra, M. J. Millican, V. G. Matsos, H. L. Nourse, A. D. Rao, M. J. Biercuk, C. Hempel, I. Kassal, T. R. Tan, | (参考訳) 化学シミュレーションは、量子コンピューティングの最も初期の応用の1つである可能性が高い。
しかし、化学シミュレーションのための既存のデジタル量子アルゴリズムは、多くの論理量子ビットとゲートを必要とし、既存の技術を超える実践的応用を配置する。
ここでは, 化学反応の最初の量子シミュレーションを行うために, アナログ手法を用いる。
特に、光誘起非断熱力学をシミュレートし、電子運動と核運動の強い結合と絡み合いを伴うため、量子化学における最も難しい問題の1つである。
我々は、閉じ込められたイオンの電子的自由度と振動的自由度の両方の情報を符号化する混合量子ボソン(MQB)アナログシミュレータを使用する。
3つの異なる分子の力学と、縮合相における開系力学を、すべて同じ量子資源でシミュレートすることで、プログラマビリティと汎用性を実証する。
我々の手法は等価なデジタル量子シミュレーションよりも桁違いに少ないリソースを必要とし、複雑な化学反応の短期シミュレーションのためのアナログ量子シミュレータのポテンシャルを実証する。
Simulating chemistry is likely to be among the earliest applications of quantum computing. However, existing digital quantum algorithms for chemical simulation require many logical qubits and gates, placing practical applications beyond existing technology. Here, we use an analog approach to carry out the first quantum simulations of chemical reactions. In particular, we simulate photoinduced non-adiabatic dynamics, one of the most challenging classes of problems in quantum chemistry because they involve strong coupling and entanglement between electronic and nuclear motions. We use a mixed-qudit-boson (MQB) analog simulator, which encodes information in both the electronic and vibrational degrees of freedom of a trapped ion. We demonstrate its programmability and versatility by simulating the dynamics of three different molecules as well as open-system dynamics in the condensed phase, all with the same quantum resources. Our approach requires orders of magnitude fewer resources than equivalent digital quantum simulations, demonstrating the potential of analog quantum simulators for near-term simulations of complex chemical reactions. | 翻訳日:2024-11-07 23:11:54 公開日:2024-10-24 |
# 大規模言語モデルを用いた認証型マルチエージェント作業データセットの生成
Using Large Language Models to Generate Authentic Multi-agent Knowledge Work Datasets ( http://arxiv.org/abs/2409.04286v2 ) ライセンス: Link先を確認 | Desiree Heim, Christian Jilek, Adrian Ulges, Andreas Dengel, | (参考訳) 現在公開されている知識作業データコレクションには、多様性、豊富なアノテーション、ユーザとそのドキュメントに関するコンテキスト情報がない。
これらの問題は、知識労働支援システムの客観的かつ同等のデータ駆動評価と最適化を妨げる。
このようなデータを実生活で収集するために必要な膨大なリソースとデータ検閲の必要性のため、そのようなデータセットの収集はほぼ不可能に思える。
そこで本稿では,構成可能なマルチエージェント型知識ワークデータセット生成手法を提案する。
本システムは,大規模言語モデル生成文書作成エージェント間の協調的知識労働をシミュレートする。
さらに、ジェネレータは、その構成またはシミュレーションプロセス中に作成されたすべてのバックグラウンド情報を知識グラフでキャプチャする。
最後に、結果のデータセットは、プライバシや機密性に関する懸念なく利用および共有することができる。
本稿では,我々のアプローチの設計とビジョンを紹介するとともに,大規模言語モデルを用いた知識ワーク文書の作成に焦点をあてる。
実際の文書の53%と74%を現実的に評価した人間レイパーによる調査は、我々のアプローチの可能性を実証している。
さらに,参加者のコメントに記載された信頼度基準を分析し,共通の問題に対する潜在的な改善について詳しく検討した。
Current publicly available knowledge work data collections lack diversity, extensive annotations, and contextual information about the users and their documents. These issues hinder objective and comparable data-driven evaluations and optimizations of knowledge work assistance systems. Due to the considerable resources needed to collect such data in real-life settings and the necessity of data censorship, collecting such a dataset appears nearly impossible. For this reason, we propose a configurable, multi-agent knowledge work dataset generator. This system simulates collaborative knowledge work among agents producing Large Language Model-generated documents and accompanying data traces. Additionally, the generator captures all background information, given in its configuration or created during the simulation process, in a knowledge graph. Finally, the resulting dataset can be utilized and shared without privacy or confidentiality concerns. This paper introduces our approach's design and vision and focuses on generating authentic knowledge work documents using Large Language Models. Our study involving human raters who assessed 53% of the generated and 74% of the real documents as realistic demonstrates the potential of our approach. Furthermore, we analyze the authenticity criteria mentioned in the participants' comments and elaborate on potential improvements for identified common issues. | 翻訳日:2024-11-07 23:00:54 公開日:2024-10-24 |
# 線形イオントラップに微小光学キャビティを一体化する方法-誘電体とトラップ対称性の遮蔽
How to integrate a miniature optical cavity in a linear ion trap: shielding dielectrics and trap symmetry ( http://arxiv.org/abs/2409.05123v3 ) ライセンス: Link先を確認 | Ezra Kassa, Shaobo Gao, Soon Teh, Dyon van Dinter, Hiroki Takahashi, | (参考訳) 量子システムをスケールアップする1つの方法はモジュラーアプローチを採用することである。
イオントラップアーキテクチャでは、独立した線形イオントラップ間の効率的なフォトニックインターフェースにより、そのような拡張が可能となる。
これにより、モード体積が小さい光学キャビティを利用でき、イオンからの光子放出確率を高めることができる。
ミニチュアファイバーベースのファブリペロキャビティは、単一のイオンを保持する3次元ポールトラップに統合されているが、光学キャビティと複数のイオンを保持することができる線形トラップとの効率的な界面は、まだ解明されていない。
これは、イオントラップ間の光学的界面と、イオン鎖内の運動結合の利点を組み合わせるための障壁となる。
本稿では, 簡易な導電性繊維の遮蔽効果と誘電体による運動加熱の悪影響を低減できることを示す。
また、導電シールドは、イオントラップにおける従来の無線周波数(rf)駆動と互換性がないが、相反する2つのrf信号を使用することで、この問題を解決できることを明らかにした。
さらに、線形トラップの翻訳対称性を乱す素子を組み込む際に電極の対称性が果たす役割を解析的に解明する。
その結果、表面トラップなどの線形イオントラップの二次元実装は、幾何学対称性の欠如による遮蔽された小型光学キャビティの統合には本質的に適していないことがわかった。
解析により得られた知見に基づいて, 線形イオントラップに組み込むべき必須成分と設計戦略を同定し, 小型光キャビティの集積を成功させる。
One method of scaling up quantum systems is to adopt a modular approach. In the ion trap architecture, an efficient photonic interface between independent linear ion traps would allow for such expansion. To this end, an optical cavity with a small mode volume can be utilised to enhance the photon emission probability from the ion. Miniature fibre-based Fabry-Perot cavities have been integrated into three-dimensional Paul traps that hold a single ion, whereas an efficient interface between an optical cavity and a linear trap that can keep multiple ions has remained elusive. This presents a barrier for combining the benefits of the motional coupling in a chain of ions with optical interface between ion traps. In this paper, we show that simple electrically conductive shielding of the fibres could provide substantial advantage in mitigating the adverse effects of stray charges and motional heating by dielectrics. We also reveal that the conductive shields are not compatible with the conventional radio frequency (rf) drive in ion traps but using two rf signals with opposite phases can solve this issue. Furthermore the role played by the symmetry of the electrodes when incorporating an element that disrupts the translational symmetry of a linear trap is elucidated analytically. As a result it is realized that two-dimensional implementation of a linear ion trap such as a surface trap is inherently not suitable for integrating a shielded miniature optical cavity due to the lack of geometrical symmetry. Based on the insights obtained through the analysis, we identify essential components and a design strategy that should be incorporated in a linear ion trap for successful integration of a miniature optical cavity. | 翻訳日:2024-11-07 22:49:49 公開日:2024-10-24 |
# 線形イオントラップに微小光学キャビティを一体化する方法-誘電体とトラップ対称性の遮蔽
How to integrate a miniature optical cavity in a linear ion trap: shielding dielectrics and trap symmetry ( http://arxiv.org/abs/2409.05123v4 ) ライセンス: Link先を確認 | Ezra Kassa, Shaobo Gao, Soon Teh, Dyon van Dinter, Hiroki Takahashi, | (参考訳) 量子システムをスケールアップする1つの方法はモジュラーアプローチを採用することである。
イオントラップアーキテクチャでは、独立した線形イオントラップ間の効率的なフォトニックインターフェースにより、そのような拡張が可能となる。
これにより、モード体積が小さい光学キャビティを利用でき、イオンからの光子放出確率を高めることができる。
ミニチュアファイバーベースのファブリペロキャビティは、単一のイオンを保持する3次元ポールトラップに統合されているが、光学キャビティと複数のイオンを保持することができる線形トラップとの効率的な界面は、まだ解明されていない。
これは、イオントラップ間の光学的界面と、イオン鎖内の運動結合の利点を組み合わせるための障壁となる。
本稿では, 簡易な導電性繊維の遮蔽効果と誘電体による運動加熱の悪影響を低減できることを示す。
また、導電シールドは、イオントラップにおける従来の無線周波数(rf)駆動と互換性がないが、相反する2つのrf信号を使用することで、この問題を解決できることを明らかにした。
さらに、線形トラップの翻訳対称性を乱す素子を組み込む際に電極の対称性が果たす役割を解析的に解明する。
その結果、表面トラップなどの線形イオントラップの二次元実装は、幾何学対称性の欠如による遮蔽された小型光学キャビティの統合には本質的に適していないことがわかった。
解析により得られた知見に基づいて, 線形イオントラップに組み込むべき必須成分と設計戦略を同定し, 小型光キャビティの集積を成功させる。
One method of scaling up quantum systems is to adopt a modular approach. In the ion trap architecture, an efficient photonic interface between independent linear ion traps would allow for such expansion. To this end, an optical cavity with a small mode volume can be utilised to enhance the photon emission probability from the ion. Miniature fibre-based Fabry-Perot cavities have been integrated into three-dimensional Paul traps that hold a single ion, whereas an efficient interface between an optical cavity and a linear trap that can keep multiple ions has remained elusive. This presents a barrier for combining the benefits of the motional coupling in a chain of ions with optical interface between ion traps. In this paper, we show that simple electrically conductive shielding of the fibres could provide substantial advantage in mitigating the adverse effects of stray charges and motional heating by dielectrics. We also reveal that the conductive shields are not compatible with the conventional radio frequency (rf) drive in ion traps but using two rf signals with opposite phases can solve this issue. Furthermore the role played by the symmetry of the electrodes when incorporating an element that disrupts the translational symmetry of a linear trap is elucidated analytically. As a result it is realized that two-dimensional implementation of a linear ion trap such as a surface trap is inherently not suitable for integrating a shielded miniature optical cavity due to the lack of geometrical symmetry. Based on the insights obtained through the analysis, we identify essential components and a design strategy that should be incorporated in a linear ion trap for successful integration of a miniature optical cavity. | 翻訳日:2024-11-07 22:49:49 公開日:2024-10-24 |
# 言語モデルにおける規則外挿:OODプロンプトの構成的一般化に関する研究
Rule Extrapolation in Language Models: A Study of Compositional Generalization on OOD Prompts ( http://arxiv.org/abs/2409.13728v1 ) ライセンス: Link先を確認 | Anna Mészáros, Szilvia Ujváry, Wieland Brendel, Patrik Reizinger, Ferenc Huszár, | (参考訳) LLMは、おそらくアウト・オブ・ディストリビューション・プロンプトから概念を推論するなど、イン・コンテクスト・ラーニング(in-context learning)として知られる顕著な創発的な能力を示す。
この成功はトランスフォーマーアーキテクチャによることが多いが、体系的な理解は限られている。
複雑な現実世界のデータセットでは、アウトオブディストリビューション(out-of-distribution)を定義することさえ明らかではない。
自己回帰 LLM の OOD 動作をよりよく理解するために,ルールの交わりによって定義される形式言語に着目した。
我々は、規則外挿と呼ばれるOOD合成一般化の新しいシナリオを定義する。
ルール外挿は、プロンプトが少なくとも1つのルールに違反するOODシナリオを記述する。
規則外挿に対するアーキテクチャの影響を理解するために,線形および繰り返しアーキテクチャ,トランスフォーマー,状態空間モデルにおいて,様々な複雑さを持つ形式言語における規則外挿を評価する。
我々はまた、アルゴリズム情報理論に先立ってソロモノフに触発された規則外挿の規範的理論の最初の石を配置した。
LLMs show remarkable emergent abilities, such as inferring concepts from presumably out-of-distribution prompts, known as in-context learning. Though this success is often attributed to the Transformer architecture, our systematic understanding is limited. In complex real-world data sets, even defining what is out-of-distribution is not obvious. To better understand the OOD behaviour of autoregressive LLMs, we focus on formal languages, which are defined by the intersection of rules. We define a new scenario of OOD compositional generalization, termed rule extrapolation. Rule extrapolation describes OOD scenarios, where the prompt violates at least one rule. We evaluate rule extrapolation in formal languages with varying complexity in linear and recurrent architectures, the Transformer, and state space models to understand the architectures' influence on rule extrapolation. We also lay the first stones of a normative theory of rule extrapolation, inspired by the Solomonoff prior in algorithmic information theory. | 翻訳日:2024-11-07 05:35:28 公開日:2024-10-24 |
# 言語モデルにおける規則外挿:OODプロンプトの構成的一般化に関する研究
Rule Extrapolation in Language Models: A Study of Compositional Generalization on OOD Prompts ( http://arxiv.org/abs/2409.13728v2 ) ライセンス: Link先を確認 | Anna Mészáros, Szilvia Ujváry, Wieland Brendel, Patrik Reizinger, Ferenc Huszár, | (参考訳) LLMは、おそらくアウト・オブ・ディストリビューション・プロンプトから概念を推論するなど、イン・コンテクスト・ラーニング(in-context learning)として知られる顕著な創発的な能力を示す。
この成功はトランスフォーマーアーキテクチャによることが多いが、体系的な理解は限られている。
複雑な現実世界のデータセットでは、アウトオブディストリビューション(out-of-distribution)を定義することさえ明らかではない。
自己回帰 LLM の OOD 動作をよりよく理解するために,ルールの交わりによって定義される形式言語に着目した。
我々は、規則外挿と呼ばれるOOD合成一般化の新しいシナリオを定義する。
ルール外挿は、プロンプトが少なくとも1つのルールに違反するOODシナリオを記述する。
規則外挿に対するアーキテクチャの影響を理解するために,線形および繰り返しアーキテクチャ,トランスフォーマー,状態空間モデルにおいて,様々な複雑さを持つ形式言語における規則外挿を評価する。
我々はまた、アルゴリズム情報理論に先立ってソロモノフに触発された規則外挿の規範的理論の最初の石を配置した。
LLMs show remarkable emergent abilities, such as inferring concepts from presumably out-of-distribution prompts, known as in-context learning. Though this success is often attributed to the Transformer architecture, our systematic understanding is limited. In complex real-world data sets, even defining what is out-of-distribution is not obvious. To better understand the OOD behaviour of autoregressive LLMs, we focus on formal languages, which are defined by the intersection of rules. We define a new scenario of OOD compositional generalization, termed rule extrapolation. Rule extrapolation describes OOD scenarios, where the prompt violates at least one rule. We evaluate rule extrapolation in formal languages with varying complexity in linear and recurrent architectures, the Transformer, and state space models to understand the architectures' influence on rule extrapolation. We also lay the first stones of a normative theory of rule extrapolation, inspired by the Solomonoff prior in algorithmic information theory. | 翻訳日:2024-11-07 05:35:28 公開日:2024-10-24 |
# Bose-Fermi $N$-polaron状態の相関による相分離の遮断による出現
Bose-Fermi $N$-polaron state emergence from correlation-mediated blocking of phase separation ( http://arxiv.org/abs/2409.13785v1 ) ライセンス: Link先を確認 | Felipe Gómez-Lozada, Hoshu Hiyane, Thomas Busch, Thomás Fogarty, | (参考訳) 単位充填時の1次元格子ボゾン浴中におけるフェルミオン不純物$N$について検討した。
DMRGと混合境界条件(ボソンで閉じ、フェルミオンで開く)を用いることで、高い種間反発で相分離を置換するN$ポラロン基底状態が見つかる。
この密接な束縛状態は、フォン・ノイマンエントロピーとバイパルタイト相互情報によってそれぞれ定量化される大きな不純物-不純物相関をもたらす強い不純物-不純物相関によって生じる。
このシステムはまた、不純物と浴の局所的相関により、モット絶縁体背景からのフェミオン自己局在効果を明らかにする。
長距離相関の成長はこのモット相を破り、局所的な不純物クラスターへ遷移する。
最後に, 決定的な不純物数が存在することを示す。これは, 相分離が回復する, 種内ボソニック相互作用に依存する。
We study $N$ fermionic impurities in a one-dimensional lattice bosonic bath at unit filling. Using DMRG and mixed boundary conditions -- closed for bosons, open for fermions -- we find an $N$-polaron ground state replacing phase separation at high interspecies repulsion. This tightly bound state of clustered particles emerges due to strong impurity-bath correlations which induce large impurity-impurity correlations, that we quantify via the von Neumann entropy and bipartite mutual information respectively. This system also reveals a fermionic self-localization effect from a Mott insulator background due to local correlations between the impurities and the bath. The growth of long-range correlations breaks this Mott phase, resulting in the transition to localized impurity clusters. Finally, we show that there is a critical impurity number, which depends on intraspecies bosonic interaction, beyond which phase separation is recovered. | 翻訳日:2024-11-07 05:13:17 公開日:2024-10-24 |
# Bose-Fermi $N$-polaron状態の相関による相分離の遮断による出現
Bose-Fermi $N$-polaron state emergence from correlation-mediated blocking of phase separation ( http://arxiv.org/abs/2409.13785v2 ) ライセンス: Link先を確認 | Felipe Gómez-Lozada, Hoshu Hiyane, Thomas Busch, Thomás Fogarty, | (参考訳) 単位充填時の1次元格子ボゾン浴中におけるフェルミオン不純物$N$について検討した。
DMRGと混合境界条件(ボソンで閉じ、フェルミオンで開く)を用いることで、高い種間反発で相分離を置換するN$ポラロン基底状態が見つかる。
この密接な束縛状態は、フォン・ノイマンエントロピーとバイパルタイト相互情報によってそれぞれ定量化される大きな不純物-不純物相関をもたらす強い不純物-不純物相関によって生じる。
このシステムはまた、不純物と浴の局所的相関により、モット絶縁体背景からのフェミオン自己局在効果を明らかにする。
長距離相関の成長はこのモット相を破り、局所的な不純物クラスターへ遷移する。
最後に, 決定的な不純物数が存在することを示す。これは, 相分離が回復する, 種内ボソニック相互作用に依存する。
We study $N$ fermionic impurities in a one-dimensional lattice bosonic bath at unit filling. Using DMRG and mixed boundary conditions -- closed for bosons, open for fermions -- we find an $N$-polaron ground state replacing phase separation at high interspecies repulsion. This tightly bound state of clustered particles emerges due to strong impurity-bath correlations which induce large impurity-impurity correlations, that we quantify via the von Neumann entropy and bipartite mutual information respectively. This system also reveals a fermionic self-localization effect from a Mott insulator background due to local correlations between the impurities and the bath. The growth of long-range correlations breaks this Mott phase, resulting in the transition to localized impurity clusters. Finally, we show that there is a critical impurity number, which depends on intraspecies bosonic interaction, beyond which phase separation is recovered. | 翻訳日:2024-11-07 05:13:17 公開日:2024-10-24 |
# 合成先行学習用変圧器を用いたワンショット世界モデル
One-shot World Models Using a Transformer Trained on a Synthetic Prior ( http://arxiv.org/abs/2409.14084v1 ) ライセンス: Link先を確認 | Fabio Ferreira, Moreno Schlageter, Raghu Rajan, Andre Biedenkapp, Frank Hutter, | (参考訳) World Model(ワールドモデル)は、実世界の環境を圧縮した空間的・時間的表現で、エージェントの訓練や計画手法の実行を可能にする。
しかしながら、世界モデルは一般的に実環境からの観察に基づいて訓練されており、通常、他の実環境に対する学習ポリシーを適用できない。
先行分布からサンプリングした純粋合成データから文脈内学習方式で学習するトランスフォーマー世界モデルであるOne-Shot World Model (OSWM)を提案する。
我々の前者は、複数のランダムに初期化されたニューラルネットワークで構成されており、各ネットワークは、所望の目標環境のそれぞれの状態のダイナミクスと報酬次元をモデル化する。
我々は、次状態と報酬をランダムなコンテキスト位置でマスキングし、OSWMに問い合わせ、残余の遷移コンテキストに基づいて確率的予測を行うことにより、事前入力ネットワークの教師付き学習手順を採用する。
推論時間の間、OSWMは1kトランジションステップをコンテキストとして提供することで、単純なグリッド世界のダイナミクス、CartPoleのジムとカスタムコントロール環境に迅速に適応することができ、環境解決エージェントポリシーのトレーニングを成功させることができる。
しかし、より複雑な環境への移動は依然として課題である。
これらの制限にもかかわらず、我々はこの研究を、純粋に合成データから世界モデルを学ぶための重要な足掛かりと見なしている。
A World Model is a compressed spatial and temporal representation of a real world environment that allows one to train an agent or execute planning methods. However, world models are typically trained on observations from the real world environment, and they usually do not enable learning policies for other real environments. We propose One-Shot World Model (OSWM), a transformer world model that is learned in an in-context learning fashion from purely synthetic data sampled from a prior distribution. Our prior is composed of multiple randomly initialized neural networks, where each network models the dynamics of each state and reward dimension of a desired target environment. We adopt the supervised learning procedure of Prior-Fitted Networks by masking next-state and reward at random context positions and query OSWM to make probabilistic predictions based on the remaining transition context. During inference time, OSWM is able to quickly adapt to the dynamics of a simple grid world, as well as the CartPole gym and a custom control environment by providing 1k transition steps as context and is then able to successfully train environment-solving agent policies. However, transferring to more complex environments remains a challenge, currently. Despite these limitations, we see this work as an important stepping-stone in the pursuit of learning world models purely from synthetic data. | 翻訳日:2024-11-07 03:44:25 公開日:2024-10-24 |
# 合成先行学習用変圧器を用いたワンショット世界モデル
One-shot World Models Using a Transformer Trained on a Synthetic Prior ( http://arxiv.org/abs/2409.14084v2 ) ライセンス: Link先を確認 | Fabio Ferreira, Moreno Schlageter, Raghu Rajan, Andre Biedenkapp, Frank Hutter, | (参考訳) World Model(ワールドモデル)は、実世界の環境を圧縮した空間的・時間的表現で、エージェントの訓練や計画手法の実行を可能にする。
しかしながら、世界モデルは一般的に実環境からの観察に基づいて訓練されており、通常、他の実環境に対する学習ポリシーを適用できない。
先行分布からサンプリングした純粋合成データから文脈内学習方式で学習するトランスフォーマー世界モデルであるOne-Shot World Model (OSWM)を提案する。
我々の前者は、複数のランダムに初期化されたニューラルネットワークで構成されており、各ネットワークは、所望の目標環境のそれぞれの状態のダイナミクスと報酬次元をモデル化する。
我々は、次状態と報酬をランダムなコンテキスト位置でマスキングし、OSWMに問い合わせ、残余の遷移コンテキストに基づいて確率的予測を行うことにより、事前入力ネットワークの教師付き学習手順を採用する。
推論時間の間、OSWMは1kトランジションステップをコンテキストとして提供することで、単純なグリッド世界のダイナミクス、CartPoleのジムとカスタムコントロール環境に迅速に適応することができ、環境解決エージェントポリシーのトレーニングを成功させることができる。
しかし、より複雑な環境への移動は依然として課題である。
これらの制限にもかかわらず、我々はこの研究を、純粋に合成データから世界モデルを学ぶための重要な足掛かりと見なしている。
A World Model is a compressed spatial and temporal representation of a real world environment that allows one to train an agent or execute planning methods. However, world models are typically trained on observations from the real world environment, and they usually do not enable learning policies for other real environments. We propose One-Shot World Model (OSWM), a transformer world model that is learned in an in-context learning fashion from purely synthetic data sampled from a prior distribution. Our prior is composed of multiple randomly initialized neural networks, where each network models the dynamics of each state and reward dimension of a desired target environment. We adopt the supervised learning procedure of Prior-Fitted Networks by masking next-state and reward at random context positions and query OSWM to make probabilistic predictions based on the remaining transition context. During inference time, OSWM is able to quickly adapt to the dynamics of a simple grid world, as well as the CartPole gym and a custom control environment by providing 1k transition steps as context and is then able to successfully train environment-solving agent policies. However, transferring to more complex environments remains a challenge, currently. Despite these limitations, we see this work as an important stepping-stone in the pursuit of learning world models purely from synthetic data. | 翻訳日:2024-11-07 03:44:25 公開日:2024-10-24 |
# ゼロ次フェデレーション学習のための歴史軌道支援最適化法
A Historical Trajectory Assisted Optimization Method for Zeroth-Order Federated Learning ( http://arxiv.org/abs/2409.15955v3 ) ライセンス: Link先を確認 | Chenlin Wu, Xiaoyu He, Zike Li, Zibin Zheng, | (参考訳) フェデレートラーニングは分散勾配降下技術に大きく依存している。
勾配情報が得られない状況では、勾配を0次情報から推定する必要がある。
この手法は、等方的サンプリング中に対象景観の幾何学的特徴を見落としてしまうため、高い推定誤差に悩まされる。
本研究では,勾配推定法を改善するための非等方的サンプリング法を提案する。
提案手法の勾配は,解の歴史的軌跡によって区切られた部分空間で推定され,将来性のある領域の探索を奨励し,収束を改善することを目的としている。
提案手法は,2つの部分の凸結合である共分散行列を用いてサンプリングを行う。
第1部は、攻撃能力を向上させるために設計された部分空間の基礎を含む薄いプロジェクション行列である。
第2部は歴史の軌跡である。
本手法は, ゼロオーダーのフェデレーション設定で実装し, コンバージェンスレートが既存のものと一致し, 通信や局所計算において大きなオーバーヘッドを伴わないことを示す。
提案手法の有効性をいくつかの数値実験で検証し, 一般に用いられている0次フェデレーション最適化アルゴリズムと比較した。
Federated learning heavily relies on distributed gradient descent techniques. In the situation where gradient information is not available, the gradients need to be estimated from zeroth-order information, which typically involves computing finite-differences along isotropic random directions. This method suffers from high estimation errors, as the geometric features of the objective landscape may be overlooked during the isotropic sampling. In this work, we propose a non-isotropic sampling method to improve the gradient estimation procedure. Gradients in our method are estimated in a subspace spanned by historical trajectories of solutions, aiming to encourage the exploration of promising regions and hence improve the convergence. The proposed method uses a covariance matrix for sampling which is a convex combination of two parts. The first part is a thin projection matrix containing the basis of the subspace which is designed to improve the exploitation ability. The second part is the historical trajectories. We implement this method in zeroth-order federated settings, and show that the convergence rate aligns with existing ones while introducing no significant overheads in communication or local computation. The effectiveness of our proposal is verified on several numerical experiments in comparison to several commonly-used zeroth-order federated optimization algorithms. | 翻訳日:2024-11-06 19:21:13 公開日:2024-10-24 |
# ゼロ次フェデレーション学習のための歴史軌道支援最適化法
A Historical Trajectory Assisted Optimization Method for Zeroth-Order Federated Learning ( http://arxiv.org/abs/2409.15955v4 ) ライセンス: Link先を確認 | Chenlin Wu, Xiaoyu He, Zike Li, Jing Gong, Zibin Zheng, | (参考訳) フェデレートラーニングは分散勾配降下技術に大きく依存している。
勾配情報が得られない状況では、勾配を0次情報から推定する必要がある。
この手法は、等方的サンプリング中に対象景観の幾何学的特徴を見落としてしまうため、高い推定誤差に悩まされる。
本研究では,勾配推定法を改善するための非等方的サンプリング法を提案する。
提案手法の勾配は,解の歴史的軌跡によって区切られた部分空間で推定され,将来性のある領域の探索を奨励し,収束を改善することを目的としている。
提案手法は,2つの部分の凸結合である共分散行列を用いてサンプリングを行う。
第1部は、攻撃能力を向上させるために設計された部分空間の基礎を含む薄いプロジェクション行列である。
第2部は歴史の軌跡である。
本手法は, ゼロオーダーのフェデレーション設定で実装し, コンバージェンスレートが既存のものと一致し, 通信や局所計算において大きなオーバーヘッドを伴わないことを示す。
提案手法の有効性をいくつかの数値実験で検証し, 一般に用いられている0次フェデレーション最適化アルゴリズムと比較した。
Federated learning heavily relies on distributed gradient descent techniques. In the situation where gradient information is not available, the gradients need to be estimated from zeroth-order information, which typically involves computing finite-differences along isotropic random directions. This method suffers from high estimation errors, as the geometric features of the objective landscape may be overlooked during the isotropic sampling. In this work, we propose a non-isotropic sampling method to improve the gradient estimation procedure. Gradients in our method are estimated in a subspace spanned by historical trajectories of solutions, aiming to encourage the exploration of promising regions and hence improve the convergence. The proposed method uses a covariance matrix for sampling which is a convex combination of two parts. The first part is a thin projection matrix containing the basis of the subspace which is designed to improve the exploitation ability. The second part is the historical trajectories. We implement this method in zeroth-order federated settings, and show that the convergence rate aligns with existing ones while introducing no significant overheads in communication or local computation. The effectiveness of our proposal is verified on several numerical experiments in comparison to several commonly-used zeroth-order federated optimization algorithms. | 翻訳日:2024-11-06 18:04:33 公開日:2024-10-24 |
# ゼロ次フェデレーション学習のための歴史軌道支援最適化法
A Historical Trajectory Assisted Optimization Method for Zeroth-Order Federated Learning ( http://arxiv.org/abs/2409.15955v5 ) ライセンス: Link先を確認 | Chenlin Wu, Xiaoyu He, Zike Li, Jing Gong, Zibin Zheng, | (参考訳) フェデレートラーニングは分散勾配降下技術に大きく依存している。
勾配情報が得られない状況では、勾配を0次情報から推定する必要がある。
この手法は、等方的サンプリング中に対象景観の幾何学的特徴を見落としてしまうため、高い推定誤差に悩まされる。
本研究では,勾配推定法を改善するための非等方的サンプリング法を提案する。
提案手法の勾配は,解の歴史的軌跡によって区切られた部分空間で推定され,将来性のある領域の探索を奨励し,収束を改善することを目的としている。
提案手法は,2つの部分の凸結合である共分散行列を用いてサンプリングを行う。
第1部は、攻撃能力を向上させるために設計された部分空間の基礎を含む薄いプロジェクション行列である。
第2部は歴史の軌跡である。
本手法は, ゼロオーダーのフェデレーション設定で実装し, コンバージェンスレートが既存のものと一致し, 通信や局所計算において大きなオーバーヘッドを伴わないことを示す。
提案手法の有効性をいくつかの数値実験で検証し, 一般に用いられている0次フェデレーション最適化アルゴリズムと比較した。
Federated learning heavily relies on distributed gradient descent techniques. In the situation where gradient information is not available, the gradients need to be estimated from zeroth-order information, which typically involves computing finite-differences along isotropic random directions. This method suffers from high estimation errors, as the geometric features of the objective landscape may be overlooked during the isotropic sampling. In this work, we propose a non-isotropic sampling method to improve the gradient estimation procedure. Gradients in our method are estimated in a subspace spanned by historical trajectories of solutions, aiming to encourage the exploration of promising regions and hence improve the convergence. The proposed method uses a covariance matrix for sampling which is a convex combination of two parts. The first part is a thin projection matrix containing the basis of the subspace which is designed to improve the exploitation ability. The second part is the historical trajectories. We implement this method in zeroth-order federated settings, and show that the convergence rate aligns with existing ones while introducing no significant overheads in communication or local computation. The effectiveness of our proposal is verified on several numerical experiments in comparison to several commonly-used zeroth-order federated optimization algorithms. | 翻訳日:2024-11-06 18:04:33 公開日:2024-10-24 |
# ID$^3$: 顔認識のためのID保存・yet分散拡散モデル
ID$^3$: Identity-Preserving-yet-Diversified Diffusion Models for Synthetic Face Recognition ( http://arxiv.org/abs/2409.17576v2 ) ライセンス: Link先を確認 | Shen Li, Jianqing Xu, Jiaying Wu, Miao Xiong, Ailin Deng, Jiazhen Ji, Yuge Huang, Wenjie Feng, Shouhong Ding, Bryan Hooi, | (参考訳) 合成顔認識(SFR)は、実際の顔データの分布を模倣する合成顔データセットを生成することを目的としており、プライバシー保護の方法で顔認識モデルをトレーニングすることができる。
画像生成における拡散モデルの顕著な可能性にもかかわらず、現在の拡散に基づくSFRモデルは現実の顔への一般化に苦慮している。
この制限に対処するため,(1)アイデンティティ間の多様性の促進(クラス間多様性),(2)さまざまな顔属性(クラス間多様性)を注入してアイデンティティ内の多様性を確保すること,(3)アイデンティティグループ内のアイデンティティの整合性を維持すること(クラス間アイデンティティ保存),の3つの目的を概説した。
これらの目標に触発されて、$\text{ID}^3$ と呼ばれる拡散燃料SFRモデルを導入する。
$\text{ID}^3$はID保存損失を使用して、多様だがアイデンティティに一貫性のある顔の外観を生成する。
理論的には、この損失を最小化することは、ID保存データに対する調整条件付きログ類似度の下限の最大化と等価であることを示す。
この等価性は、調整された勾配ベクトル場上で動作するID保存サンプリングアルゴリズムを動機付け、現実世界の顔の分布を近似した偽の顔認識データセットを生成する。
5つの挑戦的なベンチマークにわたる大規模な実験は、$\text{ID}^3$の利点を検証する。
Synthetic face recognition (SFR) aims to generate synthetic face datasets that mimic the distribution of real face data, which allows for training face recognition models in a privacy-preserving manner. Despite the remarkable potential of diffusion models in image generation, current diffusion-based SFR models struggle with generalization to real-world faces. To address this limitation, we outline three key objectives for SFR: (1) promoting diversity across identities (inter-class diversity), (2) ensuring diversity within each identity by injecting various facial attributes (intra-class diversity), and (3) maintaining identity consistency within each identity group (intra-class identity preservation). Inspired by these goals, we introduce a diffusion-fueled SFR model termed $\text{ID}^3$. $\text{ID}^3$ employs an ID-preserving loss to generate diverse yet identity-consistent facial appearances. Theoretically, we show that minimizing this loss is equivalent to maximizing the lower bound of an adjusted conditional log-likelihood over ID-preserving data. This equivalence motivates an ID-preserving sampling algorithm, which operates over an adjusted gradient vector field, enabling the generation of fake face recognition datasets that approximate the distribution of real-world faces. Extensive experiments across five challenging benchmarks validate the advantages of $\text{ID}^3$. | 翻訳日:2024-11-06 16:20:44 公開日:2024-10-24 |
# SSP-RACL:自己監督型事前訓練とロバスト適応型クレダルロスを用いたノイズダクト画像の分類
SSP-RACL: Classification of Noisy Fundus Images with Self-Supervised Pretraining and Robust Adaptive Credal Loss ( http://arxiv.org/abs/2409.18147v1 ) ライセンス: Link先を確認 | Mengwen Ye, Yingzi Huangfu, You Li, Zekuan Yu, | (参考訳) 基礎画像分類はコンピュータの診断タスクにおいて重要であるが、ラベルノイズはディープニューラルネットワークの性能を著しく損なう。
この課題に対処するために,ロバスト適応クレダルロス(SSP-RACL)を用いた自己監督型事前学習(Self-Supervised Pre-Training)という頑健なフレームワークを提案する。
まず,事前学習にMasked Autoencoders (MAE) を用い,ラベルノイズの影響を受けない特徴を抽出する。
その後、RACLはスーパーセット学習フレームワークを使用し、信頼度閾値と適応ラベル緩和パラメータを設定して、確率分布を構築し、より信頼性の高い地下構造推定を行い、記憶効果を効果的に抑制する。
さらに,臨床知識に基づく非対称ノイズ生成手法を導入し,実世界のノイズ・ファンドス画像データセットをシミュレートする。
実験により,提案手法はラベルノイズ処理における既存手法よりも優れた性能を示し,優れた性能を示した。
Fundus image classification is crucial in the computer aided diagnosis tasks, but label noise significantly impairs the performance of deep neural networks. To address this challenge, we propose a robust framework, Self-Supervised Pre-training with Robust Adaptive Credal Loss (SSP-RACL), for handling label noise in fundus image datasets. First, we use Masked Autoencoders (MAE) for pre-training to extract features, unaffected by label noise. Subsequently, RACL employ a superset learning framework, setting confidence thresholds and adaptive label relaxation parameter to construct possibility distributions and provide more reliable ground-truth estimates, thus effectively suppressing the memorization effect. Additionally, we introduce clinical knowledge-based asymmetric noise generation to simulate real-world noisy fundus image datasets. Experimental results demonstrate that our proposed method outperforms existing approaches in handling label noise, showing superior performance. | 翻訳日:2024-11-06 15:41:18 公開日:2024-10-24 |
# SSP-RACL:自己監督型事前訓練とロバスト適応型クレダルロスを用いたノイズダクト画像の分類
SSP-RACL: Classification of Noisy Fundus Images with Self-Supervised Pretraining and Robust Adaptive Credal Loss ( http://arxiv.org/abs/2409.18147v2 ) ライセンス: Link先を確認 | Mengwen Ye, Yingzi Huangfu, You Li, Zekuan Yu, | (参考訳) 基礎画像分類はコンピュータの診断タスクにおいて重要であるが、ラベルノイズはディープニューラルネットワークの性能を著しく損なう。
この課題に対処するために,ロバスト適応クレダルロス(SSP-RACL)を用いた自己監督型事前学習(Self-Supervised Pre-Training)という頑健なフレームワークを提案する。
まず,事前学習にMasked Autoencoders (MAE) を用い,ラベルノイズの影響を受けない特徴を抽出する。
その後、RACLはスーパーセット学習フレームワークを使用し、信頼度閾値と適応ラベル緩和パラメータを設定して、確率分布を構築し、より信頼性の高い地下構造推定を行い、記憶効果を効果的に抑制する。
さらに,臨床知識に基づく非対称ノイズ生成手法を導入し,実世界のノイズ・ファンドス画像データセットをシミュレートする。
実験により,提案手法はラベルノイズ処理における既存手法よりも優れた性能を示し,優れた性能を示した。
Fundus image classification is crucial in the computer aided diagnosis tasks, but label noise significantly impairs the performance of deep neural networks. To address this challenge, we propose a robust framework, Self-Supervised Pre-training with Robust Adaptive Credal Loss (SSP-RACL), for handling label noise in fundus image datasets. First, we use Masked Autoencoders (MAE) for pre-training to extract features, unaffected by label noise. Subsequently, RACL employ a superset learning framework, setting confidence thresholds and adaptive label relaxation parameter to construct possibility distributions and provide more reliable ground-truth estimates, thus effectively suppressing the memorization effect. Additionally, we introduce clinical knowledge-based asymmetric noise generation to simulate real-world noisy fundus image datasets. Experimental results demonstrate that our proposed method outperforms existing approaches in handling label noise, showing superior performance. | 翻訳日:2024-11-06 15:41:18 公開日:2024-10-24 |
# SSP-RACL:自己監督型事前訓練とロバスト適応型クレダルロスを用いたノイズダクト画像の分類
SSP-RACL: Classification of Noisy Fundus Images with Self-Supervised Pretraining and Robust Adaptive Credal Loss ( http://arxiv.org/abs/2409.18147v3 ) ライセンス: Link先を確認 | Mengwen Ye, Yingzi Huangfu, You Li, Zekuan Yu, | (参考訳) 基礎画像分類はコンピュータの診断タスクにおいて重要であるが、ラベルノイズはディープニューラルネットワークの性能を著しく損なう。
この課題に対処するために,ロバスト適応クレダルロス(SSP-RACL)を用いた自己監督型事前学習(Self-Supervised Pre-Training)という頑健なフレームワークを提案する。
まず,事前学習にMasked Autoencoders (MAE) を用い,ラベルノイズの影響を受けない特徴を抽出する。
その後、RACLはスーパーセット学習フレームワークを使用し、信頼度閾値と適応ラベル緩和パラメータを設定して、確率分布を構築し、より信頼性の高い地下構造推定を行い、記憶効果を効果的に抑制する。
さらに,臨床知識に基づく非対称ノイズ生成手法を導入し,実世界のノイズ・ファンドス画像データセットをシミュレートする。
実験により,提案手法はラベルノイズ処理における既存手法よりも優れた性能を示し,優れた性能を示した。
Fundus image classification is crucial in the computer aided diagnosis tasks, but label noise significantly impairs the performance of deep neural networks. To address this challenge, we propose a robust framework, Self-Supervised Pre-training with Robust Adaptive Credal Loss (SSP-RACL), for handling label noise in fundus image datasets. First, we use Masked Autoencoders (MAE) for pre-training to extract features, unaffected by label noise. Subsequently, RACL employ a superset learning framework, setting confidence thresholds and adaptive label relaxation parameter to construct possibility distributions and provide more reliable ground-truth estimates, thus effectively suppressing the memorization effect. Additionally, we introduce clinical knowledge-based asymmetric noise generation to simulate real-world noisy fundus image datasets. Experimental results demonstrate that our proposed method outperforms existing approaches in handling label noise, showing superior performance. | 翻訳日:2024-11-06 15:41:18 公開日:2024-10-24 |
# 個人データ共有自律化に向けて:タスク駆動型データカプセル共有システム
Towards Personal Data Sharing Autonomy:A Task-driven Data Capsule Sharing System ( http://arxiv.org/abs/2409.18449v1 ) ライセンス: Link先を確認 | Qiuyun Lyu, Yilong Zhou, Yizhi Ren, Zheng Wang, Yunchuan Guo, | (参考訳) パーソナルデータカストディアンサービスは、データ所有者がデータを便利な方法で、いつでもどこでもデータ消費者と共有できるようにする。
しかし、これらのサービスにホストされるデータは、データ所有者のコントロール以上のものであるため、個人データ共有におけるプライバシに関する重大な懸念を生じさせる。
データ共有における詳細なアクセス制御とプライバシ保護を実現するため,多くのスキームが提案されている。
しかし、データ所有者のプライバシを向上するのではなく、システム管理者の管理に重点を置いているため、法律の下でデータ所有者の権利を保護できない。
本稿では,個人データ共有の自律性を実現するために,データカプセルパラダイムに基づくタスク駆動型個人データ共有システムを提案する。
システム内のデータ所有者が自分のデータを完全にコントロールし、それを自律的に共有できるのです。
具体的には,データカプセルを独立かつセキュアな個人データストレージと共有のための最小単位とする,タンパー抵抗型データカプセルカプセルカプセル化法を提案する。
さらに、選択的共有とインフォメーション・コンテンツに基づく認証を実現するために、衝突やEDoS攻撃に耐性のあるタスク駆動型データ共有機構を提案する。
さらに、データカプセルの一部を更新することで、データ消費者に許可された許可を直ちに取り消すことができる。
最後に、我々はセキュリティとパフォーマンスの分析を行い、我々のスキームが正確で、健全で、安全であることを証明し、また、最先端のスキームと比較して、実用性においてより有利な特徴を明らかにする。
Personal data custodian services enable data owners to share their data with data consumers in a convenient manner, anytime and anywhere. However, with data hosted in these services being beyond the control of the data owners, it raises significant concerns about privacy in personal data sharing. Many schemes have been proposed to realize fine-grained access control and privacy protection in data sharing. However, they fail to protect the rights of data owners to their data under the law, since their designs focus on the management of system administrators rather than enhancing the data owners' privacy. In this paper, we introduce a novel task-driven personal data sharing system based on the data capsule paradigm realizing personal data sharing autonomy. It enables data owners in our system to fully control their data, and share it autonomously. Specifically, we present a tamper-resistant data capsule encapsulation method, where the data capsule is the minimal unit for independent and secure personal data storage and sharing. Additionally, to realize selective sharing and informed-consent based authorization, we propose a task-driven data sharing mechanism that is resistant to collusion and EDoS attacks. Furthermore, by updating parts of the data capsules, the permissions granted to data consumers can be immediately revoked. Finally, we conduct a security and performance analysis, proving that our scheme is correct, sound, and secure, as well as revealing more advantageous features in practicality, compared with the state-of-the-art schemes. | 翻訳日:2024-11-06 06:11:53 公開日:2024-10-24 |
# 個人データ共有自律化に向けて:タスク駆動型データカプセル共有システム
Towards Personal Data Sharing Autonomy:A Task-driven Data Capsule Sharing System ( http://arxiv.org/abs/2409.18449v2 ) ライセンス: Link先を確認 | Qiuyun Lyu, Yilong Zhou, Yizhi Ren, Zhen Wang, Yunchuan Guo, | (参考訳) パーソナルデータカストディアンサービスは、データ所有者がデータを便利な方法で、いつでもどこでもデータ消費者と共有できるようにする。
しかし、これらのサービスにホストされるデータは、データ所有者のコントロール以上のものであるため、個人データ共有におけるプライバシに関する重大な懸念を生じさせる。
データ共有における詳細なアクセス制御とプライバシ保護を実現するため,多くのスキームが提案されている。
しかし、データ所有者のプライバシを向上するのではなく、システム管理者の管理に重点を置いているため、法律の下でデータ所有者の権利を保護できない。
本稿では,個人データ共有の自律性を実現するために,データカプセルパラダイムに基づくタスク駆動型個人データ共有システムを提案する。
システム内のデータ所有者が自分のデータを完全にコントロールし、それを自律的に共有できるのです。
具体的には,データカプセルを独立かつセキュアな個人データストレージと共有のための最小単位とする,タンパー抵抗型データカプセルカプセルカプセル化法を提案する。
さらに、選択的共有とインフォメーション・コンテンツに基づく認証を実現するために、衝突やEDoS攻撃に耐性のあるタスク駆動型データ共有機構を提案する。
さらに、データカプセルの一部を更新することで、データ消費者に許可された許可を直ちに取り消すことができる。
最後に、我々はセキュリティとパフォーマンスの分析を行い、我々のスキームが正確で、健全で、安全であることを証明し、また、最先端のスキームと比較して、実用性においてより有利な特徴を明らかにする。
Personal data custodian services enable data owners to share their data with data consumers in a convenient manner, anytime and anywhere. However, with data hosted in these services being beyond the control of the data owners, it raises significant concerns about privacy in personal data sharing. Many schemes have been proposed to realize fine-grained access control and privacy protection in data sharing. However, they fail to protect the rights of data owners to their data under the law, since their designs focus on the management of system administrators rather than enhancing the data owners' privacy. In this paper, we introduce a novel task-driven personal data sharing system based on the data capsule paradigm realizing personal data sharing autonomy. It enables data owners in our system to fully control their data, and share it autonomously. Specifically, we present a tamper-resistant data capsule encapsulation method, where the data capsule is the minimal unit for independent and secure personal data storage and sharing. Additionally, to realize selective sharing and informed-consent based authorization, we propose a task-driven data sharing mechanism that is resistant to collusion and EDoS attacks. Furthermore, by updating parts of the data capsules, the permissions granted to data consumers can be immediately revoked. Finally, we conduct a security and performance analysis, proving that our scheme is correct, sound, and secure, as well as revealing more advantageous features in practicality, compared with the state-of-the-art schemes. | 翻訳日:2024-11-06 06:11:53 公開日:2024-10-24 |
# DENEB:画像キャプションのための幻覚ロバスト自動評価指標
DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning ( http://arxiv.org/abs/2409.19255v1 ) ライセンス: Link先を確認 | Kazuki Matsuda, Yuiga Wada, Komei Sugiura, | (参考訳) 本研究では,幻覚に対するロバスト性に着目し,画像キャプションの自動評価指標を開発することの課題に対処する。
既存のメトリクスはしばしば幻覚を扱うのに不十分であり、主に候補のキャプションと多面的な参照キャプションを比較する能力に制限があるためである。
この欠点に対処するために,幻覚に対して頑健な新しい教師付き自動評価尺度であるDENEBを提案する。
DENEBは、複数の参照を同時に処理し、画像、候補キャプション、参照キャプションの類似性を効率的に取得するメカニズムであるSim-Vec Transformerを組み込んでいる。
DENEBを訓練するために、我々は32,978個の画像からなる多彩でバランスの取れた星雲データセットを構築し、805個のアノテータによって提供される人間の判断と組み合わせた。
DeNEBはFOIL, Composite, Flickr8K-Expert, Flickr8K-CF, Nebula, PASCAL-50Sデータセット上で, 既存のLCMフリーメトリクスの最先端性能を実現し, 幻覚に対する有効性と堅牢性を検証した。
In this work, we address the challenge of developing automatic evaluation metrics for image captioning, with a particular focus on robustness against hallucinations. Existing metrics are often inadequate for handling hallucinations, primarily due to their limited ability to compare candidate captions with multifaceted reference captions. To address this shortcoming, we propose DENEB, a novel supervised automatic evaluation metric specifically robust against hallucinations. DENEB incorporates the Sim-Vec Transformer, a mechanism that processes multiple references simultaneously, thereby efficiently capturing the similarity between an image, a candidate caption, and reference captions. To train DENEB, we construct the diverse and balanced Nebula dataset comprising 32,978 images, paired with human judgments provided by 805 annotators. We demonstrated that DENEB achieves state-of-the-art performance among existing LLM-free metrics on the FOIL, Composite, Flickr8K-Expert, Flickr8K-CF, Nebula, and PASCAL-50S datasets, validating its effectiveness and robustness against hallucinations. | 翻訳日:2024-11-06 00:18:22 公開日:2024-10-24 |
# DENEB:画像キャプションのための幻覚ロバスト自動評価指標
DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning ( http://arxiv.org/abs/2409.19255v2 ) ライセンス: Link先を確認 | Kazuki Matsuda, Yuiga Wada, Komei Sugiura, | (参考訳) 本研究では,幻覚に対するロバスト性に着目し,画像キャプションの自動評価指標を開発することの課題に対処する。
既存のメトリクスはしばしば幻覚を扱うのに不十分であり、主に候補のキャプションと多面的な参照キャプションを比較する能力に制限があるためである。
この欠点に対処するために,幻覚に対して頑健な新しい教師付き自動評価尺度であるDENEBを提案する。
DENEBは、複数の参照を同時に処理し、画像、候補キャプション、参照キャプションの類似性を効率的に取得するメカニズムであるSim-Vec Transformerを組み込んでいる。
DENEBを訓練するために、我々は32,978個の画像からなる多彩でバランスの取れた星雲データセットを構築し、805個のアノテータによって提供される人間の判断と組み合わせた。
DeNEBはFOIL, Composite, Flickr8K-Expert, Flickr8K-CF, Nebula, PASCAL-50Sデータセット上で, 既存のLCMフリーメトリクスの最先端性能を実現し, 幻覚に対する有効性と堅牢性を検証した。
In this work, we address the challenge of developing automatic evaluation metrics for image captioning, with a particular focus on robustness against hallucinations. Existing metrics are often inadequate for handling hallucinations, primarily due to their limited ability to compare candidate captions with multifaceted reference captions. To address this shortcoming, we propose DENEB, a novel supervised automatic evaluation metric specifically robust against hallucinations. DENEB incorporates the Sim-Vec Transformer, a mechanism that processes multiple references simultaneously, thereby efficiently capturing the similarity between an image, a candidate caption, and reference captions. To train DENEB, we construct the diverse and balanced Nebula dataset comprising 32,978 images, paired with human judgments provided by 805 annotators. We demonstrated that DENEB achieves state-of-the-art performance among existing LLM-free metrics on the FOIL, Composite, Flickr8K-Expert, Flickr8K-CF, Nebula, and PASCAL-50S datasets, validating its effectiveness and robustness against hallucinations. | 翻訳日:2024-11-06 00:18:22 公開日:2024-10-24 |
# RNG: 楽しいニューラルガウシアン
RNG: Relightable Neural Gaussians ( http://arxiv.org/abs/2409.19702v1 ) ライセンス: Link先を確認 | Jiahui Fan, Fujun Luan, Jian Yang, Miloš Hašan, Beibei Wang, | (参考訳) 3D Gaussian Splatting (3DGS)は、新しいビュー合成において、その印象的な力を示している。
しかし、特に不定義の形状(例: fur)を持つオブジェクトに対して、リライタブルな3Dアセットを作成することは、依然として困難な作業である。
これらのシーンでは、表面の制約や分析シェーディングモデルが保持されないため、光、幾何学、材料の間の分解はより曖昧である。
この問題に対処するため、我々はRNGを提案する。RNGは、リライト可能なニューラルガウスの表現であり、硬い表面やふわふわした境界を持つ物体のリライティングを可能にする。
シェーディングモデルにおける仮定は避けるが、特徴ベクトルは維持し、各ガウス点において MLP によって色にさらに復号化することができる。
先行研究の後、各点灯を用いてあいまいさを低減し、ネットワークにシャドウ認識条件を導入する。
さらに,3DGSフレームワーク下での影の計算を支援する深度改善ネットワークを提案し,点灯下での影の効果を向上する。
さらに,3DGSにおけるアルファブレンディングによる曖昧さを回避するために,ハイブリッド前方遅延最適化戦略を設計する。
その結果、トレーニングで約20\times$、レンダリングで約600\times$を、RTX4090で毎秒60$フレームのニューラルラディアンスフィールドに基づく以前の作業よりも高速に達成しました。
3D Gaussian Splatting (3DGS) has shown its impressive power in novel view synthesis. However, creating relightable 3D assets, especially for objects with ill-defined shapes (e.g., fur), is still a challenging task. For these scenes, the decomposition between the light, geometry, and material is more ambiguous, as neither the surface constraints nor the analytical shading model hold. To address this issue, we propose RNG, a novel representation of relightable neural Gaussians, enabling the relighting of objects with both hard surfaces or fluffy boundaries. We avoid any assumptions in the shading model but maintain feature vectors, which can be further decoded by an MLP into colors, in each Gaussian point. Following prior work, we utilize a point light to reduce the ambiguity and introduce a shadow-aware condition to the network. We additionally propose a depth refinement network to help the shadow computation under the 3DGS framework, leading to better shadow effects under point lights. Furthermore, to avoid the blurriness brought by the alpha-blending in 3DGS, we design a hybrid forward-deferred optimization strategy. As a result, we achieve about $20\times$ faster in training and about $600\times$ faster in rendering than prior work based on neural radiance fields, with $60$ frames per second on an RTX4090. | 翻訳日:2024-11-05 21:29:26 公開日:2024-10-24 |
# RNG: 楽しいニューラルガウシアン
RNG: Relightable Neural Gaussians ( http://arxiv.org/abs/2409.19702v2 ) ライセンス: Link先を確認 | Jiahui Fan, Fujun Luan, Jian Yang, Miloš Hašan, Beibei Wang, | (参考訳) 3D Gaussian Splatting (3DGS)は、新しいビュー合成において、その印象的な力を示している。
しかし、特に不定義の形状(例: fur)を持つオブジェクトに対して、リライタブルな3Dアセットを作成することは、依然として困難な作業である。
これらのシーンでは、表面の制約や分析シェーディングモデルが保持されないため、光、幾何学、材料の間の分解はより曖昧である。
この問題に対処するため、我々はRNGを提案する。RNGは、リライト可能なニューラルガウスの表現であり、硬い表面やふわふわした境界を持つ物体のリライティングを可能にする。
シェーディングモデルにおける仮定は避けるが、特徴ベクトルは維持し、各ガウス点において MLP によって色にさらに復号化することができる。
先行研究の後、各点灯を用いてあいまいさを低減し、ネットワークにシャドウ認識条件を導入する。
さらに,3DGSフレームワーク下での影の計算を支援する深度改善ネットワークを提案し,点灯下での影の効果を向上する。
さらに,3DGSにおけるアルファブレンディングによる曖昧さを回避するために,ハイブリッド前方遅延最適化戦略を設計する。
その結果、トレーニングで約20\times$、レンダリングで約600\times$を、RTX4090で毎秒60$フレームのニューラルラディアンスフィールドに基づく以前の作業よりも高速に達成しました。
3D Gaussian Splatting (3DGS) has shown its impressive power in novel view synthesis. However, creating relightable 3D assets, especially for objects with ill-defined shapes (e.g., fur), is still a challenging task. For these scenes, the decomposition between the light, geometry, and material is more ambiguous, as neither the surface constraints nor the analytical shading model hold. To address this issue, we propose RNG, a novel representation of relightable neural Gaussians, enabling the relighting of objects with both hard surfaces or fluffy boundaries. We avoid any assumptions in the shading model but maintain feature vectors, which can be further decoded by an MLP into colors, in each Gaussian point. Following prior work, we utilize a point light to reduce the ambiguity and introduce a shadow-aware condition to the network. We additionally propose a depth refinement network to help the shadow computation under the 3DGS framework, leading to better shadow effects under point lights. Furthermore, to avoid the blurriness brought by the alpha-blending in 3DGS, we design a hybrid forward-deferred optimization strategy. As a result, we achieve about $20\times$ faster in training and about $600\times$ faster in rendering than prior work based on neural radiance fields, with $60$ frames per second on an RTX4090. | 翻訳日:2024-11-05 21:29:26 公開日:2024-10-24 |
# RNG: 楽しいニューラルガウシアン
RNG: Relightable Neural Gaussians ( http://arxiv.org/abs/2409.19702v3 ) ライセンス: Link先を確認 | Jiahui Fan, Fujun Luan, Jian Yang, Miloš Hašan, Beibei Wang, | (参考訳) 3D Gaussian Splatting (3DGS)は、新しいビュー合成において、その印象的な力を示している。
しかし、特に不定義の形状(例: fur)を持つオブジェクトに対して、リライタブルな3Dアセットを作成することは、依然として困難な作業である。
これらのシーンでは、表面の制約や分析シェーディングモデルが保持されないため、光、幾何学、材料の間の分解はより曖昧である。
この問題に対処するため、我々はRNGを提案する。RNGは、リライト可能なニューラルガウスの表現であり、硬い表面やふわふわした境界を持つ物体のリライティングを可能にする。
シェーディングモデルにおける仮定は避けるが、特徴ベクトルは維持し、各ガウス点において MLP によって色にさらに復号化することができる。
先行研究の後、各点灯を用いてあいまいさを低減し、ネットワークにシャドウ認識条件を導入する。
さらに,3DGSフレームワーク下での影の計算を支援する深度改善ネットワークを提案し,点灯下での影の効果を向上する。
さらに,3DGSにおけるアルファブレンディングによる曖昧さを回避するために,ハイブリッド前方遅延最適化戦略を設計する。
その結果、トレーニングで約20\times$、レンダリングで約600\times$を、RTX4090で毎秒60$フレームのニューラルラディアンスフィールドに基づく以前の作業よりも高速に達成しました。
3D Gaussian Splatting (3DGS) has shown its impressive power in novel view synthesis. However, creating relightable 3D assets, especially for objects with ill-defined shapes (e.g., fur), is still a challenging task. For these scenes, the decomposition between the light, geometry, and material is more ambiguous, as neither the surface constraints nor the analytical shading model hold. To address this issue, we propose RNG, a novel representation of relightable neural Gaussians, enabling the relighting of objects with both hard surfaces or fluffy boundaries. We avoid any assumptions in the shading model but maintain feature vectors, which can be further decoded by an MLP into colors, in each Gaussian point. Following prior work, we utilize a point light to reduce the ambiguity and introduce a shadow-aware condition to the network. We additionally propose a depth refinement network to help the shadow computation under the 3DGS framework, leading to better shadow effects under point lights. Furthermore, to avoid the blurriness brought by the alpha-blending in 3DGS, we design a hybrid forward-deferred optimization strategy. As a result, we achieve about $20\times$ faster in training and about $600\times$ faster in rendering than prior work based on neural radiance fields, with $60$ frames per second on an RTX4090. | 翻訳日:2024-11-05 21:29:26 公開日:2024-10-24 |
# 不要な視覚データ除去のためのテキスト・トレーニング
Textual Training for the Hassle-Free Removal of Unwanted Visual Data ( http://arxiv.org/abs/2409.19840v1 ) ライセンス: Link先を確認 | Saehyung Lee, Jisoo Mok, Sangha Park, Yongho Shin, Dahuin Jung, Sungroh Yoon, | (参考訳) 本研究では,視覚的データセットに潜む不要なコンテンツを検出する方法を検討する。
本稿では,テキストデータのみを用いて視覚データを分割可能なモデルが得られることを示す理論的解析を行う。
そこで本研究では,学習済みの視覚言語モデルと組み合わせた合成テキストデータのみを用いて,望ましくない視覚内容の検出器を取得できる合理化手法であるHassle-Free Textual Training (HFTT)を提案する。
HFTTは、人間のデータアノテーションへの関与を著しく減少させる革新的な客観的機能を備えている。
さらに、HFTTは、未知の視覚データ分布のトレーニングプロセスへの統合を、余分なコストで効果的にエミュレートする、巧妙なテキストデータ合成手法を採用している。
HFTTの独特な特徴は、その機能を従来のアウト・オブ・ディストリビューション検出を超えて拡張し、より抽象的な概念に対処するタスクに適用できるようにする。
我々は,分布外検出とヘイトフル画像検出の実験で分析を補完する。
私たちのコードはhttps://github.com/Saehyung-Lee/HFTTで利用可能です。
In our study, we explore methods for detecting unwanted content lurking in visual datasets. We provide a theoretical analysis demonstrating that a model capable of successfully partitioning visual data can be obtained using only textual data. Based on the analysis, we propose Hassle-Free Textual Training (HFTT), a streamlined method capable of acquiring detectors for unwanted visual content, using only synthetic textual data in conjunction with pre-trained vision-language models. HFTT features an innovative objective function that significantly reduces the necessity for human involvement in data annotation. Furthermore, HFTT employs a clever textual data synthesis method, effectively emulating the integration of unknown visual data distribution into the training process at no extra cost. The unique characteristics of HFTT extend its utility beyond traditional out-of-distribution detection, making it applicable to tasks that address more abstract concepts. We complement our analyses with experiments in out-of-distribution detection and hateful image detection. Our codes are available at https://github.com/Saehyung-Lee/HFTT | 翻訳日:2024-11-05 17:19:55 公開日:2024-10-24 |
# 不要な視覚データ除去のためのテキストトレーニング : OODとHateful Image Detectionを事例として
Textual Training for the Hassle-Free Removal of Unwanted Visual Data: Case Studies on OOD and Hateful Image Detection ( http://arxiv.org/abs/2409.19840v2 ) ライセンス: Link先を確認 | Saehyung Lee, Jisoo Mok, Sangha Park, Yongho Shin, Dahuin Jung, Sungroh Yoon, | (参考訳) 本研究では,視覚的データセットに潜む不要なコンテンツを検出する方法を検討する。
本稿では,テキストデータのみを用いて視覚データを分割可能なモデルが得られることを示す理論的解析を行う。
そこで本研究では,学習済みの視覚言語モデルと組み合わせた合成テキストデータのみを用いて,望ましくない視覚内容の検出器を取得できる合理化手法であるHassle-Free Textual Training (HFTT)を提案する。
HFTTは、人間のデータアノテーションへの関与を著しく減少させる革新的な客観的機能を備えている。
さらに、HFTTは、未知の視覚データ分布のトレーニングプロセスへの統合を、余分なコストで効果的にエミュレートする、巧妙なテキストデータ合成手法を採用している。
HFTTの独特な特徴は、その機能を従来のアウト・オブ・ディストリビューション検出を超えて拡張し、より抽象的な概念に対処するタスクに適用できるようにする。
我々は,分布外検出とヘイトフル画像検出の実験で分析を補完する。
私たちのコードはhttps://github.com/Saehyung-Lee/HFTTで利用可能です。
In our study, we explore methods for detecting unwanted content lurking in visual datasets. We provide a theoretical analysis demonstrating that a model capable of successfully partitioning visual data can be obtained using only textual data. Based on the analysis, we propose Hassle-Free Textual Training (HFTT), a streamlined method capable of acquiring detectors for unwanted visual content, using only synthetic textual data in conjunction with pre-trained vision-language models. HFTT features an innovative objective function that significantly reduces the necessity for human involvement in data annotation. Furthermore, HFTT employs a clever textual data synthesis method, effectively emulating the integration of unknown visual data distribution into the training process at no extra cost. The unique characteristics of HFTT extend its utility beyond traditional out-of-distribution detection, making it applicable to tasks that address more abstract concepts. We complement our analyses with experiments in out-of-distribution detection and hateful image detection. Our codes are available at https://github.com/Saehyung-Lee/HFTT | 翻訳日:2024-11-05 17:19:55 公開日:2024-10-24 |
# Codev-Bench: LLMは開発者中心のコード補完にどのように耐えられるか?
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? ( http://arxiv.org/abs/2410.01353v1 ) ライセンス: Link先を確認 | Zhenyu Pan, Rongyu Cao, Yongchang Cao, Yingwei Ma, Binhua Li, Fei Huang, Han Liu, Yongbin Li, | (参考訳) コード補完は、コード生成における重要な下流タスクであり、ソフトウェア開発における開発者の生産性を高める最も頻繁で影響力のある方法の1つである。
インテリジェントな補完ツールが進化するにつれて、製品間の有意義な比較を可能にし、将来の進歩をガイドする堅牢な評価ベンチマークが必要です。
しかし、既存のベンチマークでは、開発者が遭遇する現実のシナリオよりも、一般的なコード生成に類似した産業分析のない粗いタスクに重点を置いている。
さらに、これらのベンチマークはコストと時間を要する人間のアノテーションに依存しており、スタンドアロンのテストケースでは、リポジトリレベルの理解とコードカバレッジの最大化のために最小限のテストを活用することができません。
これらの制約に対処するため、まず産業用コード補完ツールからビジネスデータを分析し、その評価基準を再定義し、コーディングプロセス全体を通して、開発者の意図と望ましい完了行動に適合するようにします。
これらの知見に基づいて,リポジトリのクローリングを自動化するエージェントベースのシステムであるCodev-Agentを導入し,実行環境を構築し,既存のユニットテストから動的呼び出しチェーンを抽出し,データ漏洩を回避するために新しいテストサンプルを生成し,公正かつ効果的な比較を確実にする。
Codev-Agentを使って、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークであるCode-Development Benchmark(Codev-Bench)を紹介します。
Codev-Bench氏は、コード補完ツールが開発者の直近の意図を捉え、さまざまなコンテキストにまたがる適切なコードを提案することができるかどうかを評価し、モダンなソフトウェア開発におけるコード補完のより現実的なベンチマークを提供する。
Code completion, a key downstream task in code generation, is one of the most frequent and impactful methods for enhancing developer productivity in software development. As intelligent completion tools evolve, we need a robust evaluation benchmark that enables meaningful comparisons between products and guides future advancements. However, existing benchmarks focus more on coarse-grained tasks without industrial analysis resembling general code generation rather than the real-world scenarios developers encounter. Moreover, these benchmarks often rely on costly and time-consuming human annotation, and the standalone test cases fail to leverage minimal tests for maximum repository-level understanding and code coverage. To address these limitations, we first analyze business data from an industrial code completion tool and redefine the evaluation criteria to better align with the developer's intent and desired completion behavior throughout the coding process. Based on these insights, we introduce Codev-Agent, an agent-based system that automates repository crawling, constructs execution environments, extracts dynamic calling chains from existing unit tests, and generates new test samples to avoid data leakage, ensuring fair and effective comparisons. Using Codev-Agent, we present the Code-Development Benchmark (Codev-Bench), a fine-grained, real-world, repository-level, and developer-centric evaluation framework. Codev-Bench assesses whether a code completion tool can capture a developer's immediate intent and suggest appropriate code across diverse contexts, providing a more realistic benchmark for code completion in modern software development. | 翻訳日:2024-11-04 21:39:21 公開日:2024-10-24 |
# Codev-Bench: LLMは開発者中心のコード補完にどのように耐えられるか?
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? ( http://arxiv.org/abs/2410.01353v2 ) ライセンス: Link先を確認 | Zhenyu Pan, Rongyu Cao, Yongchang Cao, Yingwei Ma, Binhua Li, Fei Huang, Han Liu, Yongbin Li, | (参考訳) コード補完は、コード生成における重要な下流タスクであり、ソフトウェア開発における開発者の生産性を高める最も頻繁で影響力のある方法の1つである。
インテリジェントな補完ツールが進化するにつれて、製品間の有意義な比較を可能にし、将来の進歩をガイドする堅牢な評価ベンチマークが必要です。
しかし、既存のベンチマークでは、開発者が遭遇する現実のシナリオよりも、一般的なコード生成に類似した産業分析のない粗いタスクに重点を置いている。
さらに、これらのベンチマークはコストと時間を要する人間のアノテーションに依存しており、スタンドアロンのテストケースでは、リポジトリレベルの理解とコードカバレッジの最大化のために最小限のテストを活用することができません。
これらの制約に対処するため、まず産業用コード補完ツールからビジネスデータを分析し、その評価基準を再定義し、コーディングプロセス全体を通して、開発者の意図と望ましい完了行動に適合するようにします。
これらの知見に基づいて,リポジトリのクローリングを自動化するエージェントベースのシステムであるCodev-Agentを導入し,実行環境を構築し,既存のユニットテストから動的呼び出しチェーンを抽出し,データ漏洩を回避するために新しいテストサンプルを生成し,公正かつ効果的な比較を確実にする。
Codev-Agentを使って、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークであるCode-Development Benchmark(Codev-Bench)を紹介します。
Codev-Bench氏は、コード補完ツールが開発者の直近の意図を捉え、さまざまなコンテキストにまたがる適切なコードを提案することができるかどうかを評価し、モダンなソフトウェア開発におけるコード補完のより現実的なベンチマークを提供する。
Code completion, a key downstream task in code generation, is one of the most frequent and impactful methods for enhancing developer productivity in software development. As intelligent completion tools evolve, we need a robust evaluation benchmark that enables meaningful comparisons between products and guides future advancements. However, existing benchmarks focus more on coarse-grained tasks without industrial analysis resembling general code generation rather than the real-world scenarios developers encounter. Moreover, these benchmarks often rely on costly and time-consuming human annotation, and the standalone test cases fail to leverage minimal tests for maximum repository-level understanding and code coverage. To address these limitations, we first analyze business data from an industrial code completion tool and redefine the evaluation criteria to better align with the developer's intent and desired completion behavior throughout the coding process. Based on these insights, we introduce Codev-Agent, an agent-based system that automates repository crawling, constructs execution environments, extracts dynamic calling chains from existing unit tests, and generates new test samples to avoid data leakage, ensuring fair and effective comparisons. Using Codev-Agent, we present the Code-Development Benchmark (Codev-Bench), a fine-grained, real-world, repository-level, and developer-centric evaluation framework. Codev-Bench assesses whether a code completion tool can capture a developer's immediate intent and suggest appropriate code across diverse contexts, providing a more realistic benchmark for code completion in modern software development. | 翻訳日:2024-11-04 21:39:21 公開日:2024-10-24 |
# Codev-Bench: LLMは開発者中心のコード補完にどのように耐えられるか?
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? ( http://arxiv.org/abs/2410.01353v3 ) ライセンス: Link先を確認 | Zhenyu Pan, Rongyu Cao, Yongchang Cao, Yingwei Ma, Binhua Li, Fei Huang, Han Liu, Yongbin Li, | (参考訳) コード補完は、コード生成における重要な下流タスクであり、ソフトウェア開発における開発者の生産性を高める最も頻繁で影響力のある方法の1つである。
インテリジェントな補完ツールが進化するにつれて、製品間の有意義な比較を可能にし、将来の進歩をガイドする堅牢な評価ベンチマークが必要です。
しかし、既存のベンチマークでは、開発者が遭遇する現実のシナリオよりも、一般的なコード生成に類似した産業分析のない粗いタスクに重点を置いている。
さらに、これらのベンチマークはコストと時間を要する人間のアノテーションに依存しており、スタンドアロンのテストケースでは、リポジトリレベルの理解とコードカバレッジの最大化のために最小限のテストを活用することができません。
これらの制約に対処するため、まず産業用コード補完ツールからビジネスデータを分析し、その評価基準を再定義し、コーディングプロセス全体を通して、開発者の意図と望ましい完了行動に適合するようにします。
これらの知見に基づいて,リポジトリのクローリングを自動化するエージェントベースのシステムであるCodev-Agentを導入し,実行環境を構築し,既存のユニットテストから動的呼び出しチェーンを抽出し,データ漏洩を回避するために新しいテストサンプルを生成し,公正かつ効果的な比較を確実にする。
Codev-Agentを使って、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークであるCode-Development Benchmark(Codev-Bench)を紹介します。
Codev-Bench氏は、コード補完ツールが開発者の直近の意図を捉え、さまざまなコンテキストにまたがる適切なコードを提案することができるかどうかを評価し、モダンなソフトウェア開発におけるコード補完のより現実的なベンチマークを提供する。
Code completion, a key downstream task in code generation, is one of the most frequent and impactful methods for enhancing developer productivity in software development. As intelligent completion tools evolve, we need a robust evaluation benchmark that enables meaningful comparisons between products and guides future advancements. However, existing benchmarks focus more on coarse-grained tasks without industrial analysis resembling general code generation rather than the real-world scenarios developers encounter. Moreover, these benchmarks often rely on costly and time-consuming human annotation, and the standalone test cases fail to leverage minimal tests for maximum repository-level understanding and code coverage. To address these limitations, we first analyze business data from an industrial code completion tool and redefine the evaluation criteria to better align with the developer's intent and desired completion behavior throughout the coding process. Based on these insights, we introduce Codev-Agent, an agent-based system that automates repository crawling, constructs execution environments, extracts dynamic calling chains from existing unit tests, and generates new test samples to avoid data leakage, ensuring fair and effective comparisons. Using Codev-Agent, we present the Code-Development Benchmark (Codev-Bench), a fine-grained, real-world, repository-level, and developer-centric evaluation framework. Codev-Bench assesses whether a code completion tool can capture a developer's immediate intent and suggest appropriate code across diverse contexts, providing a more realistic benchmark for code completion in modern software development. | 翻訳日:2024-11-04 21:39:21 公開日:2024-10-24 |
# Mind Scramble:Typoglycemiaによる大規模言語モデル心理学の展開
Mind Scramble: Unveiling Large Language Model Psychology Via Typoglycemia ( http://arxiv.org/abs/2410.01677v1 ) ライセンス: Link先を確認 | Miao Yu, Junyuan Mao, Guibin Zhang, Jingheng Ye, Junfeng Fang, Aoxiao Zhong, Yang Liu, Yuxuan Liang, Kun Wang, Qingsong Wen, | (参考訳) 大規模言語モデル(LLM)の外部動作と内部機構の研究は、物理世界の複雑なタスクに対処する上で有望であることが示されている。
研究によると、GPT-4のような強力なLDMは、計画、推論、反射を含む人間のような認知能力を示し始めている。
本稿では,LLMの認知行動とメカニズムを解明するために,人間の心理学実験を活用するLLM心理学という研究ラインと方法論を紹介する。
我々は, LLMの「ミンド」を探るため, タイポ血糖現象を心理学から移行した。
スクランブルテキストを理解するための文脈や単語パターンに依存する人間の脳とは異なり、LLMは異なるエンコーディングとデコードプロセスを使用する。
キャラクタ,単語,文レベルでのタイポ血糖実験を通じて, (I) LLMは, タスク精度の低下やトークン/時間消費の増大など,マクロスケールでの人間的行動を示す; (II) LLMはスクランブル入力に対して様々な堅牢性を示す; (II) タイポ血糖を新しいデータセットを使わずにモデル評価のためのベンチマークにする; (III) 複雑な論理的タスク(例えば数学)がスクランブルフォームでより困難である; (IV) 各LLMは,タスク全体にわたって一貫した「認知パターン」を持ち,その心理学的プロセスにおける一般的なメカニズムを明らかにする。
我々は、これらの現象を説明するために隠された層を詳細に分析し、LLM心理学における将来の研究と深い解釈可能性の道を開く。
Research into the external behaviors and internal mechanisms of large language models (LLMs) has shown promise in addressing complex tasks in the physical world. Studies suggest that powerful LLMs, like GPT-4, are beginning to exhibit human-like cognitive abilities, including planning, reasoning, and reflection. In this paper, we introduce a research line and methodology called LLM Psychology, leveraging human psychology experiments to investigate the cognitive behaviors and mechanisms of LLMs. We migrate the Typoglycemia phenomenon from psychology to explore the "mind" of LLMs. Unlike human brains, which rely on context and word patterns to comprehend scrambled text, LLMs use distinct encoding and decoding processes. Through Typoglycemia experiments at the character, word, and sentence levels, we observe: (I) LLMs demonstrate human-like behaviors on a macro scale, such as lower task accuracy and higher token/time consumption; (II) LLMs exhibit varying robustness to scrambled input, making Typoglycemia a benchmark for model evaluation without new datasets; (III) Different task types have varying impacts, with complex logical tasks (e.g., math) being more challenging in scrambled form; (IV) Each LLM has a unique and consistent "cognitive pattern" across tasks, revealing general mechanisms in its psychology process. We provide an in-depth analysis of hidden layers to explain these phenomena, paving the way for future research in LLM Psychology and deeper interpretability. | 翻訳日:2024-11-04 16:13:24 公開日:2024-10-24 |
# Mind Scramble:Typoglycemiaによる大規模言語モデル心理学の展開
Mind Scramble: Unveiling Large Language Model Psychology Via Typoglycemia ( http://arxiv.org/abs/2410.01677v2 ) ライセンス: Link先を確認 | Miao Yu, Junyuan Mao, Guibin Zhang, Jingheng Ye, Junfeng Fang, Aoxiao Zhong, Yang Liu, Yuxuan Liang, Kun Wang, Qingsong Wen, | (参考訳) 大規模言語モデル(LLM)の外部動作と内部機構の研究は、物理世界の複雑なタスクに対処する上で有望であることが示されている。
研究によると、GPT-4のような強力なLDMは、計画、推論、反射を含む人間のような認知能力を示し始めている。
本稿では,LLMの認知行動とメカニズムを解明するために,人間の心理学実験を活用するLLM心理学という研究ラインと方法論を紹介する。
我々は, LLMの「ミンド」を探るため, タイポ血糖現象を心理学から移行した。
スクランブルテキストを理解するための文脈や単語パターンに依存する人間の脳とは異なり、LLMは異なるエンコーディングとデコードプロセスを使用する。
キャラクタ,単語,文レベルでのタイポ血糖実験を通じて, (I) LLMは, タスク精度の低下やトークン/時間消費の増大など,マクロスケールでの人間的行動を示す; (II) LLMはスクランブル入力に対して様々な堅牢性を示す; (II) タイポ血糖を新しいデータセットを使わずにモデル評価のためのベンチマークにする; (III) 複雑な論理的タスク(例えば数学)がスクランブルフォームでより困難である; (IV) 各LLMは,タスク全体にわたって一貫した「認知パターン」を持ち,その心理学的プロセスにおける一般的なメカニズムを明らかにする。
我々は、これらの現象を説明するために隠された層を詳細に分析し、LLM心理学における将来の研究と深い解釈可能性の道を開く。
Research into the external behaviors and internal mechanisms of large language models (LLMs) has shown promise in addressing complex tasks in the physical world. Studies suggest that powerful LLMs, like GPT-4, are beginning to exhibit human-like cognitive abilities, including planning, reasoning, and reflection. In this paper, we introduce a research line and methodology called LLM Psychology, leveraging human psychology experiments to investigate the cognitive behaviors and mechanisms of LLMs. We migrate the Typoglycemia phenomenon from psychology to explore the "mind" of LLMs. Unlike human brains, which rely on context and word patterns to comprehend scrambled text, LLMs use distinct encoding and decoding processes. Through Typoglycemia experiments at the character, word, and sentence levels, we observe: (I) LLMs demonstrate human-like behaviors on a macro scale, such as lower task accuracy and higher token/time consumption; (II) LLMs exhibit varying robustness to scrambled input, making Typoglycemia a benchmark for model evaluation without new datasets; (III) Different task types have varying impacts, with complex logical tasks (e.g., math) being more challenging in scrambled form; (IV) Each LLM has a unique and consistent "cognitive pattern" across tasks, revealing general mechanisms in its psychology process. We provide an in-depth analysis of hidden layers to explain these phenomena, paving the way for future research in LLM Psychology and deeper interpretability. | 翻訳日:2024-11-04 16:03:18 公開日:2024-10-24 |
# Mind Scramble:Typoglycemiaによる大規模言語モデル心理学の展開
Mind Scramble: Unveiling Large Language Model Psychology Via Typoglycemia ( http://arxiv.org/abs/2410.01677v3 ) ライセンス: Link先を確認 | Miao Yu, Junyuan Mao, Guibin Zhang, Jingheng Ye, Junfeng Fang, Aoxiao Zhong, Yang Liu, Yuxuan Liang, Kun Wang, Qingsong Wen, | (参考訳) 大規模言語モデル(LLM)の外部動作と内部機構の研究は、物理世界の複雑なタスクに対処する上で有望であることが示されている。
研究によると、GPT-4のような強力なLDMは、計画、推論、反射を含む人間のような認知能力を示し始めている。
本稿では,LLMの認知行動とメカニズムを解明するために,人間の心理学実験を活用するLLM心理学という研究ラインと方法論を紹介する。
我々は, LLMの「ミンド」を探るため, タイポ血糖現象を心理学から移行した。
スクランブルテキストを理解するための文脈や単語パターンに依存する人間の脳とは異なり、LLMは異なるエンコーディングとデコードプロセスを使用する。
キャラクタ,単語,文レベルでのタイポ血糖実験を通じて, (I) LLMは, タスク精度の低下やトークン/時間消費の増大など,マクロスケールでの人間的行動を示す; (II) LLMはスクランブル入力に対して様々な堅牢性を示す; (II) タイポ血糖を新しいデータセットを使わずにモデル評価のためのベンチマークにする; (III) 複雑な論理的タスク(例えば数学)がスクランブルフォームでより困難である; (IV) 各LLMは,タスク全体にわたって一貫した「認知パターン」を持ち,その心理学的プロセスにおける一般的なメカニズムを明らかにする。
我々は、これらの現象を説明するために隠された層を詳細に分析し、LLM心理学における将来の研究と深い解釈可能性の道を開く。
Research into the external behaviors and internal mechanisms of large language models (LLMs) has shown promise in addressing complex tasks in the physical world. Studies suggest that powerful LLMs, like GPT-4, are beginning to exhibit human-like cognitive abilities, including planning, reasoning, and reflection. In this paper, we introduce a research line and methodology called LLM Psychology, leveraging human psychology experiments to investigate the cognitive behaviors and mechanisms of LLMs. We migrate the Typoglycemia phenomenon from psychology to explore the "mind" of LLMs. Unlike human brains, which rely on context and word patterns to comprehend scrambled text, LLMs use distinct encoding and decoding processes. Through Typoglycemia experiments at the character, word, and sentence levels, we observe: (I) LLMs demonstrate human-like behaviors on a macro scale, such as lower task accuracy and higher token/time consumption; (II) LLMs exhibit varying robustness to scrambled input, making Typoglycemia a benchmark for model evaluation without new datasets; (III) Different task types have varying impacts, with complex logical tasks (e.g., math) being more challenging in scrambled form; (IV) Each LLM has a unique and consistent "cognitive pattern" across tasks, revealing general mechanisms in its psychology process. We provide an in-depth analysis of hidden layers to explain these phenomena, paving the way for future research in LLM Psychology and deeper interpretability. | 翻訳日:2024-11-04 16:03:18 公開日:2024-10-24 |
# ニューラルネットワークにおける代数的物体によるタスク推論のためのグローバル最適化器の構成
Composing Global Optimizers to Reasoning Tasks via Algebraic Objects in Neural Nets ( http://arxiv.org/abs/2410.01779v1 ) ライセンス: Link先を確認 | Yuandong Tian, | (参考訳) 2層ニューラルネットワークの2次活性化と損失$L_2$の解空間のリッチ代数的構造を証明し、アベリア群の推論タスク(モジュラー加算など)を訓練した。
このようなリッチな構造は、その高い非線形性にもかかわらず、損失の一部を満足する部分解から大域最適解を解析的に構築することができる。
私たちはこのフレームワークをCoGO(Composing Global Optimizers)として作りました。
具体的には、2層ネットワークの隠蔽ノード数の異なる重み空間は半環代数構造を備えており、最適化される損失関数は環準同型である単項ポテンシャルから成り、環加法と乗法により部分解を大域的に構成できることを示す。
実験の結果,勾配降下法により得られる解の約9,5 %は,我々の理論的構成と一致することがわかった。
グローバルオプティマイザの構築には少数の隠れノードしか必要としなかったが、勾配ダイナミクスの解析により、過度パラメータ化はトレーニングダイナミクスを漸近的に分離し、有用であることが示された。
さらに、トレーニング力学は、重量減衰下でのより単純な解を好んでおり、完全記憶のような高次大域最適化器は好ましくないことを示す。
We prove rich algebraic structures of the solution space for 2-layer neural networks with quadratic activation and $L_2$ loss, trained on reasoning tasks in Abelian group (e.g., modular addition). Such a rich structure enables analytical construction of global optimal solutions from partial solutions that only satisfy part of the loss, despite its high nonlinearity. We coin the framework as CoGO (Composing Global Optimizers). Specifically, we show that the weight space over different numbers of hidden nodes of the 2-layer network is equipped with a semi-ring algebraic structure, and the loss function to be optimized consists of monomial potentials, which are ring homomorphism, allowing partial solutions to be composed into global ones by ring addition and multiplication. Our experiments show that around $95\%$ of the solutions obtained by gradient descent match exactly our theoretical constructions. Although the global optimizers constructed only required a small number of hidden nodes, our analysis on gradient dynamics shows that over-parameterization asymptotically decouples training dynamics and is beneficial. We further show that training dynamics favors simpler solutions under weight decay, and thus high-order global optimizers such as perfect memorization are unfavorable. | 翻訳日:2024-11-04 15:24:18 公開日:2024-10-24 |
# ニューラルネットワークにおける代数的物体によるタスク推論のためのグローバル最適化器の構成
Composing Global Optimizers to Reasoning Tasks via Algebraic Objects in Neural Nets ( http://arxiv.org/abs/2410.01779v2 ) ライセンス: Link先を確認 | Yuandong Tian, | (参考訳) 2層ニューラルネットワークの2次活性化と損失$L_2$の解空間のリッチ代数的構造を証明し、アベリア群の推論タスク(モジュラー加算など)を訓練した。
このようなリッチな構造は、その高い非線形性にもかかわらず、損失の一部を満足する部分解から大域最適解を解析的に構築することができる。
私たちはこのフレームワークをCoGO(Composing Global Optimizers)として作りました。
具体的には、2層ネットワークの隠蔽ノード数の異なる重み空間は半環代数構造を備えており、最適化される損失関数は環準同型である単項ポテンシャルから成り、環加法と乗法により部分解を大域的に構成できることを示す。
実験の結果,勾配降下法により得られる解の約9,5 %は,我々の理論的構成と一致することがわかった。
グローバルオプティマイザの構築には少数の隠れノードしか必要としなかったが、勾配ダイナミクスの解析により、過度パラメータ化はトレーニングダイナミクスを漸近的に分離し、有用であることが示された。
さらに、トレーニング力学は、重量減衰下でのより単純な解を好んでおり、完全記憶のような高次大域最適化器は好ましくないことを示す。
We prove rich algebraic structures of the solution space for 2-layer neural networks with quadratic activation and $L_2$ loss, trained on reasoning tasks in Abelian group (e.g., modular addition). Such a rich structure enables analytical construction of global optimal solutions from partial solutions that only satisfy part of the loss, despite its high nonlinearity. We coin the framework as CoGO (Composing Global Optimizers). Specifically, we show that the weight space over different numbers of hidden nodes of the 2-layer network is equipped with a semi-ring algebraic structure, and the loss function to be optimized consists of monomial potentials, which are ring homomorphism, allowing partial solutions to be composed into global ones by ring addition and multiplication. Our experiments show that around $95\%$ of the solutions obtained by gradient descent match exactly our theoretical constructions. Although the global optimizers constructed only required a small number of hidden nodes, our analysis on gradient dynamics shows that over-parameterization asymptotically decouples training dynamics and is beneficial. We further show that training dynamics favors simpler solutions under weight decay, and thus high-order global optimizers such as perfect memorization are unfavorable. | 翻訳日:2024-11-04 15:14:33 公開日:2024-10-24 |
# デュアルエンコーダを用いた翻訳検索問題としてのPythonのコード検索
Approaching Code Search for Python as a Translation Retrieval Problem with Dual Encoders ( http://arxiv.org/abs/2410.03431v1 ) ライセンス: Link先を確認 | Monoshiz Mahbub Khan, Zhe Yu, | (参考訳) コード検索はソフトウェアシステムの保守と拡張に不可欠である。
過去の研究では、複数のエンコーダと異なる損失関数を持つモデル上で、自然言語とプログラミング言語のアーティファクトに別々の言語モデルを使用してきた。
同様に、自然言語クエリとプログラミング言語が2種類の言語として扱われる間、翻訳検索問題としてPythonのコード検索にアプローチする。
デュアルエンコーダを使用することで、これらの2種類の言語シーケンスは、与えられたクエリとコード間の類似性を反映した、共有埋め込み空間に投影される。
しかし、従来の研究とは対照的に、この手法は統一言語モデルとコサイン類似性損失関数を持つ二重エンコーダ構造を用いる。
統一言語モデルは、アーティファクト間の単語の相当な重複をモデルが活用し、学習をより容易にするのに役立つ。
一方、コサイン類似性損失で訓練されたデュアルエンコーダは、関係するアーティファクトのペアを予測する上で、どの用語が重要であるかという下線パターンをモデルが学習するのに役立つ。
評価の結果,提案モデルは最先端のコード検索モデルよりも性能がよいことがわかった。
さらに、このモデルは時間と複雑さの点ではるかに安価で、より安く、より速く、より良い代替手段を提供する。
Code search is vital in the maintenance and extension of software systems. Past works have used separate language models for the natural language and programming language artifacts on models with multiple encoders and different loss functions. Similarly, this work approaches code search for Python as a translation retrieval problem while the natural language queries and the programming language are treated as two types of languages. By using dual encoders, these two types of language sequences are projected onto a shared embedding space, in which the distance reflects the similarity between a given pair of query and code. However, in contrast to previous work, this approach uses a unified language model, and a dual encoder structure with a cosine similarity loss function. A unified language model helps the model take advantage of the considerable overlap of words between the artifacts, making the learning much easier. On the other hand, the dual encoders trained with cosine similarity loss helps the model learn the underlining patterns of which terms are important for predicting linked pairs of artifacts. Evaluation shows the proposed model achieves performance better than state-of-the-art code search models. In addition, this model is much less expensive in terms of time and complexity, offering a cheaper, faster, and better alternative. | 翻訳日:2024-11-02 22:19:23 公開日:2024-10-24 |
# デュアルエンコーダを用いた翻訳検索問題としてのPythonのコード検索
Approaching Code Search for Python as a Translation Retrieval Problem with Dual Encoders ( http://arxiv.org/abs/2410.03431v2 ) ライセンス: Link先を確認 | Monoshiz Mahbub Khan, Zhe Yu, | (参考訳) コード検索はソフトウェアシステムの保守と拡張に不可欠である。
過去の研究では、複数のエンコーダと異なる損失関数を持つモデル上で、自然言語とプログラミング言語のアーティファクトに別々の言語モデルを使用してきた。
同様に、自然言語クエリとプログラミング言語が2種類の言語として扱われる間、翻訳検索問題としてPythonのコード検索にアプローチする。
デュアルエンコーダを使用することで、これらの2種類の言語シーケンスは、与えられたクエリとコード間の類似性を反映した、共有埋め込み空間に投影される。
しかし、従来の研究とは対照的に、この手法は統一言語モデルとコサイン類似性損失関数を持つ二重エンコーダ構造を用いる。
統一言語モデルは、アーティファクト間の単語の相当な重複をモデルが活用し、学習をより容易にするのに役立つ。
一方、コサイン類似性損失で訓練されたデュアルエンコーダは、関係するアーティファクトのペアを予測する上で、どの用語が重要であるかという下線パターンをモデルが学習するのに役立つ。
評価の結果,提案モデルは最先端のコード検索モデルよりも性能がよいことがわかった。
さらに、このモデルは時間と複雑さの点ではるかに安価で、より安く、より速く、より良い代替手段を提供する。
Code search is vital in the maintenance and extension of software systems. Past works have used separate language models for the natural language and programming language artifacts on models with multiple encoders and different loss functions. Similarly, this work approaches code search for Python as a translation retrieval problem while the natural language queries and the programming language are treated as two types of languages. By using dual encoders, these two types of language sequences are projected onto a shared embedding space, in which the distance reflects the similarity between a given pair of query and code. However, in contrast to previous work, this approach uses a unified language model, and a dual encoder structure with a cosine similarity loss function. A unified language model helps the model take advantage of the considerable overlap of words between the artifacts, making the learning much easier. On the other hand, the dual encoders trained with cosine similarity loss helps the model learn the underlining patterns of which terms are important for predicting linked pairs of artifacts. Evaluation shows the proposed model achieves performance better than state-of-the-art code search models. In addition, this model is much less expensive in terms of time and complexity, offering a cheaper, faster, and better alternative. | 翻訳日:2024-11-02 22:19:23 公開日:2024-10-24 |
# LongGenBench: 長期コンテキスト生成ベンチマーク
LongGenBench: Long-context Generation Benchmark ( http://arxiv.org/abs/2410.04199v1 ) ライセンス: Link先を確認 | Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu, | (参考訳) 現在のロングコンテキストベンチマークは、主に検索ベースのテストに焦点を当てており、大規模な言語モデル(LLM)は、ニードル・イン・ア・ヘイスタック(NIAH)ベンチマークのような、広範囲な入力コンテキスト内で特定の情報を見つける必要がある。
長文生成(Long-context generation)とは、長い文節や文書にまたがるコヒーレントで文脈的に正確なテキストを生成する言語モデルである。
最近の研究は、NIAHや他の検索ベースの長文ベンチマークに強い性能を示すが、長文生成能力を評価するためのベンチマークが欠如している。
このギャップを埋め、包括的な評価を提供するために、カスタマイズされた生成コンテキスト長の柔軟な構成を可能にする合成ベンチマークであるLongGenBenchを導入する。
LongGenBenchは、従来のベンチマークを超えて、質問のフォーマットを再設計し、LLMが単一の密集したロングコンテキストの回答で応答する必要がある。
1) APIアクセスモデルとオープンソースモデルの両方が1.2%から47.1%の長文生成シナリオで性能劣化を示す; (2) LLMの異なるシリーズはパフォーマンス劣化の傾向を示す; Gemini-1.5-FlashモデルはAPIアクセスモデルで最小の劣化を示す; Qwen2シリーズはオープンソースモデルでLongGenBenchで最小の劣化を示す。
Current long-context benchmarks primarily focus on retrieval-based tests, requiring Large Language Models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark. Long-context generation refers to the ability of a language model to generate coherent and contextually accurate text that spans across lengthy passages or documents. While recent studies show strong performance on NIAH and other retrieval-based long-context benchmarks, there is a significant lack of benchmarks for evaluating long-context generation capabilities. To bridge this gap and offer a comprehensive assessment, we introduce a synthetic benchmark, LongGenBench, which allows for flexible configurations of customized generation context lengths. LongGenBench advances beyond traditional benchmarks by redesigning the format of questions and necessitating that LLMs respond with a single, cohesive long-context answer. Upon extensive evaluation using LongGenBench, we observe that: (1) both API accessed and open source models exhibit performance degradation in long-context generation scenarios, ranging from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of performance degradation, with the Gemini-1.5-Flash model showing the least degradation among API accessed models, and the Qwen2 series exhibiting the least degradation in LongGenBench among open source models. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-24 |
# LongGenBench: 長期コンテキスト生成ベンチマーク
LongGenBench: Long-context Generation Benchmark ( http://arxiv.org/abs/2410.04199v2 ) ライセンス: Link先を確認 | Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu, | (参考訳) 現在のロングコンテキストベンチマークは、主に検索ベースのテストに焦点を当てており、大規模な言語モデル(LLM)は、ニードル・イン・ア・ヘイスタック(NIAH)ベンチマークのような、広範囲な入力コンテキスト内で特定の情報を見つける必要がある。
長文生成(Long-context generation)とは、長い文節や文書にまたがるコヒーレントで文脈的に正確なテキストを生成する言語モデルである。
最近の研究は、NIAHや他の検索ベースの長文ベンチマークに強い性能を示すが、長文生成能力を評価するためのベンチマークが欠如している。
このギャップを埋め、包括的な評価を提供するために、カスタマイズされた生成コンテキスト長の柔軟な構成を可能にする合成ベンチマークであるLongGenBenchを導入する。
LongGenBenchは、従来のベンチマークを超えて、質問のフォーマットを再設計し、LLMが単一の密集したロングコンテキストの回答で応答する必要がある。
1) APIアクセスモデルとオープンソースモデルの両方が1.2%から47.1%の長文生成シナリオで性能劣化を示す; (2) LLMの異なるシリーズはパフォーマンス劣化の傾向を示す; Gemini-1.5-FlashモデルはAPIアクセスモデルで最小の劣化を示す; Qwen2シリーズはオープンソースモデルでLongGenBenchで最小の劣化を示す。
Current long-context benchmarks primarily focus on retrieval-based tests, requiring Large Language Models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark. Long-context generation refers to the ability of a language model to generate coherent and contextually accurate text that spans across lengthy passages or documents. While recent studies show strong performance on NIAH and other retrieval-based long-context benchmarks, there is a significant lack of benchmarks for evaluating long-context generation capabilities. To bridge this gap and offer a comprehensive assessment, we introduce a synthetic benchmark, LongGenBench, which allows for flexible configurations of customized generation context lengths. LongGenBench advances beyond traditional benchmarks by redesigning the format of questions and necessitating that LLMs respond with a single, cohesive long-context answer. Upon extensive evaluation using LongGenBench, we observe that: (1) both API accessed and open source models exhibit performance degradation in long-context generation scenarios, ranging from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of performance degradation, with the Gemini-1.5-Flash model showing the least degradation among API accessed models, and the Qwen2 series exhibiting the least degradation in LongGenBench among open source models. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-24 |
# LongGenBench: 長期コンテキスト生成ベンチマーク
LongGenBench: Long-context Generation Benchmark ( http://arxiv.org/abs/2410.04199v3 ) ライセンス: Link先を確認 | Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu, | (参考訳) 現在のロングコンテキストベンチマークは、主に検索ベースのテストに焦点を当てており、大規模な言語モデル(LLM)は、ニードル・イン・ア・ヘイスタック(NIAH)ベンチマークのような、広範囲な入力コンテキスト内で特定の情報を見つける必要がある。
長文生成(Long-context generation)とは、長い文節や文書にまたがるコヒーレントで文脈的に正確なテキストを生成する言語モデルである。
最近の研究は、NIAHや他の検索ベースの長文ベンチマークに強い性能を示すが、長文生成能力を評価するためのベンチマークが欠如している。
このギャップを埋め、包括的な評価を提供するために、カスタマイズされた生成コンテキスト長の柔軟な構成を可能にする合成ベンチマークであるLongGenBenchを導入する。
LongGenBenchは、従来のベンチマークを超えて、質問のフォーマットを再設計し、LLMが単一の密集したロングコンテキストの回答で応答する必要がある。
1) APIアクセスモデルとオープンソースモデルの両方が1.2%から47.1%の長文生成シナリオで性能劣化を示す; (2) LLMの異なるシリーズはパフォーマンス劣化の傾向を示す; Gemini-1.5-FlashモデルはAPIアクセスモデルで最小の劣化を示す; Qwen2シリーズはオープンソースモデルでLongGenBenchで最小の劣化を示す。
Current long-context benchmarks primarily focus on retrieval-based tests, requiring Large Language Models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark. Long-context generation refers to the ability of a language model to generate coherent and contextually accurate text that spans across lengthy passages or documents. While recent studies show strong performance on NIAH and other retrieval-based long-context benchmarks, there is a significant lack of benchmarks for evaluating long-context generation capabilities. To bridge this gap and offer a comprehensive assessment, we introduce a synthetic benchmark, LongGenBench, which allows for flexible configurations of customized generation context lengths. LongGenBench advances beyond traditional benchmarks by redesigning the format of questions and necessitating that LLMs respond with a single, cohesive long-context answer. Upon extensive evaluation using LongGenBench, we observe that: (1) both API accessed and open source models exhibit performance degradation in long-context generation scenarios, ranging from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of performance degradation, with the Gemini-1.5-Flash model showing the least degradation among API accessed models, and the Qwen2 series exhibiting the least degradation in LongGenBench among open source models. | 翻訳日:2024-11-02 13:31:47 公開日:2024-10-24 |
# 反復的議論による大規模言語モデルの対立的マルチエージェント評価
Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates ( http://arxiv.org/abs/2410.04663v1 ) ライセンス: Link先を確認 | Chaithanya Bandi, Hari Bandi, Abir Harrasse, | (参考訳) 本稿では,LLM自体を用いた大規模言語モデル(LLM)の出力評価のための最適アーキテクチャについて検討する。
本稿では, LLMを対話エージェントのアンサンブル内での支持者として解釈し, その回答を守り, 審査員と陪審員のシステムを通じて結論に達することのできる, 新たな枠組みを提案する。
このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
このフレームワークの背景にあるモチベーション、主要なコンポーネント、および比較上の利点について論じる。
また,反復的アドボケートシステムによって達成される誤差低減を評価する確率モデルを提案する。
最後に,マルチアドボケートアーキテクチャの有効性を検証する実験の概要と今後の研究方向性について述べる。
This paper explores optimal architectures for evaluating the outputs of large language models (LLMs) using LLMs themselves. We propose a novel framework that interprets LLMs as advocates within an ensemble of interacting agents, allowing them to defend their answers and reach conclusions through a judge and jury system. This approach offers a more dynamic and comprehensive evaluation process compared to traditional human-based assessments or automated metrics. We discuss the motivation behind this framework, its key components, and comparative advantages. We also present a probabilistic model to evaluate the error reduction achieved by iterative advocate systems. Finally, we outline experiments to validate the effectiveness of multi-advocate architectures and discuss future research directions. | 翻訳日:2024-11-02 02:47:36 公開日:2024-10-24 |
# 反復的議論による大規模言語モデルの対立的マルチエージェント評価
Adversarial Multi-Agent Evaluation of Large Language Models through Iterative Debates ( http://arxiv.org/abs/2410.04663v2 ) ライセンス: Link先を確認 | Chaithanya Bandi, Abir Harrasse, | (参考訳) 本稿では,LLM自体を用いた大規模言語モデル(LLM)の出力評価のための最適アーキテクチャについて検討する。
本稿では, LLMを対話エージェントのアンサンブル内での支持者として解釈し, その回答を守り, 審査員と陪審員のシステムを通じて結論に達することのできる, 新たな枠組みを提案する。
このアプローチは、従来の人間ベースの評価や自動メトリクスと比較して、よりダイナミックで包括的な評価プロセスを提供します。
このフレームワークの背景にあるモチベーション、主要なコンポーネント、および比較上の利点について論じる。
また,反復的アドボケートシステムによって達成される誤差低減を評価する確率モデルを提案する。
最後に,マルチアドボケートアーキテクチャの有効性を検証する実験の概要と今後の研究方向性について述べる。
This paper explores optimal architectures for evaluating the outputs of large language models (LLMs) using LLMs themselves. We propose a novel framework that interprets LLMs as advocates within an ensemble of interacting agents, allowing them to defend their answers and reach conclusions through a judge and jury system. This approach offers a more dynamic and comprehensive evaluation process compared to traditional human-based assessments or automated metrics. We discuss the motivation behind this framework, its key components, and comparative advantages. We also present a probabilistic model to evaluate the error reduction achieved by iterative advocate systems. Finally, we outline experiments to validate the effectiveness of multi-advocate architectures and discuss future research directions. | 翻訳日:2024-11-02 02:37:51 公開日:2024-10-24 |
# ScienceAgentBench: データ駆動科学発見のための言語エージェントの厳格な評価を目指して
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery ( http://arxiv.org/abs/2410.05080v1 ) ライセンス: Link先を確認 | Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun, | (参考訳) 言語モデル(LLM)の進歩は、科学的な発見をエンドツーエンドに自動化するLLMベースの言語エージェントの開発への関心が高まっており、そのようなエージェントの真の能力に対する興奮と懐疑の両方を引き起こしている。
この研究において、エージェントが科学的発見を完全に自動化するためには、ワークフローにおけるすべての重要なタスクを完了できなければならない、と論じる。
したがって、エンドツーエンドの自動化を大胆に主張する前に、科学的ワークフローにおける個々のタスクに対するエージェントの厳格な評価を求める。
この目的のために、ScienceAgentBenchは、データ駆動科学発見のための言語エージェントを評価するための新しいベンチマークである。
本ベンチマークの科学的信頼性と実世界の関連性を確保するため,44の査読論文から4つの分野の102のタスクを抽出し,9つの課題の専門家による検証を行った。
我々は、各タスクの目標出力を自己完結型Pythonプログラムファイルに統一し、生成されたプログラム、実行結果、コストを調べるために、一連の評価指標を使用する。
それぞれのタスクは、アノテーションの品質と科学的妥当性を保証するために、アノテータや主題の専門家による複数の手動検証を経る。
また、データ汚染の懸念を軽減するための2つの効果的な戦略を提案する。
ベンチマークを用いて、オープンウェイトでプロプライエタリなLLMを5つ評価し、それぞれにダイレクトプロンプト、OpenHands、セルフデバッグの3つのフレームワークを備えています。
それぞれのタスクに対して3つの試みがなされると、最高のパフォーマンスエージェントは32.4%のタスクを個別に解決することができ、34.3%は専門家が提供する知識で解決できる。
これらの結果は、科学研究のためのエンドツーエンドの自動化はもちろんのこと、データドリブンな発見のためのコードを生成する上で、現在の言語エージェントの限られた能力を強調します。
The advancements of language language models (LLMs) have piqued growing interest in developing LLM-based language agents to automate scientific discovery end-to-end, which has sparked both excitement and skepticism about the true capabilities of such agents. In this work, we argue that for an agent to fully automate scientific discovery, it must be able to complete all essential tasks in the workflow. Thus, we call for rigorous assessment of agents on individual tasks in a scientific workflow before making bold claims on end-to-end automation. To this end, we present ScienceAgentBench, a new benchmark for evaluating language agents for data-driven scientific discovery. To ensure the scientific authenticity and real-world relevance of our benchmark, we extract 102 tasks from 44 peer-reviewed publications in four disciplines and engage nine subject matter experts to validate them. We unify the target output for every task to a self-contained Python program file and employ an array of evaluation metrics to examine the generated programs, execution results, and costs. Each task goes through multiple rounds of manual validation by annotators and subject matter experts to ensure its annotation quality and scientific plausibility. We also propose two effective strategies to mitigate data contamination concerns. Using our benchmark, we evaluate five open-weight and proprietary LLMs, each with three frameworks: direct prompting, OpenHands, and self-debug. Given three attempts for each task, the best-performing agent can only solve 32.4% of the tasks independently and 34.3% with expert-provided knowledge. These results underscore the limited capacities of current language agents in generating code for data-driven discovery, let alone end-to-end automation for scientific research. | 翻訳日:2024-11-02 00:28:18 公開日:2024-10-24 |
# ScienceAgentBench: データ駆動科学発見のための言語エージェントの厳格な評価を目指して
ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery ( http://arxiv.org/abs/2410.05080v2 ) ライセンス: Link先を確認 | Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun, | (参考訳) 言語モデル(LLMs)の進歩は、科学的な発見をエンドツーエンドに自動化するLLMベースの言語エージェントの開発への関心が高まっている。
この研究では、エンドツーエンドの自動化に関する大胆な主張をする前に、科学的ワークフローにおける個々のタスクに対するエージェントの厳格な評価を要求します。
本ベンチマークの科学的信頼性と実世界の関連性を確保するため,44の査読論文から4つの分野の102のタスクを抽出し,9つの課題の専門家による検証を行った。
我々は、各タスクの目標出力を自己完結型Pythonプログラムファイルに統一し、生成されたプログラム、実行結果、コストを調べるために、一連の評価指標を使用する。
それぞれのタスクは、アノテーションの品質と科学的妥当性を保証するために、アノテータや主題の専門家による複数の手動検証を経る。
また、データ汚染の懸念を軽減するための2つの効果的な戦略を提案する。
当社のベンチマークでは,ダイレクトプロンプト,OpenHands CodeAct,セルフデバッグという3つのフレームワークを備えた,オープンウェイトかつプロプライエタリなLLMを5つ評価しています。
それぞれのタスクに対して3つの試みがなされると、最高のパフォーマンスエージェントは32.4%のタスクを個別に解決することができ、34.3%は専門家が提供する知識で解決できる。
さらに,直接的プロンプトと自己デバッグによるOpenAI o1の評価を行い,推論時間の増大の有効性を示した。
それでも、私たちの結果は、科学研究のためのエンドツーエンドの自動化はもちろんのこと、データドリブンな発見のためのコードを生成する上で、現在の言語エージェントの限界を浮き彫りにしています。
The advancements of language language models (LLMs) have piqued growing interest in developing LLM-based language agents to automate scientific discovery end-to-end, which has sparked both excitement and skepticism about their true capabilities. In this work, we call for rigorous assessment of agents on individual tasks in a scientific workflow before making bold claims on end-to-end automation. To ensure the scientific authenticity and real-world relevance of our benchmark, we extract 102 tasks from 44 peer-reviewed publications in four disciplines and engage nine subject matter experts to validate them. We unify the target output for every task to a self-contained Python program file and employ an array of evaluation metrics to examine the generated programs, execution results, and costs. Each task goes through multiple rounds of manual validation by annotators and subject matter experts to ensure its annotation quality and scientific plausibility. We also propose two effective strategies to mitigate data contamination concerns. Using our benchmark, we evaluate five open-weight and proprietary LLMs, each with three frameworks: direct prompting, OpenHands CodeAct, and self-debug. Given three attempts for each task, the best-performing agent can only solve 32.4% of the tasks independently and 34.3% with expert-provided knowledge. In addition, we evaluate OpenAI o1 with direct prompting and self-debug, which demonstrates the effectiveness of increasing inference-time compute. Still, our results underscore the limitations of current language agents in generating code for data-driven discovery, let alone end-to-end automation for scientific research. | 翻訳日:2024-11-02 00:28:18 公開日:2024-10-24 |
# 木構造確率回路の表現力について
On the Expressive Power of Tree-Structured Probabilistic Circuits ( http://arxiv.org/abs/2410.05465v1 ) ライセンス: Link先を確認 | Lang Yin, Han Zhao, | (参考訳) 確率回路(PC)は、確率分布を高速かつ正確な確率的推論のためにコンパクトに表現する強力なフレームワークとして登場した。
一般有向非巡回グラフ(DAG)構造を持つPCは、指数関数的に(その高さにおいて)多くの成分の混合として理解でき、それぞれが単変量辺面上の積分布である。
しかし、既存のPC用構造学習アルゴリズムは、しばしば木構造回路を生成するか、木構造回路を中間ステップとして使用してDAG構造回路に圧縮する。
このことは、PC構造に対するDAGとツリーの間に指数的ギャップが存在するかどうかという興味深い問題を引き起こす。
本稿では、この予想に対して、$n$変数に対して、同じ確率分布を演算する同値木の大きさに準指数上界$n^{O(\log n)}$が存在することを証明して、負の答えを与える。
一方,木面の深さ制限が与えられた場合,木面とDAG構造PCとの間には,超ポリノミカルな分離が存在することを示す。
我々の研究は、木構造PCの表現力を理解するための重要な一歩を踏み出し、我々の技術は、PCの構造学習アルゴリズムの研究に独立した関心を持つかもしれない。
Probabilistic circuits (PCs) have emerged as a powerful framework to compactly represent probability distributions for efficient and exact probabilistic inference. It has been shown that PCs with a general directed acyclic graph (DAG) structure can be understood as a mixture of exponentially (in its height) many components, each of which is a product distribution over univariate marginals. However, existing structure learning algorithms for PCs often generate tree-structured circuits or use tree-structured circuits as intermediate steps to compress them into DAG-structured circuits. This leads to the intriguing question of whether there exists an exponential gap between DAGs and trees for the PC structure. In this paper, we provide a negative answer to this conjecture by proving that, for $n$ variables, there exists a sub-exponential upper bound $n^{O(\log n)}$ on the size of an equivalent tree computing the same probability distribution. On the other hand, we also show that given a depth restriction on the tree, there is a super-polynomial separation between tree and DAG-structured PCs. Our work takes an important step towards understanding the expressive power of tree-structured PCs, and our techniques may be of independent interest in the study of structure learning algorithms for PCs. | 翻訳日:2024-11-01 18:28:00 公開日:2024-10-24 |
# 木構造確率回路の表現力について
On the Expressive Power of Tree-Structured Probabilistic Circuits ( http://arxiv.org/abs/2410.05465v2 ) ライセンス: Link先を確認 | Lang Yin, Han Zhao, | (参考訳) 確率回路(PC)は、確率分布を高速かつ正確な確率的推論のためにコンパクトに表現する強力なフレームワークとして登場した。
一般有向非巡回グラフ(DAG)構造を持つPCは、指数関数的に(その高さにおいて)多くの成分の混合として理解でき、それぞれが単変量辺面上の積分布である。
しかし、PC用の既存の構造学習アルゴリズムは、しばしば木構造回路を生成するか、木構造回路を中間ステップとして使用してDAG構造回路に圧縮する。
このことは、PC構造に対するDAGとツリーの間に指数的ギャップが存在するかどうかという興味深い問題を引き起こす。
本稿では、この予想に対して、$n$変数に対して、同じ確率分布を計算する同値木の大きさに準多項式上界$n^{O(\log n)}$が存在することを証明して、負の答えを与える。
一方,木面の深さ制限が与えられた場合,木面とDAG構造PCとの間にはスーパーポリノミカルな分離が存在することを示す。
我々の研究は、木構造PCの表現力を理解するための重要な一歩を踏み出し、我々の技術は、PCの構造学習アルゴリズムの研究に独立した関心を持つかもしれない。
Probabilistic circuits (PCs) have emerged as a powerful framework to compactly represent probability distributions for efficient and exact probabilistic inference. It has been shown that PCs with a general directed acyclic graph (DAG) structure can be understood as a mixture of exponentially (in its height) many components, each of which is a product distribution over univariate marginals. However, existing structure learning algorithms for PCs often generate tree-structured circuits or use tree-structured circuits as intermediate steps to compress them into DAG-structured circuits. This leads to the intriguing question of whether there exists an exponential gap between DAGs and trees for the PC structure. In this paper, we provide a negative answer to this conjecture by proving that, for $n$ variables, there exists a quasi-polynomial upper bound $n^{O(\log n)}$ on the size of an equivalent tree computing the same probability distribution. On the other hand, we also show that given a depth restriction on the tree, there is a super-polynomial separation between tree and DAG-structured PCs. Our work takes an important step towards understanding the expressive power of tree-structured PCs, and our techniques may be of independent interest in the study of structure learning algorithms for PCs. | 翻訳日:2024-11-01 18:28:00 公開日:2024-10-24 |
# マルチターン対話エージェントのためのヴァーサタイル運動ランガッジモデル
Versatile Motion Langauge Models for Multi-Turn Interactive Agents ( http://arxiv.org/abs/2410.05628v1 ) ライセンス: Link先を確認 | Jeongeun Park, Sungjoon Choi, Sangdoo Yun, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然で文脈的に関係のあるテキストを生成する能力を大幅に強化し、AIインタラクションをより人間らしくしている。
しかしながら、2人の個人が協調した動きを行う対話的な人間のような動きを生成・理解することは、これらの協調した相互作用をモデル化する複雑さのため、依然として課題である。
さらに、ユーザ指示に従うチャットシステムや、インタラクションのダイナミクスを調整しながら、割り当てられた役割に適応するチャットシステムなど、多様な対話的なシナリオを扱うために、汎用的なモデルが必要である。
この問題に対処するために,多ターン会話における対話的動きを効果的に理解し,生成し,制御するために,言語と運動のモダリティを統合したVersatile Interactive Motion Language Modelの略であるVIMを導入する。
マルチターン・インタラクティブ・モーション・データの不足に対処するため, INERT-MT2という合成データセットを導入し, 事前学習モデルを用いて, インタラクティブ・モーションを用いた多様な指導データセットを作成する。
我々のアプローチはまず、対話的な動きを残留した離散トークンにエンコードするモーショントークンライザを訓練する。
事前学習段階では、モデルが動きとテキスト表現をこれらの離散トークンと整列することを学ぶ。
命令の微調整の段階では、VIMはInter-MT2データセットを使用してマルチターン会話に適応する。
動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声)の多目的性を評価する。
その結果,複雑な対話型モーション合成処理における提案手法の汎用性と有効性を強調した。
Recent advancements in large language models (LLMs) have greatly enhanced their ability to generate natural and contextually relevant text, making AI interactions more human-like. However, generating and understanding interactive human-like motion, where two individuals engage in coordinated movements, remains a challenge due to the complexity of modeling these coordinated interactions. Furthermore, a versatile model is required to handle diverse interactive scenarios, such as chat systems that follow user instructions or adapt to their assigned role while adjusting interaction dynamics. To tackle this problem, we introduce VIM, short for the Versatile Interactive Motion language model, which integrates both language and motion modalities to effectively understand, generate, and control interactive motions in multi-turn conversational contexts. To address the scarcity of multi-turn interactive motion data, we introduce a synthetic dataset, INERT-MT2, where we utilize pre-trained models to create diverse instructional datasets with interactive motion. Our approach first trains a motion tokenizer that encodes interactive motions into residual discrete tokens. In the pretraining stage, the model learns to align motion and text representations with these discrete tokens. During the instruction fine-tuning stage, VIM adapts to multi-turn conversations using the INTER-MT2 dataset. We evaluate the versatility of our method across motion-related tasks, motion to text, text to motion, reaction generation, motion editing, and reasoning about motion sequences. The results highlight the versatility and effectiveness of proposed method in handling complex interactive motion synthesis. | 翻訳日:2024-11-01 17:38:51 公開日:2024-10-24 |
# マルチターン対話エージェントのためのヴァーサタイル運動ランガッジモデル
Versatile Motion Langauge Models for Multi-Turn Interactive Agents ( http://arxiv.org/abs/2410.05628v2 ) ライセンス: Link先を確認 | Jeongeun Park, Sungjoon Choi, Sangdoo Yun, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然で文脈的に関係のあるテキストを生成する能力を大幅に強化し、AIインタラクションをより人間らしくしている。
しかしながら、2人の個人が協調した動きを行う対話的な人間のような動きを生成・理解することは、これらの協調した相互作用をモデル化する複雑さのため、依然として課題である。
さらに、ユーザ指示に従うチャットシステムや、インタラクションのダイナミクスを調整しながら、割り当てられた役割に適応するチャットシステムなど、多様な対話的なシナリオを扱うために、汎用的なモデルが必要である。
この問題に対処するために,多ターン会話における対話的動きを効果的に理解し,生成し,制御するために,言語と運動のモダリティを統合したVersatile Interactive Motion Language Modelの略であるVIMを導入する。
マルチターン・インタラクティブ・モーション・データの不足に対処するため, INERT-MT2という合成データセットを導入し, 事前学習モデルを用いて, インタラクティブ・モーションを用いた多様な指導データセットを作成する。
我々のアプローチはまず、対話的な動きを残留した離散トークンにエンコードするモーショントークンライザを訓練する。
事前学習段階では、モデルが動きとテキスト表現をこれらの離散トークンと整列することを学ぶ。
命令の微調整の段階では、VIMはInter-MT2データセットを使用してマルチターン会話に適応する。
動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声)の多目的性を評価する。
その結果,複雑な対話型モーション合成処理における提案手法の汎用性と有効性を強調した。
Recent advancements in large language models (LLMs) have greatly enhanced their ability to generate natural and contextually relevant text, making AI interactions more human-like. However, generating and understanding interactive human-like motion, where two individuals engage in coordinated movements, remains a challenge due to the complexity of modeling these coordinated interactions. Furthermore, a versatile model is required to handle diverse interactive scenarios, such as chat systems that follow user instructions or adapt to their assigned role while adjusting interaction dynamics. To tackle this problem, we introduce VIM, short for the Versatile Interactive Motion language model, which integrates both language and motion modalities to effectively understand, generate, and control interactive motions in multi-turn conversational contexts. To address the scarcity of multi-turn interactive motion data, we introduce a synthetic dataset, INERT-MT2, where we utilize pre-trained models to create diverse instructional datasets with interactive motion. Our approach first trains a motion tokenizer that encodes interactive motions into residual discrete tokens. In the pretraining stage, the model learns to align motion and text representations with these discrete tokens. During the instruction fine-tuning stage, VIM adapts to multi-turn conversations using the INTER-MT2 dataset. We evaluate the versatility of our method across motion-related tasks, motion to text, text to motion, reaction generation, motion editing, and reasoning about motion sequences. The results highlight the versatility and effectiveness of proposed method in handling complex interactive motion synthesis. | 翻訳日:2024-11-01 17:29:06 公開日:2024-10-24 |
# マルチターン対話エージェントのための多言語運動言語モデル
Versatile Motion Language Models for Multi-Turn Interactive Agents ( http://arxiv.org/abs/2410.05628v3 ) ライセンス: Link先を確認 | Jeongeun Park, Sungjoon Choi, Sangdoo Yun, | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然で文脈的に関係のあるテキストを生成する能力を大幅に強化し、AIインタラクションをより人間らしくしている。
しかしながら、2人の個人が協調した動きを行う対話的な人間のような動きを生成・理解することは、これらの協調した相互作用をモデル化する複雑さのため、依然として課題である。
さらに、ユーザ指示に従うチャットシステムや、インタラクションのダイナミクスを調整しながら、割り当てられた役割に適応するチャットシステムなど、多様な対話的なシナリオを扱うために、汎用的なモデルが必要である。
この問題に対処するために,多ターン会話における対話的動きを効果的に理解し,生成し,制御するために,言語と運動のモダリティを統合したVersatile Interactive Motion Language Modelの略であるVIMを導入する。
マルチターン・インタラクティブ・モーション・データの不足に対処するため, INERT-MT2という合成データセットを導入し, 事前学習モデルを用いて, インタラクティブ・モーションを用いた多様な指導データセットを作成する。
我々のアプローチはまず、対話的な動きを残留した離散トークンにエンコードするモーショントークンライザを訓練する。
事前学習段階では、モデルが動きとテキスト表現をこれらの離散トークンと整列することを学ぶ。
命令の微調整の段階では、VIMはInter-MT2データセットを使用してマルチターン会話に適応する。
動作関連タスク,テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・テキスト・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声・音声)の多目的性を評価する。
その結果,複雑な対話型モーション合成処理における提案手法の汎用性と有効性を強調した。
Recent advancements in large language models (LLMs) have greatly enhanced their ability to generate natural and contextually relevant text, making AI interactions more human-like. However, generating and understanding interactive human-like motion, where two individuals engage in coordinated movements, remains a challenge due to the complexity of modeling these coordinated interactions. Furthermore, a versatile model is required to handle diverse interactive scenarios, such as chat systems that follow user instructions or adapt to their assigned role while adjusting interaction dynamics. To tackle this problem, we introduce VIM, short for the Versatile Interactive Motion language model, which integrates both language and motion modalities to effectively understand, generate, and control interactive motions in multi-turn conversational contexts. To address the scarcity of multi-turn interactive motion data, we introduce a synthetic dataset, INERT-MT2, where we utilize pre-trained models to create diverse instructional datasets with interactive motion. Our approach first trains a motion tokenizer that encodes interactive motions into residual discrete tokens. In the pretraining stage, the model learns to align motion and text representations with these discrete tokens. During the instruction fine-tuning stage, VIM adapts to multi-turn conversations using the INTER-MT2 dataset. We evaluate the versatility of our method across motion-related tasks, motion to text, text to motion, reaction generation, motion editing, and reasoning about motion sequences. The results highlight the versatility and effectiveness of proposed method in handling complex interactive motion synthesis. | 翻訳日:2024-11-01 17:29:06 公開日:2024-10-24 |
# 量子論・重力・二階幾何学
Quantum Theory, Gravity and Second order Geometry ( http://arxiv.org/abs/2410.06799v1 ) ライセンス: Link先を確認 | Folkert Kuipers, | (参考訳) 量子論の重力への一貫した結合は、通常の「一階リーマン幾何学」から二階リーマン幾何学への拡張を必要とし、線要素と面積要素の両方を包含する。
この拡張は、多様体の次元と接空間の次元の相違をもたらす。
特に、4次元時空の場合、接空間は18次元となる。
次に、この枠組み内での物理理論の構成について論じる。
平坦時空では、二次セクターは第一次セクターに垂直であり、経路積分の正規化にのみ影響を及ぼすが、曲線時空では二次セクターは第一次セクターに結合する。
さらに,高次微分が導入されたにも拘わらず,二つのセクターの順序混合によりオストラグラツキ不安定性は回避できることを示した。
最後に、高次幾何への拡張と非可換および一般化幾何との関係についてコメントする。
We argue that a consistent coupling of a quantum theory to gravity requires an extension of ordinary `first order' Riemannian geometry to second order Riemannian geometry, which incorporates both a line element and an area element. This extension results in a misalignment between the dimension of the manifold and the dimension of the tangent spaces. In particular, we find that for a 4-dimensional spacetime, tangent spaces become 18-dimensional. We then discuss the construction of physical theories within this framework, which involves the introduction of terms that are quadratic in derivatives in the action. On a flat spacetime, the quadratic sector is perpendicular to the first order sector and only affects the normalization of the path integral, whereas in a curved spacetime the quadratic sector couples to the first order sector. Moreover, we show that, despite the introduction of higher order derivatives, the Ostragradski instability can be avoided, due to an order mixing of the two sectors. Finally, we comment on extensions to higher order geometry and on relations with non-commutative and generalized geometry. | 翻訳日:2024-11-01 03:40:32 公開日:2024-10-24 |
# 量子論・重力・二次幾何学
Quantum Theory, Gravity and Second Order Geometry ( http://arxiv.org/abs/2410.06799v2 ) ライセンス: Link先を確認 | Folkert Kuipers, | (参考訳) 量子論の重力への一貫した結合は、通常の「一階リーマン幾何学」から二階リーマン幾何学への拡張を必要とし、線要素と面積要素の両方を包含する。
この拡張は、多様体の次元と接空間の次元の相違をもたらす。
特に、4次元時空の場合、接空間は18次元となる。
次に、この枠組み内での物理理論の構成について論じる。
平坦時空では、二次セクターは第一次セクターに垂直であり、経路積分の正規化にのみ影響を及ぼすが、曲線時空では二次セクターは第一次セクターに結合する。
さらに,高次微分が導入されたにも拘わらず,二つのセクターの順序混合によりオストラグラツキ不安定性は回避できることを示した。
最後に、高次幾何への拡張と非可換および一般化幾何との関係についてコメントする。
We argue that a consistent coupling of a quantum theory to gravity requires an extension of ordinary `first order' Riemannian geometry to second order Riemannian geometry, which incorporates both a line element and an area element. This extension results in a misalignment between the dimension of the manifold and the dimension of the tangent spaces. In particular, we find that for a 4-dimensional spacetime, tangent spaces become 18-dimensional. We then discuss the construction of physical theories within this framework, which involves the introduction of terms that are quadratic in derivatives in the action. On a flat spacetime, the quadratic sector is perpendicular to the first order sector and only affects the normalization of the path integral, whereas in a curved spacetime the quadratic sector couples to the first order sector. Moreover, we show that, despite the introduction of higher order derivatives, the Ostragradski instability can be avoided, due to an order mixing of the two sectors. Finally, we comment on extensions to higher order geometry and on relations with non-commutative and generalized geometry. | 翻訳日:2024-11-01 03:30:47 公開日:2024-10-24 |
# MLE-bench: 機械学習エンジニアリングにおける機械学習エージェントの評価
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering ( http://arxiv.org/abs/2410.07095v1 ) ライセンス: Link先を確認 | Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry, | (参考訳) 機械学習エンジニアリングにおけるAIエージェントのパフォーマンスを計測するベンチマークであるMLE-benchを紹介する。
この目的のために、Kaggleによる75のMLエンジニアリング関連コンペティションをキュレートし、トレーニングモデル、データセットの準備、実験の実行など、現実のMLエンジニアリングスキルをテストする、さまざまな課題のセットを作成しました。
私たちはKaggleが公開しているリーダーボードを使って、各競技の人間ベースラインを確立します。
ベンチマークでいくつかのフロンティア言語モデルを評価するために、オープンソースのエージェントの足場を使用して、最高のパフォーマンスのセットアップ — OpenAIのo1-preview with AIDEの足場 -- が、少なくとも16.9%のコンペティションでカグル・ブロンズ・メダルのレベルを達成していることを発見した。
本研究の主な成果に加えて,AIエージェントの様々な形態の資源スケーリングと,事前学習による汚染の影響について検討した。
我々は、AIエージェントのMLエンジニアリング能力を理解するための将来の研究を促進するために、ベンチマークコード(github.com/openai/mle-bench/)をオープンソース化した。
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle's publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup--OpenAI's o1-preview with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents. | 翻訳日:2024-10-31 22:27:10 公開日:2024-10-24 |
# MLE-bench: 機械学習エンジニアリングにおける機械学習エージェントの評価
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering ( http://arxiv.org/abs/2410.07095v2 ) ライセンス: Link先を確認 | Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Lilian Weng, Aleksander Mądry, | (参考訳) 機械学習エンジニアリングにおけるAIエージェントのパフォーマンスを計測するベンチマークであるMLE-benchを紹介する。
この目的のために、Kaggleによる75のMLエンジニアリング関連コンペティションをキュレートし、トレーニングモデル、データセットの準備、実験の実行など、現実のMLエンジニアリングスキルをテストする、さまざまな課題のセットを作成しました。
私たちはKaggleが公開しているリーダーボードを使って、各競技の人間ベースラインを確立します。
ベンチマークでいくつかのフロンティア言語モデルを評価するために、オープンソースのエージェントの足場を使用して、最高のパフォーマンスのセットアップ — OpenAIのo1-preview with AIDEの足場 -- が、少なくとも16.9%のコンペティションでカグル・ブロンズ・メダルのレベルを達成していることを発見した。
本研究の主な成果に加えて,AIエージェントの様々な形態の資源スケーリングと,事前学習による汚染の影響について検討した。
我々は、AIエージェントのMLエンジニアリング能力を理解するための将来の研究を促進するために、ベンチマークコード(github.com/openai/mle-bench/)をオープンソース化した。
We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering-related competitions from Kaggle, creating a diverse set of challenging tasks that test real-world ML engineering skills such as training models, preparing datasets, and running experiments. We establish human baselines for each competition using Kaggle's publicly available leaderboards. We use open-source agent scaffolds to evaluate several frontier language models on our benchmark, finding that the best-performing setup--OpenAI's o1-preview with AIDE scaffolding--achieves at least the level of a Kaggle bronze medal in 16.9% of competitions. In addition to our main results, we investigate various forms of resource scaling for AI agents and the impact of contamination from pre-training. We open-source our benchmark code (github.com/openai/mle-bench/) to facilitate future research in understanding the ML engineering capabilities of AI agents. | 翻訳日:2024-10-31 22:27:10 公開日:2024-10-24 |
# VHELM:視覚言語モデルの全体的評価
VHELM: A Holistic Evaluation of Vision Language Models ( http://arxiv.org/abs/2410.07112v1 ) ライセンス: Link先を確認 | Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang, | (参考訳) 視覚言語モデル(VLM)を評価するための現在のベンチマークは、しばしばその知覚や問題解決能力に注目し、公平性、多言語性、毒性といった他の重要な側面を無視している。
さらに,評価手順と評価範囲が異なるため,モデルの比較が困難である。
これらの問題に対処するため、HELMフレームワークをVLMに拡張し、VHELM(Hollistic Evaluation of Vision Language Models)を提示する。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
そこで我々は,これらの重要な要因を網羅して,VLMの能力を包括的に多次元的に把握する。
さらに、モデル間の公正な比較を可能にするために、標準推論パラメータ、プロンプトの方法、評価指標を標準化する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
最初の実行では、21の既存のデータセット上で22のVLMを評価し、モデル全体のスナップショットを提供します。
例えば、効率を重視したモデル(例えば、Claude 3 HaikuやGemini 1.5 Flash)が、バイアスベンチマーク上のフルモデル(例えば、Claude 3 OpusやGemini 1.5 Pro)よりもかなりパフォーマンスが悪く、他の側面で評価されていないという事実などです。
透明性のために、生のモデル世代と結果がWebサイトでリリースされます(https://crfm.stanford.edu/helm/vhelm/v2.0.1)。
VHELMは生きたベンチマークを目指しており、今後も新たなデータセットとモデルを追加していきたいと考えています。
Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time. | 翻訳日:2024-10-31 22:27:10 公開日:2024-10-24 |
# VHELM:視覚言語モデルの全体的評価
VHELM: A Holistic Evaluation of Vision Language Models ( http://arxiv.org/abs/2410.07112v2 ) ライセンス: Link先を確認 | Tony Lee, Haoqin Tu, Chi Heem Wong, Wenhao Zheng, Yiyang Zhou, Yifan Mai, Josselin Somerville Roberts, Michihiro Yasunaga, Huaxiu Yao, Cihang Xie, Percy Liang, | (参考訳) 視覚言語モデル(VLM)を評価するための現在のベンチマークは、しばしばその知覚や問題解決能力に注目し、公平性、多言語性、毒性といった他の重要な側面を無視している。
さらに,評価手順と評価範囲が異なるため,モデルの比較が困難である。
これらの問題に対処するため、HELMフレームワークをVLMに拡張し、VHELM(Hollistic Evaluation of Vision Language Models)を提示する。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
そこで我々は,これらの重要な要因を網羅して,VLMの能力を包括的に多次元的に把握する。
さらに、モデル間の公正な比較を可能にするために、標準推論パラメータ、プロンプトの方法、評価指標を標準化する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
最初の実行では、21の既存のデータセット上で22のVLMを評価し、モデル全体のスナップショットを提供します。
例えば、効率を重視したモデル(例えば、Claude 3 HaikuやGemini 1.5 Flash)が、バイアスベンチマーク上のフルモデル(例えば、Claude 3 OpusやGemini 1.5 Pro)よりもかなりパフォーマンスが悪く、他の側面で評価されていないという事実などです。
透明性のために、生のモデル世代と結果がWebサイトでリリースされます(https://crfm.stanford.edu/helm/vhelm/v2.0.1)。
VHELMは生きたベンチマークを目指しており、今後も新たなデータセットとモデルを追加していきたいと考えています。
Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time. | 翻訳日:2024-10-31 22:27:10 公開日:2024-10-24 |
# OnCOPILOT: 固形腫瘍評価のためのプロンプタブルCT基盤モデル
ONCOPILOT: A Promptable CT Foundation Model For Solid Tumor Evaluation ( http://arxiv.org/abs/2410.07908v1 ) ライセンス: Link先を確認 | Léo Machado, Hélène Philippe, Élodie Ferreres, Julien Khlaut, Julie Dupuis, Korentin Le Floch, Denis Habip Gatenyo, Pascal Roux, Jules Grégory, Maxime Ronot, Corentin Dancette, Daniel Tordjman, Pierre Manceron, Paul Hérent, | (参考訳) 発癌は先天的な現象であり、腫瘍は様々な場所に出現し、複雑で多様な形状を示す。
研究と臨床の重要な交差点では、正確で柔軟な評価が必要である。
しかし、RECIST 1.1の長軸と短軸の計測のような現在のバイオマーカーは、この複雑さをとらえるには不十分であり、腫瘍の重荷を推定し、より複雑なプロセスの簡潔な表現を提供する。
さらに、既存の教師付きAIモデルは、腫瘍のプレゼンテーションにおける可変性に対処し、臨床的有用性を制限するという課題に直面している。
これらの制限は、アノテーションの不足と、モデルが狭義に定義されたタスクに焦点を当てることから生じる。
OnCOPILOTは, 全身を約7,500個のCTスキャンで観察し, 正常な解剖学, 広範囲の腫瘍学的症例を対象とする, インタラクティブな放射線基礎モデルである。
ONCOPILOTは、ポイントクリックやバウンディングボックスのような視覚的プロンプトを使用して3D腫瘍セグメンテーションを行い、最先端のモデル(例えばnnUnet)より優れ、RECIST 1.1測定において放射線学レベルの精度を達成する。
この基礎モデルの鍵となる利点は、ラジオロジストをループに保ちながら最先端のパフォーマンスを上回る能力であり、以前のモデルでは達成できなかった。
放射線学者が対話的にセグメンテーションを洗練させると、精度はさらに向上する。
ONCOPILOTは測定プロセスを加速し、読み手間のばらつきを低減し、ボリューム分析を容易にし、より深い洞察を得るために新しいバイオマーカーをアンロックする。
このAIアシスタントは、RECIST 1.1測定の精度を高め、ボリュームバイオマーカーの可能性を解き放ち、患者層化と臨床ケアを改善しつつ、シームレスに放射線学的ワークフローに統合されることが期待されている。
Carcinogenesis is a proteiform phenomenon, with tumors emerging in various locations and displaying complex, diverse shapes. At the crucial intersection of research and clinical practice, it demands precise and flexible assessment. However, current biomarkers, such as RECIST 1.1's long and short axis measurements, fall short of capturing this complexity, offering an approximate estimate of tumor burden and a simplistic representation of a more intricate process. Additionally, existing supervised AI models face challenges in addressing the variability in tumor presentations, limiting their clinical utility. These limitations arise from the scarcity of annotations and the models' focus on narrowly defined tasks. To address these challenges, we developed ONCOPILOT, an interactive radiological foundation model trained on approximately 7,500 CT scans covering the whole body, from both normal anatomy and a wide range of oncological cases. ONCOPILOT performs 3D tumor segmentation using visual prompts like point-click and bounding boxes, outperforming state-of-the-art models (e.g., nnUnet) and achieving radiologist-level accuracy in RECIST 1.1 measurements. The key advantage of this foundation model is its ability to surpass state-of-the-art performance while keeping the radiologist in the loop, a capability that previous models could not achieve. When radiologists interactively refine the segmentations, accuracy improves further. ONCOPILOT also accelerates measurement processes and reduces inter-reader variability, facilitating volumetric analysis and unlocking new biomarkers for deeper insights. This AI assistant is expected to enhance the precision of RECIST 1.1 measurements, unlock the potential of volumetric biomarkers, and improve patient stratification and clinical care, while seamlessly integrating into the radiological workflow. | 翻訳日:2024-10-31 14:06:16 公開日:2024-10-24 |
# OnCOPILOT: 固形腫瘍評価のためのプロンプタブルCT基盤モデル
ONCOPILOT: A Promptable CT Foundation Model For Solid Tumor Evaluation ( http://arxiv.org/abs/2410.07908v2 ) ライセンス: Link先を確認 | Léo Machado, Hélène Philippe, Élodie Ferreres, Julien Khlaut, Julie Dupuis, Korentin Le Floch, Denis Habip Gatenyo, Pascal Roux, Jules Grégory, Maxime Ronot, Corentin Dancette, Daniel Tordjman, Pierre Manceron, Paul Hérent, | (参考訳) 発癌は先天的な現象であり、腫瘍は様々な場所に出現し、複雑で多様な形状を示す。
研究と臨床の重要な交差点では、正確で柔軟な評価が必要である。
しかし、RECIST 1.1の長軸と短軸の計測のような現在のバイオマーカーは、この複雑さをとらえるには不十分であり、腫瘍の重荷を推定し、より複雑なプロセスの簡潔な表現を提供する。
さらに、既存の教師付きAIモデルは、腫瘍のプレゼンテーションにおける可変性に対処し、臨床的有用性を制限するという課題に直面している。
これらの制限は、アノテーションの不足と、モデルが狭義に定義されたタスクに焦点を当てることから生じる。
OnCOPILOTは, 全身を約7,500個のCTスキャンで観察し, 正常な解剖学, 広範囲の腫瘍学的症例を対象とする, インタラクティブな放射線基礎モデルである。
ONCOPILOTは、ポイントクリックやバウンディングボックスのような視覚的プロンプトを使用して3D腫瘍セグメンテーションを行い、最先端のモデル(例えばnnUnet)より優れ、RECIST 1.1測定において放射線学レベルの精度を達成する。
この基礎モデルの鍵となる利点は、ラジオロジストをループに保ちながら最先端のパフォーマンスを上回る能力であり、以前のモデルでは達成できなかった。
放射線学者が対話的にセグメンテーションを洗練させると、精度はさらに向上する。
ONCOPILOTは測定プロセスを加速し、読み手間のばらつきを低減し、ボリューム分析を容易にし、より深い洞察を得るために新しいバイオマーカーをアンロックする。
このAIアシスタントは、RECIST 1.1測定の精度を高め、ボリュームバイオマーカーの可能性を解き放ち、患者層化と臨床ケアを改善しつつ、シームレスに放射線学的ワークフローに統合されることが期待されている。
Carcinogenesis is a proteiform phenomenon, with tumors emerging in various locations and displaying complex, diverse shapes. At the crucial intersection of research and clinical practice, it demands precise and flexible assessment. However, current biomarkers, such as RECIST 1.1's long and short axis measurements, fall short of capturing this complexity, offering an approximate estimate of tumor burden and a simplistic representation of a more intricate process. Additionally, existing supervised AI models face challenges in addressing the variability in tumor presentations, limiting their clinical utility. These limitations arise from the scarcity of annotations and the models' focus on narrowly defined tasks. To address these challenges, we developed ONCOPILOT, an interactive radiological foundation model trained on approximately 7,500 CT scans covering the whole body, from both normal anatomy and a wide range of oncological cases. ONCOPILOT performs 3D tumor segmentation using visual prompts like point-click and bounding boxes, outperforming state-of-the-art models (e.g., nnUnet) and achieving radiologist-level accuracy in RECIST 1.1 measurements. The key advantage of this foundation model is its ability to surpass state-of-the-art performance while keeping the radiologist in the loop, a capability that previous models could not achieve. When radiologists interactively refine the segmentations, accuracy improves further. ONCOPILOT also accelerates measurement processes and reduces inter-reader variability, facilitating volumetric analysis and unlocking new biomarkers for deeper insights. This AI assistant is expected to enhance the precision of RECIST 1.1 measurements, unlock the potential of volumetric biomarkers, and improve patient stratification and clinical care, while seamlessly integrating into the radiological workflow. | 翻訳日:2024-10-31 14:06:15 公開日:2024-10-24 |
# OnCOPILOT: 固形腫瘍評価のためのプロンプタブルCT基盤モデル
ONCOPILOT: A Promptable CT Foundation Model For Solid Tumor Evaluation ( http://arxiv.org/abs/2410.07908v3 ) ライセンス: Link先を確認 | Léo Machado, Hélène Philippe, Élodie Ferreres, Julien Khlaut, Julie Dupuis, Korentin Le Floch, Denis Habip Gatenyo, Pascal Roux, Jules Grégory, Maxime Ronot, Corentin Dancette, Daniel Tordjman, Pierre Manceron, Paul Hérent, | (参考訳) 発癌は先天的な現象であり、腫瘍は様々な場所に出現し、複雑で多様な形状を示す。
研究と臨床の重要な交差点では、正確で柔軟な評価が必要である。
しかし、RECIST 1.1の長軸と短軸の計測のような現在のバイオマーカーは、この複雑さをとらえるには不十分であり、腫瘍の重荷を推定し、より複雑なプロセスの簡潔な表現を提供する。
さらに、既存の教師付きAIモデルは、腫瘍のプレゼンテーションにおける可変性に対処し、臨床的有用性を制限するという課題に直面している。
これらの制限は、アノテーションの不足と、モデルが狭義に定義されたタスクに焦点を当てることから生じる。
OnCOPILOTは, 全身を約7,500個のCTスキャンで観察し, 正常な解剖学, 広範囲の腫瘍学的症例を対象とする, インタラクティブな放射線基礎モデルである。
ONCOPILOTは、ポイントクリックやバウンディングボックスのような視覚的プロンプトを使用して3D腫瘍セグメンテーションを行い、最先端のモデル(例えばnnUnet)より優れ、RECIST 1.1測定において放射線学レベルの精度を達成する。
この基礎モデルの鍵となる利点は、ラジオロジストをループに保ちながら最先端のパフォーマンスを上回る能力であり、以前のモデルでは達成できなかった。
放射線学者が対話的にセグメンテーションを洗練させると、精度はさらに向上する。
ONCOPILOTは測定プロセスを加速し、読み手間のばらつきを低減し、ボリューム分析を容易にし、より深い洞察を得るために新しいバイオマーカーをアンロックする。
このAIアシスタントは、RECIST 1.1測定の精度を高め、ボリュームバイオマーカーの可能性を解き放ち、患者層化と臨床ケアを改善しつつ、シームレスに放射線学的ワークフローに統合されることが期待されている。
Carcinogenesis is a proteiform phenomenon, with tumors emerging in various locations and displaying complex, diverse shapes. At the crucial intersection of research and clinical practice, it demands precise and flexible assessment. However, current biomarkers, such as RECIST 1.1's long and short axis measurements, fall short of capturing this complexity, offering an approximate estimate of tumor burden and a simplistic representation of a more intricate process. Additionally, existing supervised AI models face challenges in addressing the variability in tumor presentations, limiting their clinical utility. These limitations arise from the scarcity of annotations and the models' focus on narrowly defined tasks. To address these challenges, we developed ONCOPILOT, an interactive radiological foundation model trained on approximately 7,500 CT scans covering the whole body, from both normal anatomy and a wide range of oncological cases. ONCOPILOT performs 3D tumor segmentation using visual prompts like point-click and bounding boxes, outperforming state-of-the-art models (e.g., nnUnet) and achieving radiologist-level accuracy in RECIST 1.1 measurements. The key advantage of this foundation model is its ability to surpass state-of-the-art performance while keeping the radiologist in the loop, a capability that previous models could not achieve. When radiologists interactively refine the segmentations, accuracy improves further. ONCOPILOT also accelerates measurement processes and reduces inter-reader variability, facilitating volumetric analysis and unlocking new biomarkers for deeper insights. This AI assistant is expected to enhance the precision of RECIST 1.1 measurements, unlock the potential of volumetric biomarkers, and improve patient stratification and clinical care, while seamlessly integrating into the radiological workflow. | 翻訳日:2024-10-31 14:06:15 公開日:2024-10-24 |
# MolMix:マルチモーダルな分子表現学習のためのシンプルで効果的なベースライン
MolMix: A Simple Yet Effective Baseline for Multimodal Molecular Representation Learning ( http://arxiv.org/abs/2410.07981v1 ) ライセンス: Link先を確認 | Andrei Manolache, Dragos Tantaru, Mathias Niepert, | (参考訳) 本研究では, SMILES文字列, 2次元グラフ表現, 分子の3次元コンホメータの3つの異なるモダリティを統合した, マルチモーダル分子表現学習のための単純なトランスフォーマーベースラインを提案する。
アプローチの重要な側面は3Dコンフォメータの集約であり、分子が複数のコンフォメーションを適用できるという事実をモデルが考慮できる。
各モダリティ用トークンは、SMILES文字列用トランスフォーマー、2Dグラフ用メッセージパスニューラルネットワーク、3Dコンバータ用同変ニューラルネットワークを用いて抽出される。
このフレームワークの柔軟性とモジュラリティにより、これらのエンコーダの適応と置換が容易になり、異なる分子タスクに対して非常に汎用性の高いモデルとなる。
抽出されたトークンは統合されたマルチモーダルシーケンスに結合され、予測タスクのために下流変換器によって処理される。
大規模なマルチモーダルデータセットに対して,我々のモデルを効率的にスケールするために,Flash Attention 2 と bfloat16 の精度を利用する。
その単純さにもかかわらず、本手法は複数のデータセットにまたがる最先端の結果を達成し、マルチモーダルな分子表現学習の強力なベースラインとしての有効性を実証する。
In this work, we propose a simple transformer-based baseline for multimodal molecular representation learning, integrating three distinct modalities: SMILES strings, 2D graph representations, and 3D conformers of molecules. A key aspect of our approach is the aggregation of 3D conformers, allowing the model to account for the fact that molecules can adopt multiple conformations-an important factor for accurate molecular representation. The tokens for each modality are extracted using modality-specific encoders: a transformer for SMILES strings, a message-passing neural network for 2D graphs, and an equivariant neural network for 3D conformers. The flexibility and modularity of this framework enable easy adaptation and replacement of these encoders, making the model highly versatile for different molecular tasks. The extracted tokens are then combined into a unified multimodal sequence, which is processed by a downstream transformer for prediction tasks. To efficiently scale our model for large multimodal datasets, we utilize Flash Attention 2 and bfloat16 precision. Despite its simplicity, our approach achieves state-of-the-art results across multiple datasets, demonstrating its effectiveness as a strong baseline for multimodal molecular representation learning. | 翻訳日:2024-10-31 06:15:07 公開日:2024-10-24 |
# MolMix:マルチモーダルな分子表現学習のためのシンプルで効果的なベースライン
MolMix: A Simple Yet Effective Baseline for Multimodal Molecular Representation Learning ( http://arxiv.org/abs/2410.07981v2 ) ライセンス: Link先を確認 | Andrei Manolache, Dragos Tantaru, Mathias Niepert, | (参考訳) 本研究では, SMILES文字列, 2次元グラフ表現, 分子の3次元コンホメータの3つの異なるモダリティを統合した, マルチモーダル分子表現学習のための単純なトランスフォーマーベースラインを提案する。
アプローチの重要な側面は3Dコンフォメータの集約であり、分子が複数のコンフォメーションを適用できるという事実をモデルが考慮できる。
各モダリティ用トークンは、SMILES文字列用トランスフォーマー、2Dグラフ用メッセージパスニューラルネットワーク、3Dコンバータ用同変ニューラルネットワークを用いて抽出される。
このフレームワークの柔軟性とモジュラリティにより、これらのエンコーダの適応と置換が容易になり、異なる分子タスクに対して非常に汎用性の高いモデルとなる。
抽出されたトークンは統合されたマルチモーダルシーケンスに結合され、予測タスクのために下流変換器によって処理される。
大規模なマルチモーダルデータセットに対して,我々のモデルを効率的にスケールするために,Flash Attention 2 と bfloat16 の精度を利用する。
その単純さにもかかわらず、本手法は複数のデータセットにまたがる最先端の結果を達成し、マルチモーダルな分子表現学習の強力なベースラインとしての有効性を実証する。
In this work, we propose a simple transformer-based baseline for multimodal molecular representation learning, integrating three distinct modalities: SMILES strings, 2D graph representations, and 3D conformers of molecules. A key aspect of our approach is the aggregation of 3D conformers, allowing the model to account for the fact that molecules can adopt multiple conformations-an important factor for accurate molecular representation. The tokens for each modality are extracted using modality-specific encoders: a transformer for SMILES strings, a message-passing neural network for 2D graphs, and an equivariant neural network for 3D conformers. The flexibility and modularity of this framework enable easy adaptation and replacement of these encoders, making the model highly versatile for different molecular tasks. The extracted tokens are then combined into a unified multimodal sequence, which is processed by a downstream transformer for prediction tasks. To efficiently scale our model for large multimodal datasets, we utilize Flash Attention 2 and bfloat16 precision. Despite its simplicity, our approach achieves state-of-the-art results across multiple datasets, demonstrating its effectiveness as a strong baseline for multimodal molecular representation learning. | 翻訳日:2024-10-31 06:15:07 公開日:2024-10-24 |
# HorGait:LiDAR点雲における高次空間相互作用による歩行認識の効率化
HorGait: Advancing Gait Recognition with Efficient High-Order Spatial Interactions in LiDAR Point Clouds ( http://arxiv.org/abs/2410.08454v1 ) ライセンス: Link先を確認 | Jiaxing Hao, Yanxi Wang, Zhigang Chang, Hongmin Gao, Zihao Cheng, Chen Wu, Xin Zhao, Peiye Fang, Rachmat Muwardi, | (参考訳) 歩行認識は、人の動きのダイナミックな特性を利用して、様々な極端な照明条件下であっても個人を識別する遠隔バイオメトリック技術である。
2次元歩行表現に固有の空間知覚能力の制限により、LiDARは直接3次元歩行特徴を捉え、それらを点雲として表現することができ、認識における環境や照明の干渉を低減し、プライバシー保護を大幅に向上させることができる。
複雑な3D表現では、浅層ネットワークは正確な認識を達成できず、視覚変換器を最上位の手法とする。
しかし、ダンプパッチの普及により、歩行認識におけるTransformerアーキテクチャの利用が制限されている。
本稿では,LiDARからの3次元点雲の平面投影における歩行認識にTransformerアーキテクチャを用いたハイブリッドモデルを用いたHorGaitを提案する。
具体的には、LHM Blockと呼ばれるハイブリッドモデル構造を用いて、Transformerアーキテクチャの入力適応、長距離、高階空間相互作用を実現する。
さらに、大きな畳み込みカーネルCNNを使用して入力表現をセグメンテーションし、アテンションウィンドウを置き換え、ダッシュパッチを減らす。
本研究では,SUSTech1Kデータセット上でHorGaitがトランスフォーマーアーキテクチャ手法の最先端性能を実現し,ハイブリッドモデルが完全なトランスフォーマー処理を完了し,ポイントクラウド平面投影においてより優れた性能を達成できることを検証した。
HorGaitの優れたパフォーマンスは、歩行認識におけるTransformerアーキテクチャの将来的な応用に対する新たな洞察を提供する。
Gait recognition is a remote biometric technology that utilizes the dynamic characteristics of human movement to identify individuals even under various extreme lighting conditions. Due to the limitation in spatial perception capability inherent in 2D gait representations, LiDAR can directly capture 3D gait features and represent them as point clouds, reducing environmental and lighting interference in recognition while significantly advancing privacy protection. For complex 3D representations, shallow networks fail to achieve accurate recognition, making vision Transformers the foremost prevalent method. However, the prevalence of dumb patches has limited the widespread use of Transformer architecture in gait recognition. This paper proposes a method named HorGait, which utilizes a hybrid model with a Transformer architecture for gait recognition on the planar projection of 3D point clouds from LiDAR. Specifically, it employs a hybrid model structure called LHM Block to achieve input adaptation, long-range, and high-order spatial interaction of the Transformer architecture. Additionally, it uses large convolutional kernel CNNs to segment the input representation, replacing attention windows to reduce dumb patches. We conducted extensive experiments, and the results show that HorGait achieves state-of-the-art performance among Transformer architecture methods on the SUSTech1K dataset, verifying that the hybrid model can complete the full Transformer process and perform better in point cloud planar projection. The outstanding performance of HorGait offers new insights for the future application of the Transformer architecture in gait recognition. | 翻訳日:2024-10-31 03:16:22 公開日:2024-10-24 |
# HorGait: LiDARポイントクラウド平面投影における正確な歩行認識のためのハイブリッドモデル
HorGait: A Hybrid Model for Accurate Gait Recognition in LiDAR Point Cloud Planar Projections ( http://arxiv.org/abs/2410.08454v2 ) ライセンス: Link先を確認 | Jiaxing Hao, Yanxi Wang, Zhigang Chang, Hongmin Gao, Zihao Cheng, Chen Wu, Xin Zhao, Peiye Fang, Rachmat Muwardi, | (参考訳) 歩行認識は、人の動きのダイナミックな特性を利用して、様々な極端な照明条件下であっても個人を識別する遠隔バイオメトリック技術である。
2次元歩行表現に固有の空間知覚能力の制限により、LiDARは直接3次元歩行特徴を捉え、それらを点雲として表現することができ、認識における環境や照明の干渉を低減し、プライバシー保護を大幅に向上させることができる。
複雑な3D表現では、浅層ネットワークは正確な認識を達成できず、視覚変換器を最上位の手法とする。
しかし、ダンプパッチの普及により、歩行認識におけるTransformerアーキテクチャの利用が制限されている。
本稿では,LiDARからの3次元点雲の平面投影における歩行認識にTransformerアーキテクチャを用いたハイブリッドモデルを用いたHorGaitを提案する。
具体的には、LHM Blockと呼ばれるハイブリッドモデル構造を用いて、Transformerアーキテクチャの入力適応、長距離、高階空間相互作用を実現する。
さらに、大きな畳み込みカーネルCNNを使用して入力表現をセグメンテーションし、アテンションウィンドウを置き換え、ダッシュパッチを減らす。
本研究では,SUSTech1Kデータセット上でHorGaitがトランスフォーマーアーキテクチャ手法の最先端性能を実現し,ハイブリッドモデルが完全なトランスフォーマー処理を完了し,ポイントクラウド平面投影においてより優れた性能を達成できることを検証した。
HorGaitの優れたパフォーマンスは、歩行認識におけるTransformerアーキテクチャの将来的な応用に対する新たな洞察を提供する。
Gait recognition is a remote biometric technology that utilizes the dynamic characteristics of human movement to identify individuals even under various extreme lighting conditions. Due to the limitation in spatial perception capability inherent in 2D gait representations, LiDAR can directly capture 3D gait features and represent them as point clouds, reducing environmental and lighting interference in recognition while significantly advancing privacy protection. For complex 3D representations, shallow networks fail to achieve accurate recognition, making vision Transformers the foremost prevalent method. However, the prevalence of dumb patches has limited the widespread use of Transformer architecture in gait recognition. This paper proposes a method named HorGait, which utilizes a hybrid model with a Transformer architecture for gait recognition on the planar projection of 3D point clouds from LiDAR. Specifically, it employs a hybrid model structure called LHM Block to achieve input adaptation, long-range, and high-order spatial interaction of the Transformer architecture. Additionally, it uses large convolutional kernel CNNs to segment the input representation, replacing attention windows to reduce dumb patches. We conducted extensive experiments, and the results show that HorGait achieves state-of-the-art performance among Transformer architecture methods on the SUSTech1K dataset, verifying that the hybrid model can complete the full Transformer process and perform better in point cloud planar projection. The outstanding performance of HorGait offers new insights for the future application of the Transformer architecture in gait recognition. | 翻訳日:2024-10-31 03:16:22 公開日:2024-10-24 |
# RLHFにおけるステップ信号による導出推論の高速化
Boosting Deductive Reasoning with Step Signals In RLHF ( http://arxiv.org/abs/2410.09528v1 ) ライセンス: Link先を確認 | Jialian Li, Yipin Zhang, Wei Shen, Yuzi Yan, Jian Xie, Dong Yan, | (参考訳) 論理的推論は、LLM(Large Language Models)にとって重要なタスクであり、複雑な問題に対処することができる。
推論タスクの中で、多段階推論は特定の課題を引き起こす。
形式論理理論を基礎として、帰納的推論データのための多段階推論(MuseD)という自動手法を開発した。
MuseDは、マルチステップ推論のためのトレーニングとテストデータセットの作成を可能にしました。
我々の生成方法は,生成した命令の複雑さを制御し,異なる難易度におけるモデルのトレーニングと評価を容易にする。
RLHFトレーニングを通じて、我々のトレーニングデータにより、ドメイン内推論タスクとドメイン外推論タスクの両方の論理能力が大幅に改善された。
さらに,各種モデルの多段階推論能力の評価試験を行った。
Logical reasoning is a crucial task for Large Language Models (LLMs), enabling them to tackle complex problems. Among reasoning tasks, multi-step reasoning poses a particular challenge. Grounded in the theory of formal logic, we have developed an automated method, Multi-step Deduction (MuseD), for deductive reasoning data. MuseD has allowed us to create training and testing datasets for multi-step reasoning. Our generation method enables control over the complexity of the generated instructions, facilitating training and evaluation of models across different difficulty levels. Through RLHF training, our training data has demonstrated significant improvements in logical capabilities for both in-domain of out-of-domain reasoning tasks. Additionally, we have conducted tests to assess the multi-step reasoning abilities of various models. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-24 |
# RLHFにおけるステップ信号による導出推論の高速化
Boosting Deductive Reasoning with Step Signals In RLHF ( http://arxiv.org/abs/2410.09528v2 ) ライセンス: Link先を確認 | Jialian Li, Yipin Zhang, Wei Shen, Yuzi Yan, Jian Xie, Dong Yan, | (参考訳) 論理的推論は、LLM(Large Language Models)にとって重要なタスクであり、複雑な問題に対処することができる。
推論タスクの中で、多段階推論は特定の課題を引き起こす。
形式論理理論を基礎として、帰納的推論データのための多段階推論(MuseD)という自動手法を開発した。
MuseDは、マルチステップ推論のためのトレーニングとテストデータセットの作成を可能にしました。
我々の生成方法は,生成した命令の複雑さを制御し,異なる難易度におけるモデルのトレーニングと評価を容易にする。
RLHFトレーニングを通じて、我々のトレーニングデータにより、ドメイン内推論タスクとドメイン外推論タスクの両方の論理能力が大幅に改善された。
さらに,各種モデルの多段階推論能力の評価試験を行った。
Logical reasoning is a crucial task for Large Language Models (LLMs), enabling them to tackle complex problems. Among reasoning tasks, multi-step reasoning poses a particular challenge. Grounded in the theory of formal logic, we have developed an automated method, Multi-step Deduction (MuseD), for deductive reasoning data. MuseD has allowed us to create training and testing datasets for multi-step reasoning. Our generation method enables control over the complexity of the generated instructions, facilitating training and evaluation of models across different difficulty levels. Through RLHF training, our training data has demonstrated significant improvements in logical capabilities for both in-domain of out-of-domain reasoning tasks. Additionally, we have conducted tests to assess the multi-step reasoning abilities of various models. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-24 |
# SUS-Lib: ユーザフィードバックからソフトウェアユーザビリティ尺度に基づくユーザビリティ評価自動化ツール
SUS-Lib: An automated tool for usability evaluation based on the Software Usability Scale from user feedback ( http://arxiv.org/abs/2410.09534v1 ) ライセンス: Link先を確認 | Paweł Weichbroth, Małgorzata Giedrowicz, | (参考訳) ユーザビリティ評価は,研究コミュニティと実践コミュニティの両方から注目されている。
多くの評価ツールが利用可能であるが、ソフトウェアユーザビリティ・スケール(SUS)が最も広く使われている。
本稿では,SUSスコアを計算し,ユーザ入力に基づいて図形を生成することを目的とした,SUS-Libソフトウェアパッケージの導入と記述を行う。
SUS-Libは、Python環境とコマンドラインツールの基本的な知識とスキルだけを必要とするユーザフレンドリーなソフトウェアの必要性に応えている。
オープンソースソリューションと低ハードウェアリソースを使用することで、SUS-Libはコスト効率の良いソリューションになります。
加えて、SUS-Libは一般的な性質のため、異なる研究設定や設定で使用することもできる。
Usability evaluation has received considerable attention from both the research and practice communities. While there are many evaluation tools available, the Software Usability Scale (SUS) is the most widely used. In this paper, we introduce and describe the SUS-Lib software package, which aims to compute SUS scores and generate graphical figures based on user input. SUS-Lib responds to the need for user-friendly software that requires only basic knowledge and skills of the Python environment and command line tools. By using open source solutions and low hardware resources, SUS-Lib is a cost-effective solution. In addition, due to its generic nature, SUS-Lib can also be used in different research setups and settings. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-24 |
# SUS-Lib: ユーザフィードバックからソフトウェアユーザビリティ尺度に基づくユーザビリティ評価自動化ツール
SUS-Lib: An automated tool for usability evaluation based on the Software Usability Scale from user feedback ( http://arxiv.org/abs/2410.09534v2 ) ライセンス: Link先を確認 | Paweł Weichbroth, Małgorzata Giedrowicz, | (参考訳) ユーザビリティ評価は,研究コミュニティと実践コミュニティの両方から注目されている。
多くの評価ツールが利用可能であるが、ソフトウェアユーザビリティ・スケール(SUS)が最も広く使われている。
本稿では,SUSスコアを計算し,ユーザ入力に基づいて図形を生成することを目的とした,SUS-Libソフトウェアパッケージの導入と記述を行う。
SUS-Libは、Python環境とコマンドラインツールの基本的な知識とスキルだけを必要とするユーザフレンドリーなソフトウェアの必要性に応えている。
オープンソースソリューションと低ハードウェアリソースを使用することで、SUS-Libはコスト効率の良いソリューションになります。
加えて、SUS-Libは一般的な性質のため、異なる研究設定や設定で使用することもできる。
Usability evaluation has received considerable attention from both the research and practice communities. While there are many evaluation tools available, the Software Usability Scale (SUS) is the most widely used. In this paper, we introduce and describe the SUS-Lib software package, which aims to compute SUS scores and generate graphical figures based on user input. SUS-Lib responds to the need for user-friendly software that requires only basic knowledge and skills of the Python environment and command line tools. By using open source solutions and low hardware resources, SUS-Lib is a cost-effective solution. In addition, due to its generic nature, SUS-Lib can also be used in different research setups and settings. | 翻訳日:2024-10-30 13:55:04 公開日:2024-10-24 |
# モジュールエキスパートを用いた言語モデルのスケーラブルなマルチドメイン適応
Scalable Multi-Domain Adaptation of Language Models using Modular Experts ( http://arxiv.org/abs/2410.10181v1 ) ライセンス: Link先を確認 | Peter Schafhalter, Shun Liao, Yanqi Zhou, Chih-Kuan Yeh, Arun Kandoor, James Laudon, | (参考訳) ドメイン固有の適応は、特にエッジデバイスのようなリソース制約のあるユースケースにおいて、1つまたは複数のターゲットタスクにおいて、事前訓練された言語モデル(PLM)の性能を最大化する上で重要である。
しかし、既存の手法は、ドメイン固有のパフォーマンス、一般的な知識の保持、トレーニングと推論の効率のバランスをとるのに苦労することが多い。
これらの課題に対処するため、モジュールドメインエキスパート(MoDE)を提案する。
MoDEは、モジュール化されたドメインの専門家によって一般的なPLMを増強する、エキスパートの混成アーキテクチャである。
これらの専門家は独立して訓練され、軽量なトレーニングプロセスを通じて構成される。
標準の低ランク適応法とは対照的に、各MoDE専門家は、より多くのトレーニング例とより大きなパラメータ数でより良くスケールするいくつかのトランスフォーマー層で構成されている。
評価の結果,MoDEはパラメータの微調整に匹敵する目標性能を達成し,保持性能は1.65%向上した。
さらに、MoDEのアーキテクチャはフレキシブルなシャーディング構成を可能にし、最先端の分散トレーニング構成に対して最大38%のトレーニング速度を改善する。
Domain-specific adaptation is critical to maximizing the performance of pre-trained language models (PLMs) on one or multiple targeted tasks, especially under resource-constrained use cases, such as edge devices. However, existing methods often struggle to balance domain-specific performance, retention of general knowledge, and efficiency for training and inference. To address these challenges, we propose Modular Domain Experts (MoDE). MoDE is a mixture-of-experts architecture that augments a general PLMs with modular, domain-specialized experts. These experts are trained independently and composed together via a lightweight training process. In contrast to standard low-rank adaptation methods, each MoDE expert consists of several transformer layers which scale better with more training examples and larger parameter counts. Our evaluation demonstrates that MoDE achieves comparable target performances to full parameter fine-tuning while achieving 1.65% better retention performance. Moreover, MoDE's architecture enables flexible sharding configurations and improves training speeds by up to 38% over state-of-the-art distributed training configurations. | 翻訳日:2024-10-30 02:34:41 公開日:2024-10-24 |
# モジュールエキスパートを用いた言語モデルのスケーラブルなマルチドメイン適応
Scalable Multi-Domain Adaptation of Language Models using Modular Experts ( http://arxiv.org/abs/2410.10181v2 ) ライセンス: Link先を確認 | Peter Schafhalter, Shun Liao, Yanqi Zhou, Chih-Kuan Yeh, Arun Kandoor, James Laudon, | (参考訳) ドメイン固有の適応は、特にエッジデバイスのようなリソース制約のあるユースケースにおいて、1つまたは複数のターゲットタスクにおいて、事前訓練された言語モデル(PLM)の性能を最大化する上で重要である。
しかし、既存の手法は、ドメイン固有のパフォーマンス、一般的な知識の保持、トレーニングと推論の効率のバランスをとるのに苦労することが多い。
これらの課題に対処するため、モジュールドメインエキスパート(MoDE)を提案する。
MoDEは、モジュール化されたドメインの専門家によって一般的なPLMを増強する、エキスパートの混成アーキテクチャである。
これらの専門家は独立して訓練され、軽量なトレーニングプロセスを通じて構成される。
標準の低ランク適応法とは対照的に、各MoDE専門家は、より多くのトレーニング例とより大きなパラメータ数でより良くスケールするいくつかのトランスフォーマー層で構成されている。
評価の結果,MoDEはパラメータの微調整に匹敵する目標性能を達成し,保持性能は1.65%向上した。
さらに、MoDEのアーキテクチャはフレキシブルなシャーディング構成を可能にし、最先端の分散トレーニング構成に対して最大38%のトレーニング速度を改善する。
Domain-specific adaptation is critical to maximizing the performance of pre-trained language models (PLMs) on one or multiple targeted tasks, especially under resource-constrained use cases, such as edge devices. However, existing methods often struggle to balance domain-specific performance, retention of general knowledge, and efficiency for training and inference. To address these challenges, we propose Modular Domain Experts (MoDE). MoDE is a mixture-of-experts architecture that augments a general PLMs with modular, domain-specialized experts. These experts are trained independently and composed together via a lightweight training process. In contrast to standard low-rank adaptation methods, each MoDE expert consists of several transformer layers which scale better with more training examples and larger parameter counts. Our evaluation demonstrates that MoDE achieves comparable target performances to full parameter fine-tuning while achieving 1.65% better retention performance. Moreover, MoDE's architecture enables flexible sharding configurations and improves training speeds by up to 38% over state-of-the-art distributed training configurations. | 翻訳日:2024-10-30 02:34:41 公開日:2024-10-24 |
# 造影MRIからCTへの変換における解剖学的特徴優先損失の検討
Anatomical feature-prioritized loss for enhanced MR to CT translation ( http://arxiv.org/abs/2410.10328v1 ) ライセンス: Link先を確認 | Arthur Longuefosse, Baudouin Denis de Senneville, Gael Dournes, Ilyes Benlala, Pascal Desbarats, Fabien Baldacci, | (参考訳) 医用画像合成では、特に微細構造の同定や測定などの特定の臨床要件に対処する場合、局所的な構造詳細の精度が不可欠である。
画像翻訳と合成の伝統的な手法は、一般的にグローバルな画像再構成に最適化されているが、詳細な局所解析に必要な細部を提供するには不十分であることが多い。
本研究は、新しい解剖学的特徴優先化(AFP)損失関数を合成プロセスに導入することにより、この問題に対処するためのステップを示す。
本手法は、特定の解剖学的領域のセグメンテーションなど、特定の下流タスク用に設計された訓練済みモデルの特徴を利用して、臨床的に重要な構造に焦点をあてて再構築を促進する。
AFP損失関数は、グローバルな再構成手法を置き換え、補うことができ、グローバルなイメージの忠実さと局所的な構造的詳細の両方にバランスよく重点を置いている。
この損失関数の様々な実装について検討し、GANベースやCNNベースモデルなど、異なる合成ネットワークに統合されている。
肺 MR から CT への変換,プライベートデータセットを用いた気管支構造の高品質な再構築,臓器と筋肉の正確な表現を目標とした pelvis MR から CT への合成,Synthrad2023 チャレンジからの公開データセットの利用,の2つの文脈で適用および評価を行った。
これらの解剖学的領域に特有の訓練済みセグメンテーションモデルからの埋め込みを利用して、本質的な特徴を優先的かつ正確に再構築するAFP損失の能力を実証する。
この調整されたアプローチは、臨床応用における医用画像合成の特異性と実用性を高める有望な可能性を示している。
In medical image synthesis, the precision of localized structural details is crucial, particularly when addressing specific clinical requirements such as the identification and measurement of fine structures. Traditional methods for image translation and synthesis are generally optimized for global image reconstruction but often fall short in providing the finesse required for detailed local analysis. This study represents a step toward addressing this challenge by introducing a novel anatomical feature-prioritized (AFP) loss function into the synthesis process. This method enhances reconstruction by focusing on clinically significant structures, utilizing features from a pre-trained model designed for a specific downstream task, such as the segmentation of particular anatomical regions. The AFP loss function can replace or complement global reconstruction methods, ensuring a balanced emphasis on both global image fidelity and local structural details. Various implementations of this loss function are explored, including its integration into different synthesis networks such as GAN-based and CNN-based models. Our approach is applied and evaluated in two contexts: lung MR to CT translation, focusing on high-quality reconstruction of bronchial structures, using a private dataset; and pelvis MR to CT synthesis, targeting the accurate representation of organs and muscles, utilizing a public dataset from the Synthrad2023 challenge. We leverage embeddings from pre-trained segmentation models specific to these anatomical regions to demonstrate the capability of the AFP loss to prioritize and accurately reconstruct essential features. This tailored approach shows promising potential for enhancing the specificity and practicality of medical image synthesis in clinical applications. | 翻訳日:2024-10-29 22:14:39 公開日:2024-10-24 |
# 造影MRIからCTへの変換における解剖学的特徴優先損失の検討
Anatomical feature-prioritized loss for enhanced MR to CT translation ( http://arxiv.org/abs/2410.10328v2 ) ライセンス: Link先を確認 | Arthur Longuefosse, Baudouin Denis de Senneville, Gael Dournes, Ilyes Benlala, Pascal Desbarats, Fabien Baldacci, | (参考訳) 医用画像合成では、特に微細構造の同定や測定などの特定の臨床要件に対処する場合、局所的な構造詳細の精度が不可欠である。
画像翻訳と合成の伝統的な手法は、一般的にグローバルな画像再構成に最適化されているが、詳細な局所解析に必要な細部を提供するには不十分であることが多い。
本研究は、新しい解剖学的特徴優先化(AFP)損失関数を合成プロセスに導入することにより、この問題に対処するためのステップを示す。
本手法は、特定の解剖学的領域のセグメンテーションなど、特定の下流タスク用に設計された訓練済みモデルの特徴を利用して、臨床的に重要な構造に焦点をあてて再構築を促進する。
AFP損失関数は、グローバルな再構成手法を置き換え、補うことができ、グローバルなイメージの忠実さと局所的な構造的詳細の両方にバランスよく重点を置いている。
この損失関数の様々な実装について検討し、GANベースやCNNベースモデルなど、異なる合成ネットワークに統合されている。
肺 MR から CT への変換,プライベートデータセットを用いた気管支構造の高品質な再構築,臓器と筋肉の正確な表現を目標とした pelvis MR から CT への合成,Synthrad2023 チャレンジからの公開データセットの利用,の2つの文脈で適用および評価を行った。
これらの解剖学的領域に特有の訓練済みセグメンテーションモデルからの埋め込みを利用して、本質的な特徴を優先的かつ正確に再構築するAFP損失の能力を実証する。
この調整されたアプローチは、臨床応用における医用画像合成の特異性と実用性を高める有望な可能性を示している。
In medical image synthesis, the precision of localized structural details is crucial, particularly when addressing specific clinical requirements such as the identification and measurement of fine structures. Traditional methods for image translation and synthesis are generally optimized for global image reconstruction but often fall short in providing the finesse required for detailed local analysis. This study represents a step toward addressing this challenge by introducing a novel anatomical feature-prioritized (AFP) loss function into the synthesis process. This method enhances reconstruction by focusing on clinically significant structures, utilizing features from a pre-trained model designed for a specific downstream task, such as the segmentation of particular anatomical regions. The AFP loss function can replace or complement global reconstruction methods, ensuring a balanced emphasis on both global image fidelity and local structural details. Various implementations of this loss function are explored, including its integration into different synthesis networks such as GAN-based and CNN-based models. Our approach is applied and evaluated in two contexts: lung MR to CT translation, focusing on high-quality reconstruction of bronchial structures, using a private dataset; and pelvis MR to CT synthesis, targeting the accurate representation of organs and muscles, utilizing a public dataset from the Synthrad2023 challenge. We leverage embeddings from pre-trained segmentation models specific to these anatomical regions to demonstrate the capability of the AFP loss to prioritize and accurately reconstruct essential features. This tailored approach shows promising potential for enhancing the specificity and practicality of medical image synthesis in clinical applications. | 翻訳日:2024-10-29 22:14:39 公開日:2024-10-24 |
# クリーニングラベルで大気汚染を防げる構造的宇宙モデル(動画)
The Implicit Bias of Structured State Space Models Can Be Poisoned With Clean Labels ( http://arxiv.org/abs/2410.10473v1 ) ライセンス: Link先を確認 | Yonatan Slutzky, Yotam Alexander, Noam Razin, Nadav Cohen, | (参考訳) ニューラルネットワークは、暗黙のバイアスによって駆動される: 勾配降下の傾向は、トレーニングデータを、目に見えないデータに一般化する方法で適合する。
近年人気が高まっているニューラルネットワークモデルは構造化状態空間モデル (Structured State Space Model, SSM) である。
以前の研究は、SSMの暗黙のバイアスは、低次元の教師によってデータが生成される環境での一般化につながると主張した。
本稿では、後者の設定を再考し、SSMの暗黙的偏見に関する先行研究によって完全に検出されていない現象を正式に確立する。
すなわち、暗黙のバイアスは、多くの訓練データの選択の下で一般化につながるが、訓練に含めると暗黙のバイアスが完全に歪む特別な例があり、一般化が失敗する。
この失敗は、教師によってラベル付けされている特別なトレーニング例、すなわちクリーンなラベルを持つにもかかわらず発生します!
我々はこの現象を実験的に実証し、SSMは独立に訓練され、非線形ニューラルネットワークの一部として機能する。
対人機械学習の分野では、クリーンラベル付きトレーニング例による一般化の破壊はクリーンラベル中毒として知られている。
SSMの増殖、特に大規模言語モデルにおいては、クリーンラベル中毒に対する感受性をさらに高めることや、この感受性を克服するための方法の開発に多大な努力が注がれると信じている。
Neural networks are powered by an implicit bias: a tendency of gradient descent to fit training data in a way that generalizes to unseen data. A recent class of neural network models gaining increasing popularity is structured state space models (SSMs), regarded as an efficient alternative to transformers. Prior work argued that the implicit bias of SSMs leads to generalization in a setting where data is generated by a low dimensional teacher. In this paper, we revisit the latter setting, and formally establish a phenomenon entirely undetected by prior work on the implicit bias of SSMs. Namely, we prove that while implicit bias leads to generalization under many choices of training data, there exist special examples whose inclusion in training completely distorts the implicit bias, to a point where generalization fails. This failure occurs despite the special training examples being labeled by the teacher, i.e. having clean labels! We empirically demonstrate the phenomenon, with SSMs trained independently and as part of non-linear neural networks. In the area of adversarial machine learning, disrupting generalization with cleanly labeled training examples is known as clean-label poisoning. Given the proliferation of SSMs, particularly in large language models, we believe significant efforts should be invested in further delineating their susceptibility to clean-label poisoning, and in developing methods for overcoming this susceptibility. | 翻訳日:2024-10-29 21:24:58 公開日:2024-10-24 |
# クリーニングラベルで大気汚染を防げる構造的宇宙モデル(動画)
The Implicit Bias of Structured State Space Models Can Be Poisoned With Clean Labels ( http://arxiv.org/abs/2410.10473v2 ) ライセンス: Link先を確認 | Yonatan Slutzky, Yotam Alexander, Noam Razin, Nadav Cohen, | (参考訳) ニューラルネットワークは、暗黙のバイアスによって駆動される: 勾配降下の傾向は、トレーニングデータを、目に見えないデータに一般化する方法で適合する。
近年人気が高まっているニューラルネットワークモデルは構造化状態空間モデル (Structured State Space Model, SSM) である。
以前の研究は、SSMの暗黙のバイアスは、低次元の教師によってデータが生成される環境での一般化につながると主張した。
本稿では、後者の設定を再考し、SSMの暗黙的偏見に関する先行研究によって完全に検出されていない現象を正式に確立する。
すなわち、暗黙のバイアスは、多くの訓練データの選択の下で一般化につながるが、訓練に含めると暗黙のバイアスが完全に歪む特別な例があり、一般化が失敗する。
この失敗は、教師によってラベル付けされている特別なトレーニング例、すなわちクリーンなラベルを持つにもかかわらず発生します!
我々はこの現象を実験的に実証し、SSMは独立に訓練され、非線形ニューラルネットワークの一部として機能する。
対人機械学習の分野では、クリーンラベル付きトレーニング例による一般化の破壊はクリーンラベル中毒として知られている。
SSMの増殖、特に大規模言語モデルにおいては、クリーンラベル中毒に対する感受性をさらに高めることや、この感受性を克服するための方法の開発に多大な努力が注がれると信じている。
Neural networks are powered by an implicit bias: a tendency of gradient descent to fit training data in a way that generalizes to unseen data. A recent class of neural network models gaining increasing popularity is structured state space models (SSMs), regarded as an efficient alternative to transformers. Prior work argued that the implicit bias of SSMs leads to generalization in a setting where data is generated by a low dimensional teacher. In this paper, we revisit the latter setting, and formally establish a phenomenon entirely undetected by prior work on the implicit bias of SSMs. Namely, we prove that while implicit bias leads to generalization under many choices of training data, there exist special examples whose inclusion in training completely distorts the implicit bias, to a point where generalization fails. This failure occurs despite the special training examples being labeled by the teacher, i.e. having clean labels! We empirically demonstrate the phenomenon, with SSMs trained independently and as part of non-linear neural networks. In the area of adversarial machine learning, disrupting generalization with cleanly labeled training examples is known as clean-label poisoning. Given the proliferation of SSMs, particularly in large language models, we believe significant efforts should be invested in further delineating their susceptibility to clean-label poisoning, and in developing methods for overcoming this susceptibility. | 翻訳日:2024-10-29 21:24:58 公開日:2024-10-24 |