論文の概要: Attend or Perish: Benchmarking Attention in Algorithmic Reasoning
- arxiv url: http://arxiv.org/abs/2503.01909v1
- Date: Fri, 28 Feb 2025 22:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:44.034974
- Title: Attend or Perish: Benchmarking Attention in Algorithmic Reasoning
- Title(参考訳): Attend or Perish: アルゴリズム推論におけるベンチマーク注意
- Authors: Michal Spiegel, Michal Štefánik, Marek Kadlčík, Josef Kuchař,
- Abstract要約: 本稿では,無限入力領域の6つのタスクからなるアルゴリズムベンチマークを提案する。
これにより、(i)モデルが、新しい長さ、値範囲、入力領域を含む未知の入力に外挿する能力を評価するだけでなく、(ii)注目マップのレンズを通して、最近のモデルにおける機能的メカニズムの堅牢性を評価することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Can transformers learn to perform algorithmic tasks reliably across previously unseen input/output domains? While pre-trained language models show solid accuracy on benchmarks incorporating algorithmic reasoning, assessing the reliability of these results necessitates an ability to cleanse models' functional capabilities from memorization. In this paper, we propose an algorithmic benchmark comprising six tasks of infinite input domains where we can also disentangle and trace the correct, robust algorithm necessary for the task. This allows us to assess (i) models' ability to extrapolate to unseen types of inputs, including new lengths, value ranges or input domains, but also (ii) to assess the robustness of the functional mechanism in recent models through the lens of their attention maps. We make the implementation of all our tasks and interoperability methods publicly available at https://github.com/michalspiegel/AttentionSpan .
- Abstract(参考訳): トランスフォーマーは、これまで見つからなかった入力/出力領域で確実にアルゴリズムタスクを実行することができるのか?
事前学習された言語モデルは、アルゴリズム推論を取り入れたベンチマークで確固たる精度を示すが、これらの結果の信頼性を評価するには、記憶からモデルの機能的機能をクリーン化する必要がある。
本稿では,無限入力領域の6つのタスクからなるアルゴリズムベンチマークを提案する。
これにより、評価が可能になります。
一 新しい長さ、値範囲又は入力領域を含む、見知らぬ種類の入力に外挿するモデルの能力
注意図のレンズを用いて,近年のモデルにおける機能機構のロバスト性を評価する。
私たちは、すべてのタスクと相互運用性メソッドの実装をhttps://github.com/michalspiegel/AttentionSpanで公開しています。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Neural Algorithmic Reasoning Without Intermediate Supervision [21.852775399735005]
我々は、中間的監督に訴えることなく、入出力ペアからのみニューラルネットワーク推論を学ぶことに集中する。
我々は、アルゴリズムの軌跡にアクセスできることなく、モデルの中間計算を正規化できる自己教師対象を構築する。
CLRSic Algorithmic Reasoning Benchmarkのタスクにおいて,提案手法はトラジェクトリを教師する手法と競合することを示す。
論文 参考訳(メタデータ) (2023-06-23T09:57:44Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Data Lifecycle Management in Evolving Input Distributions for
Learning-based Aerospace Applications [23.84037777018747]
本稿では,テスト入力のサブセットをラベルに選択することで,モデルを段階的に再学習するフレームワークを提案する。
本フレームワーク内のアルゴリズムは,(1)ミッション寿命を通してのモデル性能と(2)ラベル付けとモデル再訓練に関連する累積コストに基づいて評価される。
論文 参考訳(メタデータ) (2022-09-14T18:15:56Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Test Score Algorithms for Budgeted Stochastic Utility Maximization [12.360522095604983]
既存のスコアリング機構、すなわちレプリケーションテストスコアを拡張して、異種アイテムのコストとアイテムの値を統合する。
我々のアルゴリズムと近似は、テストスコアが特定の期待値のノイズ見積もりであると仮定する。
我々は,我々のアルゴリズムが,同じ近似保証を維持しながら,商品が同じ方法で到着する状況に適応できることを示す。
論文 参考訳(メタデータ) (2020-12-30T15:28:41Z) - Reachable Sets of Classifiers and Regression Models: (Non-)Robustness
Analysis and Robust Training [1.0878040851638]
分類器と回帰モデルの両方の頑健性特性を解析・拡張する。
具体的には、(非)難易度を検証し、堅牢なトレーニング手順を提案し、我々のアプローチが敵攻撃よりも優れていることを示す。
第2に、ラベル付けされていない入力に対する信頼できない予測と信頼できない予測を区別し、各特徴が予測に与える影響を定量化し、特徴ランキングを計算する技術を提供する。
論文 参考訳(メタデータ) (2020-07-28T10:58:06Z) - Strong Generalization and Efficiency in Neural Programs [69.18742158883869]
本稿では,ニューラルプログラム誘導の枠組みを強く一般化する効率的なアルゴリズムを学習する問題について検討する。
ニューラルネットワークの入力/出力インターフェースを慎重に設計し、模倣することで、任意の入力サイズに対して正しい結果を生成するモデルを学ぶことができる。
論文 参考訳(メタデータ) (2020-07-07T17:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。