論文の概要: Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More
- arxiv url: http://arxiv.org/abs/2503.10542v1
- Date: Thu, 13 Mar 2025 16:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:17.555669
- Title: Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More
- Title(参考訳): 言語モデル、グラフ検索、そしてスーパービジョンアダルト化:もっとスーパービジョンが少ないときともっと多くを作る方法
- Authors: Arvid Frydenlund,
- Abstract要約: この作業は、グラフを検索する最小の例であるパススタータスクに関係している。
言語モデル(LM)には$G$、$s$、ターゲットノード$t$が与えられる。
タスクの最小限の性質は,タスクの分解を防ぐため,その難しさを生じさせる。
- 参考スコア(独自算出の注目度): 1.223779595809275
- License:
- Abstract: This work concerns the path-star task, a minimal example of searching over a graph. The graph, $G$, is star-shaped with $D$ arms radiating from a start node, $s$. A language model (LM) is given $G$, $s$, and a target node $t$, which ends one of the arms and is tasked with generating the arm containing $t$. The minimal nature of this task means only a single choice needs to be made: which of the $D$ arms contains $t$? Decoder-only LMs fail to solve this elementary task above $1/D$ chance due to a learned shortcut that absorbs training supervision. We show how this pathology is caused by excess supervision and we present a series of solutions demonstrating that the task is solvable via decoder-only LMs. We find that the task's minimal nature causes its difficulty, as it prevents task decomposition. Our solutions provide insight into the pathology and its implications for LMs trained via next-token prediction.
- Abstract(参考訳): この作業は、グラフを検索する最小の例であるパススタータスクに関係している。
グラフは$G$で、スタートノードから放射される$D$アームが$s$である。
言語モデル (LM) には$G$, $s$ とターゲットノード $t$ が与えられる。
このタスクの最小限の性質は、1つの選択しか必要としないことを意味している。
デコーダのみのLMは、トレーニングの監督を吸収する学習ショートカットのため、この初歩的なタスクを1ドル以上で解決することができません。
本稿では,この病態が過剰な監視によって引き起こされることを示すとともに,その課題がデコーダのみのLMで解決可能であることを示す一連のソリューションを提案する。
タスクの最小限の性質は,タスクの分解を防ぐため,その難しさを生じさせる。
本手法は,次世代の予測によって訓練されたLMの病態とその意義について考察する。
関連論文リスト
- The Mystery of the Pathological Path-star Task for Language Models [1.223779595809275]
最近導入されたパススタータスクは、言語モデルの能力に対する制限を実証するために設計された最小限のタスクである。
代替設定で教師の強制でタスクが学習可能であることを実証し、一部は表現によるものであることを示した。
論文 参考訳(メタデータ) (2024-10-17T17:18:30Z) - Online Learning with Feedback Graphs: The True Shape of Regret [82.00098840619847]
ミニマックスの後悔は任意のグラフと時間的地平線に対して$R*$に比例することを示す。
複雑な探索戦略を導入し、最小限の最小後悔境界を達成する主アルゴリズムを定義する。
論文 参考訳(メタデータ) (2023-06-05T15:35:00Z) - The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。
各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。
エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文 参考訳(メタデータ) (2022-11-10T17:59:42Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Multi-armed Bandit Learning on a Graph [0.0]
そこで,エージェントがグラフの上を移動して,異なるノードから収集した報酬を最大化するグラフバンドイットと呼ばれるMABの拡張について検討する。
我々は,楽観主義の原理を用いて長期探査・探索のバランスをとる学習アルゴリズムG-UCBを設計する。
提案アルゴリズムは,ノード数として$O(sqrt|S|Tlog(T)+D|S|log T)$学習後悔を実現する。
論文 参考訳(メタデータ) (2022-09-20T02:31:42Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Robust Multi-Agent Bandits Over Undirected Graphs [26.26185074977412]
我々は、正直なエージェントがネットワーク上で協力し、後悔を最小限に抑えるマルチエージェント・マルチアーム・バンディット・セッティングを考える。
完全なグラフのケース以上に状況が悪くなることを示す。
我々は,$i$-thエージェントが任意の連結および無向グラフ上で$O(d_textmal(i) + K/n) log(T)/Delta)$を後悔する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T20:21:55Z) - Non-stationary Bandits and Meta-Learning with a Small Set of Optimal
Arms [30.024167992890916]
そこで本研究では,学習者が200ドル(約1万2000円)の帯域幅のタスクに直面する決定について検討する。
敵は各タスクの最適なアームを、M$アームのより小さな(しかし未知の)サブセットで選択することを制約される。
境界は既知のもの(非定常的メタラーニング設定)、あるいは未知のもの(非定常的バンディット設定)である。
論文 参考訳(メタデータ) (2022-02-25T22:28:01Z) - Synthesizing Tasks for Block-based Programming [72.45475843387183]
本稿では,ソリューションコードとともに,新しいタスクのセット$(rm Tout, rm Cout)$を自動生成する新しい手法を提案する。
我々のアルゴリズムは、まずコード$rm Cin$を変更して、コードセット$rm Cout$を得る。
論文 参考訳(メタデータ) (2020-06-17T15:04:37Z) - Near-optimal Regret Bounds for Stochastic Shortest Path [63.029132134792555]
最短経路 (SSP) は計画と制御においてよく知られた問題であり、エージェントは最小の総コストで目標状態に到達する必要がある。
任意の学習アルゴリズムは、最悪の場合、少なくとも$Omega(B_star sqrt|S| |A|K)$後悔しなければならない。
論文 参考訳(メタデータ) (2020-02-23T09:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。