Fugu-MT 論文翻訳(概要): Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More

論文の概要: Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More

arxiv url: http://arxiv.org/abs/2503.10542v1
Date: Thu, 13 Mar 2025 16:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.775218
Title: Language Models, Graph Searching, and Supervision Adulteration: When More Supervision is Less and How to Make More More
Title（参考訳）: 言語モデル、グラフ検索、そしてスーパービジョンアダルト化:もっとスーパービジョンが少ないときともっと多くを作る方法
Authors: Arvid Frydenlund,
Abstract要約: この作業は、グラフを検索する最小の例であるパススタータスクに関係している。言語モデル(LM)には$G$、$s$、ターゲットノード$t$が与えられる。タスクの最小限の性質は,タスクの分解を防ぐため,その難しさを生じさせる。
参考スコア（独自算出の注目度）: 1.223779595809275
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work concerns the path-star task, a minimal example of searching over a graph. The graph, $G$, is star-shaped with $D$ arms radiating from a start node, $s$. A language model (LM) is given $G$, $s$, and a target node $t$, which ends one of the arms and is tasked with generating the arm containing $t$. The minimal nature of this task means only a single choice needs to be made: which of the $D$ arms contains $t$? Decoder-only LMs fail to solve this elementary task above $1/D$ chance due to a learned shortcut that absorbs training supervision. We show how this pathology is caused by excess supervision and we present a series of solutions demonstrating that the task is solvable via decoder-only LMs. We find that the task's minimal nature causes its difficulty, as it prevents task decomposition. Our solutions provide insight into the pathology and its implications for LMs trained via next-token prediction.
Abstract（参考訳）: この作業は、グラフを検索する最小の例であるパススタータスクに関係している。グラフは$G$で、スタートノードから放射される$D$アームが$s$である。言語モデル (LM) には$G$, $s$ とターゲットノード $t$ が与えられる。このタスクの最小限の性質は、1つの選択しか必要としないことを意味している。デコーダのみのLMは、トレーニングの監督を吸収する学習ショートカットのため、この初歩的なタスクを1ドル以上で解決することができません。本稿では,この病態が過剰な監視によって引き起こされることを示すとともに,その課題がデコーダのみのLMで解決可能であることを示す一連のソリューションを提案する。タスクの最小限の性質は,タスクの分解を防ぐため,その難しさを生じさせる。本手法は,次世代の予測によって訓練されたLMの病態とその意義について考察する。

関連論文リスト

GENIUS: Generative Fluid Intelligence Evaluation Suite [45.98061608718251]
我々は、$textbfGENIUS$ $textbfGEN$ fluid $textbfI$ntelligence Eval$textbfU$ation $textbfS$uiteを紹介します。例えば、$textitInducing Implicit Patterns$(例えば、パーソナライズされた視覚的嗜好を推測する)、$textitExecuting Ad-hoc Constraints$(例えば、抽象メタファを視覚化する)、そして。
論文参考訳（メタデータ） (2026-02-11T18:55:54Z)
Minimalist Softmax Attention Provably Learns Constrained Boolean Functions [11.701612413596482]
単純な$mathrmAND$と$mathrmOR$関数は、シングルヘッドソフトマックスアテンション機構だけでは解決できないことを示す。教師の強制によって、同じミニマリストの注意がそれらを解決することができる。
論文参考訳（メタデータ） (2025-05-26T05:33:26Z)
The Mystery of the Pathological Path-star Task for Language Models [1.223779595809275]
最近導入されたパススタータスクは、言語モデルの能力に対する制限を実証するために設計された最小限のタスクである。代替設定で教師の強制でタスクが学習可能であることを実証し、一部は表現によるものであることを示した。
論文参考訳（メタデータ） (2024-10-17T17:18:30Z)
Online Learning with Feedback Graphs: The True Shape of Regret [82.00098840619847]
ミニマックスの後悔は任意のグラフと時間的地平線に対して$R*$に比例することを示す。複雑な探索戦略を導入し、最小限の最小後悔境界を達成する主アルゴリズムを定義する。
論文参考訳（メタデータ） (2023-06-05T15:35:00Z)
The Sample Complexity of Online Contract Design [120.9833763323407]
オンライン環境での隠れアクションの主エージェント問題について検討する。各ラウンドにおいて、主席は、各結果に基づいてエージェントへの支払いを指定する契約を投稿する。エージェントは、自身のユーティリティを最大化する戦略的な行動選択を行うが、プリンシパルによって直接観察できない。
論文参考訳（メタデータ） (2022-11-10T17:59:42Z)
Horizon-Free and Variance-Dependent Reinforcement Learning for Latent Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文参考訳（メタデータ） (2022-10-20T21:32:01Z)
Multi-armed Bandit Learning on a Graph [0.0]
そこで,エージェントがグラフの上を移動して,異なるノードから収集した報酬を最大化するグラフバンドイットと呼ばれるMABの拡張について検討する。我々は,楽観主義の原理を用いて長期探査・探索のバランスをとる学習アルゴリズムG-UCBを設計する。提案アルゴリズムは,ノード数として$O(sqrt|S|Tlog(T)+D|S|log T)$学習後悔を実現する。
論文参考訳（メタデータ） (2022-09-20T02:31:42Z)
Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。グラフの構造は知られており、ノードは$N$である。頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-26T16:21:31Z)
Robust Multi-Agent Bandits Over Undirected Graphs [26.26185074977412]
我々は、正直なエージェントがネットワーク上で協力し、後悔を最小限に抑えるマルチエージェント・マルチアーム・バンディット・セッティングを考える。完全なグラフのケース以上に状況が悪くなることを示す。我々は,$i$-thエージェントが任意の連結および無向グラフ上で$O(d_textmal(i) + K/n) log(T)/Delta)$を後悔する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-28T20:21:55Z)
Non-stationary Bandits and Meta-Learning with a Small Set of Optimal Arms [30.024167992890916]
そこで本研究では,学習者が200ドル(約1万2000円)の帯域幅のタスクに直面する決定について検討する。敵は各タスクの最適なアームを、M$アームのより小さな(しかし未知の)サブセットで選択することを制約される。境界は既知のもの(非定常的メタラーニング設定)、あるいは未知のもの(非定常的バンディット設定)である。
論文参考訳（メタデータ） (2022-02-25T22:28:01Z)
Minimax Regret for Stochastic Shortest Path [63.45407095296692]
我々は、エージェントが最小の総予想コストで目標状態に達する必要がある最短パス(SSP)問題を研究します。この設定に対するminimaxの後悔は、$widetilde O(B_star sqrt|S| |A|K)$であり、$B_star$は任意の状態から最適なポリシーの予想コストに拘束されることを示しています。本アルゴリズムは, 有限水平MDPにおける強化学習の新たな削減を基礎として, エピソードごとのインタイム動作を行う。
論文参考訳（メタデータ） (2021-03-24T10:11:49Z)
Synthesizing Tasks for Block-based Programming [72.45475843387183]
本稿では,ソリューションコードとともに,新しいタスクのセット$(rm Tout, rm Cout)$を自動生成する新しい手法を提案する。我々のアルゴリズムは、まずコード$rm Cin$を変更して、コードセット$rm Cout$を得る。
論文参考訳（メタデータ） (2020-06-17T15:04:37Z)
Near-optimal Regret Bounds for Stochastic Shortest Path [63.029132134792555]
最短経路 (SSP) は計画と制御においてよく知られた問題であり、エージェントは最小の総コストで目標状態に到達する必要がある。任意の学習アルゴリズムは、最悪の場合、少なくとも$Omega(B_star sqrt|S| |A|K)$後悔しなければならない。
論文参考訳（メタデータ） (2020-02-23T09:10:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。