論文の概要: HERO'S JOURNEY: Testing Complex Rule Induction with Text Games
- arxiv url: http://arxiv.org/abs/2606.02556v1
- Date: Mon, 01 Jun 2026 17:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.556573
- Title: HERO'S JOURNEY: Testing Complex Rule Induction with Text Games
- Title(参考訳): HERO's JOURNEY: テキストゲームによる複雑なルール誘導のテスト
- Authors: Anshun Asher Zheng, Kanishka Misra, David I. Beaver, Junyi Jessy Li,
- Abstract要約: HERO's JOURNEYは、エピソードタスクにおけるルール誘導のベンチマークである。
属性および手続き誘導ファミリーにまたがる8つのタスクをカバーしている。
モデルではルール誘導の証拠が示されていますが、その能力はタスクによって制限され、不均一です。
- 参考スコア(独自算出の注目度): 27.471871555593925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HERO'S JOURNEY, a benchmark for rule induction in goal-directed episodic tasks, where agents must infer hidden rules from demonstrations and act on them through multi-step execution. HERO'S JOURNEY covers eight tasks across attribute and procedural induction families, each with four structural rule forms, controllable lexical grounding, and identifiability conditions. Evaluating state-of-the-art LLMs, we find that models show evidence of rule induction, but the ability is limited and uneven across tasks. Meanwhile, process execution adds an execution bottleneck for models, whereas surface semantics has minimal effect. Induction-specific steering methods improve performance on attribute tasks but show no reliable gains on procedural tasks, suggesting the gap in procedural induction remains an open challenge.
- Abstract(参考訳): HEROのJOURNEYは、目標指向のエピソードタスクにおけるルール誘導のベンチマークであり、エージェントはデモから隠れたルールを推論し、多段階実行を通じてそれらに作用しなければならない。
HEROのJOURNEYは属性および手続き的帰納の8つのタスクをカバーしており、それぞれに4つの構造規則形式、制御可能な語彙的接地、識別可能性条件がある。
現状のLSMを評価すると、モデルがルール誘導の証拠を示すが、その能力はタスクによって制限され、不均一であることがわかった。
一方、プロセスの実行はモデルの実行ボトルネックを追加するが、サーフェスセマンティクスは最小限の効果を持つ。
インダクション固有のステアリング法は属性タスクのパフォーマンスを向上させるが、プロシージャタスクの信頼性は向上せず、プロシージャインダクションのギャップが未解決の課題であることを示唆している。
関連論文リスト
- On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - LLMs that Understand Processes: Instruction-tuning for Semantics-Aware Process Mining [1.3050391810942312]
セマンティクスを意識したプロセスマイニングは、プロセス内でどのような振る舞いを可能にするべきかに焦点を当てる。
大規模言語モデル(LLM)は意味論的タスクに対処するための強力な手段を提供する。
本稿では,意味論的プロセスマイニングのための命令チューニングの可能性について検討する。
論文 参考訳(メタデータ) (2025-08-22T10:13:13Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations [43.491353243991284]
本稿では,雑音の多い例で融合したデータからルールを推論する際の,大規模言語モデルの能力を評価するタスクであるRobust Rule Injectionを紹介する。
1)SRRはノイズ下での性能劣化を最小限に抑えた他の手法よりも優れており、(2)若干の精度の変化にもかかわらず、LLMはノイズ下で不安定を示す。
論文 参考訳(メタデータ) (2025-02-22T10:03:19Z) - Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks [71.19560970717495]
最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。
これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか?
本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-05T17:50:42Z) - STEPS: A Benchmark for Order Reasoning in Sequential Tasks [16.52934509949172]
データ構築とタスクの定式化について述べ、重要な大規模言語モデル(LLM)のほとんどをベンチマークする。
1)シーケンシャルタスクにおける行動順序の常識的推論は,ゼロショットプロンプトや少数ショットインコンテキスト学習によって解決することが困難である。
論文 参考訳(メタデータ) (2023-06-07T13:58:55Z) - Improving Task Generalization via Unified Schema Prompt [87.31158568180514]
Unified Promptはフレキシブルでプロンプトの手法で、タスク入力スキーマに従って各タスクの学習可能なプロンプトを自動的にカスタマイズする。
異なるタスクスキーマの特徴を維持しながら、タスク間の共有知識をモデル化する。
このフレームワークは、8つのタスクタイプから下流に見えない16のタスクに対して、強力なゼロショットと少数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-05T15:26:36Z) - Instruction Induction: From Few Examples to Natural Language Task
Descriptions [55.139554327372934]
実例に適合する自然言語命令を生成するように促すことで,言語モデルがいくつかの実演から基礎となるタスクを明示的に推論できることを示す。
InstructGPTは65.7%の人的パフォーマンスを達成するが、オリジナルのGPT-3モデルは9.8%にしか達しない。
論文 参考訳(メタデータ) (2022-05-22T09:22:37Z) - Imitation by Predicting Observations [17.86983397979034]
本研究では, 連続制御タスクの課題に対して, 専門家に匹敵する性能を達成できる観測結果のみを模倣する新しい手法を提案する。
提案手法は, 逆RL目標から導出され, 専門家の観察結果の生成モデルを用いて学習した専門家の行動モデルを用いて模倣する。
本稿では,DeepMind Control Suiteベンチマークにおける強力なベースラインIRL法(GAIL)に対して,タスク非関連機能の存在下でGAILよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2021-07-08T14:09:30Z) - Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。
私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。
学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文 参考訳(メタデータ) (2020-07-01T09:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。