論文の概要: Rational Inverse Reasoning
- arxiv url: http://arxiv.org/abs/2508.08983v1
- Date: Tue, 12 Aug 2025 14:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.464509
- Title: Rational Inverse Reasoning
- Title(参考訳): 合理的逆推論
- Authors: Ben Zandonati, Tomás Lozano-Pérez, Leslie Pack Kaelbling,
- Abstract要約: 本稿では,階層的な行動生成モデルを用いて潜在プログラムを推論するフレームワークであるRational Inverse Reasoning(RIR)を紹介する。
RIRは、意図したタスク構造を推論し、新しい設定に一般化し、最先端のビジョン言語モデルベースラインより優れている。
- 参考スコア(独自算出の注目度): 33.835770809482085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can observe a single, imperfect demonstration and immediately generalize to very different problem settings. Robots, in contrast, often require hundreds of examples and still struggle to generalize beyond the training conditions. We argue that this limitation arises from the inability to recover the latent explanations that underpin intelligent behavior, and that these explanations can take the form of structured programs consisting of high-level goals, sub-task decomposition, and execution constraints. In this work, we introduce Rational Inverse Reasoning (RIR), a framework for inferring these latent programs through a hierarchical generative model of behavior. RIR frames few-shot imitation as Bayesian program induction: a vision-language model iteratively proposes structured symbolic task hypotheses, while a planner-in-the-loop inference scheme scores each by the likelihood of the observed demonstration under that hypothesis. This loop yields a posterior over concise, executable programs. We evaluate RIR on a suite of continuous manipulation tasks designed to test one-shot and few-shot generalization across variations in object pose, count, geometry, and layout. With as little as one demonstration, RIR infers the intended task structure and generalizes to novel settings, outperforming state-of-the-art vision-language model baselines.
- Abstract(参考訳): 人間は単一の不完全なデモンストレーションを観察し、すぐに非常に異なる問題設定に一般化することができる。
対照的にロボットは何百もの例を必要とすることが多く、訓練条件を超えた一般化に苦慮している。
この制限は、知的行動の基盤となる潜伏した説明を回復できないことに起因するものであり、これらの説明は、高レベルな目標、サブタスクの分解、実行制約からなる構造化プログラムの形式をとることができる、と我々は論じている。
本稿では、階層的な行動生成モデルを用いて、これらの潜在プログラムを推論するフレームワークであるRational Inverse Reasoning(RIR)を紹介する。
RIRはベイズ計画帰納法(Bayesian program induction):視覚言語モデルは構造化された記号的タスク仮説を反復的に提案するが、プランナー・イン・ザ・ループ推論スキームは、その仮説の下で観測されたデモンストレーションの確率によってそれぞれをスコアする。
このループは、簡潔で実行可能なプログラムを後部で生成する。
我々は、オブジェクトのポーズ、カウント、ジオメトリ、レイアウトのバリエーションにまたがる1ショットと数ショットの一般化をテストするために設計された一連の連続的な操作タスクに対して、IRを評価する。
1つのデモで、RIRは意図したタスク構造を推測し、新しい設定に一般化し、最先端のビジョン言語モデルベースラインを上回っます。
関連論文リスト
- On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-17T09:51:40Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - A Study of Rule Omission in Raven's Progressive Matrices [0.0]
分析的推論は人間の認知の中核にあり、人工知能の根本的な課題である。
本研究では、不完全学習条件下での現代AIシステムの一般化能力について検討する。
実験により、変圧器は慣れ親しんだ規則に対して強い性能を示すが、新しい規則や省略規則に直面すると、その精度は急激に低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-10-03T15:53:28Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - BOOST: Bootstrapping Strategy-Driven Reasoning Programs for Program-Guided Fact-Checking [16.655011153015202]
BOOSTは、数発の推論プログラムの自動生成のためのブートストラップ方式である。
デモ作成を導くメタルールとして、明示的でデータ駆動のガイドラインを反復的に洗練します。
ゼロショットから少数ショットのプログラム誘導学習へのシームレスな移行を可能にし、解釈可能性と有効性を高める。
論文 参考訳(メタデータ) (2025-04-03T10:38:45Z) - On the Diagram of Thought [12.304069891580658]
現在の大規模言語モデル(LLM)は印象的な能力を示しているが、複雑な多段階推論タスクに苦労している。
1つの自己回帰型LCMが内部で構成し、DAG(Directed Acyclic Graph)をナビゲートするフレームワークとして、Diagram of Thought(DoT)を紹介した。
本研究は,適切なトポ内の図式として推論DAGを定式化し,検証された情報を集約する最終段階が関連するサブダイアグラムのコリミットの計算に意味的に対応していることを証明する。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers [54.83459025465947]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T20:48:47Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Rationale-Augmented Ensembles in Language Models [53.45015291520658]
我々は、数発のテキスト内学習のための合理化促進策を再考する。
我々は、出力空間における合理的サンプリングを、性能を確実に向上させるキーコンポーネントとして特定する。
有理拡張アンサンブルは既存のプロンプト手法よりも正確で解釈可能な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-02T06:20:57Z) - Abstraction-Refinement for Hierarchical Probabilistic Models [8.959154445409057]
我々はマルコフ決定過程を検証するために、繰り返し部分を持つ階層構造を利用する。
本稿では,サブルーチンがシステム全体に与える影響を限定した局所的なケースに着目した。
このようなプログラムの分析を加速する鍵となる考え方は、(1)サブルーチンの挙動を不確かさとして扱い、必要であれば詳細な分析によってこの不確実性を取り除くこと、(2)類似サブルーチンをパラメトリックテンプレートに抽象化し、次にこのテンプレートを分析することである。
論文 参考訳(メタデータ) (2022-06-06T14:44:36Z) - DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。
GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文 参考訳(メタデータ) (2021-09-27T16:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。