論文の概要: FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol
- arxiv url: http://arxiv.org/abs/2510.01674v1
- Date: Thu, 02 Oct 2025 04:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.999237
- Title: FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol
- Title(参考訳): FOR-Prompting:非対称なプロンプティングプロトコルによるオブジェクトからリビジョンへ
- Authors: He Zhang, Anzhou Zhang, Jian Dai,
- Abstract要約: 推論プロトコルは内部の審議を組織するが、自己修正を誘発する外部質問の明確なメカニズムは欠如している。
For-Promptingは、デフェンダーが回答を提案し、Objectionerが直接修正せずに質問スタイルの異議を提起し、Hostが一貫性とクロージャを強制する非対称なプロトコルである。
GSM8Kでは、単一プロンプトよりも約22%のポイントゲインとCoTと同等の精度を示し、一様GPT 4.1判事の推論とコヒーレンスにおいて10%以上の高い評価を得た。
- 参考スコア(独自算出の注目度): 7.765950922513099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning protocols such as Chain of Thought (CoT) and Tree of Thought (ToT) organize internal deliberation but lack an explicit mechanism for external questioning that elicits self-revision. We present FOR-Prompting (From Objection to Revision Prompting), an asymmetric protocol where a Defender proposes an answer, an Objectioner raises question-style objections with no direct fixes, and a Host enforces consistency and closure. On GSM8K we observe about a 22% point gain over single-prompt and accuracy on par with CoT, with more than 10% higher ratings in reasoning and coherence from a uniform GPT 4.1 judge. FOR-Prompting also corrects mistakes without tools or human supervision on tricky queries, and improves performance for small-scale model (approx. 19% accuracy improved on Llama3.2:1b for GSM8K task), highlighting promise for small models and on personal device use. Beyond factual QA, qualitative analyses on open-ended tasks show enhanced exploration and refinement, with dialogue traces that make assumptions and trade-offs explicit. The protocol is model agnostic and operates purely at the prompt level through role-structured turns, so it works with hosted and local models of different sizes without retraining, and it supports large-scale study of objection-guided reasoning.
- Abstract(参考訳): Chain of Thought (CoT) や Tree of Thought (ToT) のような推論プロトコルは内部の議論を組織するが、自己修正を誘発する外部質問の明確なメカニズムは欠如している。
For-Prompting(From Objection to Revision Prompting)は、デフェンダーが回答を提案し、Objectionerが直接修正せずに質問スタイルの異議を提起し、Hostが一貫性とクロージャを強制する非対称プロトコルである。
GSM8Kでは、単一プロンプトよりも約22%のポイントゲインとCoTと同等の精度を示し、一様GPT 4.1判事の推論とコヒーレンスにおいて10%以上の高い評価を得た。
FOR-Promptingは、ツールや人間による複雑なクエリの監視なしにミスを修正し、小規模モデルのパフォーマンスを改善し(GSM8KタスクのLlama3.2:1bで約19%の精度向上)、小型モデルとパーソナルデバイスの使用の約束を強調している。
事実QA以外にも、オープンエンドタスクの質的な分析は、仮定とトレードオフを明確にする対話トレースを用いて、探索と改善の強化を示している。
このプロトコルはモデル非依存であり、ロール構造化されたターンを通じて純粋にプロンプトレベルで動作するため、異なるサイズのホストモデルとローカルモデルで再トレーニングすることなく動作し、反対誘導推論の大規模研究を支援する。
関連論文リスト
- Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning [0.0]
強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは精度を60.72%から84.03%に改善した。
論文 参考訳(メタデータ) (2026-02-09T11:08:24Z) - ConfSpec: Efficient Step-Level Speculative Reasoning via Confidence-Gated Verification [0.2578242050187029]
ステップレベルの投機的推論はこのコストを軽減することを目的としていますが、既存のアプローチは長年のトレードオフに直面しています。
我々は、このトレードオフを解決する信頼性の高いケースケード検証フレームワークConfSpecを提案する。
論文 参考訳(メタデータ) (2026-01-28T05:58:05Z) - Emergence: Overcoming Privileged Information Bias in Asymmetric Embodied Agents via Active Querying [0.0]
大型言語モデル(LLM)は強力な推論エンジンとして機能するが、エンボディ環境では「シンボルグラウンド」に苦しむ。
主観的情報バイアス(英: Privileged Information Bias, 英: Curse of Knowledge, 英: Curse of Knowledge, 英: Privileged Information Bias, 英: Curse of Knowledge, 英: Curse of Knowledge)とは、知識のある「リーダー」エージェントが、心の理論の欠如により、センサ限定の「フォロワー」を誘導できないことを指す。
リーダーは35.0%のエピソードで目標を達成できたが、共同チームは17.0%の時間しか成功していない。
論文 参考訳(メタデータ) (2025-12-13T17:17:51Z) - Reasoning-Aware Prompt Orchestration: A Foundation Model for Multi-Agent Language Model Coordination [0.0]
複数の特殊エージェント間の推論を強化する動的プロンプトオーケストレーションのための理論的基盤となるフレームワークを提案する。
このフレームワークは,エージェント移行時の論理的一貫性の維持,推論対応の迅速な適応,分散推論のスケーラブルな調整,という3つの課題に対処する。
1000件の合成マルチエージェント会話実験の結果,推論遅延の42%低減,ROUGE-Lスコアによる論理的整合性の23%改善,文脈損失のないタスク完了の89%の成功率が確認された。
論文 参考訳(メタデータ) (2025-09-30T22:33:01Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering [57.12316804290369]
ユーザ固有の情報ニーズに質問応答システムを適用するためには,パーソナライゼーションが不可欠である。
本稿では,タスク固有の微調整を必要とせず,任意の大規模言語モデル (LLM) に適用可能な推論段階の方法として,思考の経路 (PoT) を提案する。
PoTは競争ベースラインを一貫して上回り、13.1%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-09-23T14:44:46Z) - Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment [22.305033366660187]
言語モデル(LM)は矛盾する推論子であり、しばしば同じプロンプトに対する矛盾した応答を生成する。
適切に整合した推論モデルの本質的な性質として自己整合性を定式化し、MACA(Multi-Agent Consensus Alignment)を導入する。
MACAは、エージェントが自分自身をより決定的かつ簡潔に教えることを可能にし、外部の監督なしにマルチエージェント設定におけるピアインサイトをより活用する。
論文 参考訳(メタデータ) (2025-09-18T17:27:28Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes [39.61443457073034]
EviNote-RAGは検索ノート・アンサーのワークフローに従うフレームワークである。
生の外部情報を直接推論する代わりに、モデルが最初にサポート・エビデンス・ノートを生成する。
EviNote-RAGは最先端のパフォーマンスを実現し、回答の正確性、トレーニングの安定性、堅牢性、効率性を向上する。
論文 参考訳(メタデータ) (2025-08-31T14:44:45Z) - Information Bargaining: Bilateral Commitment in Bayesian Persuasion [60.3761154043329]
長期的説得のための統一的なフレームワークとよく構造化されたソリューションの概念を導入する。
この視点はゲーム構造の共通知識を明確にし、レシーバに匹敵するコミットメント能力を与える。
このフレームワークは、2段階の検証と推論のパラダイムによって検証される。
論文 参考訳(メタデータ) (2025-06-06T08:42:34Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Variability Need Not Imply Error: The Case of Adequate but Semantically Distinct Responses [7.581259361859477]
不確実性定量化ツールは、モデルが不確実である場合の応答を拒否するために使用できます。
我々は、モデルがAdequate Responses (PROBAR)に割り当てる確率を推定する。
ProBARはアンビグニティ/オープンエンディエントネスの異なるプロンプトでセマンティックエントロピーを上回ります。
論文 参考訳(メタデータ) (2024-12-20T09:02:26Z) - DebUnc: Improving Large Language Model Agent Communication With Uncertainty Metrics [52.242449026151846]
大規模言語モデル(LLM)の精度向上のためのマルチエージェント論争が紹介されている。
エージェントの信頼性を評価するために不確実性指標を用いた議論フレームワークであるDebUncを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:15:01Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。