論文の概要: GIER: Gap-Driven Self-Refinement for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.00325v1
- Date: Sat, 30 Aug 2025 02:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.177455
- Title: GIER: Gap-Driven Self-Refinement for Large Language Models
- Title(参考訳): GIER: 大規模言語モデルのためのギャップ駆動型セルフリファインメント
- Authors: Rinku Dewri,
- Abstract要約: GIER(Gap-driven Iterative Enhancement of Responses)は、大規模な言語モデル(LLM)出力を改善するためのフレームワークである。
GIERは、タスクの精度を低下させることなく、合理的な品質、接地、推論アライメントを改善する。
本分析は,抽象的な概念的ギャップを解釈できるだけでなく,具体的な推論改善に変換できることを示す。
- 参考スコア(独自算出の注目度): 0.8460698440162889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce GIER (Gap-driven Iterative Enhancement of Responses), a general framework for improving large language model (LLM) outputs through self-reflection and revision based on conceptual quality criteria. Unlike prompting strategies that rely on demonstrations, examples, or chain-of-thought templates, GIER utilizes natural language descriptions of reasoning gaps, and prompts a model to iteratively critique and refine its own outputs to better satisfy these criteria. Across three reasoning-intensive tasks (SciFact, PrivacyQA, and e-SNLI) and four LLMs (GPT-4.1, GPT-4o Mini, Gemini 1.5 Pro, and Llama 3.3 70B), GIER improves rationale quality, grounding, and reasoning alignment without degrading task accuracy. Our analysis demonstrates that models can not only interpret abstract conceptual gaps but also translate them into concrete reasoning improvements.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) 出力を改善するための汎用フレームワークであるGIER (Gap-driven Iterative Enhancement of Responses) を紹介する。
デモ、例、チェーン・オブ・シンクのテンプレートに依存するプロンプト戦略とは異なり、GIERは推論ギャップの自然言語記述を使用し、モデルに反復的に批評し、これらの基準を満たすために独自のアウトプットを洗練させるよう促す。
3つの推論集約タスク(SciFact、PrivacyQA、e-SNLI)と4つのLCM(GPT-4.1、GPT-4o Mini、Gemini 1.5 Pro、Llama 3.370B)にまたがって、GIERはタスク精度を劣化させることなく合理性、接地、推論アライメントを改善する。
本分析は,抽象的な概念的ギャップを解釈できるだけでなく,具体的な推論改善に変換できることを示す。
関連論文リスト
- ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs [54.154593699263074]
ProtoReasoningは、大規模推論モデルの推論能力を高めるフレームワークである。
ProtoReasoningは問題を対応するプロトタイプ表現に変換する。
ProtoReasoningは論理的推論に基づくベースラインモデルよりも4.7%改善されている。
論文 参考訳(メタデータ) (2025-06-18T07:44:09Z) - A NotSo Simple Way to Beat Simple Bench [0.0]
本稿では,大規模言語モデル(LLM)における推論能力向上のための新しい枠組みを提案する。
モデル精度とロバスト性を改善するために,グローバルな整合性チェックと組み合わせたマルチステッププロンプト戦略を提案する。
クロードは論理的整合性を維持するのに優れ, GPT-4oは探索的創造性を示すが, 曖昧なプロンプトに苦しむ。
論文 参考訳(メタデータ) (2024-12-12T16:04:31Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - Are Machines Better at Complex Reasoning? Unveiling Human-Machine Inference Gaps in Entailment Verification [41.330719056639616]
本研究は,多文前提における係り受け検証問題について考察する。
一貫性のないモデル生成有理数の検出などの現代のNLP問題は、複雑なマルチホップ推論を必要とする。
論文 参考訳(メタデータ) (2024-02-06T04:14:09Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - GLoRE: Evaluating Logical Reasoning of Large Language Models [20.77694584450457]
GLoREは、多様なデータセットを統合し、それらを大きな言語モデルを評価するための統一フォーマットに標準化するプラットフォームである。
実験結果から,OpenAIのo1 miniやDeepSeek R1,QwQ-32Bといった大規模推論モデルの論理的推論能力は,人体の性能と教師付き微調整モデルと比較して著しく向上したことがわかった。
論文 参考訳(メタデータ) (2023-10-13T13:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。