論文の概要: Beyond Fine-Tuning: In-Context Learning and Chain-of-Thought for Reasoned Distractor Generation
- arxiv url: http://arxiv.org/abs/2604.17574v1
- Date: Sun, 19 Apr 2026 18:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.590878
- Title: Beyond Fine-Tuning: In-Context Learning and Chain-of-Thought for Reasoned Distractor Generation
- Title(参考訳): ファインチューニングを超えて:共振器生成のためのインコンテキストラーニングとチェーン・オブ・サード
- Authors: Elaf Alhazmi, Quan Z. Sheng, Wei Emma Zhang,
- Abstract要約: ディトラクタ生成(DG)は、依然としてドメインの専門家に大きく依存する労働集約的なタスクである。
本稿では、教師なし意味検索を用いた文脈内学習を通して、DGの大規模言語モデル(LLM)推論について検討する。
我々は,与えられた質問応答に対して,散逸子とそれらの論理を共同で生成する有理拡張DGフレームワークを設計する。
- 参考スコア(独自算出の注目度): 17.578631264880876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distractor generation (DG) remains a labor-intensive task that still significantly depends on domain experts. The task focuses on generating plausible yet incorrect options, known as distractors, for multiple-choice questions. A reliable distractor must be contextually relevant to the question and able to mislead examinees through implicit reasoning when identifying the correct answer. While a recent method integrates fine-tuning pre-trained encoder-decoder models with contrastive learning to generate semantically relevant distractors for a given question-answer, it often fails to capture the underlying reasoning process that experts utilize when selecting distractors in benchmarks. In this paper, we explore large language models (LLMs) reasoning for DG through in-context learning with unsupervised semantic retrieval for selecting few-shot examples. We design a rationale-augmented DG framework that jointly generates distractors and their rationales for a given question-answer. Extensive experiments on six benchmarks, with varying average distractor lengths and domains, demonstrate that prompting LLMs with few-shot examples substantially improves the performance compared to recent DG models. It outperforms recent approaches and achieves state-of-the-art results in generating reasoned distractors that align with human-labeled benchmarks.
- Abstract(参考訳): ディトラクタ生成(DG)は、依然としてドメインの専門家に大きく依存する労働集約的なタスクである。
このタスクは、複数の選択の質問に対して、邪魔者として知られる、妥当で不正確な選択肢を生成することに焦点を当てている。
信頼性のある気晴らし器は、質問に文脈的に関連し、正しい答えを特定する際に暗黙の推論を通じて検査を誤解させることができる必要がある。
最近の手法では、微調整済みのエンコーダデコーダモデルとコントラスト学習を統合して、与えられた質問応答に対して意味論的に関連性のあるイントラクタを生成するが、ベンチマークでイントラクタを選択する際に専門家が利用する基本的な推論プロセスの取得に失敗することが多い。
本稿では,DGの大規模言語モデル(LLM)推論を,教師なしセマンティック検索を用いた文脈内学習により探索し,少数例を選択する。
我々は,与えられた質問応答に対して,散逸子とそれらの論理を共同で生成する有理拡張DGフレームワークを設計する。
近年のDGモデルと比較して,サンプル数が少ないLLMの進行により性能が大幅に向上することが実証された。
この手法は最近のアプローチより優れており、人間のラベル付きベンチマークと整合する推論されたイントラクタを生成することによって、最先端の結果を達成する。
関連論文リスト
- Mitigating Overthinking in Large Reasoning Language Models via Reasoning Path Deviation Monitoring [35.58177960646011]
LRLMにおける過剰思考を緩和する早期退避法を提案する。
本手法は,既存手法に比べてバニラCoTよりも高い性能向上を実現している。
論文 参考訳(メタデータ) (2026-03-15T07:00:47Z) - Hit-RAG: Learning to Reason with Long Contexts via Preference Alignment [97.55382322103986]
Hit-RAGは認知的ボトルネックを解決するために設計された多段階の優先順位調整フレームワークである。
本手法は,3つの異なる段階を通じて外部証拠の利用を体系的に改善する。
論文 参考訳(メタデータ) (2026-03-07T04:05:27Z) - Optimizing In-Context Demonstrations for LLM-based Automated Grading [31.353360036776976]
GUIDE(Grading Using Iteratively Designed Exemplars)は、経験的選択と改善を境界中心の最適化問題として再設計するフレームワークである。
物理, 化学, 教育的内容知識の実験において, GUIDE は標準的検索基準を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:52:38Z) - Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution [79.98699884805636]
Reasoning Execution by Multiple Listeners (REMUL) は多人数の強化学習手法である。
REMULは、推論が他の当事者に従えるかがより忠実になるという仮説に基づいている。
スピーカーは、リスナーにとって明らかな推論を生み出すことで報われます。
論文 参考訳(メタデータ) (2026-02-18T02:55:55Z) - Learning to Reason: Training LLMs with GPT-OSS or DeepSeek R1 Reasoning Traces [2.0789230137053014]
テストタイムのスケーリングにより、複雑な問題から推論できる新しいLarge Language Models(LLM)が実現された。
2種類の推論トレースを用いた後学習後の数学問題に対する中規模のLLMの性能の比較を行った。
論文 参考訳(メタデータ) (2025-11-24T17:26:58Z) - GSM-Agent: Understanding Agentic Reasoning Using Controllable Environments [56.007498767771075]
GSM-Agentは複雑な環境でエージェント推論を評価するための新しいベンチマークである。
我々は,環境文書の埋め込みをノードにクラスタ化することでエージェント推論パターンを分析し,各ツールコールを最も近いノードにマッピングする。
本稿では,LLMのエージェント推論性能を向上させるためのツール拡張テストタイムスケーリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:37Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Self-Critique Guided Iterative Reasoning for Multi-hop Question Answering [24.446222685949227]
大規模言語モデル(LLM)は知識集約型マルチホップ推論の課題に直面している。
自己批判型反復推論(SiGIR)を提案する。
SiGIRは、反復推論プロセスのガイドに自己批判的なフィードバックを使用する。
論文 参考訳(メタデータ) (2025-05-25T12:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。