論文の概要: BC Protocol: Structured Dual-Expert Dialogue for Eliciting High-Quality Chain-of-Thought Post-Training Data
- arxiv url: http://arxiv.org/abs/2605.25549v1
- Date: Mon, 25 May 2026 08:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.457041
- Title: BC Protocol: Structured Dual-Expert Dialogue for Eliciting High-Quality Chain-of-Thought Post-Training Data
- Title(参考訳): BCプロトコル: 学習後の高品質連鎖を除去するための構造化デュアルエキスパート対話
- Authors: Bo Zou, Chao Xu,
- Abstract要約: 高品質な専門家チェーン・オブ・シークレット(CoT)データは、大規模言語モデル(LLM)のポストトレーニングにおける中核的なボトルネックの1つです。
本稿では,LLM後処理データ生成のための構造付きデュアルエキスパート推論手法であるBCプロトコルを提案する。
- 参考スコア(独自算出の注目度): 10.071691304378065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality expert chain-of-thought (CoT) data is one of the core bottlenecks in large language model (LLM) post-training. Existing data production methods each have structural limitations: crowdsourced annotation lacks deep reasoning paths; expert solo writing is constrained by the "expert blind spot" -- experts structurally skip reasoning steps they consider obvious; RLHF only produces preference signals rather than reasoning chains. This paper proposes the BC Protocol -- a structured dual-expert elicitation method for LLM post-training data production. The method carefully pairs a domain expert (crystallized intelligence) with a knowledge engineer (fluid intelligence), systematically externalizing the expert's implicit judgments as natural language reasoning chains. We introduce the Participant Aptitude Model, which defines six participant characteristic dimensions that affect elicitation quality. "Calibrated Ignorance" is an original concept proposed in this paper. We further propose "Selection-over-Prescription" as a methodological principle: for implicit knowledge elicitation tasks, investing quality-control resources in personnel selection yields a higher return than investing the same resources in process design. In a controlled experiment in the narrative fiction domain, we directly compared CoT produced by BC Protocol dual dialogue (Group A, (n=20)) against CoT written independently by the same domain expert (Group B, (n=20)). Three cross-vendor judge models -- GPT-4o, Claude Opus 4.5, and Gemini 2.5 Pro -- conducted blind evaluation across five dimensions (600 ratings total). Results show that the BC Protocol achieves an overwhelming advantage in "naturalness of reasoning process" (Group A mean 4.80 vs. Group B mean 1.30, (p=2.4\times10^{-8}), Cliff's (δ=1.0)).
- Abstract(参考訳): 高品質な専門家チェーン・オブ・シークレット(CoT)データは、大規模言語モデル(LLM)のポストトレーニングにおける中核的なボトルネックの1つです。
既存のデータ生成手法には構造的制約がある: クラウドソースアノテーションは深い推論経路を欠いている; 専門家の独著は「専門家の盲点」によって制約されている -- 専門家は当然と考える推論ステップを無視している; RLHFは推論チェーンよりも優先信号のみを生成する。本論文では、LLM後処理データ生成のための構造的デュアルエキスパート推論手法であるBCプロトコルを提案する。
この方法は、ドメインエキスパート(結晶化インテリジェンス)と知識エンジニア(流動化インテリジェンス)を慎重に組み合わせ、専門家の暗黙の判断を自然言語推論チェーンとして体系的に外部化する。
そこで本研究では,誘引品質に影響を及ぼす6つの主観的特徴次元を規定する参加者適性モデルを提案する。
キャリブレーション・イグノランス(Calibrated Ignorance)は、本論文で提案された原案である。
暗黙の知識導入タスクにおいて,人事選択における品質管理資源の投資は,プロセス設計における同一資源の投資よりも高いリターンをもたらす。
物語フィクション領域における制御実験では,BCプロトコルの二重対話(グループA, (n=20))によって生成されたCoTと,同じドメインの専門家(グループB, (n=20))が独立に書いたCoTとを直接比較した。
GPT-4o、Claude Opus 4.5、Gemini 2.5 Proの3つのクロスベンダー審査モデルが5次元(合計600評価)でブラインド評価を行った。
BCプロトコルは「推論過程の自然性」(グループAは4.80、グループBは1.30、(p=2.4\times10^{-8})、Cliff's (δ=1.0))において圧倒的な優位性を達成している。
関連論文リスト
- TTPrint: Evidence-Grounded TTP Extraction via Diverge-then-Converge Verification [12.412754988937644]
サイバー脅威インテリジェンス(CTI)レポートからMITRE ATT&CKテクニックを抽出することは、オープンセットのマルチラベル問題である。
既存の手法は様々な攻撃記述にまたがって一般化性に欠ける。
我々は、人間のアナリストの働きにインスパイアされた分散収束設計を通じて、この課題に対処するTPrintを提案する。
論文 参考訳(メタデータ) (2026-05-25T13:31:49Z) - From Theory to Protocol: Executable Frameworks for Creative Emergence and Strategic Foresight [0.0]
Ghostycolliderは、構造的非ラベル化と衝突によるドメイン間の創造的創発のための5段階のプロトコルである。
PreCOG PROTOCOLは、多軸タイミング判定による信号に基づく戦略的予測のための5段階プロトコルである。
予備的な証拠は、プロトコル駆動の出力がより構造的な新規性、より高いパラメータ特異性、質的に異なる創造方向を示すことを示唆している。
論文 参考訳(メタデータ) (2026-03-06T15:57:35Z) - Understanding on the Edge: LLM-generated Boundary Test Explanations [4.901543643055091]
境界値分析とテストは、ソフトウェアの品質保証に不可欠である。
LLMは自然言語の合理性を生み出すのに役立つが、BVTに対するその価値は実証的に評価されていない。
調査では、ソフトウェア専門家が、明確さ、正確性、完全性、有用性に対する20の境界対について、GPT-4.1の説明を評価した。
論文 参考訳(メタデータ) (2026-01-30T10:11:45Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - A Tale of Two Experts: Cooperative Learning for Source-Free Unsupervised Domain Adaptation [59.88864205383671]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、ソースデータにアクセスすることなく、ターゲットドメインにソース学習モデルを適用するという現実的な課題に対処する。
既存のSFUDA手法は、ソースモデルの予測のみを利用するか、大きなマルチモーダルモデルを微調整する。
本稿では、補完的な洞察と対象データの潜在構造を利用するためのエキスパート協調学習(EXCL)を提案する。
論文 参考訳(メタデータ) (2025-09-26T11:39:50Z) - Thinking About Thinking: SAGE-nano's Inverse Reasoning for Self-Aware Language Models [0.0]
大規模言語モデル(LLM)は、Chain-of-Thoughtプロンプトで複雑な推論タスクを解く際、顕著な能力を示した。
我々は, LLM を分解し, 自己の推論連鎖をポストホックで説明できる新しいパラダイムであるtextbfinverse reasoning を紹介した。
私たちの研究は、透明なAIシステムのための新たな道を作り、AIの安全性、教育、科学的発見において大きなギャップを埋めます。
論文 参考訳(メタデータ) (2025-06-30T09:53:41Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Why do you think that? Exploring Faithful Sentence-Level Rationales
Without Supervision [60.62434362997016]
文レベルで忠実な論理を出力するモデルを作成するために,異なる訓練枠組みを提案する。
本モデルでは,各理性に基づいて各課題を個別に解決し,その課題を最もよく解決した者に高いスコアを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2020-10-07T12:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。