Fugu-MT 論文翻訳(概要): GATES: Self-Distillation under Privileged Context with Consensus Gating

論文の概要: GATES: Self-Distillation under Privileged Context with Consensus Gating

arxiv url: http://arxiv.org/abs/2602.20574v1
Date: Tue, 24 Feb 2026 05:56:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.622429
Title: GATES: Self-Distillation under Privileged Context with Consensus Gating
Title（参考訳）: GATES:コンセンサスゲーティングによる主観的文脈下での自己蒸留
Authors: Alex Stein, Furong Huang, Tom Goldstein,
Abstract要約: 我々は、監督が信頼できない環境で自己蒸留を研究する。非対称な文脈で回答する文書に焦点をあてる。複数の文書ベース推論トレースをサンプリングすることにより、教師のコンセンサスからオンラインでの監督を導出する。
参考スコア（独自算出の注目度）: 89.62339954332248
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study self-distillation in settings where supervision is unreliable: there are no ground truth labels, verifiable rewards, or external graders to evaluate answers. We focus on document-grounded question answering with asymmetric context, where a single model serves as both tutor (with access to a relevant source document during training) and student (answering from the question alone at test time). Rather than assuming tutor correctness, we derive supervision online from tutor consensus by sampling multiple document-grounded reasoning traces and using agreement to gate learning. Conditioned on this reliability signal, we distill knowledge through full tutor reasoning trajectories (not just final answers), providing a dense and stable learning signal. Empirically, this consensus-gated trajectory distillation substantially improves transfer to the document-free student. Held-out in-domain accuracy under asymmetric evaluation improves from 46.0\% to 62.0\%, and average (maj@8) accuracy on public document-free math benchmarks improves from 20.2\% to 35.4\%.
Abstract（参考訳）: 我々は、監督が信頼できない環境で自己蒸留を研究し、答えを評価するための基礎的な真理ラベル、検証可能な報酬、または外部グレーダーは存在しない。そこでは,教師(トレーニング中に関連する資料にアクセス可能)と学生(テスト時にのみ質問から回答する)の両方に単一のモデルが機能し,非対称な文脈で回答する文書地上質問に焦点をあてる。教師の正当性を仮定するよりも、複数の文書に基づく推論トレースをサンプリングし、ゲートラーニングに合意することで、教師のコンセンサスからオンラインでの監督を導出する。この信頼性信号に条件付きで,全教師推論トラジェクトリを通じて知識を抽出し,高密度で安定した学習信号を提供する。実験的に、この合意付き軌道蒸留は、文書のない学生への転送を大幅に改善する。非対称評価下でのドメイン内精度は46.0\%から62.0\%に改善され、公開文書のない数学ベンチマークの平均(maj@8)精度は20.2\%から35.4\%に改善された。

関連論文リスト

DocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA [1.580774794371876]
文書視覚質問応答(DocVQA)は、テキストの内容と空間的レイアウトを共同で推論するモデルを必要とする。現在のシステムでは、高い精度-効率のトレードオフが示されており、大規模な教師モデルは強力な接地を達成するが、配備には高すぎる。本稿では,大規模教員の空間推論能力を展開可能な学生用VLMに伝達する,実証された連鎖蒸留フレームワークDocVALを提案する。
論文参考訳（メタデータ） (2025-11-27T15:00:58Z)
Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。 LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文参考訳（メタデータ） (2025-11-15T02:50:23Z)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。 ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文参考訳（メタデータ） (2025-10-02T02:14:33Z)
Beyond Agreement: Rethinking Ground Truth in Educational AI Annotation [1.8434042562191815]
我々は、注釈品質ハッパーのゲートキーパーとしての人間間信頼性(IRR)への過度な依存が、データの分類に進展していると論じる。本稿では,マルチラベルアノテーションスキーム,エキスパートベースアプローチ,クローズ・ザ・ループの有効性など,補完的な評価手法の5つの例を紹介する。我々は、アノテーションの品質と基礎的真実を再考し、合意のみに対する妥当性と教育的影響を優先することを求める。
論文参考訳（メタデータ） (2025-07-31T20:05:26Z)
Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文参考訳（メタデータ） (2025-03-21T06:12:06Z)
Unsupervised Pretraining for Fact Verification by Language Model Distillation [4.504050940874427]
SFAVEL (Self-supervised Fact Verification via Language Model Distillation) は,教師なし事前学習フレームワークである。アノテーションを必要とせずに、自己管理機能を高品質なクレーム-ファクトアライメントに分解する。これは、特徴が高品質なクレームとエビデンスアライメントを達成することを奨励する、新しい対照的な損失関数によって実現されている。
論文参考訳（メタデータ） (2023-09-28T15:53:44Z)
Faithful Knowledge Distillation [75.59907631395849]
i) 教師と学生は、正しく分類されたデータセットのサンプルに近い点で意見が一致しないか、(ii) 蒸留した学生は、データセットのサンプルに関する教師と同じくらい自信があるか、という2つの重要な質問に焦点をあてる。これらは、安全クリティカルな設定の中で、堅牢な教師から訓練された小さな学生ネットワークを配置することを考えると、重要な問題である。
論文参考訳（メタデータ） (2023-06-07T13:41:55Z)
MDFlow: Unsupervised Optical Flow Learning by Reliable Mutual Knowledge Distillation [12.249680550252327]
現在のアプローチでは、継続的な自己スーパービジョンの強化正則化項が課せられている。本稿では,教師と学生のネットワーク間で信頼ある知識を相互に伝達する新たな相互蒸留フレームワークを提案する。我々のアプローチはMDFlowと呼ばれ、挑戦的なベンチマーク上で最先端のリアルタイム精度と一般化能力を実現する。
論文参考訳（メタデータ） (2022-11-11T05:56:46Z)
PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文参考訳（メタデータ） (2020-10-06T15:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。