論文の概要: Features as Rewards: Scalable Supervision for Open-Ended Tasks via Interpretability
- arxiv url: http://arxiv.org/abs/2602.10067v3
- Date: Wed, 18 Feb 2026 07:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.934649
- Title: Features as Rewards: Scalable Supervision for Open-Ended Tasks via Interpretability
- Title(参考訳): Rewardsとしての機能: 解釈可能性によるオープンエンディングタスクのスケーラブルなスーパービジョン
- Authors: Aaditya Vikram Prasad, Connor Watts, Jack Merullo, Dhruvil Gala, Owen Lewis, Thomas McGrath, Ekdeep Singh Lubana,
- Abstract要約: オープンエンドタスクのスケーラブルな監視機能としての機能。
本稿では,オープンエンドタスク学習における解釈可能性の利用に関する新しいパラダイムを紹介する。
- 参考スコア(独自算出の注目度): 16.060632221887133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models trained on large-scale datasets have been shown to learn features that encode abstract concepts such as factuality or intent. Such features are traditionally used for test-time monitoring or steering. We present an alternative affordance: features as scalable supervision for open-ended tasks. We consider the case of hallucination-reduction as a desirable, yet open-ended behavior and design a reinforcement learning (RL) pipeline, titled RLFR (Reinforcement Learning from Feature Rewards), that uses features as reward functions. Grounded in a novel probing framework that identifies candidate hallucinated claims, our pipeline teaches a model to intervene and correct its completions when it is uncertain of their factuality. Furthermore, the pipeline enables scalable test-time compute, guided once more by our reward features. This end-to-end process operationalized on Gemma-3-12B-IT results in a policy that is 58% less likely to hallucinate compared to the original model (when run in tandem with our probing harness), while preserving performance on standard benchmarks. Taken together, by grounding supervision in the language of features, this paper introduces a novel paradigm in the use of interpretability for learning open-ended tasks.
- Abstract(参考訳): 大規模データセットでトレーニングされた言語モデルは、事実性や意図といった抽象概念を符号化する機能を学ぶために示されている。
このような機能は、伝統的にテスト時の監視やステアリングに使用される。
オープンエンドタスクのスケーラブルな監視機能としての機能。
RLFR(Reinforcement Learning from Feature Rewards)と題された,特徴を報酬関数として利用する強化学習(RL)パイプラインを設計する。
候補者の幻覚的主張を識別する新しい探索フレームワークを基盤として,我々のパイプラインは,その事実が不確実である場合に介入し,その完了を正すモデルを教える。
さらに、パイプラインはスケーラブルなテスト時間計算を可能にし、報酬機能によって再びガイドされます。
このGemma-3-12B-IT上で運用されたエンドツーエンドプロセスは、標準ベンチマークのパフォーマンスを維持しながら、オリジナルのモデルに比べて幻覚の可能性が58%低いポリシーをもたらす。
本稿では,特徴言語を監督する手法として,オープンエンドタスクの学習における解釈可能性の利用の新たなパラダイムを提案する。
関連論文リスト
- Learning a Dense Reasoning Reward Model from Expert Demonstration via Inverse Reinforcement Learning [50.20267980386502]
我々は、専門家によるデモンストレーションから直接、プロセスの監督のための密集したトークンレベルの報酬モデルを学びます。
学習された推論報酬は、2つの補完的な役割を果たす: (i)訓練中の推論ポリシーを最適化するためのステップレベルのフィードバックを提供する。
論文 参考訳(メタデータ) (2025-10-02T09:55:26Z) - Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - Unsupervised Spatial-Temporal Feature Enrichment and Fidelity
Preservation Network for Skeleton based Action Recognition [20.07820929037547]
非教師なし骨格に基づく行動認識は近年顕著な進歩を遂げている。
既存の教師なし学習手法は、過度なオーバーフィッティング問題に悩まされる。
本稿では,高機能化を実現するために,非教師付き時空間特徴強調・忠実度保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T09:24:07Z) - Learning Primitive-aware Discriminative Representations for Few-shot
Learning [28.17404445820028]
少ないショットラーニングは、いくつかのラベル付き例で、新しいクラスを容易に認識できる分類器を学習することを目的としている。
プリミティブ・マイニング・アンド・リ共振ネットワーク(PMRN)を提案し,プリミティブ・アウェアな表現を学習する。
提案手法は,6つの標準ベンチマークの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-08-20T16:22:22Z) - TSInsight: A local-global attribution framework for interpretability in
time-series data [5.174367472975529]
本稿では,分類器からの勾配と再構成ペナルティに基づいて,その出力に疎性誘導ノルムを付与した自動エンコーダを提案する。
TSInsightは、分類器による予測に重要な機能を保存することを学び、無関係な機能を抑制する。
他のほとんどの属性フレームワークとは対照的に、TSInsightはインスタンスベースの説明とモデルベースの説明の両方を生成することができる。
論文 参考訳(メタデータ) (2020-04-06T19:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。