論文の概要: Interpretable Reward Modeling with Active Concept Bottlenecks
- arxiv url: http://arxiv.org/abs/2507.04695v1
- Date: Mon, 07 Jul 2025 06:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.295952
- Title: Interpretable Reward Modeling with Active Concept Bottlenecks
- Title(参考訳): アクティブ・コンセプト・ボトルネックを用いた解釈可能なリワードモデリング
- Authors: Sonia Laguna, Katarzyna Kobalczyk, Julia E. Vogt, Mihaela Van der Schaar,
- Abstract要約: 本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
- 参考スコア(独自算出の注目度): 54.00085739303773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Concept Bottleneck Reward Models (CB-RM), a reward modeling framework that enables interpretable preference learning through selective concept annotation. Unlike standard RLHF methods that rely on opaque reward functions, CB-RM decomposes reward prediction into human-interpretable concepts. To make this framework efficient in low-supervision settings, we formalize an active learning strategy that dynamically acquires the most informative concept labels. We propose an acquisition function based on Expected Information Gain and show that it significantly accelerates concept learning without compromising preference accuracy. Evaluated on the UltraFeedback dataset, our method outperforms baselines in interpretability and sample efficiency, marking a step towards more transparent, auditable, and human-aligned reward models.
- Abstract(参考訳): 本稿では、選択的な概念アノテーションを通じて、解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
このフレームワークを低消費電力環境で効率よくするために,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
本稿では、期待情報ゲインに基づく獲得関数を提案し、好みの精度を損なうことなく概念学習を著しく加速することを示す。
UltraFeedbackデータセットを評価したところ,本手法は,より透明で,監査可能で,人間と協調した報酬モデルへの一歩として,解釈可能性とサンプル効率のベースラインを上回りました。
関連論文リスト
- Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - Addressing Concept Mislabeling in Concept Bottleneck Models Through Preference Optimization [5.822390655999343]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、AIシステムの信頼性を高めるために、人間に理解可能な一連の概念に決定を拘束することを提案する。
CBMは通常、データセットには正確な概念ラベルが含まれており、性能を著しく低下させる可能性があると仮定する。
本稿では,概念選好最適化(Concept Preference Optimization, CPO)の目的について紹介する。
論文 参考訳(メタデータ) (2025-04-25T02:43:10Z) - Language Guided Concept Bottleneck Models for Interpretable Continual Learning [62.09201360376577]
継続的な学習は、学習した情報を忘れることなく、学習システムが新しい知識を常に獲得することを目的としている。
既存のCLメソッドのほとんどは、モデルパフォーマンスを改善するための学習知識の保存に重点を置いている。
両課題に対処するために,言語指導型概念ボトルネックモデルを統合する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2025-03-30T02:41:55Z) - Stochastic Concept Bottleneck Models [8.391254800873599]
概念ボトルネックモデル(CBM)は、人間の理解可能な概念に基づいて最終的な予測を行う有望な解釈可能な手法として登場した。
本稿では,概念の依存関係をモデル化する新しいアプローチであるConcept Bottleneck Models (SCBM)を提案する。
単一概念の介入はすべての関係する概念に影響を与え、介入の有効性を向上させる。
論文 参考訳(メタデータ) (2024-06-27T15:38:37Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Bayesian Prompt Learning for Image-Language Model Generalization [64.50204877434878]
我々はベイズ法の正規化能力を用いて、変分推論問題としてプロンプト学習をフレーム化する。
提案手法は,プロンプト空間を正規化し,目に見えないプロンプトへの過剰適合を低減し,目に見えないプロンプトのプロンプト一般化を改善する。
ベイジアン・プロンプト学習がプロンプト空間の適切なカバレッジを提供する15のベンチマークを実証的に示す。
論文 参考訳(メタデータ) (2022-10-05T17:05:56Z) - Guided Variational Autoencoder for Disentanglement Learning [79.02010588207416]
本稿では,潜在表現非絡み合い学習を行うことで,制御可能な生成モデルを学習できるアルゴリズム,Guided-VAEを提案する。
我々は、ガイド-VAEにおける教師なし戦略と教師なし戦略を設計し、バニラVAE上でのモデリングと制御能力の強化を観察する。
論文 参考訳(メタデータ) (2020-04-02T20:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。