論文の概要: Multi-Domain Explainability of Preferences
- arxiv url: http://arxiv.org/abs/2505.20088v1
- Date: Mon, 26 May 2025 15:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.53828
- Title: Multi-Domain Explainability of Preferences
- Title(参考訳): 前提のマルチドメイン説明可能性
- Authors: Nitay Calderon, Liat Ein-Dor, Roi Reichart,
- Abstract要約: 本稿では、複数のドメインにまたがる好みの概念に基づく説明を生成するためのエンドツーエンド手法を提案する。
提案手法はLLMを用いて,選択された応答と拒否された応答を区別する概念を発見する。
提案手法は, 高い嗜好予測性能を達成し, ベースラインを上回りながら, 説明も可能である。
- 参考スコア(独自算出の注目度): 20.543061089533673
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and reward models, are central to aligning and evaluating large language models (LLMs). Yet, the underlying concepts that drive these preferences remain poorly understood. In this work, we propose a fully automated end-to-end method for generating local and global concept-based explanations of preferences across multiple domains. Our method employs an LLM to discover concepts that differentiate between chosen and rejected responses and represent them with concept-based vectors. To model the relationships between concepts and preferences, we propose a white-box Hierarchical Multi-Domain Regression model that captures both domain-general and domain-specific effects. To evaluate our method, we curate a dataset spanning eight challenging and diverse domains and explain twelve mechanisms. Our method achieves strong preference prediction performance, outperforming baselines while also being explainable. Additionally, we assess explanations in two novel application-driven settings. First, guiding LLM outputs with concepts from LaaJ explanations yields responses that those judges consistently prefer. Second, prompting LaaJs with concepts explaining humans improves their preference predictions. Together, our work provides a new paradigm for explainability in the era of LLMs.
- Abstract(参考訳): 人間の嗜好、LLM-as-a-Judge(LaaJ)、報酬モデルなどの嗜好メカニズムは、大きな言語モデル(LLM)の調整と評価の中心である。
しかし、これらの嗜好を駆動する根底にある概念はいまだに理解されていない。
本研究では,複数のドメインにまたがる嗜好の局所的およびグローバル的概念に基づく説明を生成するための,完全に自動化されたエンドツーエンド手法を提案する。
提案手法はLLMを用いて,選択された応答と拒否された応答を区別し,それらを概念に基づくベクトルで表現する概念を探索する。
概念と嗜好の関係をモデル化するため,ホワイトボックスの階層的多ドメイン回帰モデルを提案する。
提案手法を評価するために,8つの困難かつ多様な領域にまたがるデータセットをキュレートし,12のメカニズムを説明する。
提案手法は, 高い嗜好予測性能を達成し, ベースラインを上回りながら, 説明も可能である。
さらに、アプリケーション駆動の2つの新しい設定における説明を評価する。
まず LLM の出力を LaaJ の説明から導けば, 審査員が常に好む応答が得られる。
第2に、人間を説明する概念でLaaJを推し進めることで、好みの予測が改善される。
我々の研究は、LLMの時代における説明可能性のための新しいパラダイムを提供する。
関連論文リスト
- Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。
DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文 参考訳(メタデータ) (2025-02-20T08:27:00Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - DEAL: Disentangle and Localize Concept-level Explanations for VLMs [10.397502254316645]
大きな訓練済みのビジョンランゲージモデルでは、きめ細かい概念を特定できないかもしれない。
本研究では,人間のアノテーションを使わずに概念のDisEnt and Localize(アングル)概念レベルの説明を提案する。
実験結果から,提案手法はモデルの概念レベルの説明を,不整合性と局所性の観点から著しく改善することを示した。
論文 参考訳(メタデータ) (2024-07-19T15:39:19Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - CARE: Coherent Actionable Recourse based on Sound Counterfactual
Explanations [0.0]
本稿では,モデルおよびユーザレベルのデシダータに対処するモジュール型説明フレームワークであるCAREを紹介する。
モデルに依存しないアプローチとして、CAREはブラックボックスモデルに対して複数の多様な説明を生成する。
論文 参考訳(メタデータ) (2021-08-18T15:26:59Z) - Multi-Objective Counterfactual Explanations [0.7349727826230864]
本稿では, 対物探索を多目的最適化問題に変換する多目的対物法 (MOC) を提案する。
我々のアプローチは、提案する目的間のトレードオフの異なる多様な対策セットを返却するだけでなく、特徴空間における多様性も維持する。
論文 参考訳(メタデータ) (2020-04-23T13:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。