論文の概要: Explanation Quality Assessment as Ranking with Listwise Rewards
- arxiv url: http://arxiv.org/abs/2604.24176v1
- Date: Mon, 27 Apr 2026 08:35:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.858153
- Title: Explanation Quality Assessment as Ranking with Listwise Rewards
- Title(参考訳): リストリワードによるランク付けによる説明品質評価
- Authors: Thomas Bailleux, Tanmoy Mukherjee, Emmanuel Lonca, Pierre Marquis, Zied Bouraoui,
- Abstract要約: 我々は、世代問題ではなく、ランキング問題として、説明品質評価を再構築する。
品質レベルが向上したインスタンスごとの候補セットを構築し,複数の候補を識別するために報奨モデルを構築した。
ポリシー最適化において報酬として使用される場合、ランキングベースのスコアは、回帰ベースの報酬が完全に失敗する設定において安定した収束を可能にする。
- 参考スコア(独自算出の注目度): 21.107094956399262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We reformulate explanation quality assessment as a ranking problem rather than a generation problem. Instead of optimizing models to produce a single "best" explanation token-by-token, we train reward models to discriminate among multiple candidate explanations and learn their relative quality. Concretely, we construct per-instance candidate sets with graded quality levels and train listwise and pairwise ranking models (ListNet, LambdaRank, RankNet) to preserve ordinal structure and avoid score compression typical of pointwise regression or binary preference objectives. We observe three findings: First, ranking losses consistently outperform regression on score separation across all domains tested. Second, the optimal ranking loss depends on data characteristics: listwise objectives excel with well-separated quality tiers, while pairwise methods are more robust to noisy natural annotations. Third, when trained on carefully curated and well-structured data, small encoder models can match models that are orders of magnitude larger, suggesting that data quality matters more than model scale. Finally, when used as rewards in policy optimization, ranking-based scores enable stable convergence in settings where regression-based rewards fail entirely. Code and data are available at: https://github.com/Tankiit/PPO_Learning_to_rank
- Abstract(参考訳): 我々は、世代問題ではなく、ランキング問題として、説明品質評価を再構築する。
モデルに1つの「ベスト」な説明トークンを1つずつ生成させる代わりに、複数の候補となる説明を識別し、相対的な品質を学ぶよう報酬モデルを訓練する。
具体的には、ランク付けされた品質レベルを持つインスタンスごとの候補セットを構築し、リストワイズとペアワイズランキングモデル(ListNet, LambdaRank, RankNet)を構築し、順序構造を保存し、ポイントワイズ回帰や二進選好目的の典型的なスコア圧縮を避ける。
まず、ランク付けされた損失は、テスト対象のすべての領域におけるスコア分離において、常にレグレッションを上回ります。
第2に、最適なランキングの損失は、データ特性に依存している: リストワイドの目的は、よく区切られた品質階層に優れ、ペアワイドのメソッドは、ノイズの多い自然なアノテーションに対してより堅牢である。
第3に、慎重にキュレートされ、構造化されたデータでトレーニングされた場合、小さなエンコーダモデルは、桁違いに大きいモデルにマッチし、データ品質がモデルスケールよりも重要であることを示唆する。
最後に、ポリシー最適化の報酬として使用される場合、ランキングベースのスコアは、回帰ベースの報酬が完全に失敗する設定において安定した収束を可能にする。
コードとデータは、https://github.com/Tankiit/PPO_Learning_to_rank.comで入手できる。
関連論文リスト
- CAIRO: Decoupling Order from Scale in Regression [13.755937210012883]
回帰を2つの異なる段階に分離する枠組みを提案する。
第1段階では,スケール不変ランキングの損失を最小限に抑えることで,スコアリング関数を学習する。
第2に,等速回帰による目標スケールの復元を行う。
論文 参考訳(メタデータ) (2026-02-16T03:50:05Z) - RewardRank: Optimizing True Learning-to-Rank Utility [28.662272762911325]
本稿では,RewardRankを紹介した。
この結果から, 対実的ユーティリティの直接最適化として, 学習からランクへの変換が可能であることが示唆された。
論文 参考訳(メタデータ) (2025-08-19T18:08:35Z) - ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability [83.16850534680505]
本稿では,自動推論集約型トレーニングデータ合成フレームワークを提案する。
自己整合性データフィルタリング機構は、データ品質を保証するために設計されている。
トレーニングされた推論集約型リランカ textbfReasonRank は,BRIGHT のリーダボード上での最先端 (SOTA) のパフォーマンス40.6 を達成する。
論文 参考訳(メタデータ) (2025-08-09T17:26:18Z) - From Pairwise to Ranking: Climbing the Ladder to Ideal Collaborative Filtering with Pseudo-Ranking [13.01752267289297]
理想的なコラボレーティブフィルタリングモデルは、ユーザのすべての項目の完全なランキングから学習し、最適なトップKレコメンデーションを作成すべきである。
ほとんどのCFモデルは、完全なランク付けを近似するためにペアワイズ損失関数に依存しており、結果として大きな性能差が生じる。
そこで本研究では,従来のノイズ注入機構によって制御された擬似階調を導入し,ランキング情報の欠如に対処する擬似階調パラダイム(PRP)を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:01:16Z) - Permutative Preference Alignment from Listwise Ranking of Human Judgments [40.23480751285947]
我々はNDCGを異なる代理損失で近似することで、エンドツーエンドのアライメントアルゴリズムを開発する。
我々は,NDCGに基づく手法により,B-T法よりも効率よくランキング精度を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-06T03:49:28Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - Recommendation Systems with Distribution-Free Reliability Guarantees [83.80644194980042]
我々は、主に良いアイテムを含むことを厳格に保証されたアイテムのセットを返す方法を示す。
本手法は, 擬似発見率の厳密な有限サンプル制御によるランキングモデルを提供する。
我々はYahoo!のランキングとMSMarcoデータセットの学習方法を評価する。
論文 参考訳(メタデータ) (2022-07-04T17:49:25Z) - GNNRank: Learning Global Rankings from Pairwise Comparisons via Directed
Graph Neural Networks [68.61934077627085]
本稿では,グラフ埋め込みを学習可能なGNNと互換性のあるモデリングフレームワークであるGNNRankを紹介する。
既存の手法と比較して,我々の手法が競争力があり,しばしば優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-02-01T04:19:50Z) - Beyond Triplet Loss: Meta Prototypical N-tuple Loss for Person
Re-identification [118.72423376789062]
マルチクラス分類損失(N-tuple loss)を導入し、クエリごとの最適化のために複数の(N)インスタンスを共同で検討する。
マルチクラス分類を組み込んだモデルにより,ベンチマーク対象のReIDデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2020-06-08T23:34:08Z) - The World is Not Binary: Learning to Rank with Grayscale Data for
Dialogue Response Selection [55.390442067381755]
人間の努力なしに、グレースケールのデータを自動的に構築できることが示される。
本手法では,自動グレースケールデータ生成装置として,市販の応答検索モデルと応答生成モデルを用いる。
3つのベンチマークデータセットと4つの最先端マッチングモデルの実験は、提案手法が大幅に、一貫したパフォーマンス改善をもたらすことを示している。
論文 参考訳(メタデータ) (2020-04-06T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。