論文の概要: No Single Best Model for Diversity: Learning a Router for Sample Diversity
- arxiv url: http://arxiv.org/abs/2604.02319v1
- Date: Thu, 02 Apr 2026 17:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.986648
- Title: No Single Best Model for Diversity: Learning a Router for Sample Diversity
- Title(参考訳): 多様性のための最良のモデルがない:サンプル多様性のためのルータを学ぶ
- Authors: Yuhan Liu, Fangyuan Xu, Vishakh Padmakumar, Daphne Ippolito, Eunsol Choi,
- Abstract要約: 本稿では,有効な応答の集合を包括的に抽出する手法について検討する。
本稿では,各回答に割り当てられた品質スコアを計測する指標であるtextbfdiversity Cover を紹介する。
各プロンプトには、多様な回答セットを生成する際に、他のすべてのモデルよりも大幅に優れるモデルが存在する。
- 参考スコア(独自算出の注目度): 69.53166985556759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When posed with prompts that permit a large number of valid answers, comprehensively generating them is the first step towards satisfying a wide range of users. In this paper, we study methods to elicit a comprehensive set of valid responses. To evaluate this, we introduce \textbf{diversity coverage}, a metric that measures the total quality scores assigned to each \textbf{unique} answer in the predicted answer set relative to the best possible answer set with the same number of answers. Using this metric, we evaluate 18 LLMs, finding no single model dominates at generating diverse responses to a wide range of open-ended prompts. Yet, per each prompt, there exists a model that outperforms all other models significantly at generating a diverse answer set. Motivated by this finding, we introduce a router that predicts the best model for each query. On NB-Wildchat, our trained router outperforms the single best model baseline (26.3% vs $23.8%). We further show generalization to an out-of-domain dataset (NB-Curated) as well as different answer-generation prompting strategies. Our work lays foundation for studying generating comprehensive answers when we have access to a suite of models.
- Abstract(参考訳): 多数の有効な回答を許容するプロンプトでポーズを付けると、それらを包括的に生成することが、幅広いユーザーを満たすための第一歩となる。
本稿では,有効な応答の集合を包括的に抽出する手法について検討する。
これを評価するために,各回答に割り当てられた総品質スコアを,同じ数の答えを持つ最良解集合に対して予測された回答集合で測定する指標である「textbf{diversity coverage」を導入する。
この測定値を用いて18個のLDMを評価したところ、幅広いオープンエンドプロンプトに対する多様な応答を生成する上で、単一のモデルが支配的でないことが判明した。
しかし、各プロンプトごとに、様々な回答セットを生成する際に、他のすべてのモデルよりも大幅に優れるモデルが存在する。
この発見を動機として,各クエリに最適なモデルを予測するルータを導入する。
NB-Wildchatでは、トレーニングされたルータが最高のモデルベースライン(26.3%対23.8%)を上回っています。
さらに、ドメイン外データセット(NB-Curated)への一般化と、異なる応答生成促進戦略を示す。
私たちの研究は,一連のモデルにアクセス可能な場合に,包括的な回答を生成するための基盤を築いています。
関連論文リスト
- Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models [78.68818219506313]
本稿では,複数解に対する分布推論を行うための多解補足学習手法について述べる。
質問応答, 診断, コーディングベンチマークを通じて, 単一回答学習ベースラインと比較して, 多様性, カバレッジ, 設定レベルの校正スコアが向上した。
論文 参考訳(メタデータ) (2026-03-25T22:20:25Z) - Model-Based Simulation for Optimising Smart Reply [3.615981646205045]
スマートリプライ(SR)システムは、応答をタイプする代わりに選択できる一連のリプライをユーザに提示する。
これまでの研究は、反応の集合を明示的に学習するのではなく、主にポストホック化に重点を置いてきた。
そこで本研究では,モデルに基づくシミュレーションを用いて高値応答集合を探索する新しい手法SimSRを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:04:33Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - SRQA: Synthetic Reader for Factoid Question Answering [21.28441702154528]
我々はSRQAと呼ばれる新しいモデルを導入し、これはFactoid Question AnsweringのためのSynthetic Readerを意味する。
このモデルは,多文書シナリオにおける質問応答システムを3つの側面から強化する。
WebQAデータセット上でSRQAを行い、実験により、我々のモデルが最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-09-02T13:16:24Z) - Question and Answer Test-Train Overlap in Open-Domain Question Answering
Datasets [37.02260241742407]
3つの人気のあるオープンドメインベンチマークデータセットのテストセットについて検討する。
テストタイムの回答の60~70%は、トレーニングセットのどこかに存在しています。
また、テストセット質問の30%が、対応するトレーニングセットにほぼ重複したパラフレーズを持っていることも判明した。
論文 参考訳(メタデータ) (2020-08-06T13:17:43Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。