論文の概要: DRE: An Effective Dual-Refined Method for Integrating Small and Large Language Models in Open-Domain Dialogue Evaluation
- arxiv url: http://arxiv.org/abs/2506.04516v1
- Date: Wed, 04 Jun 2025 23:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.460838
- Title: DRE: An Effective Dual-Refined Method for Integrating Small and Large Language Models in Open-Domain Dialogue Evaluation
- Title(参考訳): DRE: オープンドメイン対話評価における小規模・大規模言語モデルの統合のための効果的なデュアルリファインディング手法
- Authors: Kun Zhao, Bohao Yang, Chen Tang, Siyuan Dai, Haoteng Tang, Chenghua Lin, Liang Zhan,
- Abstract要約: 大きな言語モデル(LLM)は多くのタスクで優れていますが、複数の有効な応答が存在するあいまいなシナリオに苦労しています。
小型言語モデル (SLM) はそのようなシナリオにおいて堅牢性を示すが、誤解を招くことや敵対的な入力に影響を受けやすい。
本稿では,SLM と LLM を適応重み付けにより統合する SLIDE (Small and Large Integrated for Dialogue Evaluation) を提案する。
- 参考スコア(独自算出の注目度): 21.229539297323488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) excel at many tasks but struggle with ambiguous scenarios where multiple valid responses exist, often yielding unreliable results. Conversely, Small Language Models (SLMs) demonstrate robustness in such scenarios but are susceptible to misleading or adversarial inputs. We observed that LLMs handle negative examples effectively, while SLMs excel with positive examples. To leverage their complementary strengths, we introduce SLIDE (Small and Large Integrated for Dialogue Evaluation), a method integrating SLMs and LLMs via adaptive weighting. Building on SLIDE, we further propose a Dual-Refinement Evaluation (DRE) method to enhance SLM-LLM integration: (1) SLM-generated insights guide the LLM to produce initial evaluations; (2) SLM-derived adjustments refine the LLM's scores for improved accuracy. Experiments demonstrate that DRE outperforms existing methods, showing stronger alignment with human judgment across diverse benchmarks. This work illustrates how combining small and large models can yield more reliable evaluation tools, particularly for open-ended tasks such as dialogue evaluation.
- Abstract(参考訳): 大きな言語モデル(LLM)は多くのタスクで優れていますが、複数の有効な応答が存在するあいまいなシナリオで苦労しています。
逆に、Small Language Models (SLM) はそのようなシナリオにおいて堅牢性を示すが、誤解を招くような入力や敵対的な入力に影響を受けやすい。
我々はLSMが負の例を効果的に扱うのに対し、SLMは正の例で優れていることを観察した。
本研究では,SLMとLLMを適応重み付けにより統合するSLIDE(Small and Large Integrated for Dialogue Evaluation)を導入する。
SLIDE上に構築したDRE法により,SLM-LLM統合を向上する。(1)SLM生成したインサイトが初期評価を導出し,(2)SLM由来の調整によってLCMのスコアが洗練され,精度が向上する。
実験により、DREは既存の手法よりも優れており、様々なベンチマークで人間の判断とより強く一致していることが示された。
この研究は、特に対話評価のようなオープンなタスクにおいて、小規模モデルと大規模モデルを組み合わせることで、より信頼性の高い評価ツールが得られることを示す。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - A Comprehensive Evaluation of Large Language Models on Aspect-Based Sentiment Analysis [26.505386645322506]
大規模言語モデル(LLM)は自然言語処理の分野で注目を集めている。
本稿では,ABSA分野におけるLLMの包括的評価に光を当て,13のデータセット,8のABSAサブタスク,6のLLMを含む。
実験により,LLMは微調整型小言語モデル (SLM) と比較して,微調整型に依存したパラダイムで,新しい最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2024-12-03T08:54:17Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。
これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文 参考訳(メタデータ) (2023-11-15T18:56:23Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Large Language Model Is Not a Good Few-shot Information Extractor, but a
Good Reranker for Hard Samples! [43.51393135075126]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著な進歩を遂げています。
その結果,従来のLCMは微調整SLMに比べて性能が劣り,レイテンシが高く,予算要求も増大していることがわかった。
LLMの強度とSLMの強度を結合する適応フィルタ-then-rerankパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T12:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。