論文の概要: Diverse LLMs or Diverse Question Interpretations? That is the Ensembling Question
- arxiv url: http://arxiv.org/abs/2507.21168v1
- Date: Fri, 25 Jul 2025 15:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.020942
- Title: Diverse LLMs or Diverse Question Interpretations? That is the Ensembling Question
- Title(参考訳): 異種LCMと異種質問解釈 : 連載質問
- Authors: Rafael Rosales, Santiago Miret,
- Abstract要約: 大型言語モデル(LLM)を用いた二分問題に対する2つの多様性アプローチの比較を行った。
いずれの場合も、最終的な回答を決定するために、多数決をアンサンブルの合意として適用する。
Boolq、Strategyqa、pubmedqaの実験は、質問解釈の多様性が一貫してより良いアンサンブル精度をもたらすことを示した。
- 参考スコア(独自算出の注目度): 5.847084649531299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effectively leveraging diversity has been shown to improve performance for various machine learning models, including large language models (LLMs). However, determining the most effective way of using diversity remains a challenge. In this work, we compare two diversity approaches for answering binary questions using LLMs: model diversity, which relies on multiple models answering the same question, and question interpretation diversity, which relies on using the same model to answer the same question framed in different ways. For both cases, we apply majority voting as the ensemble consensus heuristic to determine the final answer. Our experiments on boolq, strategyqa, and pubmedqa show that question interpretation diversity consistently leads to better ensemble accuracy compared to model diversity. Furthermore, our analysis of GPT and LLaMa shows that model diversity typically produces results between the best and the worst ensemble members without clear improvement.
- Abstract(参考訳): 多様性を効果的に活用することで、大規模言語モデル(LLM)など、さまざまな機械学習モデルのパフォーマンスが向上することが示されている。
しかし、多様性を利用する最も効果的な方法を決定することは、依然として課題である。
本研究では,LLMを用いて二分問題に回答する2つの多様性アプローチについて比較する。同じ質問に答える複数のモデルに依存するモデルの多様性と,同じモデルを使って異なる方法でフレーム化された同じ質問に答える質問解釈の多様性である。
いずれの場合も、最終回答を決定するために、アンサンブル合意ヒューリスティックとして多数決を行う。
我々のboolq, Strategyqa, pubmedqa に関する実験は、質問解釈の多様性がモデル多様性と比較して常により良いアンサンブル精度をもたらすことを示した。
さらに, GPT と LLaMa の分析から, モデル多様性は, 明確な改善を伴わずに, 最高と最低のアンサンブル構成員間の結果をもたらすことが示唆された。
関連論文リスト
- Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Multidimensional Consistency Improves Reasoning in Language Models [21.989335720239467]
複数の入力のバリエーションにまたがる応答整合性のモデルをテストするためのフレームワークを提案する。
我々は, (i) シュート順, (ii) 問題表現, (iii) 言語でのバリエーションを誘導する。
我々のフレームワークは単言語データセットGSM8Kと多言語データセットMGSMの両方、特により小さなモデルにおいて数学的推論性能を一貫して向上させる。
論文 参考訳(メタデータ) (2025-03-04T14:41:05Z) - DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。
マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。
提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Diversifying Question Generation over Knowledge Base via External Natural Questions [17.13395598338518]
多様なテキストは、様々な表現を通して同じ意味を伝達すべきである。
現在のメトリクスは、生成された質問自体のユニークなn-gramの比率を計算するため、上記の多様性を不適切に評価する。
我々は,各インスタンスを対象としたトップk生成質問の多様性を計測する,新しい多様性評価指標を考案した。
論文 参考訳(メタデータ) (2023-09-23T10:37:57Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文 参考訳(メタデータ) (2023-05-23T17:25:59Z) - Interpretable Diversity Analysis: Visualizing Feature Representations In
Low-Cost Ensembles [0.0]
本稿では,多様性を定性的に分析できるいくつかの解釈可能性手法を提案する。
2つの低コストアンサンブルアルゴリズムを用いて,子ネットワーク間の特徴表現の多様性を比較することによって,これらの手法を実証する。
論文 参考訳(メタデータ) (2023-02-12T00:32:03Z) - A Unified Theory of Diversity in Ensemble Learning [4.773356856466191]
本稿では,多様な教師付き学習シナリオにおける多様性の性質を説明する,アンサンブルの多様性の理論を提案する。
この挑戦は、30年以上にわたるオープンな研究課題であるアンサンブル学習の聖杯として言及されている。
論文 参考訳(メタデータ) (2023-01-10T13:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。