論文の概要: How Accurate Are LLMs at Multi-Question Answering on Conversational Transcripts?
- arxiv url: http://arxiv.org/abs/2509.21732v1
- Date: Fri, 26 Sep 2025 00:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.09703
- Title: How Accurate Are LLMs at Multi-Question Answering on Conversational Transcripts?
- Title(参考訳): 会話文のマルチクエスト回答におけるLLMの精度
- Authors: Xiliang Zhu, Shi Zong, David Rossouw,
- Abstract要約: 大きな言語モデル(LLM)は、同じ会話コンテキストに基づいて複数の質問に答えることができる。
この課題に対して、広範な実験を行い、プロプライエタリモデルとパブリックモデルの両方をベンチマークします。
GPT-4oのような強力なプロプライエタリなLLMは、全体的な性能が最も優れているが、最大80億のパラメータを持つ微調整されたパブリックなLLMは、GPT-4oを精度良く超える可能性がある。
- 参考スコア(独自算出の注目度): 5.0683148330498335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deploying Large Language Models (LLMs) for question answering (QA) over lengthy contexts is a significant challenge. In industrial settings, this process is often hindered by high computational costs and latency, especially when multiple questions must be answered based on the same context. In this work, we explore the capabilities of LLMs to answer multiple questions based on the same conversational context. We conduct extensive experiments and benchmark a range of both proprietary and public models on this challenging task. Our findings highlight that while strong proprietary LLMs like GPT-4o achieve the best overall performance, fine-tuned public LLMs with up to 8 billion parameters can surpass GPT-4o in accuracy, which demonstrates their potential for transparent and cost-effective deployment in real-world applications.
- Abstract(参考訳): 質問応答(QA)にLarge Language Models(LLM)を長期にわたるコンテキストにデプロイすることは、大きな課題である。
産業環境では、このプロセスは高い計算コストと遅延によって妨げられがちである。
本研究では,LLMが同一の会話コンテキストに基づいて複数の質問に答える能力について検討する。
この課題に対して、広範な実験を行い、プロプライエタリモデルとパブリックモデルの両方をベンチマークします。
GPT-4oのような強力なプロプライエタリなLLMは、全体的な性能は最高だが、最大80億のパラメータを持つ微調整のパブリックLLMは、GPT-4oの精度を上回り、現実世界のアプリケーションに透過的でコスト効率の良い展開の可能性を示している。
関連論文リスト
- MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization [7.674972936853123]
我々は,同一の入力コンテキストに対するクエリを1つのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約の達成に有効かどうかを検討する。
予測フォーマットでの応答生成における100%の信頼性は、通常、特定のクローズドソース LLM に制限される。
論文 参考訳(メタデータ) (2024-02-29T19:00:47Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Large Language Model Cascades with Mixture of Thoughts Representations
for Cost-efficient Reasoning [19.472937476936636]
大きな言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示していますが、この強力なパフォーマンスは、しばしば有料のAPIサービスを使用するコストが高くなります。
本稿では, LLM のコスト削減を目的とした LLM カスケードの構築について検討する。
提案するカスケードは,より強力なLCMのみを使用すれば性能が向上するが,コストの40%しか必要としない。
論文 参考訳(メタデータ) (2023-10-04T18:21:17Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。