論文の概要: Benchmarking Contextual Understanding for In-Car Conversational Systems
- arxiv url: http://arxiv.org/abs/2512.12042v1
- Date: Fri, 12 Dec 2025 21:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.0796
- Title: Benchmarking Contextual Understanding for In-Car Conversational Systems
- Title(参考訳): カー内会話システムにおける文脈理解のベンチマーク
- Authors: Philipp Habicht, Lev Sorokin, Abdullah Saydemir, Ken E. Friedl, Andrea Stocco,
- Abstract要約: In-car Conversational Question Answering (ConvQA) システムは,シームレスな音声対話を実現することでユーザエクスペリエンスを著しく向上させる。
本稿では,Large Language Models (LLMs) と高度なプロンプト技術およびエージェントベース手法を用いて,ConvQAシステム応答がユーザの発話に適合する程度を評価する。
- 参考スコア(独自算出の注目度): 0.9437812993238097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Car Conversational Question Answering (ConvQA) systems significantly enhance user experience by enabling seamless voice interactions. However, assessing their accuracy and reliability remains a challenge. This paper explores the use of Large Language Models (LLMs) alongside advanced prompting techniques and agent-based methods to evaluate the extent to which ConvQA system responses adhere to user utterances. The focus lies on contextual understanding and the ability to provide accurate venue recommendations considering user constraints and situational context. To evaluate utterance-response coherence using an LLM, we synthetically generate user utterances accompanied by correct and modified failure-containing system responses. We use input-output, chain-of-thought, self-consistency prompting, and multi-agent prompting techniques with 13 reasoning and non-reasoning LLMs of varying sizes and providers, including OpenAI, DeepSeek, Mistral AI, and Meta. We evaluate our approach on a case study involving restaurant recommendations. The most substantial improvements occur for small non-reasoning models when applying advanced prompting techniques, particularly multi-agent prompting. However, reasoning models consistently outperform non-reasoning models, with the best performance achieved using single-agent prompting with self-consistency. Notably, DeepSeek-R1 reaches an F1-score of 0.99 at a cost of 0.002 USD per request. Overall, the best balance between effectiveness and cost-time efficiency is reached with the non-reasoning model DeepSeek-V3. Our findings show that LLM-based evaluation offers a scalable and accurate alternative to traditional human evaluation for benchmarking contextual understanding in ConvQA systems.
- Abstract(参考訳): In-car Conversational Question Answering (ConvQA) システムは,シームレスな音声対話を実現することでユーザエクスペリエンスを著しく向上させる。
しかし、その正確さと信頼性を評価することは依然として課題である。
本稿では,Large Language Models (LLM) と高度なプロンプト技術およびエージェントベースの手法を用いて,ConvQAシステム応答がユーザの発話に適合する範囲を評価する。
その焦点は、コンテキストの理解と、ユーザの制約や状況に応じた正確な会場推奨を提供する能力にある。
LLMを用いて発話応答のコヒーレンスを評価するために,誤りを含むシステム応答が修正されたユーザ発話を合成的に生成する。
私たちは、OpenAI、DeepSeek、Mistral AI、Metaなど、さまざまなサイズとプロバイダの13の推論と非推論によるインプットアウトプット、チェーンオブプット、自己整合性プロンプト、マルチエージェントプロンプト技術を使用しています。
レストランレコメンデーションを含むケーススタディにおけるアプローチの評価を行った。
最も顕著な改善は、高度なプロンプト技術、特にマルチエージェントプロンプト技術を適用する際に、小さな非推論モデルに対して発生する。
しかし、推論モデルは非推論モデルより一貫して優れており、最高の性能は自己整合性を持つ単一エージェントによって達成された。
とくにDeepSeek-R1は、リクエストあたり0.002USDでF1スコア0.99に達する。
全体として、効率性とコスト時間効率の最良のバランスは、非推論モデルであるDeepSeek-V3によって達成されます。
この結果から,LLMに基づく評価は,従来の人間による評価に代わるスケーラブルで高精度な代替手段であり,ConvQAシステムにおける文脈理解のベンチマークが可能であることが示唆された。
関連論文リスト
- How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial Prompts [0.6291443816903801]
本稿では,大規模言語モデル(LLM)のロバスト性を自律的に評価する新しいフレームワークを提案する。
本稿では,ドメイン制約付き知識グラフ三重項から記述文を生成し,敵対的プロンプトを定式化する。
この自己評価機構により、LCMは外部ベンチマークを必要とせずにその堅牢性を評価することができる。
論文 参考訳(メタデータ) (2024-12-01T10:58:53Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。