論文の概要: Automated Factual Benchmarking for In-Car Conversational Systems using Large Language Models
- arxiv url: http://arxiv.org/abs/2504.01248v1
- Date: Tue, 01 Apr 2025 23:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:26:12.855686
- Title: Automated Factual Benchmarking for In-Car Conversational Systems using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた車内会話システムのための実時間ベンチマークの自動作成
- Authors: Rafael Giebisch, Ken E. Friedl, Lev Sorokin, Andrea Stocco,
- Abstract要約: 本稿では,車内対話システムの自動実写ベンチマークのためのLCM手法を提案する。
我々は,5つのLCMに基づく手法で方法論をインスタンス化し,合意の強化と幻覚の最小化のために,アンサンブル技術と多様なペルソナを活用する。
その結果, GPT-4と入力出力プロンプトの組み合わせは, 専門家による評価で90%以上精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 1.224954637705144
- License:
- Abstract: In-car conversational systems bring the promise to improve the in-vehicle user experience. Modern conversational systems are based on Large Language Models (LLMs), which makes them prone to errors such as hallucinations, i.e., inaccurate, fictitious, and therefore factually incorrect information. In this paper, we present an LLM-based methodology for the automatic factual benchmarking of in-car conversational systems. We instantiate our methodology with five LLM-based methods, leveraging ensembling techniques and diverse personae to enhance agreement and minimize hallucinations. We use our methodology to evaluate CarExpert, an in-car retrieval-augmented conversational question answering system, with respect to the factual correctness to a vehicle's manual. We produced a novel dataset specifically created for the in-car domain, and tested our methodology against an expert evaluation. Our results show that the combination of GPT-4 with the Input Output Prompting achieves over 90 per cent factual correctness agreement rate with expert evaluations, other than being the most efficient approach yielding an average response time of 4.5s. Our findings suggest that LLM-based testing constitutes a viable approach for the validation of conversational systems regarding their factual correctness.
- Abstract(参考訳): 車内会話システムは、車内ユーザエクスペリエンスを改善するという約束をもたらす。
現代の会話システムはLarge Language Models (LLM) に基づいており、幻覚、すなわち不正確、虚偽、したがって事実的に不正確な情報などの誤りを生じさせる。
本稿では,車内対話システムの自動実写ベンチマークのためのLCM手法を提案する。
我々は,5つのLCMに基づく手法で方法論をインスタンス化し,合意の強化と幻覚の最小化のために,アンサンブル技術と多様なペルソナを活用する。
本稿では,車内検索による会話型質問応答システムであるCarExpertを,車載マニュアルの事実的正確性に関して評価する。
我々は車内ドメイン用に特別に作成された新しいデータセットを作成し、専門家の評価に対して方法論を検証した。
その結果, GPT-4と入力出力プロンプトの組み合わせは, 平均応答時間を4.5秒に抑える最も効率的な手法である以外に, 専門家による評価と事実の正当性合意率を90%以上達成していることがわかった。
以上の結果から,LLMに基づくテストは,実際の正当性に関する会話システムの検証に有効な手法であることが示唆された。
関連論文リスト
- CoPrUS: Consistency Preserving Utterance Synthesis towards more realistic benchmark dialogues [0.27309692684728604]
自動パイプラインにおける合成通信エラーの生成について検討する。
実世界の対話では起こりうるが、ベンチマークデータセットでは表現できない3種類のコミュニケーションに焦点をあてる。
我々の2段階のアプローチは、最先端のLarge Language Model (LLM) を使用して、まずエラーを生成し、次に補修発話を作成します。
論文 参考訳(メタデータ) (2024-12-10T13:51:55Z) - Fact Finder -- Enhancing Domain Expertise of Large Language Models by Incorporating Knowledge Graphs [2.7386111894524]
ドメイン固有知識グラフ(KG)を用いた大規模言語モデルを拡張したハイブリッドシステムを導入する。
我々は,69個のサンプルを収集し,正しいKGノードの検索精度を78%向上した。
以上の結果から,ハイブリッドシステムは単独のLCMを超える精度と完全性を示した。
論文 参考訳(メタデータ) (2024-08-06T07:45:05Z) - ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents [52.7201882529976]
対話エージェントの制御性を高めるため,SOP誘導モンテカルロ木探索(MCTS)計画フレームワークを提案する。
これを実現するために、GPT-4oを用いた半自動ロールプレイシステムを用いて、SOPアノテーション付きマルチシナリオ対話からなるデータセットをキュレートする。
また、SOP予測のための教師付き微調整と思考の連鎖推論を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Device Directedness with Contextual Cues for Spoken Dialog Systems [15.96415881820669]
本研究では,バージイン検証を,音声のみの情報を用いてユーザの音声対話を真偽のバージインに分類する教師付き学習タスクとして定義する。
下流分類タスクに自己教師付き表現学習モデルから低レベル音声表現を用いる。
プレトレーニング中に暗黙的に学習されたドメイン固有言語情報を改善するために,語彙情報を音声表現に直接注入する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-23T19:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。