論文の概要: InCA: Rethinking In-Car Conversational System Assessment Leveraging
Large Language Models
- arxiv url: http://arxiv.org/abs/2311.07469v1
- Date: Mon, 13 Nov 2023 17:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 13:36:08.779766
- Title: InCA: Rethinking In-Car Conversational System Assessment Leveraging
Large Language Models
- Title(参考訳): InCA:大規模言語モデルを活用した車内会話システム評価の再考
- Authors: Ken E. Friedl, Abbas Goher Khan, Soumya Ranjan Sahoo, Md Rashad Al
Hasan Rony, Jana Germies, Christian S\"u{\ss}
- Abstract要約: 本稿では,車内対話型質問応答(ConvQA)システムに特化して設計されたデータセットについて紹介する。
予備的かつ総合的な経験的評価は,提案手法の有効性を裏付けるものである。
- 参考スコア(独自算出の注目度): 2.2602594453321063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The assessment of advanced generative large language models (LLMs) poses a
significant challenge, given their heightened complexity in recent
developments. Furthermore, evaluating the performance of LLM-based applications
in various industries, as indicated by Key Performance Indicators (KPIs), is a
complex undertaking. This task necessitates a profound understanding of
industry use cases and the anticipated system behavior. Within the context of
the automotive industry, existing evaluation metrics prove inadequate for
assessing in-car conversational question answering (ConvQA) systems. The unique
demands of these systems, where answers may relate to driver or car safety and
are confined within the car domain, highlight the limitations of current
metrics. To address these challenges, this paper introduces a set of KPIs
tailored for evaluating the performance of in-car ConvQA systems, along with
datasets specifically designed for these KPIs. A preliminary and comprehensive
empirical evaluation substantiates the efficacy of our proposed approach.
Furthermore, we investigate the impact of employing varied personas in prompts
and found that it enhances the model's capacity to simulate diverse viewpoints
in assessments, mirroring how individuals with different backgrounds perceive a
topic.
- Abstract(参考訳): 先進的な生成型大規模言語モデル (LLM) の評価は、最近の発展における複雑さの増大を考えると、大きな課題となっている。
さらに、キーパフォーマンス指標(KPI)が示すように、様々な産業におけるLCMベースのアプリケーションの性能評価は複雑な作業である。
このタスクは、産業のユースケースと予想されるシステムの振る舞いを深く理解する必要がある。
自動車産業の文脈において、既存の評価指標は車内会話質問応答(ConvQA)システムを評価するのに不十分である。
これらのシステムのユニークな要求は、答えがドライバーや車の安全性に関係し、車のドメイン内に限られている場合、現在のメトリクスの制限を強調します。
これらの課題に対処するために、車載のConvQAシステムの性能を評価するための一連のKPIと、これらのKPI用に特別に設計されたデータセットを紹介する。
予備的かつ包括的評価は,提案手法の有効性を裏付けるものである。
さらに, 異なる背景を持つ個人がトピックをどう知覚するかを反映して, 評価における多様な視点をシミュレートするモデルの能力を高めることが示唆された。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Revisiting Benchmark and Assessment: An Agent-based Exploratory Dynamic Evaluation Framework for LLMs [29.72874725703848]
従来のQAベンチマークを、より柔軟な"戦略基準"フォーマットに拡張するBenchmark+と、インタラクションプロセスを強化するAccess+という2つの概念を紹介します。
本研究では,これらの概念を検索の強化と強化学習を通じて実装するTestAgentというエージェントベース評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - Centralization potential of automotive E/E architectures [2.7143159361691227]
集中型アーキテクチャは、しばしば課題をマスターするための重要なイネーブラーと見なされる。
システムデザイナとファンクションディベロッパが中央集権化のためのシステムの可能性を分析するためのガイドラインに関する研究ギャップがある。
本稿では, 理論的研究と実践的応用のギャップを埋め, 実践者に価値あるテイクアウトを提供する。
論文 参考訳(メタデータ) (2024-09-16T19:36:32Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - Towards Flexible Evaluation for Generative Visual Question Answering [17.271448204525612]
本稿では,視覚質問応答(VQA)データセット上で,制約のないオープンエンド応答を評価するためにセマンティクスに基づく評価手法を提案する。
さらに,本論文では,VQA評価のユニークな特徴を基礎として,精巧な設計を施したセマンティックフレキシブルVQA評価器(SFVE)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:56:34Z) - KaPQA: Knowledge-Augmented Product Question-Answering [59.096607961704656]
我々はAdobe AcrobatとPhotoshop製品に焦点を当てた2つのQAデータセットを紹介した。
また、製品QAタスクにおけるモデルの性能を高めるために、新しい知識駆動型RAG-QAフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-22T22:14:56Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Rethinking Word-Level Auto-Completion in Computer-Aided Translation [76.34184928621477]
Word-Level Auto-Completion (WLAC) はコンピュータ翻訳において重要な役割を果たす。
それは、人間の翻訳者に対して単語レベルの自動補完提案を提供することを目的としている。
我々は、この質問に答えるために測定可能な基準を導入し、既存のWLACモデルがこの基準を満たしていないことを発見する。
評価基準の遵守を促進することによってWLAC性能を向上させる効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T03:11:46Z) - Overview of Robust and Multilingual Automatic Evaluation Metrics for
Open-Domain Dialogue Systems at DSTC 11 Track 4 [51.142614461563184]
第11回対話システム技術チャレンジ(DSTC11)のこのトラックは、堅牢で多言語による自動評価のメトリクスを促進するために進行中の取り組みの一部である。
本稿では、参加者に提供するデータセットとベースラインについて述べ、提案した2つのサブタスクの提出と結果の詳細について論じる。
論文 参考訳(メタデータ) (2023-06-22T10:50:23Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。