論文の概要: FECT: Factuality Evaluation of Interpretive AI-Generated Claims in Contact Center Conversation Transcripts
- arxiv url: http://arxiv.org/abs/2508.00889v1
- Date: Sat, 26 Jul 2025 18:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.662659
- Title: FECT: Factuality Evaluation of Interpretive AI-Generated Claims in Contact Center Conversation Transcripts
- Title(参考訳): FECT:コンタクトセンター会話テキストにおける解釈型AI生成クレームの実態評価
- Authors: Hagyeong Shin, Binoy Robin Dalal, Iwona Bialynicka-Birula, Navjot Matharu, Ryan Muir, Xingwei Yang, Samuel W. K. Wong,
- Abstract要約: 大型言語モデル (LLMs) は幻覚として知られており、入力、参照材料、現実世界の知識に根ざしていない自然言語出力を生成する。
本稿では,人間のアノテーションガイドラインにおけるtextbf3D パラダイムを導入し,言語的インフォームド評価基準における事実性ラベルの基盤となる。
本研究は,コンタクトセンターの会話を解析するためのAIシステムによって生成されたアウトプットの事実性を自動的に評価する手法を提案する。
- 参考スコア(独自算出の注目度): 0.25128687379089687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are known to hallucinate, producing natural language outputs that are not grounded in the input, reference materials, or real-world knowledge. In enterprise applications where AI features support business decisions, such hallucinations can be particularly detrimental. LLMs that analyze and summarize contact center conversations introduce a unique set of challenges for factuality evaluation, because ground-truth labels often do not exist for analytical interpretations about sentiments captured in the conversation and root causes of the business problems. To remedy this, we first introduce a \textbf{3D} -- \textbf{Decompose, Decouple, Detach} -- paradigm in the human annotation guideline and the LLM-judges' prompt to ground the factuality labels in linguistically-informed evaluation criteria. We then introduce \textbf{FECT}, a novel benchmark dataset for \textbf{F}actuality \textbf{E}valuation of Interpretive AI-Generated \textbf{C}laims in Contact Center Conversation \textbf{T}ranscripts, labeled under our 3D paradigm. Lastly, we report our findings from aligning LLM-judges on the 3D paradigm. Overall, our findings contribute a new approach for automatically evaluating the factuality of outputs generated by an AI system for analyzing contact center conversations.
- Abstract(参考訳): 大型言語モデル (LLMs) は幻覚として知られており、入力、参照材料、現実世界の知識に根ざしていない自然言語出力を生成する。
AIがビジネス上の決定をサポートするエンタープライズアプリケーションでは、このような幻覚は特に有害である。
コンタクトセンターの会話を分析し、要約するLLMは、ビジネス問題の根本原因や会話で捉えた感情に関する分析的な解釈のために、基礎的真実のラベルが存在しないため、事実性評価のためのユニークな課題のセットをもたらす。
この問題を解決するために、まず、人間のアノテーションガイドラインのパラダイムとLLM-judgesが言語的にインフォームドされた評価基準でファクトリティーラベルを根拠にするよう促す「textbf{3D} -- \textbf{Decompose, Decouple, Detach}」を紹介します。
次に、3Dパラダイムでラベル付けされた新しいベンチマークデータセットである \textbf{F}actuality \textbf{E}valuation of Interpretive AI-Generated \textbf{C}laims in Contact Center Conversation \textbf{T}ranscriptsを紹介した。
最後に, LLM-judges を 3 次元パラダイム上で整列させた結果について報告する。
本研究は,コンタクトセンターの会話を解析するためのAIシステムによって生成されたアウトプットの事実性を自動的に評価する手法を提案する。
関連論文リスト
- Do LLMs Understand Your Translations? Evaluating Paragraph-level MT with Question Answering [68.3400058037817]
本稿では,TREQA(Translation Evaluation via Question-Answering)について紹介する。
我々は,TREQAが最先端のニューラルネットワークとLLMベースのメトリクスより優れていることを示し,代用段落レベルの翻訳をランク付けする。
論文 参考訳(メタデータ) (2025-04-10T09:24:54Z) - The quasi-semantic competence of LLMs: a case study on the part-whole relation [53.37191762146552]
我々は,アンフィパル・ホール関係,すなわちアンフェロニミーの知識について検討する。
Emphquasi-semantic'のモデルは、単にemphquasi-semantic'の能力を持つだけで、深い推論特性の取得には至っていないことを示す。
論文 参考訳(メタデータ) (2025-04-03T08:41:26Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - CoPrUS: Consistency Preserving Utterance Synthesis towards more realistic benchmark dialogues [0.27309692684728604]
自動パイプラインにおける合成通信エラーの生成について検討する。
実世界の対話では起こりうるが、ベンチマークデータセットでは表現できない3種類のコミュニケーションに焦点をあてる。
我々の2段階のアプローチは、最先端のLarge Language Model (LLM) を使用して、まずエラーを生成し、次に補修発話を作成します。
論文 参考訳(メタデータ) (2024-12-10T13:51:55Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Paired Completion: Flexible Quantification of Issue-framing at Scale with LLMs [0.41436032949434404]
最小限の例を用いてコントラストフレームを検出する新しい手法である「ペア完備化」を導入する。
我々は、ペア化完了は、プロンプトベースおよび埋め込みベースの手法に代えて、コスト効率が高く、低バイアスであることを示した。
論文 参考訳(メタデータ) (2024-08-19T07:14:15Z) - CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization [7.234196390284036]
本稿では、英語対話におけるトランスフォーマーに基づく抽象要約に関する研究を要約する。
ダイアログ要約における主な課題(言語、構造、理解、話者、サリエンス、事実)をカバーします。
言語などいくつかの課題がかなりの進歩を遂げているのに対して、理解、事実性、サリエンスといった課題は依然として困難であり、重要な研究機会を持っている。
論文 参考訳(メタデータ) (2024-06-11T17:30:22Z) - Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。
従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。
本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-04-15T17:56:39Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。