Fugu-MT 論文翻訳(概要): From Transcripts to AI Agents: Knowledge Extraction, RAG Integration, and Robust Evaluation of Conversational AI Assistants

論文の概要: From Transcripts to AI Agents: Knowledge Extraction, RAG Integration, and Robust Evaluation of Conversational AI Assistants

arxiv url: http://arxiv.org/abs/2602.15859v1
Date: Mon, 26 Jan 2026 07:44:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.660855
Title: From Transcripts to AI Agents: Knowledge Extraction, RAG Integration, and Robust Evaluation of Conversational AI Assistants
Title（参考訳）: テキストからAIエージェントへ:会話型AIアシスタントの知識抽出、RAG統合、ロバスト評価
Authors: Krittin Pachtrachai, Petmongkon Pornpichitsuwan, Wachiravit Modecrua, Touchapon Kraisingkorn,
Abstract要約: 顧客向け産業向けの信頼できる会話AIアシスタントの構築は、ノイズの多い会話データ、断片化された知識、正確なヒューマンハンドオフの必要性により、依然として困難である。本稿では,履歴書から直接対話型AIアシスタントを構築し,評価するためのエンドツーエンドフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Building reliable conversational AI assistants for customer-facing industries remains challenging due to noisy conversational data, fragmented knowledge, and the requirement for accurate human hand-off - particularly in domains that depend heavily on real-time information. This paper presents an end-to-end framework for constructing and evaluating a conversational AI assistant directly from historical call transcripts. Incoming transcripts are first graded using a simplified adaptation of the PIPA framework, focusing on observation alignment and appropriate response behavior, and are filtered to retain only high-quality interactions exhibiting coherent flow and effective human agent responses. Structured knowledge is then extracted from curated transcripts using large language models (LLMs) and deployed as the sole grounding source in a Retrieval-Augmented Generation (RAG) pipeline. Assistant behavior is governed through systematic prompt tuning, progressing from monolithic prompts to lean, modular, and governed designs that ensure consistency, safety, and controllable execution. Evaluation is conducted using a transcript-grounded user simulator, enabling quantitative measurement of call coverage, factual accuracy, and human escalation behavior. Additional red teaming assesses robustness against prompt injection, out-of-scope, and out-of-context attacks. Experiments are conducted in the Real Estate and Specialist Recruitment domains, which are intentionally challenging and currently suboptimal for automation due to their reliance on real-time data. Despite these constraints, the assistant autonomously handles approximately 30 percents of calls, achieves near-perfect factual accuracy and rejection behavior, and demonstrates strong robustness under adversarial testing.
Abstract（参考訳）: 顧客向け産業向けの信頼できる会話型AIアシスタントの構築は、ノイズの多い会話データ、断片化された知識、正確なヒューマンハンドオフの必要性など、依然として困難である。本稿では,履歴書から直接対話型AIアシスタントを構築し,評価するためのエンドツーエンドフレームワークを提案する。 PIPAフレームワークを単純化し、観察アライメントと適切な応答行動に焦点を合わせ、コヒーレントフローと効果的なヒトエージェント応答を示す高品質な相互作用のみを保持するようにフィルタする。構造化された知識は、大きな言語モデル(LLM)を使用してキュレートされたテキストから抽出され、Retrieval-Augmented Generation (RAG)パイプラインで唯一の基盤としてデプロイされる。アシスタントの動作は、システマティックなプロンプトチューニング、モノリシックなプロンプトから、一貫性、安全性、制御可能な実行を保証するための、リーン、モジュール化、管理された設計へと進むことによって管理される。文字起こし型ユーザシミュレータを用いて評価を行い、通話カバレッジ、事実精度、人間のエスカレーション行動の定量的測定を可能にする。追加のレッドチーム化は、インジェクションのインジェクション、スコープ外、コンテキスト外攻撃に対する堅牢性を評価する。実験は、リアルタイムデータに依存しているため、故意に困難であり、現在、自動化に最適であるReal Estate and Specialist Recruitmentドメインで実施されている。これらの制約にもかかわらず、アシスタントは、およそ30%の通話を自律的に処理し、ほぼ完全な事実の正確さと拒否動作を実現し、対向テストにおいて強い堅牢性を示す。

関連論文リスト

From Static Benchmarks to Dynamic Protocol: Agent-Centric Text Anomaly Detection for Evaluating LLM Reasoning [12.024430772980502]
本稿では,大規模言語モデル評価のためのエージェント中心ベンチマークパラダイムを提案する。教師エージェントは、候補問題を生成し、オーケストレータエージェントは、その妥当性を厳格に検証し、敵攻撃に対するガードを行う。生徒がその問題を正しく解いた場合、オーケストレータは教師にもっと難しい変奏曲を生成するよう促す。
論文参考訳（メタデータ） (2026-02-27T06:54:32Z)
SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over Knowledge Graphs [28.59157823781425]
SEALは、自己進化型エージェント学習に基づく、2段階のセマンティックパーシングフレームワークである。 SEALは、特にマルチホップ推論、比較、集約タスクにおいて、最先端のパフォーマンスを達成する。その結果, 構造精度と計算効率の両面で有意な向上が認められた。
論文参考訳（メタデータ） (2025-12-04T14:52:30Z)
A Knowledge Graph and a Tripartite Evaluation Framework Make Retrieval-Augmented Generation Scalable and Transparent [0.0]
本研究では,知識グラフとベクトル探索を用いて,文脈に富んだ応答を提供する検索型拡張生成(RAG)を提案する。この研究の中心的な革新はRAG評価(RAG-Eval)の導入である。 RAG-Evalは、事実のギャップとクエリミスマッチを確実に検出し、高要求でデータ中心の環境への信頼を高める。
論文参考訳（メタデータ） (2025-09-23T16:29:22Z)
Co-Investigator AI: The Rise of Agentic AI for Smarter, Trustworthy AML Compliance Narratives [2.7295959384567356]
Co-Investigator AIは、SAR(Suspicious Activity Reports)の作成に最適化されたエージェントフレームワークであり、従来の方法よりも大幅に高速で精度が高い。我々は、SARの草案作成を効率化し、物語を規制上の期待と一致させ、コンプライアンスチームが高次の分析作業に集中できるようにする能力を示します。
論文参考訳（メタデータ） (2025-09-10T08:16:04Z)
Cloning a Conversational Voice AI Agent from Call\,Recording Datasets for Telesales [0.0]
通話記録のコーパスから会話音声AIエージェントをクローンする手法を提案する。我々のシステムは電話で顧客に耳を傾け、合成音声で応答し、トップパフォーマンスの人間エージェントから学んだ構造化されたプレイブックに従う。本発明のクローン化剤は、導入、製品コミュニケーション、販売ドライブ、異物処理、閉店を含む22の基準で、人為的エージェントに対して評価される。
論文参考訳（メタデータ） (2025-09-05T07:36:12Z)
How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。 IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文参考訳（メタデータ） (2025-08-28T15:57:33Z)
Enabling Self-Improving Agents to Learn at Test Time With Human-In-The-Loop Guidance [58.21767225794469]
大規模言語モデル(LLM)エージェントは、しばしばルールや必要なドメイン知識が頻繁に変化する環境で苦労する。テスト時に更新されたドメイン知識を継続的に学習するための適応反射型対話エージェント(ARIA)を提案する。 ARIAはTikTok Pay内にデプロイされ、月間アクティブユーザ数は1億5000万を超えている。
論文参考訳（メタデータ） (2025-07-23T02:12:32Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-05-01T21:22:08Z)
Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文参考訳（メタデータ） (2020-05-01T20:01:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。