論文の概要: AI4Reading: Chinese Audiobook Interpretation System Based on Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2512.23300v1
- Date: Mon, 29 Dec 2025 08:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.443577
- Title: AI4Reading: Chinese Audiobook Interpretation System Based on Multi-Agent Collaboration
- Title(参考訳): AI4Reading: マルチエージェントコラボレーションに基づく中国のオーディオブック解釈システム
- Authors: Minjiang Huang, Jipeng Qiang, Yi Zhu, Chaowei Zhang, Xiangyu Zhao, Kui Yu,
- Abstract要約: オーディオブックの解釈のようなポッドキャストを生成するマルチエージェントコラボレーションシステムであるAI4Readingを提案する。
このシステムは,正確なコンテンツ保存,理解性の向上,論理的物語構造という,3つの重要な目標を満たすように設計されている。
この結果から,AI4Readingは音声認識品質に差があるものの,生成した解釈スクリプトはよりシンプルで精度が高いことがわかった。
- 参考スコア(独自算出の注目度): 31.54457799461882
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Audiobook interpretations are attracting increasing attention, as they provide accessible and in-depth analyses of books that offer readers practical insights and intellectual inspiration. However, their manual creation process remains time-consuming and resource-intensive. To address this challenge, we propose AI4Reading, a multi-agent collaboration system leveraging large language models (LLMs) and speech synthesis technology to generate podcast, like audiobook interpretations. The system is designed to meet three key objectives: accurate content preservation, enhanced comprehensibility, and a logical narrative structure. To achieve these goals, we develop a framework composed of 11 specialized agents,including topic analysts, case analysts, editors, a narrator, and proofreaders that work in concert to explore themes, extract real world cases, refine content organization, and synthesize natural spoken language. By comparing expert interpretations with our system's output, the results show that although AI4Reading still has a gap in speech generation quality, the generated interpretative scripts are simpler and more accurate.
- Abstract(参考訳): オーディオブックの解釈は、読者に実践的な洞察と知的なインスピレーションを提供する書籍の、アクセス可能で詳細な分析を提供することによって、注目を集めている。
しかしながら、彼らの手作業による作成プロセスは、時間とリソース集約性を維持している。
この課題に対処するために,大規模な言語モデル(LLM)と音声合成技術を活用したマルチエージェントコラボレーションシステムであるAI4Readingを提案し,オーディオブックの解釈のようなポッドキャストを生成する。
このシステムは,正確なコンテンツ保存,理解性の向上,論理的物語構造という,3つの重要な目標を満たすように設計されている。
これらの目標を達成するために,トピックアナリスト,ケースアナリスト,編集者,ナレーター,証明読者を含む11の専門エージェントからなるフレームワークを開発し,テーマを探索し,実世界の事例を抽出し,コンテンツ組織を洗練し,自然言語を合成する。
この結果から,AI4Readingは音声認識品質に差があるものの,生成した解釈スクリプトはよりシンプルで精度が高いことがわかった。
関連論文リスト
- ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction [88.41471266579333]
本稿では,大規模言語モデル(LLM)からの言語知識をAV-TSEモデルに組み込む新しいフレームワークであるELEGANCEを提案する。
2つのAV-TSEバックボーン上でのRoBERTa、Qwen3-0.6B、Qwen3-4Bによる総合的な実験は大幅に改善された。
論文 参考訳(メタデータ) (2025-11-09T08:50:11Z) - Co-Writing with AI, on Human Terms: Aligning Research with User Demands Across the Writing Process [17.275752224799497]
AI記述支援のための4つの包括的な設計戦略を特定します。
著者が望むAI介入のレベルが、執筆プロセスによって異なることが明らかとなった。
我々の発見は、AIとの共同筆記のための人間中心の筆記ツールを開発するための実用的な設計ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-04-16T21:05:46Z) - Roadmap towards Superhuman Speech Understanding using Large Language Models [60.57947401837938]
大規模言語モデル(LLM)は、音声データと音声データを統合したものである。
GPT-4oのような最近の進歩は、エンドツーエンドのLLMの可能性を強調している。
本稿では,基本自動音声認識(ASR)から高度な超人モデルまで,5段階のロードマップを提案する。
論文 参考訳(メタデータ) (2024-10-17T06:44:06Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。