論文の概要: AIstorian lets AI be a historian: A KG-powered multi-agent system for accurate biography generation
- arxiv url: http://arxiv.org/abs/2503.11346v1
- Date: Fri, 14 Mar 2025 12:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:04:35.903175
- Title: AIstorian lets AI be a historian: A KG-powered multi-agent system for accurate biography generation
- Title(参考訳): AIが歴史学者になる:正確な伝記生成のためのKGベースのマルチエージェントシステム
- Authors: Fengyu Li, Yilin Li, Junhao Zhu, Lu Chen, Yanfei Zhang, Jia Zhou, Hui Zu, Jingwen Zhao, Yunjun Gao,
- Abstract要約: 本稿では,知識グラフ(KG)を利用した検索強化世代(RAG)とアンチハロシン化マルチエージェントを特徴とする,新しいエンドツーエンドエージェントシステムであるAIstorianを紹介する。
具体的には、AIstorianは、コンテキスト内学習に基づくチャンキング戦略と、正確で効率的な参照検索のためのKGベースのインデックスを導入している。
実生活の歴史的神史データセットの実験では、アリストリア語は実際の精度が3.8倍向上し、幻覚率も47.6%低下した。
- 参考スコア(独自算出の注目度): 19.656423980933944
- License:
- Abstract: Huawei has always been committed to exploring the AI application in historical research. Biography generation, as a specialized form of abstractive summarization, plays a crucial role in historical research but faces unique challenges that existing large language models (LLMs) struggle to address. These challenges include maintaining stylistic adherence to historical writing conventions, ensuring factual fidelity, and handling fragmented information across multiple documents. We present AIstorian, a novel end-to-end agentic system featured with a knowledge graph (KG)-powered retrieval-augmented generation (RAG) and anti-hallucination multi-agents. Specifically, AIstorian introduces an in-context learning based chunking strategy and a KG-based index for accurate and efficient reference retrieval. Meanwhile, AIstorian orchestrates multi-agents to conduct on-the-fly hallucination detection and error-type-aware correction. Additionally, to teach LLMs a certain language style, we finetune LLMs based on a two-step training approach combining data augmentation-enhanced supervised fine-tuning with stylistic preference optimization. Extensive experiments on a real-life historical Jinshi dataset demonstrate that AIstorian achieves a 3.8x improvement in factual accuracy and a 47.6% reduction in hallucination rate compared to existing baselines. The data and code are available at: https://github.com/ZJU-DAILY/AIstorian.
- Abstract(参考訳): Huaweiはこれまでも、歴史研究におけるAI応用の探求に力を入れてきた。
抽象的な要約の特殊な形態としての伝記生成は、歴史研究において重要な役割を果たすが、既存の大規模言語モデル(LLM)が解決に苦慮する固有の課題に直面している。
これらの課題には、歴史書の慣習に対する様式的な遵守の維持、事実の忠実さの確保、複数の文書にまたがる断片的な情報の取り扱いなどが含まれる。
本稿では,知識グラフ(KG)を利用した検索強化世代(RAG)とアンチハロシン化マルチエージェントを特徴とする,新しいエンドツーエンドエージェントシステムであるAIstorianを紹介する。
具体的には、AIstorianは、コンテキスト内学習に基づくチャンキング戦略と、正確で効率的な参照検索のためのKGベースのインデックスを導入する。
一方、AIStorianは複数のエージェントを編成し、オンザフライの幻覚検出とエラータイプの認識補正を行う。
さらに、LLMに特定の言語スタイルを教えるために、データ拡張強化された教師付き微調整とスタイル優先最適化を組み合わせた2段階の訓練アプローチに基づいて、LLMを微調整する。
実生活の歴史的神史データセットの大規模な実験により、アリストリア語は実際の精度が3.8倍向上し、幻覚率も47.6%低下した。
データとコードは、https://github.com/ZJU-DAILY/AIstorian.comで入手できる。
関連論文リスト
- O1 Embedder: Let Retrievers Think Before Action [28.583031173137428]
我々は,対象文書の検索に先立って,入力クエリに有用な思考を生成するO1 Embedderを提案する。
私たちのアプローチは、12の一般的なデータセットで大幅に改善される包括的な実験によって評価されます。
これらの結果は、O1 Embedderの顕著な精度と一般化性を強調し、次世代IR基盤モデルの開発への道を開いた。
論文 参考訳(メタデータ) (2025-02-11T13:48:10Z) - WarriorCoder: Learning from Expert Battles to Augment Code Large Language Models [67.15146980023621]
WarriorCoderは、専門家の戦いから学んだ新しいパラダイムで、現在のアプローチの限界に対処する。
我々は、専門家のLLMが互いに挑戦する場を作り、公平な審査員による評価を行う。
この競争フレームワークは、すべての参加者の強みを活用して、ゼロから新しいトレーニングデータを生成する。
論文 参考訳(メタデータ) (2024-12-23T08:47:42Z) - P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task [94.08478298711789]
Embodied Everyday Taskは、インボディードAIコミュニティで人気のあるタスクである。
自然言語命令は明示的なタスクプランニングを欠くことが多い。
タスク環境に関する知識をモデルに組み込むには、広範囲なトレーニングが必要である。
論文 参考訳(メタデータ) (2024-09-17T15:29:34Z) - Data Formulator 2: Iterative Creation of Data Visualizations, with AI Transforming Data Along the Way [65.48447317310442]
データフォーミュラ2(英: Data Formulator 2、略称DF2)は、AIを利用した可視化システムである。
DF2はグラフィカルなユーザインタフェースと自然言語入力をブレンドすることで、ユーザがより効果的にインテントを伝達できるようにする。
効率的なイテレーションをサポートするために、DF2はユーザがイテレーション履歴をナビゲートし、以前の設計を再利用する。
論文 参考訳(メタデータ) (2024-08-28T20:12:17Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - Multi-grained Hypergraph Interest Modeling for Conversational
Recommendation [75.65483522949857]
複雑な履歴データの下でユーザの興味を捉えるために, マルチグラデーション・ハイパーグラフ・インフォメーション・モデリング手法を提案する。
提案手法では,まず,ユーザの過去の対話セッションをモデル化し,セッションベースハイパーグラフを作成するためにハイパーグラフ構造を用いる。
さらに,2種類のハイパーグラフに対して多粒度ハイパーグラフの畳み込みを行い,拡張表現を用いて関心を意識したCRSを開発する。
論文 参考訳(メタデータ) (2023-05-04T13:13:44Z) - Dialogue-Contextualized Re-ranking for Medical History-Taking [5.039849340960835]
本稿では,第1段階の質問候補を再ランク付けすることで,トレーニングと推論のギャップを埋める2段階の再ランク付け手法を提案する。
専門家システムと比較して,提案するトランスフォーマーバックボーンを用いたグローバルリランカにより,最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-04T17:31:32Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。