論文の概要: A-SEA3L-QA: A Fully Automated Self-Evolving, Adversarial Workflow for Arabic Long-Context Question-Answer Generation
- arxiv url: http://arxiv.org/abs/2509.02864v1
- Date: Tue, 02 Sep 2025 22:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.357839
- Title: A-SEA3L-QA: A Fully Automated Self-Evolving, Adversarial Workflow for Arabic Long-Context Question-Answer Generation
- Title(参考訳): A-SEA3L-QA:アラビア語長文質問応答生成のための完全自動自己進化・逆ワークフロー
- Authors: Kesen Wang, Daulet Toibazar, Pedro J. Moreno,
- Abstract要約: アラビア語の長文質問応答(QA)生成のためのエンド・ツー・エンド・エンド・セルフ進化逆行ワークフローを提案する。
我々のシステムは、人間の介入なしに、自身のパフォーマンスを反復的に改善します。
AraLongBenchは、シングルページとマルチページの課題に関する大規模なアラビアのベンチマークです。
- 参考スコア(独自算出の注目度): 4.208390540058878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an end-to-end, self-evolving adversarial workflow for long-context Question-Answer (QA) Generation in Arabic. By orchestrating multiple specialized LVLMs: a question generator, an evaluator, and a swarm of answer generators, our system iteratively refines its own performance without any human intervention. Starting from raw, multi-page Arabic documents across diverse domains, the question generator produces fine-grained, context-aware queries to be tackled by the answer generator swarm, and the evaluator assesses and feeds back quality metrics. This closed-loop cycle enables continuous learning: low-confidence outputs trigger automated re-generation and model updates, progressively enhancing question difficulty and relevance. Moreover, we set the quality metrics as a tunable hyperparameter, enabling question generation at controllable and customizable difficulty levels. We release AraLongBench, a large-scale Arabic benchmark of single- and multi-page challenges spanning hundreds of pages, and demonstrate that our self-evolving workflow substantially outperform static pipelines, markedly boosting the long-context comprehension capabilities of leading Arabic Large Vision Language Models (LVLMs). Lastly, we also meticulously architect a fully automated agentic workflow for long-context Arabic document collection.
- Abstract(参考訳): アラビア語の長文質問応答(QA)生成のためのエンド・ツー・エンド・エンド・セルフ進化逆行ワークフローを提案する。
複数の特殊なLVLM(質問生成装置、評価器、回答生成装置群)を編成することにより、我々のシステムは人間の介入なしに反復的に性能を向上する。
様々な領域にわたる生の多ページのアラビア文書から始め、質問生成器は回答生成器のスワムによって取り組まれるきめ細かなコンテキスト対応クエリを生成し、評価器は品質指標を評価し、フィードバックする。
このクローズドループサイクルは継続的学習を可能にします。低信頼のアウトプットは自動再生とモデル更新をトリガーし、質問の難しさと関連性を徐々に強化します。
さらに、品質指標を調整可能なハイパーパラメータとして設定し、制御可能でカスタマイズ可能な難易度での質問生成を可能にする。
AraLongBenchは、数百ページにわたるシングルページとマルチページの課題に関する大規模なアラビアのベンチマークであり、私たちの自己進化ワークフローが静的パイプラインを大幅に上回っており、アラビア大ビジョン言語モデル(LVLM)の長文理解能力を著しく向上していることを実証しています。
最後に、長いコンテキストのアラビア文書コレクションのための完全に自動化されたエージェントワークフローを慎重に設計する。
関連論文リスト
- Multi-Agent Interactive Question Generation Framework for Long Document Understanding [5.059854277690664]
本稿では,コンテキストの長い質問を効率よく生成する,完全に自動化されたマルチエージェント対話型フレームワークを提案する。
提案手法は,英語とアラビア語の広範な文書に対して,高品質な単ページ,複数ページの質問を効率よく生成する。
論文 参考訳(メタデータ) (2025-07-27T06:44:53Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - Towards Automatic Generation of Questions from Long Answers [11.198653485869935]
本稿では,従来のAQGシステムの性能評価のための新しい評価ベンチマークを提案する。
既存のAQG法の性能は,回答の長さが大きくなるにつれて著しく低下することを示した。
トランスフォーマーに基づく手法は, 従来のAQG法よりも, 自己評価や人的評価の点で優れていた。
論文 参考訳(メタデータ) (2020-04-10T16:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。