論文の概要: RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis
- arxiv url: http://arxiv.org/abs/2603.00686v1
- Date: Sat, 28 Feb 2026 14:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.322294
- Title: RAVEL: Reasoning Agents for Validating and Evaluating LLM Text Synthesis
- Title(参考訳): RAVEL:LLMテキスト合成の検証と評価のための推論エージェント
- Authors: Andrew Zhuoer Feng, Cunxiang Wang, Yu Luo, Bosi Wen, Yidong Wang, Lin Fan, Yilin Zhou, Zikang Wang, Wenbo Yu, Lindong Wu, Hongning Wang, Minlie Huang,
- Abstract要約: テスト担当者が自律的に設計し、典型的な合成操作を実行できるようにするためのエージェントフレームワークであるRAVELを紹介する。
C3EBenchは、プロの人間の文章から1,258個のサンプルを抽出したベンチマークである。
SOTA LLMを演算子としてRAVELを増強することにより、そのようなエージェントテキスト合成はLLMの推論能力に支配されていることがわかった。
- 参考スコア(独自算出の注目度): 78.32151470154422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have evolved from single-round generators into long-horizon agents, capable of complex text synthesis scenarios. However, current evaluation frameworks lack the ability to assess the actual synthesis operations, such as outlining, drafting, and editing. Consequently, they fail to evaluate the actual and detailed capabilities of LLMs. To bridge this gap, we introduce RAVEL, an agentic framework that enables the LLM testers to autonomously plan and execute typical synthesis operations, including outlining, drafting, reviewing, and refining. Complementing this framework, we present C3EBench, a comprehensive benchmark comprising 1,258 samples derived from professional human writings. We utilize a "reverse-engineering" pipeline to isolate specific capabilities across four tasks: Cloze, Edit, Expand, and End-to-End. Through our analysis of 14 LLMs, we uncover that most LLMs struggle with tasks that demand contextual understanding under limited or under-specified instructions. By augmenting RAVEL with SOTA LLMs as operators, we find that such agentic text synthesis is dominated by the LLM's reasoning capability rather than raw generative capacity. Furthermore, we find that a strong reasoner can guide a weaker generator to yield higher-quality results, whereas the inverse does not hold. Our code and data are available at this link: https://github.com/ZhuoerFeng/RAVEL-Reasoning-Agents-Text-Eval.
- Abstract(参考訳): 大規模言語モデルは、単ラウンドジェネレータから、複雑なテキスト合成シナリオが可能なロングホライゾンエージェントへと進化してきた。
しかし、現在の評価フレームワークには、アウトライン、ドラフト、編集など、実際の合成操作を評価する能力がない。
その結果、LLMの実際の機能と詳細性を評価できなかった。
このギャップを埋めるために、私たちは、LLMテスターがアウトライン、ドラフト、レビュー、精製を含む典型的な合成操作を自律的に計画し実行できるようにするエージェントフレームワークであるRAVELを紹介します。
このフレームワークを補完するC3EBenchは、プロの人間の文章から1,258のサンプルを抽出した総合的なベンチマークである。
パイプラインを使用して、Cloze、Edit、Expand、End-to-Endという4つのタスクにまたがる特定の機能を分離します。
14個のLLMを解析した結果、ほとんどのLLMは、限定的または未指定の指示の下で文脈的理解を必要とするタスクに苦労していることが判明した。
演算子としてのRAVELをSOTA LLMで拡張することにより、このようなエージェントテキスト合成は、生生成能力よりもLLMの推論能力に支配されていることが分かる。
さらに、強い推論器はより弱い生成元を誘導して高品質な結果が得られるが、逆は成立しない。
私たちのコードとデータは、このリンクで利用可能です。
関連論文リスト
- Joint Enhancement of Relational Reasoning for Long-Context LLMs [39.679627202160425]
大規模言語モデル(LLM)は、メモリ制限と、複雑で長いコンテキストのタスクに対処できないため、長いコンテキストに苦しむ。
グラフベースの推論による長文理解を強化するための新しいフレームワークである textbfJERR を提案する。
論文 参考訳(メタデータ) (2025-08-28T01:54:47Z) - Compiling Prompts, Not Crafting Them: A Reproducible Workflow for AI-Assisted Evidence Synthesis [1.624454100511275]
大規模言語モデル(LLM)は、体系的な文献レビューを加速する大きな可能性を秘めている。
現在のアプローチは、しばしば信頼性と厳密さを損なう、不安定で手作業によるプロンプトに依存している。
本研究では、タスク宣言、テストスイート、自動プロンプトチューニングを再現可能なSLRに組み込む、構造化されたドメイン固有フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-22T21:37:49Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - TracLLM: A Generic Framework for Attributing Long Context LLMs [34.802736332993994]
我々は,長期LLMに適した最初の汎用コンテキストトレースバックフレームワークであるTracLLMを開発した。
我々のフレームワークは、既存の特徴属性手法の有効性と効率を向上させることができる。
評価の結果,TracLLMはLLMの出力に繋がる長い文脈でテキストを効果的に識別できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:48:16Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis [43.746749403268275]
大規模言語モデル(LLM)は、計算コスト、環境不効率、モノリシックアーキテクチャから受け継いだ潜在的なバイアスに悩まされる。
我々は、高品質で多様な信頼性のあるデータを生成するために、小さなLLMにまたがる特殊な役割を集約する協調的なフレームワークGRAを提案する。
本研究は,データ合成におけるモノリシックな大規模モデルの必要性に挑戦し,より小さなエージェントの戦略的コーディネーションを提唱する。
論文 参考訳(メタデータ) (2025-04-11T06:13:43Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。