論文の概要: DynamicBench: Evaluating Real-Time Report Generation in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.21343v1
- Date: Thu, 26 Jun 2025 14:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.144097
- Title: DynamicBench: Evaluating Real-Time Report Generation in Large Language Models
- Title(参考訳): DynamicBench: 大規模言語モデルにおけるリアルタイムレポート生成の評価
- Authors: Jingyao Li, Hao Sun, Zile Qiao, Yong Jiang, Pengjun Xie, Fei Huang, Hong Xu, Jiaya Jia,
- Abstract要約: 提案するDynamicBenchは,大規模言語モデルのデータの保存と処理能力を評価するためのベンチマークである。
外部文書の提供または保持のシナリオでモデルを評価することで、DynamicBenchは、最新の情報を独立して処理したり、コンテキスト拡張を利用する能力を効果的に測定する。
GPT4oを7.0%,GPT4oを5.8%,GPT4oを7.0%,GPT4oを5.8%で上回り,本手法の有効性を確認した。
- 参考スコア(独自算出の注目度): 88.33301034147546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional benchmarks for large language models (LLMs) typically rely on static evaluations through storytelling or opinion expression, which fail to capture the dynamic requirements of real-time information processing in contemporary applications. To address this limitation, we present DynamicBench, a benchmark designed to evaluate the proficiency of LLMs in storing and processing up-to-the-minute data. DynamicBench utilizes a dual-path retrieval pipeline, integrating web searches with local report databases. It necessitates domain-specific knowledge, ensuring accurate responses report generation within specialized fields. By evaluating models in scenarios that either provide or withhold external documents, DynamicBench effectively measures their capability to independently process recent information or leverage contextual enhancements. Additionally, we introduce an advanced report generation system adept at managing dynamic information synthesis. Our experimental results confirm the efficacy of our approach, with our method achieving state-of-the-art performance, surpassing GPT4o in document-free and document-assisted scenarios by 7.0% and 5.8%, respectively. The code and data will be made publicly available.
- Abstract(参考訳): 大型言語モデル(LLM)の伝統的なベンチマークは、一般的にストーリーテリングや意見表現による静的評価に依存しており、現代のアプリケーションにおけるリアルタイム情報処理の動的な要求を捉えていない。
この制限に対処するため,LLMのデータの保存と処理能力を評価するベンチマークであるDynamicBenchを提案する。
DynamicBenchはデュアルパス検索パイプラインを使用し、Web検索とローカルレポートデータベースを統合する。
ドメイン固有の知識を必要とし、専門分野における正確な応答レポートの生成を保証する。
外部文書の提供または保持のシナリオでモデルを評価することで、DynamicBenchは、最新の情報を独立して処理したり、コンテキスト拡張を利用する能力を効果的に測定する。
さらに,動的情報合成を管理するための高度なレポート生成システムについても紹介する。
GPT4oを7.0%,GPT4oを5.8%,GPT4oを7.0%,GPT4oを5.8%で上回り,本手法の有効性を確認した。
コードとデータは公開されます。
関連論文リスト
- InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Exploring the Practicality of Generative Retrieval on Dynamic Corpora [41.223804434693875]
本稿では,自己回帰型言語モデルをIR問題に適用する生成検索(GR)に焦点を当てる。
StreamingQAベンチマークの結果、GRは進化的知識(4-11%)に適応し、時間的情報による学習知識が堅牢で、FLOP(x6)、インデックス時間(x6)、ストレージフットプリント(x4)の点で効率的であることが示されている。
本稿では,動的環境における実用的な赤外線システムにおけるGRの可能性について述べる。
論文 参考訳(メタデータ) (2023-05-27T16:05:00Z) - Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。
彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。
ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文 参考訳(メタデータ) (2023-05-23T12:29:44Z) - Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent
Semantic Parsing [52.24507547010127]
ドメイン間コンテキスト依存のセマンティック解析は研究の新たな焦点である。
本稿では,コンテキストの発話,トークン,データベーススキーマ,会話の進行に伴う複雑なインタラクションを効果的にモデル化する動的グラフフレームワークを提案する。
提案したフレームワークは既存のモデルを大きなマージンで上回り、2つの大規模ベンチマークで新しい最先端性能を達成する。
論文 参考訳(メタデータ) (2021-01-05T18:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。