論文の概要: Dr-CiK: A Testbed for Foresight-Driven Agents
- arxiv url: http://arxiv.org/abs/2605.27904v1
- Date: Wed, 27 May 2026 03:26:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.716614
- Title: Dr-CiK: A Testbed for Foresight-Driven Agents
- Title(参考訳): Dr-CiK: フォアサイト駆動エージェントのテストベッド
- Authors: Yihong Tang, Andrew Robert Williams, Arjun Ashok, Vincent Zhihao Zheng, Lijun Sun, Alexandre Drouin, Issam H. Laradji, Étienne Marcotte, Valentina Zantedeschi,
- Abstract要約: 本稿では,文書コーパスから予測関連コンテキストを検索できるかどうかを評価するベンチマークであるDr-CiKを紹介する。
我々は,Dr-CiKの予測性能が,高品質な文脈で大幅に向上することを示す。
我々の研究は、未来を予測するための適切なコンテキストを探索するフォレスト駆動エージェントの研究を動機付けている。
- 参考スコア(独自算出の注目度): 58.303939183596015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time series forecasting in real-world settings often depends not only on historical observations, but also on external context that must be actively discovered from noisy, heterogeneous information sources. Yet existing context-aided forecasting benchmarks typically assume that the supporting context is already provided, leaving open whether agents can identify it on their own. Therefore, we introduce Dr-CiK, a benchmark for evaluating whether agents can retrieve forecasting-relevant supporting context from a document corpus, filter out distractors, distill the retrieved context into forecast-useful evidence, and generate forecasts supported by that evidence. Through context ablations and evaluations of state-of-the-art deep research and forecasting methods paired together, we show that high-quality context substantially improves forecasting performance in Dr-CiK. However, most existing DR agents recover only a small fraction of the ground-truth supporting evidence (usually <5%), are frequently misled by distractors (>80% distractor citations), and can cause forecasters to perform worse with retrieved context than without context. Our results motivate research on foresight-driven agents that search for the right context to predict the future.
- Abstract(参考訳): 実世界の環境での時系列予測は、しばしば歴史的観測だけでなく、ノイズの多い異種情報ソースから積極的に発見される必要がある外部の文脈にも依存する。
しかし、既存のコンテキスト支援予測ベンチマークでは、サポート済みのコンテキストがすでに提供されていると仮定し、エージェントが自分自身でそれを識別できるかどうかを判断する。
そこで本研究では,文書コーパスから予測関連コンテキストを検索し,イントラクタをフィルタリングし,検索したコンテキストを予測用エビデンスに抽出し,そのエビデンスによって支援された予測を生成することができるかどうかを評価するベンチマークであるDr-CiKを紹介する。
最先端の深層研究と予測手法の組合わせによる文脈改善と評価により,Dr-CiKの予測性能を大幅に向上することを示す。
しかし、ほとんどの既存のDRエージェントは、地上の真実を裏付ける証拠(通常、5%)のごく一部しか回収せず、しばしば妨害者によって誤解される(80%以上の妨害者による引用)。
我々の研究は、未来を予測するための適切なコンテキストを探索するフォレスト駆動エージェントの研究を動機付けている。
関連論文リスト
- PROPHET: An Inferable Future Forecasting Benchmark with Causal Intervened Likelihood Estimation [46.3251656496956]
大規模言語モデル(LLM)に基づくシステムにおける最近の進歩は、将来の事象を予測する大きな可能性を示している。
イベント予測をRAG(Research-augmented Generation)と推論タスクとして形式化し,予測能力を評価するために,いくつかのベンチマークが確立されている。
本稿では,検索のための関連ニュースと組み合わせた予測可能な質問を含む新しいベンチマークPropPHETを提案する。
論文 参考訳(メタデータ) (2025-04-02T08:57:42Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。