論文の概要: MEMENTO: Leveraging Web as a Learning Signal for Low-Data Domains
- arxiv url: http://arxiv.org/abs/2605.29795v1
- Date: Thu, 28 May 2026 11:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.208476
- Title: MEMENTO: Leveraging Web as a Learning Signal for Low-Data Domains
- Title(参考訳): MementO: 低データドメインのための学習信号としてWebを活用する
- Authors: Ashutosh Ojha, Vinay Aggarwal, Ashutosh Srivastava, Siddharth Yedlapati, Yaman K Singla, Jitendra Ajmera,
- Abstract要約: 現実世界のタスクは、しばしば大きなラベル付きデータセットが欠落しており、低データのレシエーションにおける学習への広範な取り組みを動機付けている。
我々は,Webをステートレス検索インタフェースではなく,学習信号として扱うフレームワークであるMementOを提案する。
我々は、MementOを2つの低データプロフェッショナルドメイン、すなわち販売自動化と法的研究で評価する。
- 参考スコア(独自算出の注目度): 3.572758120834609
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world tasks often lack large labeled datasets, motivating extensive work on learning in low-data regimes. However, existing approaches such as few-shot prompting, instruction tuning, and synthetic data generation, continue to treat labeled or pseudo-labeled data as the primary learning signal. In contrast, human practitioners acquire expertise through repeated, self-directed interaction with the open web, progressively refining both domain knowledge and search strategies. We propose MEMENTO, a framework that treats the web as a learning signal rather than a stateless retrieval interface. MEMENTO operates at two levels: within each session, it conducts iterative web exploration via an Adaptive Exploration Tree (AET) that decomposes tasks into evolving questions and reflects on intermediate findings; across sessions, it accumulates experience through dual-channel memory, separating declarative knowledge (facts) from procedural knowledge (search strategies). This design enables agents to learn reusable research strategies and domain expertise from trajectories of web interaction without additional model training. We evaluate MEMENTO on two low-data professional domains: sales automation and legal research. Our empirical results show consistent improvements in performance over ReAct based baselines (+25.6% on sales automation and 36.5% on legal research), demonstrating that the web can serve as a scalable learning source for acquiring task-specific expertise in data-scarce settings.
- Abstract(参考訳): 現実世界のタスクは、しばしば大きなラベル付きデータセットが欠落しており、低データのレシエーションにおける学習への広範な取り組みを動機付けている。
しかし、少数ショットプロンプト、命令チューニング、合成データ生成といった既存のアプローチは、ラベル付きまたは擬似ラベル付きデータを一次学習信号として扱い続けている。
対照的に、人間の実践者は、オープンウェブとの反復的かつ自己指向的な相互作用を通じて専門知識を取得し、ドメイン知識と検索戦略の両方を段階的に洗練する。
我々は,Webをステートレス検索インタフェースではなく,学習信号として扱うフレームワークであるMementOを提案する。
MementOは、各セッション内で、タスクを進化する質問に分解し、中間的な発見を反映するAdaptive Exploration Tree (AET)を介して反復的なWeb探索を行う。
この設計により、モデルトレーニングを追加することなく、Webインタラクションの軌跡から再利用可能な研究戦略やドメインの専門知識を学習することができる。
我々は、MementOを2つの低データプロフェッショナルドメイン、すなわち販売自動化と法的研究で評価する。
実証実験の結果、ReActベースのベースライン(販売自動化では25.6%、法律研究では36.5%)よりもパフォーマンスが一貫した向上を示し、ウェブがデータスカース設定においてタスク固有の専門知識を取得するためのスケーラブルな学習源として機能することを実証した。
関連論文リスト
- Scaling Web Agent Training through Automatic Data Generation and Fine-grained Evaluation [54.945281159783896]
Webエージェントのための高品質なトレーニングデータを自動的に生成するスケーラブルなパイプラインを提案する。
本稿では,タスク完了に向けた進捗のきめ細かい評価を提供する制約に基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-13T02:52:18Z) - Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms [81.90219895125178]
Webベースの「ディープリサーチ」エージェントは、オンラインツールとの長時間のインタラクションを通じてタスクに答える、複雑な問題の解決を目指している。
基礎となる言語モデルは、長い水平推論に最適化されないことが多いため、これらのタスクは依然として困難なままである。
複雑化を徐々に進めることで、疑問-答えのペアを生成する2段階のデータ合成パイプラインを導入する。
論文 参考訳(メタデータ) (2025-10-15T06:34:46Z) - WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.28593628378991]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。
WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文 参考訳(メタデータ) (2025-09-16T17:57:17Z) - WebDS: An End-to-End Benchmark for Web-based Data Science [59.270670758607494]
WebDSは、Webベースの初のエンドツーエンドデータサイエンスベンチマークである。
29のWebサイトにわたる870のWebベースのデータサイエンスタスクで構成されている。
WebDSは、実用的に有用なLCMベースのデータサイエンスの開発において、大きな進歩の舞台となる。
論文 参考訳(メタデータ) (2025-08-02T06:39:59Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z) - RECALL+: Adversarial Web-based Replay for Continual Learning in Semantic
Segmentation [27.308426315113707]
我々は、従来のアプローチ(RECALL)を拡張し、教師なしのWebcrawledデータを活用することで、忘れることに取り組みます。
実験結果から、この拡張アプローチは、特にインクリメンタルシナリオが複数のステップにまたがる場合、顕著な結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-09-19T09:50:30Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。