論文の概要: RhinoInsight: Improving Deep Research through Control Mechanisms for Model Behavior and Context
- arxiv url: http://arxiv.org/abs/2511.18743v1
- Date: Mon, 24 Nov 2025 04:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.012258
- Title: RhinoInsight: Improving Deep Research through Control Mechanisms for Model Behavior and Context
- Title(参考訳): RhinoInsight: モデル行動とコンテキストの制御メカニズムによるディープリサーチの改善
- Authors: Yu Lei, Shuzheng Si, Wei Wang, Yifei Wu, Gang Chen, Fanchao Qi, Maosong Sun,
- Abstract要約: RhinoInsightは、パラメータ更新なしで堅牢性、トレーサビリティ、全体的な品質を高めるための2つの制御メカニズムを付加するディープリサーチフレームワークである。
まず、検証可能なチェックリストモジュールは、ユーザ要求をトレーサブルで検証可能なサブゴールに変換し、改善のために人間やLLM評論家を取り入れ、階層的なアウトラインをコンパイルして、その後のアクションをアンロックし、実行不可能なプランニングを防ぐ。
第2に、Evidence Auditモジュールは、検索コンテンツを構造化し、アウトラインを反復的に更新し、ノイズの多いコンテキストを呈する一方、批評家は、高品質な証拠をドラフトコンテンツにランク付けし、検証性を確保し、幻覚を減らす。
- 参考スコア(独自算出の注目度): 48.397069721087895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are evolving from single-turn responders into tool-using agents capable of sustained reasoning and decision-making for deep research. Prevailing systems adopt a linear pipeline of plan to search to write to a report, which suffers from error accumulation and context rot due to the lack of explicit control over both model behavior and context. We introduce RhinoInsight, a deep research framework that adds two control mechanisms to enhance robustness, traceability, and overall quality without parameter updates. First, a Verifiable Checklist module transforms user requirements into traceable and verifiable sub-goals, incorporates human or LLM critics for refinement, and compiles a hierarchical outline to anchor subsequent actions and prevent non-executable planning. Second, an Evidence Audit module structures search content, iteratively updates the outline, and prunes noisy context, while a critic ranks and binds high-quality evidence to drafted content to ensure verifiability and reduce hallucinations. Our experiments demonstrate that RhinoInsight achieves state-of-the-art performance on deep research tasks while remaining competitive on deep search tasks.
- Abstract(参考訳): 大規模言語モデルは、シングルターン応答器から、深い研究のための持続的な推論と意思決定が可能なツール使用エージェントへと進化している。
一般的なシステムは、レポートに書き込むための計画の線形パイプラインを採用しており、モデル動作とコンテキストの両方を明示的に制御できないため、エラーの蓄積とコンテキストの腐朽に悩まされている。
RhinoInsightは、パラメータ更新なしで堅牢性、トレーサビリティ、全体的な品質を高めるための2つの制御メカニズムを付加するディープリサーチフレームワークである。
まず、検証可能なチェックリストモジュールは、ユーザ要求をトレーサブルで検証可能なサブゴールに変換し、改善のために人間やLLM評論家を取り入れ、階層的なアウトラインをコンパイルして、その後のアクションをアンロックし、実行不可能なプランニングを防ぐ。
第2に、Evidence Auditモジュールは、検索コンテンツを構造化し、アウトラインを反復的に更新し、ノイズの多いコンテキストを呈する一方、批評家は、高品質な証拠をドラフトコンテンツにランク付けし、検証性を確保し、幻覚を減らす。
実験により,RhinoInsightは深層探索タスクの競争力を維持しつつ,最先端の深層探索タスクを達成できることが実証された。
関連論文リスト
- VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Retrieval-augmented reasoning with lean language models [5.615564811138556]
複雑なドメイン固有のクエリを解釈できる検索拡張会話エージェントを開発した。
本システムでは,細調整されたQwen2.5-Instructモデルと高密度レトリバーを統合した。
すべての実装の詳細とコードは、ドメイン間のサポートと適応のために公開されています。
論文 参考訳(メタデータ) (2025-08-15T10:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。