論文の概要: ObjectGraph: From Document Injection to Knowledge Traversal -- A Native File Format for the Agentic Era
- arxiv url: http://arxiv.org/abs/2604.27820v1
- Date: Thu, 30 Apr 2026 13:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.097625
- Title: ObjectGraph: From Document Injection to Knowledge Traversal -- A Native File Format for the Agentic Era
- Title(参考訳): ObjectGraph: ドキュメントインジェクションから知識トラバーサルへ - エージェント時代のネイティブファイルフォーマット
- Authors: Mohit Dubey, Open Gigantic,
- Abstract要約: 我々は OBJECTGRAPH (.og) というファイル形式を導入し,文書を入力すべき文字列ではなく,タイプされた,指示された知識グラフとして再認識する。
Every.mdファイルは有効な.ogファイルであり、2プリミティブなクエリプロトコル以外のインフラを必要としない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every document format in existence was designed for a human reader moving linearly through text. Autonomous LLM agents do not read - they retrieve. This fundamental mismatch forces agents to inject entire documents into their context window, wasting tokens on irrelevant content, compounding state across multi-turn loops, and broadcasting information indiscriminately across agent roles. We argue this is not a prompt engineering problem, not a retrieval problem, and not a compression problem: it is a format problem. We introduce OBJECTGRAPH (.og), a file format that reconceives the document as a typed, directed knowledge graph to be traversed rather than a string to be injected. OBJECTGRAPH is a strict superset of Markdown - every .md file is a valid .og file - requires no infrastructure beyond a two-primitive query protocol, and is readable by both humans and agents without tooling. We formalize the Document Consumption Problem, characterise six structural properties no existing format satisfies simultaneously, and prove OBJECTGRAPH satisfies all six. We further introduce the Progressive Disclosure Model, the Role-Scoped Access Protocol, and Executable Assertion Nodes as native format primitives. Empirical evaluation across five document classes and eight agent task types demonstrates up to 95.3 percent token reduction with no statistically significant degradation in task accuracy (p > 0.05). Transpiler fidelity reaches 98.7 percent content preservation on a held-out document benchmark.
- Abstract(参考訳): 現存するすべての文書形式は、テキストを通して線形に動く人間読者のために設計されている。
自律的なLLMエージェントは読みません。
この基本的なミスマッチは、エージェントがすべてのドキュメントをコンテキストウィンドウに注入し、無関係なコンテンツにトークンを無駄にし、マルチターンループをまたいで状態を複雑にし、エージェントロールを無差別にブロードキャストすることを強制する。
これは迅速なエンジニアリングの問題ではなく、検索の問題であり、圧縮の問題ではない、と我々は主張する。
我々は OBJECTGRAPH (.og) というファイル形式を導入し,文書を入力すべき文字列ではなく,タイプされた,指示された知識グラフとして再認識する。
OBJECTGRAPHはMarkdownの厳格なスーパーセットである。
mdファイルは有効です。
ogファイル - 2プリミティブなクエリプロトコル以外のインフラストラクチャは必要とせず、ツーリングなしで人間とエージェントの両方で読み取り可能である。
文書消費問題を定式化し、既存の形式を同時に満たさない6つの構造特性を特徴付け、OBJECTGRAPHが6つ全てを満たすことを証明した。
さらに、プログレッシブ開示モデル、ロールスコープアクセスプロトコル、実行可能なアクセレーションノードをネイティブフォーマットプリミティブとして導入する。
5つの文書クラスと8つのエージェントタスクタイプにまたがる実証的な評価は、95.3%のトークン減少を示し、タスク精度の統計的に有意な低下はない(p > 0.05)。
トランスパイラの忠実度は98.7%に達する。
関連論文リスト
- OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。
パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文 参考訳(メタデータ) (2024-12-10T16:05:56Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Magic Markup: Maintaining Document-External Markup with an LLM [1.0538052824177144]
修正プログラムをタグ付けし、リッチなアノテーションが進化するにつれて自動的にコードに従うことができるシステムを提案する。
我々のシステムはベンチマークで90%の精度を達成し、文書のタグを1タグあたり5秒の速さで並列に置き換えることができる。
改善の余地は残っていますが、アプリケーションのさらなる探索を正当化するのに十分なパフォーマンスが得られています。
論文 参考訳(メタデータ) (2024-03-06T05:40:31Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval
on Predefined Topics [0.6767885381740952]
本稿では,ラベルのない文書データセットから,文書と単語ベクトルを共同で学習する手法を提案する。
提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。
当社のアプローチの複製を容易にするため,開発済みのLbl2Vecコードを3Clause BSDライセンスの下で利用可能なツールとして公開しています。
論文 参考訳(メタデータ) (2022-10-12T08:57:01Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。