論文の概要: Knows: Agent-Native Structured Research Representations
- arxiv url: http://arxiv.org/abs/2604.17309v1
- Date: Sun, 19 Apr 2026 07:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.455103
- Title: Knows: Agent-Native Structured Research Representations
- Title(参考訳): 知識:エージェント-Native Structured Research Representations
- Authors: Guangsheng Yu, Xu Wang,
- Abstract要約: 私たちは、構造化されたクレーム、証拠、証明、および既存の研究成果物との関係を束縛する軽量仕様であるKnowsを紹介します。
Knowsは、オリジナルのPDFと共存する薄いYAMLサイドカーとのギャップに対処し、パブリッシュ自体の変更を必要とせず、決定論的スキーマlinterで検証する。
本研究は, PDFのみ, サイドカーのみ, ハイブリット条件を比較検討し, 14の学術分野にまたがる20の論文を対象とした140の理解的質問に対する知識の評価を行った。
- 参考スコア(独自算出の注目度): 5.037922001284019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research artifacts are distributed primarily as reader-oriented documents like PDFs. This creates a bottleneck for increasingly agent-assisted and agent-native research workflows, in which LLM agents need to infer fine-grained, task-relevant information from lengthy full documents, a process that is expensive, repetitive, and unstable at scale. We introduce Knows, a lightweight companion specification that binds structured claims, evidence, provenance, and verifiable relations to existing research artifacts in a form LLM agents can consume directly. Knows addresses the gap with a thin YAML sidecar (KnowsRecord) that coexists with the original PDF, requiring no changes to the publication itself, and validated by a deterministic schema linter. We evaluate Knows on 140 comprehension questions across 20 papers spanning 14 academic disciplines, comparing PDF-only, sidecar-only, and hybrid conditions across six LLM agents of varying capacity. Weak models (0.8B--2B parameters) improve from 19--25\% to 47--67\% accuracy (+29 to +42 percentage points) when reading sidecar instead of PDF, while consuming 29--86\% fewer input tokens; an LLM-as-judge re-scoring confirms that weak-model sidecar accuracy (75--77\%) approaches stronger-model PDF accuracy (78--83\%). Beyond this controlled evaluation, a community sidecar hub at https://knows.academy/ has already indexed over ten thousand publications and continues to grow daily, providing independent evidence that the format is adoption-ready at scale.
- Abstract(参考訳): 研究成果物は主にPDFのような読者指向のドキュメントとして配布される。
LLMエージェントは、高価で反復的で、大規模に不安定な、長いフルドキュメントからきめ細かなタスク関連情報を推論する必要がある。
構造化されたクレーム、エビデンス、証明、検証可能な既存の研究成果物との関係をLLMエージェントが直接消費できる形で結合する軽量なコンパニオン仕様であるKnowsを紹介する。
Knowsは、オリジナルのPDFと共存する薄いYAMLサイドカー(KnowsRecord)とのギャップに対処し、パブリッシュ自体の変更を必要とせず、決定論的スキーマlinterで検証する。
我々は, PDFのみ, サイドカーのみ, ハイブリッド条件を, 能力の異なる6つのLDMエージェントで比較した。
LLM-as-judge re-scoring is confirmed that weak-model sidecar accuracy (75--77-%) approach to strong-model PDF accuracy (78-83-%)。
このコントロールされた評価以外にも、https://knows.academy/のコミュニティサイドカーハブは、すでに1万以上の出版物をインデックス化しており、毎日成長を続けている。
関連論文リスト
- From PDF to RAG-Ready: Evaluating Document Conversion Frameworks for Domain-Specific Question Answering [32.10503220086596]
Retrieval-Augmented Generation (RAG) システムは文書前処理の品質に大きく依存する。
従来の研究では、下流の質問応答精度への影響でPDF処理フレームワークの評価は行われていない。
オープンソースのPDF-to-Markdown変換フレームワークであるDocling、MinerU、Marker、DeepSeek OCRを19のパイプライン構成で比較する。
論文 参考訳(メタデータ) (2026-03-30T14:40:58Z) - How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations [1.0829694003408499]
大規模言語モデル(LLM)は、学術的な引用を作るために注目されているが、この振る舞いの範囲はいまだに定量化されていない。
これまでに,4つの学術領域に10のLLMを商業展開させた,最も大きな幻覚誘発検査の1つを報告した。
以上の結果から,観察された幻覚率は5倍の範囲(11.4%から56.8%)で,モデル,ドメイン,迅速なフレーミングによって強く形成されていることが明らかとなった。
論文 参考訳(メタデータ) (2026-02-07T00:14:00Z) - Assessing LLM Reliability on Temporally Recent Open-Domain Questions [15.456770184839726]
大規模言語モデル(LLM)は、オープンドメインの質問応答のためにますます多くデプロイされている。
我々は4つのオープンソース LLM が最近のReddit の質問 15,000 に対してどのように反応するかを調査した。
すべてのモデルは、8%のBLEU-1オーバーラップにもかかわらず、参照と99%以上のコサイン類似性を達成している。
論文 参考訳(メタデータ) (2026-01-17T21:33:27Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - How Well Do LLMs Imitate Human Writing Style? [2.3754840025365183]
大規模言語モデル(LLM)は、流動的なテキストを生成することができるが、特定の人間の作者の独特のスタイルを再現する能力は、まだ不明である。
著者の検証とスタイルの模倣分析のための,高速かつトレーニング不要なフレームワークを提案する。
学術エッセイでは97.5%、クロスドメイン評価では94.5%の精度を達成している。
論文 参考訳(メタデータ) (2025-09-29T15:34:40Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。
実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。
RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文 参考訳(メタデータ) (2025-04-17T16:46:11Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。