論文の概要: Topic Is Not Agenda: A Citation-Community Audit of Text Embeddings
- arxiv url: http://arxiv.org/abs/2605.07158v1
- Date: Fri, 08 May 2026 02:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.759618
- Title: Topic Is Not Agenda: A Citation-Community Audit of Text Embeddings
- Title(参考訳): TopicはAgendaではない: テキスト埋め込みのCitation-Community Audit
- Authors: Junseon Yoo,
- Abstract要約: 我々は358万の科学論文の上に、補助的な引用グラフを構築した。
4つの最先端の埋め込みは、L1バーを合理的にクリアするが、L2で動くのをやめる。
絶対的に言えば、10件の回収された論文のうち8件は未成年者である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector search and retrieval-augmented generation (RAG) rest on the assumption that cosine similarity between text embeddings reflects conceptual relatedness. We measure where this assumption breaks. We build an augmented citation graph over 3.58M scientific papers and partition it via Leiden CPM at two granularities: sub-field (L1) and research-agenda (L2, hierarchical inside each L1). Four state-of-the-art embeddings (Gemini, Qwen3-8B, Qwen3-0.6B, SPECTER2) clear the L1 bar reasonably (45-52% top-10 same-rate) but stop working at L2: only 15-21% of top-10 neighbors share the query's research agenda. In absolute terms, 8 of every 10 retrieved papers are off-agenda. The failure is universal across eight scientific domains and all four models; SPECTER2, despite its citation-based contrastive training, is the weakest. As a diagnostic probe, we test whether the same augmented graph also functions as a retrieval signal: a deliberately simple citation-count rerank reaches 57.7% top-1 L2 on top of LLM-expanded Boolean retrieval and 59.6% on top of plain BM25, on 80 curated agenda queries -- about 9 points above the best cosine retriever (Gemini, 50.6%) and 20 points above BM25 alone (39.3%). The probe isolates a slice of the agenda-matching signal the graph carries but the embeddings miss, connecting recent theoretical limits on single-vector retrieval to a concrete failure mode of scientific RAG.
- Abstract(参考訳): ベクトル探索と検索拡張生成(RAG)は、テキスト埋め込み間のコサイン類似性は概念的関連性を反映しているという仮定に基づいている。
この仮定がどこで壊れるかを測定する。
我々は358万件の科学論文に集約された引用グラフを構築し、ライデン CPM を介して、サブフィールド (L1) とリサーチアジェンダ (L2,hierarchical inside each L1) の2つの粒度で分割する。
4つの最先端の埋め込み(Gemini, Qwen3-8B, Qwen3-0.6B, SPECTER2)は、L1バーを合理的にクリアする(45-52%の上位10の同一レート)が、L2での作業は停止する。
絶対的に言えば、10件の回収された論文のうち8件は未成年者である。
この故障は8つの科学的領域と4つのモデルで普遍的であり、SPECTER2は引用に基づく対照的な訓練にもかかわらず最も弱い。
LLMを拡張したBoolean検索で57.7%、プレーンBM25で59.6%、80のキュレートされたアジェンダクエリで59.6%、ベストコサイン検索で約9ポイント(Gemini, 50.6%)、BM25単独で20ポイント(39.3%)に達した。
プローブは、グラフが持つアジェンダマッチング信号のスライスを分離するが、埋め込みは失敗し、単一のベクトルの検索に関する最近の理論的限界と科学的RAGの具体的な障害モードを接続する。
関連論文リスト
- WiCER: Wiki-memory Compile, Evaluate, Refine Iterative Knowledge Compilation for LLM Wiki Systems [0.0]
我々は17のRepLiQAドメイン間のコンパイルギャップを特徴付ける(6,800の質問)。
本稿では,このギャップを埋める反例誘導抽象化改良(CEGAR)にインスパイアされた反復アルゴリズムであるWiCERを提案する。
全17項目のアブレーションにより、汎用ピンニング(+0.16)ではなく、ターゲット診断(+0.95)がゲインを駆動していることが確認された。
論文 参考訳(メタデータ) (2026-05-08T00:25:16Z) - Less Is More: Cognitive Load and the Single-Prompt Ceiling in LLM Mathematical Reasoning [0.0]
SAIR Equational Theories Stage 1のコンペティションの文脈において,形式的数学的推論のためのプロンプトエンジニアリングについて検討する。
このタスクは、すべてのマグマに対して1つの方程式法則が別の法則を意味するかどうかを決定する必要がある。
5週間にわたって、40以上のプロンプトバリアントを設計、テスト、分析しました。
論文 参考訳(メタデータ) (2026-04-20T22:55:23Z) - BibTeX Citation Hallucinations in Scientific Publishing Agents: Evaluation and Mitigation [34.429649156970015]
以前の評価では、検索なしでベースモデルをテストしたが、これは現在の慣行を反映していない。
3つの検索可能なフロンティアモデルでは、9つのフィールドと6方向のエラー分類に基づいてBibエントリを生成する。
全体的な精度は83.6%だが、完全な正確さは50.9%に過ぎない。
論文 参考訳(メタデータ) (2026-04-03T16:30:58Z) - ResearchGym: Evaluating Language Model Agents on Real-World AI Research [48.46915933681714]
我々は、エンドツーエンドの研究においてAIエージェントを評価するためのベンチマークおよび実行環境であるResearchGymを紹介する。
これを実現するために,ICML,ICLR,ACLの5つの口頭およびスポットライト論文を再利用した。
GPT-5を動力とするエージェントの制御評価において、我々は鋭い能力-信頼性ギャップを観察する。
論文 参考訳(メタデータ) (2026-02-16T19:00:03Z) - SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature [92.88058660627678]
FITO(Fish-in-the-Ocean)パラダイムは、科学文書の中に明確なクロスモーダルなエビデンスチェーンを構築するモデルを必要とする。
我々は、証拠発見(SIN-Find)、仮説検証(SIN-Verify)、接地QA(SIN-QA)、エビデンスアンコレッド合成(SIN-Summary)の4つのプログレッシブなタスクでSIN-Benchを構築する。
検証可能なアンカーに基づき、マッチング、関連性、論理による証拠品質の診断を行う際に、予測値を評価する「No Evidence, No Score」を導入する。
論文 参考訳(メタデータ) (2026-01-15T06:25:25Z) - Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People [81.63702981397408]
限られたリソースを前提として、言語モデル(LM)に基づいたエージェントは、どの程度合理的に行動するのか?
エージェント情報探索をベンチマークし,強化する手法を開発し,人間の行動から洞察を抽出する。
Spotterエージェントでは、LMのみのベースラインよりも14.7%の精度で精度を向上し、Captainエージェントでは、期待情報ゲイン(EIG)を0.227ビット(達成可能なノイズ天井の94.2%)まで引き上げる。
論文 参考訳(メタデータ) (2025-10-23T17:57:28Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - LitSearch: A Retrieval Benchmark for Scientific Literature Search [48.593157851171526]
我々は,最近のMLおよびNLP論文に関する597のリアルな文献検索クエリからなる検索ベンチマークLitSearchを紹介する。
LitSearchのすべての質問は、高品質を保証するために専門家によって手作業で検査または編集された。
BM25と最先端の高密度リトリーバーの間には,24.8%の絶対差がみられた。
論文 参考訳(メタデータ) (2024-07-10T18:00:03Z) - Attribution in Scientific Literature: New Benchmark and Methods [41.64918533152914]
大規模言語モデル(LLM)は、科学的コミュニケーションにおいて、自動ソース引用のための有望だが挑戦的なフロンティアを提供する。
本稿では、arXivから12の科学領域にまたがる文レベルのアノテーションを備えた新しいデータセットREASONSを紹介する。
我々は、GPT-O1、GPT-4O、GPT-3.5、DeepSeekなどのモデルや、Perplexity AI (7B)のような他の小さなモデルで広範な実験を行う。
論文 参考訳(メタデータ) (2024-05-03T16:38:51Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。