論文の概要: The Critical Role of Aspects in Measuring Document Similarity
- arxiv url: http://arxiv.org/abs/2601.03435v1
- Date: Tue, 06 Jan 2026 21:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.08049
- Title: The Critical Role of Aspects in Measuring Document Similarity
- Title(参考訳): 文書類似度測定における側面の批判的役割
- Authors: Eftekhar Hossain, Tarnika Hazra, Ahatesham Bhuiyan, Santu Karmaker,
- Abstract要約: ASPECTSIMは、明示的に指定されたアスペクトで文書の類似性を条件付ける必要があるフレームワークである。
我々は、ASPECTSIMが、全体的類似性よりもはるかに高い人間と機械の合意を達成していることを示す。
- 参考スコア(独自算出の注目度): 3.756527555629108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ASPECTSIM, a simple and interpretable framework that requires conditioning document similarity on an explicitly specified aspect, which is different from the traditional holistic approach in measuring document similarity. Experimenting with a newly constructed benchmark of 26K aspect-document pairs, we found that ASPECTSIM, when implemented with direct GPT-4o prompting, achieves substantially higher human-machine agreement ($\approx$80% higher) than the same for holistic similarity without explicit aspects. These findings underscore the importance of explicitly accounting for aspects when measuring document similarity and highlight the need to revise standard practice. Next, we conducted a large-scale meta-evaluation using 16 smaller open-source LLMs and 9 embedding models with a focus on making ASPECTSIM accessible and reproducible. While directly prompting LLMs to produce ASPECTSIM scores turned out be ineffective (20-30% human-machine agreement), a simple two-stage refinement improved their agreement by $\approx$140%. Nevertheless, agreement remains well below that of GPT-4o-based models, indicating that smaller open-source LLMs still lag behind large proprietary models in capturing aspect-conditioned similarity.
- Abstract(参考訳): 本稿では,文書類似度測定における従来の全体的アプローチとは異なる,文書類似度を明示的な側面で条件付けることを必要とする,シンプルで解釈可能なフレームワークであるASPECTSIMを紹介する。
新たに構築された26Kアスペクトドキュメントペアのベンチマークを用いて,直接GPT-4oプロンプトで実装したASPECTSIMは,明示的なアスペクトを伴わない全体的類似性よりもはるかに高い人間機械契約(80%高)を実現していることを確認した。
これらの知見は,文書の類似度を測定する上での側面を明示的に説明することの重要性を浮き彫りにし,標準化の必要性を強調した。
次に16個のオープンソース LLM と9個の埋め込みモデルを用いて大規模メタ評価を行い,ASPECTSIM のアクセス性と再現性に着目した。
LLMがASPECTSIMのスコアを生成するよう直接促すことは効果がない(20-30%の人間機械による合意)が、単純な2段階の改良により、契約は$\approx$140%改善された。
しかしながら、合意はGPT-4oベースのモデルよりもはるかに低いままであり、小さなオープンソース LLM がアスペクト条件の類似性を捉える上で、大きなプロプライエタリモデルより遅れていることを示している。
関連論文リスト
- HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-19T21:11:11Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Document Attribution: Examining Citation Relationships using Large Language Models [62.46146670035751]
そこで本研究では,帰属を簡単なテキスト・エンタテインメント・タスクとみなすゼロショット・アプローチを提案する。
また,アトリビューションプロセスの強化におけるアテンションメカニズムの役割についても検討する。
論文 参考訳(メタデータ) (2025-05-09T04:40:11Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - RelationMatch: Matching In-batch Relationships for Semi-supervised Learning [11.423755495373907]
半教師付き学習は、少ないラベル付きデータと豊富なラベル付きデータを活用するための重要なアプローチとして登場した。
本稿では, 行列クロスエントロピー(MCE)損失関数を用いて, バッチ内でのリレーショナル一貫性を明示的に強化する新しいSSLフレームワークであるRelationMatchを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:37:48Z) - Multi-Vector Models with Textual Guidance for Fine-Grained Scientific
Document Similarity [11.157086694203201]
本稿では, 微粒な面のマッチングに基づく新しい科学的文書類似性モデルを提案する。
本モデルは,テキスト管理の新たな形態として,関連論文の側面を記述した共引用文脈を用いて学習する。
論文 参考訳(メタデータ) (2021-11-16T11:12:30Z) - Aspect-based Document Similarity for Research Papers [4.661692753666685]
文書分類タスクのペア化によってアスペクト情報との類似性を拡張する。
研究論文のアスペクトベースの文書類似性を評価する。
以上の結果から,SciBERTは最高の演奏システムであることがわかった。
論文 参考訳(メタデータ) (2020-10-13T13:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。