論文の概要: Association via Entropy Reduction
- arxiv url: http://arxiv.org/abs/2511.04901v1
- Date: Fri, 07 Nov 2025 01:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.631279
- Title: Association via Entropy Reduction
- Title(参考訳): エントロピー還元によるアソシエーション
- Authors: Anthony Gamst, Lawrence Wilson,
- Abstract要約: Aver は tf-idf よりもアセンセートされたペアを見つけるのが得意な,アセンセーションのための基底的真理マーク付きデータセット上で, スコア, 平均, 観測の異なるスコアを提供する。
aver は tf-idf のスコアが 1.0 である文書と, tf-idf のスコアが tf-idf より大きい文書の集合に対して (3) aver は tf-idf ができない場合に tf-idf より大きい文書の集合に対して (3) aver は 単純な統計モデルの下で エントロピーから派生したものとを区別できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior to recent successes using neural networks, term frequency-inverse document frequency (tf-idf) was clearly regarded as the best choice for identifying documents related to a query. We provide a different score, aver, and observe, on a dataset with ground truth marking for association, that aver does do better at finding assciated pairs than tf-idf. This example involves finding associated vertices in a large graph and that may be an area where neural networks are not currently an obvious best choice. Beyond this one anecdote, we observe that (1) aver has a natural threshold for declaring pairs as unassociated while tf-idf does not, (2) aver can distinguish between pairs of documents for which tf-idf gives a score of 1.0, (3) aver can be applied to larger collections of documents than pairs while tf-idf cannot, and (4) that aver is derived from entropy under a simple statistical model while tf-idf is a construction designed to achieve a certain goal and hence aver may be more "natural." To be fair, we also observe that (1) writing down and computing the aver score for a pair is more complex than for tf-idf and (2) that the fact that the aver score is naturally scale-free makes it more complicated to interpret aver scores.
- Abstract(参考訳): ニューラルネットワークを用いた最近の成功に先立ち、クエリに関連するドキュメントを識別する最良の選択肢として、用語の周波数逆文書頻度(tf-idf)が明確に評価された。
我々は,アベルがtf-idfよりも精度の高いペアを見つけるのに有効であることを示す。
この例では、大きなグラフで関連する頂点を見つけることが含まれており、ニューラルネットワークが現在明らかな最良の選択ではない領域である可能性がある。
この他に、(1) aver は tf-idf が無関係であると宣言する自然なしきい値を持ち、(2) aver は tf-idf が 0 のスコアを与える文書のペアを区別でき、(3) aver は tf-idf ができない間に tf-idf よりも大きい文書のコレクションに適用でき、(4) aver は 単純な統計モデルの下でエントロピーから導出され、 tf-idf は ある目標を達成するために設計された構造であり、従って aver は "自然" である。
公平な点として,(1)ペアに対する平均スコアの書き下しと計算は,tf-idfよりも複雑であり,(2)自然にスケールフリーであるという事実は,平均スコアの解釈を複雑にしている。
関連論文リスト
- A Fisher's exact test justification of the TF-IDF term-weighting scheme [0.0]
TF-IDF (Term frequency-inverse document frequency) は、情報検索史上最も有名な数学的表現である。
本稿では,TF-IDFを統計的コミュニティに活用することを正当化し,評価された表現が重要テストの観点からどのように理解できるかを実証する。
論文 参考訳(メタデータ) (2025-07-21T15:54:23Z) - Tensor Convolutional Network for Higher-Order Interaction Prediction in Sparse Tensors [74.31355755781343]
我々は,トップk相互作用を予測するTF法とシームレスに統合する,正確で互換性のあるテンソル畳み込みネットワークTCNを提案する。
TF法と統合されたTNは,TF法やハイパーエッジ予測法などの競合よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-14T18:22:20Z) - The Heterophilic Snowflake Hypothesis: Training and Empowering GNNs for Heterophilic Graphs [59.03660013787925]
ヘテロフィリー・スノーフレーク仮説を導入し、ヘテロ親和性グラフの研究をガイドし、促進するための効果的なソリューションを提供する。
観察の結果,我々のフレームワークは多種多様なタスクのための多目的演算子として機能することがわかった。
さまざまなGNNフレームワークに統合することができ、パフォーマンスを詳細に向上し、最適なネットワーク深さを選択するための説明可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-18T12:16:00Z) - A Comparative Study on TF-IDF feature Weighting Method and its Analysis
using Unstructured Dataset [0.5156484100374058]
用語周波数-逆文書周波数(TF-IDF)と自然言語処理(NLP)は、テキスト分類において最もよく用いられる情報検索手法である。
本研究では,非構造化データのテキスト分類における特徴重み付け手法の検討と解析を行った。
提案モデルは、IMDB映画レビューにおけるN-GramsとTF-IDFと、感情分析のためのAmazon Alexaレビューデータセットの2つの特徴を検討した。
論文 参考訳(メタデータ) (2023-08-08T04:27:34Z) - HL-Net: Heterophily Learning Network for Scene Graph Generation [90.2766568914452]
本稿では,シーングラフにおけるオブジェクト/リレーショナル間のホモフィリとヘテロフィリを探索する,新しいヘテロフィリズ学習ネットワーク(HL-Net)を提案する。
HL-Netは、適応的な再重み付け変換モジュールで、異なる層からの情報を適応的に統合し、オブジェクトのヘテロフィリとホモフィリの両方を利用する。
我々は、ビジュアルゲノム(VG)とオープンイメージ(OI)の2つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-03T06:00:29Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Eider: Evidence-enhanced Document-level Relation Extraction [56.71004595444816]
文書レベルの関係抽出(DocRE)は、文書内のエンティティペア間の意味関係を抽出することを目的としている。
本稿では,共同関係と証拠抽出,エビデンス中心関係抽出(RE),抽出結果の融合からなる3段階のエビデンス強化DocREフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T09:43:16Z) - Learning Informative Representations of Biomedical Relations with Latent
Variable Models [2.4366811507669115]
本稿では,任意に柔軟な分布を持つ潜在変数モデルを提案する。
我々のモデルは、パラメータが少なく、トレーニングがかなり速く、両方のタスクの強いベースラインと競合する結果が得られることを実証する。
論文 参考訳(メタデータ) (2020-11-20T08:56:31Z) - Double Graph Based Reasoning for Document-level Relation Extraction [29.19714611415326]
文書レベルの関係抽出は、文書内のエンティティ間の関係を抽出することを目的としている。
二重グラフを特徴とするグラフ集約と推論ネットワーク(GAIN)を提案する。
公開データセットの実験であるDocREDは、GAINが以前の最先端技術よりも大幅なパフォーマンス改善(2.85 on F1)を達成したことを示している。
論文 参考訳(メタデータ) (2020-09-29T03:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。