論文の概要: Benchmark for Evaluation and Analysis of Citation Recommendation Models
- arxiv url: http://arxiv.org/abs/2412.07713v1
- Date: Tue, 10 Dec 2024 18:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:37:50.617795
- Title: Benchmark for Evaluation and Analysis of Citation Recommendation Models
- Title(参考訳): Citation Recommendation Modelの評価と分析のためのベンチマーク
- Authors: Puja Maharjan,
- Abstract要約: 我々は、引用推薦モデルの解析と比較を専門とするベンチマークを開発する。
このベンチマークは、引用コンテキストの異なる特徴に基づいてモデルの性能を評価する。
これは有意義な比較を可能にし、この分野におけるさらなる研究と開発のための有望なアプローチを特定するのに役立つだろう。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Citation recommendation systems have attracted much academic interest, resulting in many studies and implementations. These systems help authors automatically generate proper citations by suggesting relevant references based on the text they have written. However, the methods used in citation recommendation differ across various studies and implementations. Some approaches focus on the overall content of papers, while others consider the context of the citation text. Additionally, the datasets used in these studies include different aspects of papers, such as metadata, citation context, or even the full text of the paper in various formats and structures. The diversity in models, datasets, and evaluation metrics makes it challenging to assess and compare citation recommendation methods effectively. To address this issue, a standardized dataset and evaluation metrics are needed to evaluate these models consistently. Therefore, we propose developing a benchmark specifically designed to analyze and compare citation recommendation models. This benchmark will evaluate the performance of models on different features of the citation context and provide a comprehensive evaluation of the models across all these tasks, presenting the results in a standardized way. By creating a benchmark with standardized evaluation metrics, researchers and practitioners in the field of citation recommendation will have a common platform to assess and compare different models. This will enable meaningful comparisons and help identify promising approaches for further research and development in the field.
- Abstract(参考訳): 引用推薦システムは学術的な関心を惹きつけ、多くの研究や実装が行われた。
これらのシステムは、著者が書いたテキストに基づいて関連する参照を提案することによって、著者が適切な引用を自動的に生成するのに役立つ。
しかし、引用レコメンデーションで用いられる方法は、様々な研究や実装で異なる。
論文全体の内容に焦点をあてるアプローチもあるが、引用文の文脈を考えるアプローチもある。
さらに、これらの研究で使用されるデータセットには、メタデータ、引用コンテキスト、さらには様々なフォーマットや構造で論文の全文など、さまざまな側面の論文が含まれている。
モデル、データセット、評価指標の多様性は、引用レコメンデーション手法を効果的に評価し比較することを困難にしている。
この問題に対処するためには、これらのモデルを一貫して評価するために、標準化されたデータセットと評価指標が必要である。
そこで本研究では,引用推薦モデルの解析と比較に特化して設計されたベンチマークを提案する。
このベンチマークは、引用コンテキストの異なる特徴に基づいてモデルの性能を評価し、これらのタスク全体にわたってモデルを総合的に評価し、その結果を標準化された方法で提示する。
標準化された評価指標によるベンチマークを作成することで、引用レコメンデーションの分野の研究者や実践者は、異なるモデルを評価し比較するための共通のプラットフォームを持つことになる。
これは有意義な比較を可能にし、この分野におけるさらなる研究と開発のための有望なアプローチを特定するのに役立つだろう。
関連論文リスト
- Reference-free Evaluation Metrics for Text Generation: A Survey [18.512882012973005]
自然言語生成システムにいくつかの自動評価指標が提案されている。
自動評価の最も一般的なアプローチは、モデル出力と人間によって書かれた金標準基準を比較する基準ベースの計量を使うことである。
近年、様々な基準のないメトリクスが開発されている。
論文 参考訳(メタデータ) (2025-01-21T10:05:48Z) - A Comparative Analysis of Faithfulness Metrics and Humans in Citation Evaluation [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成する。
本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。
以上の結果から,全ての評価において一貫した指標が存在しないことが示唆され,詳細なサポートレベルを正確に評価することの難しさが強調された。
論文 参考訳(メタデータ) (2024-08-22T13:44:31Z) - Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成している。
本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。
以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T15:57:24Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - Tag-Aware Document Representation for Research Paper Recommendation [68.8204255655161]
本稿では,ユーザによって割り当てられたソーシャルタグに基づいて,研究論文の深い意味表現を活用するハイブリッドアプローチを提案する。
提案手法は,評価データが極めて少ない場合でも研究論文の推薦に有効である。
論文 参考訳(メタデータ) (2022-09-08T09:13:07Z) - On the role of benchmarking data sets and simulations in method
comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。
混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文 参考訳(メタデータ) (2022-08-02T13:47:53Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Academics evaluating academics: a methodology to inform the review
process on top of open citations [1.911678487931003]
オープンな引用のみを考慮して計算された引用に基づくメトリクスが、人間の査定演習のピアレビューの実施方法に関する洞察を得ることのできるデータを提供するかどうかを考察する。
我々は,研究評価演習の委員会の決定を再現するために,一連の機械学習モデルを提案する。
論文 参考訳(メタデータ) (2021-06-10T13:09:15Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。