論文の概要: ACL-rlg: A Dataset for Reading List Generation
- arxiv url: http://arxiv.org/abs/2502.15692v1
- Date: Mon, 30 Dec 2024 07:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 22:53:28.743076
- Title: ACL-rlg: A Dataset for Reading List Generation
- Title(参考訳): ACL-rlg: リスト生成のためのデータセット
- Authors: Julien Aubert-Béduchaud, Florian Boudin, Béatrice Daille, Richard Dufour,
- Abstract要約: ACL-rlgは,最大規模のオープンエキスパート注釈付き読解リストデータセットである。
従来の学術検索エンジンと索引付け手法は、この課題に対して不十分に機能する。
- 参考スコア(独自算出の注目度): 8.526112833986183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Familiarizing oneself with a new scientific field and its existing literature can be daunting due to the large amount of available articles. Curated lists of academic references, or reading lists, compiled by experts, offer a structured way to gain a comprehensive overview of a domain or a specific scientific challenge. In this work, we introduce ACL-rlg, the largest open expert-annotated reading list dataset. We also provide multiple baselines for evaluating reading list generation and formally define it as a retrieval task. Our qualitative study highlights the fact that traditional scholarly search engines and indexing methods perform poorly on this task, and GPT-4o, despite showing better results, exhibits signs of potential data contamination.
- Abstract(参考訳): 新たな科学分野と既存の文献に慣れ親しみやすいのは、大量の論文があるためである。
専門家によって編纂された学術文献の一覧、または読解リストは、ドメインの包括的な概要や特定の科学的課題を得るための構造化された方法を提供する。
本稿では,ACL-rlgについて紹介する。
また、読み出しリストの生成を評価するための複数のベースラインを提供し、それを検索タスクとして正式に定義する。
我々の定性的な研究は、従来の学術検索エンジンと索引付け手法が、このタスクでうまく機能しないという事実を強調しており、GPT-4oは、より良い結果を示すにもかかわらず、潜在的なデータ汚染の兆候を示している。
関連論文リスト
- Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers [20.273439120429025]
SciDQAは、科学論文の深い理解のためにLSMに挑戦する、理解を読むための新しいデータセットである。
他の科学的QAデータセットとは異なり、SciDQAはドメインの専門家によるピアレビューや論文の著者による回答から質問を出している。
SciDQAの質問は、図、表、方程式、付属品、補足材料にまたがる推論を必要とする。
論文 参考訳(メタデータ) (2024-11-08T05:28:22Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Knowledge Navigator: LLM-guided Browsing Framework for Exploratory Search in Scientific Literature [48.572336666741194]
本稿では,探索探索能力の向上を目的とした知識ナビゲータを提案する。
検索された文書を、名前と記述の科学トピックとサブトピックの、ナビゲート可能な2段階の階層に整理する。
論文 参考訳(メタデータ) (2024-08-28T14:48:37Z) - SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - LitLLM: A Toolkit for Scientific Literature Review [15.785989492351684]
本稿では,RAG(Retrieval Augmented Generation)の原理に基づくツールキットを提案する。
本システムはまず,関連論文を検索するWeb検索を開始する。
第2に、ユーザが提供する抽象化に基づいて、検索した論文を再ランクする。
第3に、再ランクされた結果と要約に基づいて、関連する作業部を生成する。
論文 参考訳(メタデータ) (2024-02-02T02:41:28Z) - ACL-Fig: A Dataset for Scientific Figure Classification [15.241086410108512]
科学文献から図形と表を抽出するパイプラインと、視覚的特徴を用いて科学的図形を分類するディープラーニングベースのフレームワークを開発する。
ACLアンソロジーにおける56K研究論文から抽出された112,052の科学的資料からなる,最初の大規模自動注釈コーパスであるACL-Figを構築した。
ACL-Fig-Pilotデータセットには、19のカテゴリに属する1,671の科学的数字が含まれている。
論文 参考訳(メタデータ) (2023-01-28T20:27:35Z) - Tell Me How to Survey: Literature Review Made Simple with Automatic
Reading Path Generation [16.07200776251764]
論文を大量の文献から読めば、簡単な調査をしたり、特定の研究トピックに関する最新の進歩に遅れないようにする方法が課題になっている。
Google Scholarのような既存の学術検索エンジンは、各論文とクエリ間の関連性を個別に計算することで、関連論文を返す。
本稿では,あるクエリに対して読み込む論文のパスを自動生成することを目的とした読解パス生成(RPG)を紹介する。
論文 参考訳(メタデータ) (2021-10-12T20:58:46Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。