Fugu-MT 論文翻訳(概要): Hierarchical Catalogue Generation for Literature Review: A Benchmark

論文の概要: Hierarchical Catalogue Generation for Literature Review: A Benchmark

arxiv url: http://arxiv.org/abs/2304.03512v2
Date: Mon, 10 Apr 2023 04:43:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-11 11:43:52.670213
Title: Hierarchical Catalogue Generation for Literature Review: A Benchmark
Title（参考訳）: 文献レビューのための階層的カタログ生成:ベンチマーク
Authors: Kun Zhu, Xiaocheng Feng, Xiachong Feng, Yingsheng Wu and Bing Qin
Abstract要約: 多文書の科学的要約は、大量の論文から重要な情報を抽出し、整理し、近年広く注目を集めている。本稿では,ヒエラルキ的カタログ生成・文献レビュー(HiCatGLR)と題する原子的・挑戦的な課題について紹介する。
参考スコア（独自算出の注目度）: 25.802942197462816
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-document scientific summarization can extract and organize important information from an abundant collection of papers, arousing widespread attention recently. However, existing efforts focus on producing lengthy overviews lacking a clear and logical hierarchy. To alleviate this problem, we present an atomic and challenging task named Hierarchical Catalogue Generation for Literature Review (HiCatGLR), which aims to generate a hierarchical catalogue for a review paper given various references. We carefully construct a novel English Hierarchical Catalogues of Literature Reviews Dataset (HiCaD) with 13.8k literature review catalogues and 120k reference papers, where we benchmark diverse experiments via the end-to-end and pipeline methods. To accurately assess the model performance, we design evaluation metrics for similarity to ground truth from semantics and structure. Besides, our extensive analyses verify the high quality of our dataset and the effectiveness of our evaluation metrics. Furthermore, we discuss potential directions for this task to motivate future research.
Abstract（参考訳）: 多文書科学要約は、豊富な論文のコレクションから重要な情報を抽出し整理することができ、近年広く注目を集めている。しかし、既存の取り組みは、明確で論理的な階層を欠いた長い概要を生み出すことに重点を置いている。この問題を軽減するために,文献レビューのための階層的カタログ生成(HiCatGLR)という,原子的かつ困難な課題を提示する。我々は13.8kの文献レビューカタログと120kの参考論文を持つ新しい英語階層的文献レビューデータセット(hicad)を慎重に構築し、エンドツーエンドとパイプラインメソッドによる多様な実験をベンチマークする。モデルの性能を正確に評価するために,意味論と構造学から基底真理に類似した評価指標を設計する。さらに当社の広範な分析によって,データセットの高品質と評価指標の有効性が検証された。さらに,この課題が今後の研究を動機付ける可能性についても論じる。

関連論文リスト

SciFig: Towards Automating Scientific Figure Generation [41.73701976318102]
SciFigは研究論文のテキストから直接出版可能なパイプライン図を生成するエンドツーエンドのAIエージェントシステムである。本稿では,2,219個の実科学図を解析し,評価ルーブを抽出するルーブリックに基づく評価フレームワークを提案する。 SciFigは、データセットレベルの評価で70.1$%、紙固有の評価で66.2$%の全体的な品質を達成した。
論文参考訳（メタデータ） (2026-01-07T20:56:58Z)
DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文参考訳（メタデータ） (2026-01-07T03:07:52Z)
Deep Literature Survey Automation with an Iterative Workflow [30.923568155892184]
我々のフレームワークは再帰的なアウトライン生成に基づく探索とコヒーレンスの両方を保証する忠実な紙レベル接地を実現するため,各紙をその寄与,方法,発見に蒸留する紙カードを設計する。確立されたトピックと新興トピックの両方の実験では、コンテンツカバレッジ、構造的コヒーレンス、引用品質の最先端のベースラインを大きく上回っている。
論文参考訳（メタデータ） (2025-10-24T14:41:26Z)
Large Language Models for Automated Literature Review: An Evaluation of Reference Generation, Abstract Writing, and Review Composition [2.048226951354646]
大規模言語モデル(LLM)は、文学レビューを書くことに関わる複雑なプロセスを自動化するための潜在的な解決策として登場した。本研究は,文学書記の3つの重要な課題において,LLMの性能を自動評価する枠組みを提案する。
論文参考訳（メタデータ） (2024-12-18T08:42:25Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
HiReview: Hierarchical Taxonomy-Driven Automatic Literature Review Generation [15.188580557890942]
HiReviewは階層的な分類による自動文献レビュー生成のための新しいフレームワークである。大規模な実験により、HiReviewは最先端の手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2024-10-02T13:02:03Z)
What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文参考訳（メタデータ） (2024-08-26T20:35:42Z)
ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [21.17856299966841]
本研究では,学術調査における大規模言語モデル(LLM)の評価のためのベンチマークであるResearchArenaを紹介する。これらの機会を養うため、12万のフルテキスト学術論文と7.9Kのサーベイ論文の環境を構築した。
論文参考訳（メタデータ） (2024-06-13T03:26:30Z)
A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。新たに登場したAI生成の文献レビューも評価されている。この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文参考訳（メタデータ） (2024-02-20T11:28:50Z)
Knowledge-Centric Templatic Views of Documents [2.654058995940072]
著者はしばしば、スライドデッキ、ニュースレター、レポート、ポスターなど、様々な文書形式でアイデアを共有している。文書生成装置の品質測定に適応できる新しい統一評価フレームワークを提案する。人間の評価を行い,提案手法を用いて作成した文書の82%を利用者が好んでいることを示す。
論文参考訳（メタデータ） (2024-01-13T01:22:15Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
Enhancing Identification of Structure Function of Academic Articles Using Contextual Information [6.28532577139029]
本稿では,学術論文の構造的機能を明らかにするためのコーパスとして,ACLカンファレンスの記事を取り上げる。従来の機械学習モデルとディープラーニングモデルを用いて、様々な特徴入力に基づいて分類器を構築する。 2) に触発された本論文は,ディープラーニングモデルに文脈情報を導入し,重要な結果を得た。
論文参考訳（メタデータ） (2021-11-28T11:21:21Z)
SPECTER: Document-level Representation Learning using Citation-informed Transformers [51.048515757909215]
SPECTERは、Transformer言語モデルの事前学習に基づいて、科学文書の文書レベルの埋め込みを生成する。 SciDocsは、引用予測から文書分類、レコメンデーションまでの7つの文書レベルのタスクからなる新しい評価ベンチマークである。
論文参考訳（メタデータ） (2020-04-15T16:05:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。