論文の概要: cPAPERS: A Dataset of Situated and Multimodal Interactive Conversations in Scientific Papers
- arxiv url: http://arxiv.org/abs/2406.08398v1
- Date: Wed, 12 Jun 2024 16:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 15:57:07.868875
- Title: cPAPERS: A Dataset of Situated and Multimodal Interactive Conversations in Scientific Papers
- Title(参考訳): cPAPERS:科学論文における位置的・多モーダルな対話のデータセット
- Authors: Anirudh Sundar, Jin Xu, William Gay, Christopher Richardson, Larry Heck,
- Abstract要約: 本研究は,学術論文のレビューから,対話型質問応答ペアのデータセットである会話型論文(cPAPERS)を紹介する。
本稿では,OpenReviewからこれらの質問応答ペアを収集し,ソースファイルからコンテキスト情報に関連付けるためのデータ収集戦略を提案する。
- 参考スコア(独自算出の注目度): 5.103692331918768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An emerging area of research in situated and multimodal interactive conversations (SIMMC) includes interactions in scientific papers. Since scientific papers are primarily composed of text, equations, figures, and tables, SIMMC methods must be developed specifically for each component to support the depth of inquiry and interactions required by research scientists. This work introduces Conversational Papers (cPAPERS), a dataset of conversational question-answer pairs from reviews of academic papers grounded in these paper components and their associated references from scientific documents available on arXiv. We present a data collection strategy to collect these question-answer pairs from OpenReview and associate them with contextual information from LaTeX source files. Additionally, we present a series of baseline approaches utilizing Large Language Models (LLMs) in both zero-shot and fine-tuned configurations to address the cPAPERS dataset.
- Abstract(参考訳): 位置およびマルチモーダル対話(SIMMC)における研究分野は、科学論文における相互作用を含む。
科学論文は主にテキスト、方程式、数字、表から成り立っているため、SIMMC法は研究科学者が必要とする調査と相互作用の深さを支援するために、各コンポーネント向けに特別に開発されなければならない。
本論文では,これらの論文に基礎を置く学術論文のレビューと,arXivで利用可能な学術文献からの参考資料から,会話型質問応答ペアのデータセットである会話型論文(cPAPERS)を紹介する。
本稿では,OpenReview からこれらの質問応答ペアを収集し,LaTeX ソースファイルからコンテキスト情報に関連付けるためのデータ収集戦略を提案する。
さらに我々は,cPAPERSデータセットに対処するために,ゼロショットと微調整の両方の設定でLarge Language Models(LLM)を利用する一連のベースラインアプローチを提案する。
関連論文リスト
- SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers [20.273439120429025]
SciDQAは、科学論文の深い理解のためにLSMに挑戦する、理解を読むための新しいデータセットである。
他の科学的QAデータセットとは異なり、SciDQAはドメインの専門家によるピアレビューや論文の著者による回答から質問を出している。
SciDQAの質問は、図、表、方程式、付属品、補足材料にまたがる推論を必要とする。
論文 参考訳(メタデータ) (2024-11-08T05:28:22Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Mining Asymmetric Intertextuality [0.0]
非対称的テクスト間性(英: Asymmetric intertextuality)とは、テキスト間の一方的な関係を指す。
非対称なテクスチュアリティをマイニングするためのスケーラブルで適応的なアプローチを提案する。
本システムでは, 直接引用からパラフレーズ化, 文書間影響に至るまで, 様々なレベルのテクスト間関係を扱う。
論文 参考訳(メタデータ) (2024-10-19T16:12:22Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - Context-Enhanced Language Models for Generating Multi-Paper Citations [35.80247519023821]
本稿では,Large Language Models (LLMs) を用いて多文文を生成する手法を提案する。
提案手法は,複数文の引用文を含むコヒーレントな段落に終止符を打つ,単一のソース・ペーパーと対象論文の集合を包含する。
論文 参考訳(メタデータ) (2024-04-22T04:30:36Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - QuOTeS: Query-Oriented Technical Summarization [0.2936007114555107]
提案するQuOTeSは,潜在的参照の集合から研究の要約に関連する文章を検索するインタラクティブシステムである。
QuOTeS は Query-Focused Extractive Summarization と High-Recall Information Retrieval の技法を統合し、科学文書のインタラクティブなクエリ-Focused Summarization を提供する。
結果から,QuOTeSは肯定的なユーザエクスペリエンスを提供し,関連する,簡潔かつ完全なクエリ中心の要約を一貫して提供することが明らかになった。
論文 参考訳(メタデータ) (2023-06-20T18:43:24Z) - Revise and Resubmit: An Intertextual Model of Text-based Collaboration
in Peer Review [52.359007622096684]
ピアレビューは、ほとんどの科学分野における出版プロセスの重要な要素である。
既存のNLP研究は個々のテキストの分析に重点を置いている。
編集補助は、しばしばテキストのペア間の相互作用をモデル化する必要がある。
論文 参考訳(メタデータ) (2022-04-22T16:39:38Z) - NLP Scholar: An Interactive Visual Explorer for Natural Language
Processing Literature [31.87319293259599]
データの様々な側面を示す相互接続型インタラクティブな可視化(ダッシュボード)について述べる。
ここで紹介されたインタラクティブな可視化と、引用にマッピングされた論文のデータセットには、フィールドがどのように成長しているかを理解することを含む、追加の用途がある。
論文 参考訳(メタデータ) (2020-05-31T17:12:37Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。