論文の概要: Towards Controlled Table-to-Text Generation with Scientific Reasoning
- arxiv url: http://arxiv.org/abs/2312.05402v1
- Date: Fri, 8 Dec 2023 22:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:11:32.729342
- Title: Towards Controlled Table-to-Text Generation with Scientific Reasoning
- Title(参考訳): 科学的推論によるテーブル・ツー・テキスト生成制御
- Authors: Zhixin Guo, Jianping Zhou, Jiexing Qi, Mingxuan Yan, Ziwei He, Guanjie
Zheng, Zhouhan Lin, Xinbing Wang, Chenghu Zhou
- Abstract要約: 本稿では,科学的文書分析の自動化を目的とした,科学的データに対するユーザの嗜好に合致する,流動的で論理的な記述を生成するための新しいタスクを提案する。
学術文献から抽出したテーブル記述ペアからなる新しい挑戦的データセットSciTabを構築し,強調されたセルとそれに対応するドメイン固有知識ベースを構築した。
その結果、大規模なモデルでは、ユーザの好みに合わせて正確なコンテンツを生成するのに苦労していることがわかりました。
- 参考スコア(独自算出の注目度): 46.87189607486007
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The sheer volume of scientific experimental results and complex technical
statements, often presented in tabular formats, presents a formidable barrier
to individuals acquiring preferred information. The realms of scientific
reasoning and content generation that adhere to user preferences encounter
distinct challenges. In this work, we present a new task for generating fluent
and logical descriptions that match user preferences over scientific tabular
data, aiming to automate scientific document analysis. To facilitate research
in this direction, we construct a new challenging dataset CTRLSciTab consisting
of table-description pairs extracted from the scientific literature, with
highlighted cells and corresponding domain-specific knowledge base. We
evaluated popular pre-trained language models to establish a baseline and
proposed a novel architecture outperforming competing approaches. The results
showed that large models struggle to produce accurate content that aligns with
user preferences. As the first of its kind, our work should motivate further
research in scientific domains.
- Abstract(参考訳): 科学的実験結果の膨大な量と複雑な技術的ステートメントは、しばしば表形式で提示され、好みの情報を取得する個人にとって恐ろしい障壁となる。
ユーザの好みに従う科学的推論とコンテンツ生成の領域は、異なる課題に遭遇する。
本稿では,科学的な表データに対するユーザの嗜好に合致する,精巧で論理的な記述を生成し,科学的文書分析の自動化を目的とした新しいタスクを提案する。
この方向の研究を容易にするために,科学文献から抽出したテーブル記述ペアからなる新しい挑戦的データセットCTRLSciTabを構築し,強調されたセルとそれに対応するドメイン固有知識ベースを構築した。
我々は,一般的な事前学習型言語モデルを評価し,ベースラインを確立するとともに,競合するアプローチよりも優れた新しいアーキテクチャを提案する。
その結果、大きなモデルはユーザーの好みに合わせて正確なコンテンツを作るのに苦労していることがわかった。
まず第一に、我々の研究は科学的領域におけるさらなる研究を動機付けるべきである。
関連論文リスト
- A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - ATLANTIC: Structure-Aware Retrieval-Augmented Language Model for
Interdisciplinary Science [0.0]
大きな言語モデルは、多くの自然言語処理タスクで印象的なパフォーマンスを記録します。
Retrieval augmentationは、外部の知識ソースからコンテキストを取得することで、効果的なソリューションを提供する。
本稿では,検索強化時に文書構造に対応する構造対応検索言語モデルを提案する。
論文 参考訳(メタデータ) (2023-11-21T02:02:46Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating
Toxic Text Datasets [26.486492641924226]
本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。
3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
論文 参考訳(メタデータ) (2021-12-07T06:58:22Z) - LOGEN: Few-shot Logical Knowledge-Conditioned Text Generation with
Self-training [76.90793623822866]
数ショット設定で論理的知識条件付きテキスト生成のための統一的なフレームワークを提案する。
本手法は, 自己学習を利用して, コンテンツと構造整合性に基づく擬似論理形式を抽出する。
論文 参考訳(メタデータ) (2021-12-02T16:49:41Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Learning to Reason for Text Generation from Scientific Tables [100.61286775597947]
SciGenは、テキスト間のデータ生成を推論するタスクのための新しいチャレンジデータセットです。
科学的なテーブルの記述は表の内容の表面的な実現を越えて、テーブルの価値上の推論を要求します。
本研究は,scigenにおける最先端データ対テキスト生成モデルの有効性について検討し,共通指標と人的評価を用いて結果を評価する。
論文 参考訳(メタデータ) (2021-04-16T18:01:36Z) - Generating Knowledge Graphs by Employing Natural Language Processing and
Machine Learning Techniques within the Scholarly Domain [1.9004296236396943]
本稿では、自然言語処理と機械学習を利用して研究論文から実体や関係を抽出する新しいアーキテクチャを提案する。
本研究では,現在最先端の自然言語処理ツールとテキストマイニングツールを用いて,知識抽出の課題に取り組む。
セマンティックWebドメイン内の論文26,827件から抽出した109,105件のトリプルを含む科学知識グラフを作成した。
論文 参考訳(メタデータ) (2020-10-28T08:31:40Z) - CORAL: COde RepresentAtion Learning with Weakly-Supervised Transformers
for Analyzing Data Analysis [33.190021245507445]
ソースコード、特に科学的なソースコードの大規模解析は、データサイエンスのプロセスをよりよく理解する約束を持っている。
本稿では,抽象構文木と周辺自然言語コメントからコードの共同表現を計算するための,弱い教師付きトランスフォーマーベースのアーキテクチャを提案する。
本モデルでは,手軽に手軽に管理できる弱さを生かし,専門家による供給よりも38%の精度向上を実現し,ベースラインを上回ります。
論文 参考訳(メタデータ) (2020-08-28T19:57:49Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。