論文の概要: Towards Controlled Table-to-Text Generation with Scientific Reasoning
- arxiv url: http://arxiv.org/abs/2312.05402v1
- Date: Fri, 8 Dec 2023 22:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:11:32.729342
- Title: Towards Controlled Table-to-Text Generation with Scientific Reasoning
- Title(参考訳): 科学的推論によるテーブル・ツー・テキスト生成制御
- Authors: Zhixin Guo, Jianping Zhou, Jiexing Qi, Mingxuan Yan, Ziwei He, Guanjie
Zheng, Zhouhan Lin, Xinbing Wang, Chenghu Zhou
- Abstract要約: 本稿では,科学的文書分析の自動化を目的とした,科学的データに対するユーザの嗜好に合致する,流動的で論理的な記述を生成するための新しいタスクを提案する。
学術文献から抽出したテーブル記述ペアからなる新しい挑戦的データセットSciTabを構築し,強調されたセルとそれに対応するドメイン固有知識ベースを構築した。
その結果、大規模なモデルでは、ユーザの好みに合わせて正確なコンテンツを生成するのに苦労していることがわかりました。
- 参考スコア(独自算出の注目度): 46.87189607486007
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The sheer volume of scientific experimental results and complex technical
statements, often presented in tabular formats, presents a formidable barrier
to individuals acquiring preferred information. The realms of scientific
reasoning and content generation that adhere to user preferences encounter
distinct challenges. In this work, we present a new task for generating fluent
and logical descriptions that match user preferences over scientific tabular
data, aiming to automate scientific document analysis. To facilitate research
in this direction, we construct a new challenging dataset CTRLSciTab consisting
of table-description pairs extracted from the scientific literature, with
highlighted cells and corresponding domain-specific knowledge base. We
evaluated popular pre-trained language models to establish a baseline and
proposed a novel architecture outperforming competing approaches. The results
showed that large models struggle to produce accurate content that aligns with
user preferences. As the first of its kind, our work should motivate further
research in scientific domains.
- Abstract(参考訳): 科学的実験結果の膨大な量と複雑な技術的ステートメントは、しばしば表形式で提示され、好みの情報を取得する個人にとって恐ろしい障壁となる。
ユーザの好みに従う科学的推論とコンテンツ生成の領域は、異なる課題に遭遇する。
本稿では,科学的な表データに対するユーザの嗜好に合致する,精巧で論理的な記述を生成し,科学的文書分析の自動化を目的とした新しいタスクを提案する。
この方向の研究を容易にするために,科学文献から抽出したテーブル記述ペアからなる新しい挑戦的データセットCTRLSciTabを構築し,強調されたセルとそれに対応するドメイン固有知識ベースを構築した。
我々は,一般的な事前学習型言語モデルを評価し,ベースラインを確立するとともに,競合するアプローチよりも優れた新しいアーキテクチャを提案する。
その結果、大きなモデルはユーザーの好みに合わせて正確なコンテンツを作るのに苦労していることがわかった。
まず第一に、我々の研究は科学的領域におけるさらなる研究を動機付けるべきである。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Automating Bibliometric Analysis with Sentence Transformers and Retrieval-Augmented Generation (RAG): A Pilot Study in Semantic and Contextual Search for Customized Literature Characterization for High-Impact Urban Research [2.1728621449144763]
文献分析は、都市科学における研究動向、スコープ、影響を理解するために不可欠である。
キーワード検索に依存する伝統的な手法は、記事のタイトルやキーワードに明記されていない価値ある洞察を明らかにするのに失敗することが多い。
我々は、生成AIモデル、特にトランスフォーマーとレトリーバル拡張生成(RAG)を活用して、バイオロメトリ分析の自動化と強化を行う。
論文 参考訳(メタデータ) (2024-10-08T05:13:27Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient [52.2669490431145]
PropEnは'matching'にインスパイアされている。
一致したデータセットによるトレーニングは、データ分布内に留まりながら、興味のある性質の勾配を近似することを示す。
論文 参考訳(メタデータ) (2024-05-28T11:30:19Z) - Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - Learning to Reason for Text Generation from Scientific Tables [100.61286775597947]
SciGenは、テキスト間のデータ生成を推論するタスクのための新しいチャレンジデータセットです。
科学的なテーブルの記述は表の内容の表面的な実現を越えて、テーブルの価値上の推論を要求します。
本研究は,scigenにおける最先端データ対テキスト生成モデルの有効性について検討し,共通指標と人的評価を用いて結果を評価する。
論文 参考訳(メタデータ) (2021-04-16T18:01:36Z) - CORAL: COde RepresentAtion Learning with Weakly-Supervised Transformers
for Analyzing Data Analysis [33.190021245507445]
ソースコード、特に科学的なソースコードの大規模解析は、データサイエンスのプロセスをよりよく理解する約束を持っている。
本稿では,抽象構文木と周辺自然言語コメントからコードの共同表現を計算するための,弱い教師付きトランスフォーマーベースのアーキテクチャを提案する。
本モデルでは,手軽に手軽に管理できる弱さを生かし,専門家による供給よりも38%の精度向上を実現し,ベースラインを上回ります。
論文 参考訳(メタデータ) (2020-08-28T19:57:49Z) - ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning [85.33459673197149]
標準化された大学院受験試験から抽出した論理的推論(ReClor)を必要とする新たな読解データセットを提案する。
本稿では、偏りのあるデータポイントを識別し、それらをEASY集合と残りをHARD集合に分離することを提案する。
実験結果によると、最先端のモデルでは、データセットに含まれるバイアスをEASYセット上で高精度にキャプチャする能力に優れていた。
しかし、彼らはランダムな推測に近い性能のHARDセットに苦慮しており、現在のモデルの論理的推論能力を本質的に向上させるためには、より多くの研究が必要であることを示している。
論文 参考訳(メタデータ) (2020-02-11T11:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。