論文の概要: Semantically Aligned Question and Code Generation for Automated Insight Generation
- arxiv url: http://arxiv.org/abs/2405.01556v1
- Date: Thu, 21 Mar 2024 10:01:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 11:09:59.127473
- Title: Semantically Aligned Question and Code Generation for Automated Insight Generation
- Title(参考訳): 自動インサイト生成のためのセマンティックアライズド質問とコード生成
- Authors: Ananya Singha, Bhavya Chopra, Anirudh Khatry, Sumit Gulwani, Austin Z. Henley, Vu Le, Chris Parnin, Mukul Singh, Gust Verbruggen,
- Abstract要約: 我々は、大規模言語モデルのセマンティック知識を活用して、データに対するターゲット的で洞察に富んだ質問を生成する。
埋め込みは意味的に不整合な質問とコードのペアをフィルタリングするのに有効であることを示す。
- 参考スコア(独自算出の注目度): 20.795381712667034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated insight generation is a common tactic for helping knowledge workers, such as data scientists, to quickly understand the potential value of new and unfamiliar data. Unfortunately, automated insights produced by large-language models can generate code that does not correctly correspond (or align) to the insight. In this paper, we leverage the semantic knowledge of large language models to generate targeted and insightful questions about data and the corresponding code to answer those questions. Then through an empirical study on data from Open-WikiTable, we show that embeddings can be effectively used for filtering out semantically unaligned pairs of question and code. Additionally, we found that generating questions and code together yields more diverse questions.
- Abstract(参考訳): 自動洞察生成は、データ科学者のような知識労働者が、新しい未知のデータの価値を迅速に理解するための一般的な戦術である。
残念ながら、大規模言語モデルによって生成された自動的な洞察は、インサイトと正しく一致しない(あるいは一致しない)コードを生成することができる。
本稿では,大規模言語モデルの意味的知識を活用して,データと対応するコードに関するターゲット的で洞察に富んだ質問を生成し,その質問に答える。
そして、Open-WikiTableのデータに関する実証的研究を通して、埋め込みが意味論的に整合しない質問とコードのペアをフィルタリングするのに有効であることを示す。
さらに、質問とコードを生成することで、より多様な質問が生まれます。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - Prompting-based Synthetic Data Generation for Few-Shot Question Answering [23.97949073816028]
大規模言語モデルを用いることで,複数データセットにおける質問応答性能が向上することを示す。
言語モデルには、一般的な事前学習/微調整スキームを超えて使える貴重なタスク非依存の知識が含まれていることを示唆する。
論文 参考訳(メタデータ) (2024-05-15T13:36:43Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - An Overview on Controllable Text Generation via Variational
Auto-Encoders [15.97186478109836]
ニューラルベース生成モデリングの最近の進歩は、コンピュータシステムが人間と会話できるという期待を再燃させた。
変分自動エンコーダ(VAE)のような潜在変数モデル(LVM)は、テキストデータの分布パターンを特徴付けるように設計されている。
この概要は、既存の生成方式、テキスト変分自動エンコーダに関連する問題、および制御可能な生成に関するいくつかのアプリケーションについて概説する。
論文 参考訳(メタデータ) (2022-11-15T07:36:11Z) - A Survey on Semantics in Automated Data Science [14.331183226753547]
データサイエンティストは常識推論とドメイン知識を活用して、予測モデルを構築するためのデータを理解し、強化する。
データサイエンス自動化のための新しいツールと組み合わせて、データに対する基本的なセマンティック推論を活用することが、一貫性と説明可能なデータ拡張と変換にどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2022-05-16T23:16:09Z) - A Survey of Deep Learning Models for Structural Code Understanding [21.66270320648155]
本稿では,コードデータから形成される構造について概観する。
近年のコード理解モデルは,シーケンスベースモデルとグラフベースモデルという2つのグループに分類されている。
メトリクスやデータセット、下流タスクも導入しています。
論文 参考訳(メタデータ) (2022-05-03T03:56:17Z) - Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via
Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。
本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-10-29T18:28:16Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - Semantic Graphs for Generating Deep Questions [98.5161888878238]
本稿では、まず、入力文書のセマンティックレベルグラフを構築し、次にアテンションベースのGGNN(Att-GGNN)を導入してセマンティックグラフを符号化する新しいフレームワークを提案する。
HotpotQAのDeep-question中心のデータセットでは、複数の事実の推論を必要とする問題よりもパフォーマンスが大幅に向上し、最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-27T10:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。