論文の概要: ASPIRO: Any-shot Structured Parsing-error-Induced ReprOmpting for
Consistent Data-to-Text Generation
- arxiv url: http://arxiv.org/abs/2310.17877v1
- Date: Fri, 27 Oct 2023 03:39:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 14:58:35.384023
- Title: ASPIRO: Any-shot Structured Parsing-error-Induced ReprOmpting for
Consistent Data-to-Text Generation
- Title(参考訳): ASPIRO: 一貫性のあるデータ-テキスト生成のための任意のパーシングエラーによるリプリンプ
- Authors: Martin Vejvar and Yasutaka Fujimoto
- Abstract要約: ASPIROは、構造化されたデータを0から数ショット設定で短いテンプレート文に変換するアプローチである。
従来の手法とは異なり、我々のアプローチは大規模言語モデルにエンティティに依存しないテンプレートを直接生成するよう促す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ASPIRO, an approach for structured data verbalisation into short
template sentences in zero to few-shot settings. Unlike previous methods, our
approach prompts large language models (LLMs) to directly produce
entity-agnostic templates, rather than relying on LLMs to faithfully copy the
given example entities, or validating/crafting the templates manually. We
incorporate LLM re-prompting, triggered by algorithmic parsing checks, as well
as the PARENT metric induced consistency validation to identify and rectify
template generation problems in real-time. ASPIRO, compared to direct LLM
output, averages 66\% parsing error rate reduction in generated verbalisations
of RDF triples on the DART dataset. Our best 5-shot text-davinci-003 setup,
scoring BLEU of 50.62, METEOR of 45.16, BLEURT of 0.82, NUBIA of 0.87, and
PARENT of 0.8962 on the Rel2Text dataset, competes effectively with recent
fine-tuned pre-trained language models.
- Abstract(参考訳): AsPIROは、ゼロから数ショット設定で短いテンプレート文に構造化されたデータ言語化のアプローチである。
従来の手法と異なり,我々のアプローチでは,LLMを忠実にコピーしたり,テンプレートを手動で検証・作成する代わりに,エンティティに依存しないテンプレートを直接生成する大規模言語モデル(LLM)が提案されている。
我々は,アルゴリズム解析チェックによって引き起こされるLLM再プロンプティングとPARENTメトリック誘導整合性検証を取り入れ,テンプレート生成問題をリアルタイムに特定・修正する。
ASPIRO は直接 LLM 出力と比較して DART データセット上で生成されたRDF トリプルの発音における 66 % のパーシング誤差率の減少を平均とした。
ベスト5ショットのテキスト-davinci-003セットアップでは、50.62のBLEU、45.16のMETEOR、0.82のBLEURT、0.87のNUBIA、Rel2TextデータセットのPARENTが、最近の微調整済み言語モデルと効果的に競合する。
関連論文リスト
- LADDER: Language Driven Slice Discovery and Error Rectification [16.146099639239615]
LADDER: 言語駆動スライスディスカバリとエラー修正。
本稿では,Large Language Modelの推論機能を利用して,複雑なエラーパターンを分析し,検証可能な仮説を生成する。
本手法をtextbffive 画像分類データセットを用いて検証する。
論文 参考訳(メタデータ) (2024-07-31T14:49:35Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。
オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Annotating and Detecting Fine-grained Factual Errors for Dialogue
Summarization [34.85353544844499]
本稿では,DIASUMFACTというファクトエラーアノテーションを用いた最初のデータセットを提案する。
文レベルのマルチラベル分類問題として,ファクト・ファクト・エラー検出を定義する。
事前学習したエンコーダ-デコーダモデルを用いた候補ランキングによる教師なしモデルENDERANKERを提案する。
論文 参考訳(メタデータ) (2023-05-26T00:18:33Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - IDIAPers @ Causal News Corpus 2022: Efficient Causal Relation
Identification Through a Prompt-based Few-shot Approach [3.4423596432619754]
我々は、微調整言語モデル(LM)のための単純だが相補的手法のセットを活用することで、因果関係同定(CRI)タスクに対処する。
我々は、CRIタスクをマスキング言語モデリング問題(MLM)として扱う微調整LMのプロンプトベースの予測手法に従う。
本手法の性能を,データセット全体で訓練されたアンサンブル手法と比較する。
論文 参考訳(メタデータ) (2022-09-08T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。