論文の概要: Towards Verifiable Text Generation with Symbolic References
- arxiv url: http://arxiv.org/abs/2311.09188v2
- Date: Mon, 15 Apr 2024 16:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 23:55:11.799751
- Title: Towards Verifiable Text Generation with Symbolic References
- Title(参考訳): シンボリック参照を用いた検証可能なテキスト生成に向けて
- Authors: Lucas Torroba Hennigen, Shannon Shen, Aniruddha Nrusimha, Bernhard Gapp, David Sontag, Yoon Kim,
- Abstract要約: LLMの出力の手作業による検証を容易にするための簡単なアプローチとして,シンボリックグラウンドドジェネレーション(SymGen)を提案する。
SymGen は LLM に対して、ある条件データに存在するフィールドへの明示的なシンボル参照で、通常の出力テキストをインターリーブするように促す。
様々なデータ・ツー・テキスト・問合せ実験において, LLM は, 高精度なシンボリック・レファレンスを生かしたテキストを直接出力し, 流用性や事実性を保ちながら, 正確なシンボリック・レファレンスを生かしたテキストを出力できることがわかった。
- 参考スコア(独自算出の注目度): 27.01624440701639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are vulnerable to hallucinations, and thus their outputs generally require laborious human verification for high-stakes applications. To this end, we propose symbolically grounded generation (SymGen) as a simple approach for enabling easier manual validation of an LLM's output. SymGen prompts an LLM to interleave its regular output text with explicit symbolic references to fields present in some conditioning data (e.g., a table in JSON format). The references can be used to display the provenance of different spans of text in the generation, reducing the effort required for manual verification. Across a range of data-to-text and question-answering experiments, we find that LLMs are able to directly output text that makes use of accurate symbolic references while maintaining fluency and factuality. In a human study we further find that such annotations can streamline human verification of machine-generated text. Our code will be available at http://symgen.github.io.
- Abstract(参考訳): LLMは幻覚に弱いため、その出力は一般的に、高い精度の応用のために厳しい人間の検証を必要とする。
そこで本研究では,LLMの出力の手作業による検証を容易にするためのシンプルなアプローチとして,記号的基底生成(SymGen)を提案する。
SymGen は LLM に対して,特定の条件データ (JSON 形式のテーブルなど) に存在するフィールドへの明示的なシンボル参照で,通常の出力テキストをインターリーブするように促す。
参照は、世代内の異なるテキストスパンの証明を示すために使用することができ、手動検証に必要な労力を減らすことができる。
様々なデータ・ツー・テキスト・問合せ実験において, LLMは, 高精度なシンボリック・レファレンスを利用したテキストを直接出力し, 流用性や事実性を保ちながら, 正確なシンボリック・レファレンスを活用できることが判明した。
人間の研究では、このようなアノテーションが、機械生成テキストの人間による検証を合理化できることがわかった。
私たちのコードはhttp://symgen.github.io.comで公開されます。
関連論文リスト
- CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Automated Annotation with Generative AI Requires Validation [0.0]
生成型大規模言語モデル(LLM)は、テキストアノテーションの手順を増強するための強力なツールである。
LLMのアノテーションポテンシャルを原則的かつ効率的な方法で活用するためのワークフローを概説する。
テキストアノテーションのLLM性能は有望であるが,データセットとアノテーションの型の両方に高い関連性があることが判明した。
論文 参考訳(メタデータ) (2023-05-31T20:50:45Z) - LLM Paternity Test: Generated Text Detection with LLM Genetic Inheritance [58.63888295471187]
大きな言語モデル(LLM)は、様々な誤用のリスクを負うテキストを生成することができる。
モデル関連テキスト検出手法 LLM Paternity Test (LLM-Pat) を提案する。
高い類似性は、候補テキストが遺伝的特性に似た機械生成であることを示している。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。