論文の概要: CoCoLex: Confidence-guided Copy-based Decoding for Grounded Legal Text Generation
- arxiv url: http://arxiv.org/abs/2508.05534v1
- Date: Thu, 07 Aug 2025 16:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.689144
- Title: CoCoLex: Confidence-guided Copy-based Decoding for Grounded Legal Text Generation
- Title(参考訳): CoCoLex: グラウンドド・法的テキスト生成のための信頼性誘導型コピーベースのデコード
- Authors: Santosh T. Y. S. S, Youssef Tarek Elkhayat, Oana Ichim, Pranav Shetty, Dongsheng Wang, Zhiqiang Ma, Armineh Nourbakhsh, Xiaomo Liu,
- Abstract要約: 法文生成のための信頼性誘導型コピーベース復号法(CoCoLex)について紹介する。
CoCoLexはモデルの信頼性に基づいて直接コピーを奨励し、ソースへの忠実性を確保する。
5つの法的なベンチマーク実験の結果、CoCoLexは既存の文脈認識復号法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 9.765300001488507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to their ability to process long and complex contexts, LLMs can offer key benefits to the Legal domain, but their adoption has been hindered by their tendency to generate unfaithful, ungrounded, or hallucinatory outputs. While Retrieval-Augmented Generation offers a promising solution by grounding generations in external knowledge, it offers no guarantee that the provided context will be effectively integrated. To address this, context-aware decoding strategies have been proposed to amplify the influence of relevant context, but they usually do not explicitly enforce faithfulness to the context. In this work, we introduce Confidence-guided Copy-based Decoding for Legal Text Generation (CoCoLex)-a decoding strategy that dynamically interpolates the model produced vocabulary distribution with a distribution derived based on copying from the context. CoCoLex encourages direct copying based on the model's confidence, ensuring greater fidelity to the source. Experimental results on five legal benchmarks demonstrate that CoCoLex outperforms existing context-aware decoding methods, particularly in long-form generation tasks.
- Abstract(参考訳): 長く複雑なコンテキストを処理できるため、LLMは法域に重要な利益をもたらすことができるが、その採用は不誠実、根拠のない、あるいは幻覚的なアウトプットを生み出す傾向によって妨げられている。
Retrieval-Augmented Generationは、外部知識の世代を基盤とする有望なソリューションを提供するが、提供されたコンテキストが効果的に統合されることを保証するものではない。
これを解決するために、コンテキスト対応の復号戦略が提案され、関連するコンテキストの影響を増幅するが、通常は文脈への忠実さを明示的に強制しない。
本研究では, 信頼性誘導型法文生成法(CoCoLex)に基づく復号手法を提案する。
CoCoLexはモデルの信頼性に基づいて直接コピーを奨励し、ソースへの忠実性を確保する。
5つの法的なベンチマーク実験の結果、CoCoLexは、特に長文生成タスクにおいて、既存の文脈認識復号法よりも優れていることが示された。
関連論文リスト
- CAAD: Context-Aware Adaptive Decoding for Truthful Text Generation [31.469511576774252]
大規模言語モデルに対する文脈対応適応型復号法を提案する。
当社のアプローチは、TrathfulQAで平均2.8%の改善を実現しています。
モデルに依存しない,スケーラブルで,効率的な手法では,1世代パスしか必要としない。
論文 参考訳(メタデータ) (2025-08-04T08:28:25Z) - GenerationPrograms: Fine-grained Attribution with Executable Programs [72.23792263905372]
コードエージェント」アーキテクチャの最近の進歩に触発されたモジュラー生成フレームワークであるGenerationProgramsを導入する。
GenerationProgramsは、プロセスを2つの異なるステージに分解する: まず、クエリに明示的に調整されたモジュール形式のテキスト操作からなる実行可能なプログラムプランを作成し、次に、プログラムの指定した命令に従ってこれらの操作を実行し、最終的な応答を生成する。
経験的評価は、生成プログラムは文書レベルと文レベルの両方の属性品質を著しく改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T14:37:09Z) - Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CCFRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-03-15T15:54:44Z) - Generate, Discriminate, Evolve: Enhancing Context Faithfulness via Fine-Grained Sentence-Level Self-Evolution [61.80716438091887]
GenDiE (Generate, Discriminate, Evolve) は、微粒な文レベルの最適化によって文脈忠実性を高める新しい自己進化フレームワークである。
応答中の各文を独立した最適化単位として扱うことで、GenDiEは以前のアプローチの限界に効果的に対処する。
ASQA(ドメイン内のLFQA)とConFiQAデータセットの実験は、GenDiEが忠実さと正しさの両方で様々なベースラインを超えることを示した。
論文 参考訳(メタデータ) (2025-03-03T16:08:33Z) - Correctness Assessment of Code Generated by Large Language Models Using Internal Representations [4.32362000083889]
大規模言語モデル(LLM)が生成するコードの正確性を評価する新しいフレームワークであるOPENIAを紹介する。
我々の経験的分析により、これらの内部表現が潜時情報を符号化し、生成したコードの正しさと強く相関していることが明らかとなった。
OPENIAはベースラインモデルより一貫して優れており、高い精度、精度、リコール、F1スコアを実現し、スタンドアロンコード生成の最大2倍の改善を実現している。
論文 参考訳(メタデータ) (2025-01-22T15:04:13Z) - Large Language Models Are Read/Write Policy-Makers for Simultaneous Generation [31.394262361690252]
同時生成モデルは、ストリーミング入力を読みながら結果を書き、ポリシー作成者が適切な出力タイミングを決定する必要がある。
そこで本研究では,LCMが生成タイミングを決定し,出力を同時に生成する,LSG(Lelse-driven Simultaneous Generation)フレームワークを提案する。
提案手法は,オープンソースのLCMを用いて最先端の性能を実現し,実世界のシナリオにおける実用性を示す。
論文 参考訳(メタデータ) (2025-01-01T15:20:35Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - Constrained Text Generation with Global Guidance -- Case Study on
CommonGen [35.620489119162215]
本稿では,特定の前提条件下で文を生成する制約付きテキスト生成について検討する。
制約付きテキスト生成の代表的なタスクとして,概念セットに基づいたテキスト生成タスクであるCommonGenに注目した。
論文 参考訳(メタデータ) (2021-03-12T09:40:49Z) - Contextualized Perturbation for Textual Adversarial Attack [56.370304308573274]
逆例は自然言語処理(NLP)モデルの脆弱性を明らかにする。
本稿では,フロートおよび文法的出力を生成するContextualized AdversaRial Example生成モデルであるCLAREを提案する。
論文 参考訳(メタデータ) (2020-09-16T06:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。