論文の概要: TermGPT: Multi-Level Contrastive Fine-Tuning for Terminology Adaptation in Legal and Financial Domain
- arxiv url: http://arxiv.org/abs/2511.09854v1
- Date: Fri, 14 Nov 2025 01:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.529952
- Title: TermGPT: Multi-Level Contrastive Fine-Tuning for Terminology Adaptation in Legal and Financial Domain
- Title(参考訳): 用語GPT:法律・金融分野におけるターミノロジー適応のためのマルチレベルコントラストファインタニング
- Authors: Yidan Sun, Mengying Zhu, Feiyue Chen, Yangyang Wu, Xiaolei Dan, Mengyuan Yang, Xiaolin Zheng, Shenglin Ben,
- Abstract要約: 用語適応のためのマルチレベルコントラスト微調整フレームワークであるTermGPTを提案する。
まず,意味的および構造的関係を捉える文グラフを構築し,意味論的に一貫した識別的サンプルを生成する。
次に,文レベルとトークンレベルの両方において,多段階のコントラスト学習アプローチを考案し,グローバルな文脈理解と微粒な用語識別の促進を図る。
- 参考スコア(独自算出の注目度): 22.270248854613907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance in text generation tasks; however, their embedding spaces often suffer from the isotropy problem, resulting in poor discrimination of domain-specific terminology, particularly in legal and financial contexts. This weakness in terminology-level representation can severely hinder downstream tasks such as legal judgment prediction or financial risk analysis, where subtle semantic distinctions are critical. To address this problem, we propose TermGPT, a multi-level contrastive fine-tuning framework designed for terminology adaptation. We first construct a sentence graph to capture semantic and structural relations, and generate semantically consistent yet discriminative positive and negative samples based on contextual and topological cues. We then devise a multi-level contrastive learning approach at both the sentence and token levels, enhancing global contextual understanding and fine-grained terminology discrimination. To support robust evaluation, we construct the first financial terminology dataset derived from official regulatory documents. Experiments show that TermGPT outperforms existing baselines in term discrimination tasks within the finance and legal domains.
- Abstract(参考訳): 大規模言語モデル(LLM)はテキスト生成タスクにおいて顕著な性能を示してきたが、その埋め込み空間はアイソトロピー問題に悩まされることが多く、ドメイン固有の用語、特に法的・経済的文脈の区別が不十分である。
この用語レベルの表現の弱点は、微妙な意味的区別が重要である法的な判断予測や金融リスク分析のような下流のタスクを著しく妨げる可能性がある。
この問題に対処するために,用語適応用に設計されたマルチレベルコントラスト型微調整フレームワークであるTermGPTを提案する。
まず、意味的・構造的関係を捉える文グラフを構築し、文脈的・位相的手がかりに基づいて意味論的に一貫した正・負のサンプルを生成する。
次に,文レベルとトークンレベルの両方において,多段階のコントラスト学習アプローチを考案し,グローバルな文脈理解と微粒な用語識別の促進を図る。
頑健な評価を支援するため、公式な規制文書から派生した最初の財務用語データセットを構築した。
実験により、TermGPTは金融及び法域内の用語識別タスクにおいて、既存のベースラインを上回っていることが示された。
関連論文リスト
- LLM-BT-Terms: Back-Translation as a Framework for Terminology Standardization and Dynamic Semantic Embedding [2.685668802278156]
LLM-BTは、大規模言語モデル(LLM)を利用したバックトランスレーションフレームワークである。
言語間セマンティックアライメントによる用語検証と標準化を自動化するように設計されている。
BLEUスコアと項レベルの精度は、強い言語間の堅牢性を示し、BLEUスコアは0.45を超え、ポルトガル語の項精度は100%に達する。
論文 参考訳(メタデータ) (2025-06-09T19:39:09Z) - LegalSeg: Unlocking the Structure of Indian Legal Judgments Through Rhetorical Role Classification [6.549338652948716]
7000以上の文書と140万の文で構成され、7つの修辞的な役割をラベル付けした、このタスクのための最大の注釈付きデータセットであるLegalSegを紹介します。
以上の結果から,より広義の文脈,構造的関係,逐次的な文情報を含むモデルが,文レベルの特徴にのみ依存するモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-09T10:07:05Z) - Boundary-Driven Table-Filling with Cross-Granularity Contrastive Learning for Aspect Sentiment Triplet Extraction [8.011606196420757]
Aspect Sentiment Triplet extract taskは、きめ細かい感情分析において最も顕著なサブタスクの1つである。
既存のほとんどのアプローチでは、エンドツーエンドで2次元テーブルフィリングプロセスとしてフレームトリプレット抽出を行っている。
文レベル表現と単語レベル表現のセマンティック一貫性を高めるために,BTF-CCLを用いた境界駆動型テーブル充填を提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:45Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation [60.62039705180484]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Learning to Selectively Learn for Weakly-supervised Paraphrase
Generation [81.65399115750054]
弱監督データを用いた高品質なパラフレーズを生成するための新しい手法を提案する。
具体的には、弱制御されたパラフレーズ生成問題に以下のように取り組む。
検索に基づく擬似パラフレーズ展開により、豊富なラベル付き並列文を得る。
提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。
論文 参考訳(メタデータ) (2021-09-25T23:31:13Z) - Weakly Supervised Temporal Adjacent Network for Language Grounding [96.09453060585497]
本稿では,時間的言語接地のための新しい教師付き時間的隣接ネットワーク(WSTAN)を提案する。
WSTANは、複数のインスタンス学習(MIL)パラダイムにおいて、時間的隣接ネットワークを活用することで、モーダル間のセマンティックアライメントを学習する。
MILブランチと補完ブランチの両方で、自己監督による意味的識別を強化するために、追加の自己識別損失が考案された。
論文 参考訳(メタデータ) (2021-06-30T15:42:08Z) - Measuring Fine-Grained Domain Relevance of Terms: A Hierarchical
Core-Fringe Approach [24.04238065663009]
我々は,ある用語が広い領域(例えば,計算機科学)や狭い領域(例えば,ディープラーニング)に関係している程度を測定することを提案する。
長い尾の項を扱うために、コアアンコレート・セマンティックグラフを構築します。
調整用コーパスに頼らずにきめ細かなドメインをサポートするため,階層型コアフロンティア学習を開発した。
私たちのアプローチは、大きなドメインや小さなドメインに適用され、頭や尾の用語をカバーし、人間の努力をほとんど必要としません。
論文 参考訳(メタデータ) (2021-05-27T15:52:34Z) - Domain Adversarial Fine-Tuning as an Effective Regularizer [80.14528207465412]
自然言語処理(NLP)では、下流タスクに転送される事前訓練された言語モデル(LM)が、最先端の結果を得るために最近示されている。
標準的な微調整は、事前トレーニング中にキャプチャされた汎用ドメイン表現を分解することができる。
本稿では,新しい正規化手法である After; 有効正規化器としてのドメイン・アダクショナル・ファイン・チューニングを提案する。
論文 参考訳(メタデータ) (2020-09-28T14:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。