論文の概要: Language Modeling and Understanding Through Paraphrase Generation and Detection
- arxiv url: http://arxiv.org/abs/2602.08274v1
- Date: Mon, 09 Feb 2026 05:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.070566
- Title: Language Modeling and Understanding Through Paraphrase Generation and Detection
- Title(参考訳): パラフレーズ生成と検出による言語モデリングと理解
- Authors: Jan Philip Wahle,
- Abstract要約: 我々は、異なる単語や構造を用いて、ほぼ無限の方法で同じ考えを表現することができる。
パラフレーズのモデリングは、計算言語モデルにおける意味のキーストーンである。
パラフレーズをその構成的言語的側面に分解することで、意味的同値性をより認知的に根ざした視点が得られることを提案する。
- 参考スコア(独自算出の注目度): 4.080540555071174
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Language enables humans to share knowledge, reason about the world, and pass on strategies for survival and innovation across generations. At the heart of this process is not just the ability to communicate but also the remarkable flexibility in how we can express ourselves. We can express the same thoughts in virtually infinite ways using different words and structures - this ability to rephrase and reformulate expressions is known as paraphrase. Modeling paraphrases is a keystone to meaning in computational language models; being able to construct different variations of texts that convey the same meaning or not shows strong abilities of semantic understanding. If computational language models are to represent meaning, they must understand and control the different aspects that construct the same meaning as opposed to different meanings at a fine granularity. Yet most existing approaches reduce paraphrasing to a binary decision between two texts or to producing a single rewrite of a source, obscuring which linguistic factors are responsible for meaning preservation. In this thesis, I propose that decomposing paraphrases into their constituent linguistic aspects (paraphrase types) offers a more fine-grained and cognitively grounded view of semantic equivalence. I show that even advanced machine learning models struggle with this task. Yet, when explicitly trained on paraphrase types, models achieve stronger performance on related paraphrase tasks and downstream applications. For example, in plagiarism detection, language models trained on paraphrase types surpass human baselines: 89.6% accuracy compared to 78.4% for plagiarism cases from Wikipedia, and 66.5% compared to 55.7% for plagiarism of scientific papers from arXiv. In identifying duplicate questions on Quora, models trained with paraphrase types improve over models trained on binary pairs. Furthermore, I demonstrate that...
- Abstract(参考訳): 言語は、人間が知識を共有し、世界について推論し、世代をまたいだ生き残りと革新のための戦略を継承することを可能にする。
このプロセスの核心は、コミュニケーション能力だけでなく、私たち自身の表現方法における驚くべき柔軟性です。
私たちは、異なる単語や構造を使って、ほぼ無限の方法で同じ考えを表現できます。
パラフレーズをモデル化することは、計算言語モデルにおいて重要な要素であり、同じ意味を伝達するかどうかに関わらず、意味理解の強い能力を示す異なる種類のテキストを構築できる。
計算言語モデルが意味を表現するためには、異なる意味を微粒度で表すのとは対照的に、同じ意味を構成する異なる側面を理解し、制御する必要がある。
しかし、既存のほとんどのアプローチは、2つのテキスト間の二項決定や1つのソースの書き直しにパラフレーズを減らし、どの言語的要因が意味保存に責任を負っているかを見極める。
本論では, パラフレーズをその構成的言語的側面(言い換え型)に分解することで, 意味的等価性をよりきめ細く, 認知的に根ざした視点が得られることを示唆する。
私は、高度な機械学習モデルでさえ、このタスクに苦労していることを示しています。
しかし、パラフレーズ型を明示的にトレーニングすると、関連するパラフレーズタスクや下流アプリケーションでは、モデルのパフォーマンスが向上する。
例えば、プラーギアリズム検出では、パラフレーズタイプで訓練された言語モデルは人間のベースラインを89.6%超え、ウィキペディアのプラーギアリズムの78.4%、科学論文のプラーギアリズムの66.5%、arXivのプラーギアリズムの55.7%である。
Quoraの重複した質問を特定することで、パラフレーズ型でトレーニングされたモデルは、バイナリペアでトレーニングされたモデルよりも改善される。
さらに、私はそれを証明します。
関連論文リスト
- ChatGPT-generated texts show authorship traits that identify them as non-human [0.6741942263052466]
この研究は、言語モデルが特定の指紋にリンクできるかどうかを調べる。
このモデルでは、ウィキペディアのエントリーと大学のエッセイのどちらを生成するかによって、そのスタイルをうまく適応させることができることが分かりました。
このモデルでは動詞よりも名詞が好まれており,人間とは異なる言語的バックボーンが示されることが示唆された。
論文 参考訳(メタデータ) (2025-08-22T13:38:58Z) - A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。
我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。
我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文 参考訳(メタデータ) (2025-02-09T13:15:59Z) - Mitigating Paraphrase Attacks on Machine-Text Detectors via Paraphrase Inversion [4.148732457277201]
高品質なパラフレーズは命令調整言語モデルを使って容易に生成できる。
x2013$$は、マシンテキスト検出器の性能を著しく低下させることで知られている。
本稿では,パラフレーズ付きテキストから元のテキストへのパラフレーズとして,この問題をフレーム化する手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T00:46:24Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Psychologically-informed chain-of-thought prompts for metaphor
understanding in large language models [29.993190226231793]
我々はチェーン・オブ・シント・プロンプトを使って確率モデルから大きな言語モデルに構造を導入する。
我々のプロンプトは、メタファーの適切なパラフレーズを選択するために、言語モデルに潜伏変数を推論し、それらの関係を推論する。
論文 参考訳(メタデータ) (2022-09-16T19:23:13Z) - Do Language Models Plagiarize? [22.02731537718498]
人工テキストを生成する際に,言語モデルが記憶するか否かを検討するとともに,学習サンプルをプラジャライズする。
以上の結果から,特にGPT-2では,難読化の有無にかかわらず,トレーニングコーパスから特定のテキストを再利用することが示唆された。
私たちの研究は、将来のニューラルネットワークモデルの研究が、トレーニングデータセットを盗用するモデルを避けるために、予防措置を講じるべきであることを示唆している。
論文 参考訳(メタデータ) (2022-03-15T03:11:11Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。