論文の概要: Contrastive Analysis of Linguistic Representations in Large Language Model Outputs through Structured Synthetic Data Generation and Abstracted N-gram Associations
- arxiv url: http://arxiv.org/abs/2604.17398v1
- Date: Sun, 19 Apr 2026 12:02:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.505054
- Title: Contrastive Analysis of Linguistic Representations in Large Language Model Outputs through Structured Synthetic Data Generation and Abstracted N-gram Associations
- Title(参考訳): 構造化合成データ生成と抽象N-gramアソシエーションによる大言語モデル出力の言語表現の対比解析
- Authors: S. A. Desimone, L. Alonso Alemany,
- Abstract要約: 異なる社会集団に関連する言語的・非帰的パターンを発見するための方法論的枠組みを提案する。
事前に決定された単語や表現のリストを通してバイアスを診断する代わりに、バイアスの微妙な表現を特徴付けることを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a methodological framework to discover linguistic and discursive patterns associated to different social groups through contrastive synthetic text generation and statistical analysis. In contrast with previous approaches, we aim to characterize subtle expressions of bias, instead of diagnosing bias through a pre-determined list of words or expressions. We are also working with contextualized data instead of isolated words or sentences. Our methodology applies to textual productions in any genre, encompassing narrative, task-oriented or dialogic. Contextualized data are generated using controlled combinations of situational scenarios and group markers, creating minimal pairs of texts that differ only in the referenced group while maintaining comparable narrative conditions. To facilitate robust analysis, linguistic forms are generalized and associations between linguistic abstractions and groups are quantified using a variant of pointwise mutual information to detect expressions that appear disproportionately across groups. A fragment-ranking strategy then prioritizes text segments with a high concentration of biased linguistic signals, which allows for experts to assess the harmful potential of linguistic expressions in context, bridging quantitative analysis and qualitative interpretation.
- Abstract(参考訳): コントラッシブな合成テキスト生成と統計的分析により,異なる社会集団に関連する言語的・非帰的パターンを発見するための方法論的枠組みを提案する。
従来のアプローチとは対照的に,事前に決定された単語や表現のリストを通じてバイアスを診断する代わりに,バイアスの微妙な表現を特徴付けることを目指している。
孤立した単語や文ではなく、文脈化されたデータにも取り組んでいます。
我々の手法は、物語、タスク指向、ダイアログを含むあらゆるジャンルのテキスト制作に適用される。
コンテクスト化されたデータは、状況シナリオとグループマーカーの制御された組み合わせを使用して生成され、参照されたグループでのみ異なる最小のペアのテキストを生成しながら、同等の物語条件を維持している。
頑健な分析を容易にするため、言語形式を一般化し、言語的抽象化とグループ間の関連をポイントワイドな相互情報の変種を用いて定量化し、グループ間で不均等に現れる表現を検出する。
フラグメントレベルの戦略は、偏りのある言語信号の集中度の高いテキストセグメントを優先し、専門家が文脈における言語表現の有害なポテンシャルを評価し、定量的な分析と質的な解釈を行うことを可能にする。
関連論文リスト
- Counting trees: A treebank-driven exploration of syntactic variation in speech and writing across languages [0.0]
我々は、構文構造をデレクシカルな依存(サブ)ツリーとして定義し、音声および記述されたユニバーサル依存ツリーバンクからそれらを抽出する。
各コーパスについて, 構文的在庫の大きさ, 多様性, 分布, その重なり合い, 音声の最も特徴的な構造を解析した。
その結果、どちらの言語でも、音声コーパスは、記述されたコーパスよりも、より多様で多様な構文構造を含まないことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-28T18:43:26Z) - An Information-Theoretic Approach to Identifying Formulaic Clusters in Textual Data [2.977406733413627]
フォーミュラテキストは繰り返しと制約された表現によって特徴づけられ、自己情報の変動性が低い傾向にある。
本研究の目的は,反復句,構文構造,スタイルマーカーを解析することにより,定式的クラスタを同定することである。
重み付き自己情報分布を利用してテキスト中の構造化パターンを検出する情報理論アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-03-10T13:24:46Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - A Comprehensive Empirical Evaluation of Existing Word Embedding
Approaches [5.065947993017158]
既存の単語埋め込み手法の特徴を概説し,多くの分類タスクについて解析する。
伝統的なアプローチでは、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えることができない。
一方、ニューラルネットワークに基づくアプローチは、言語の洗練された規則性を捕捉し、生成した単語表現における単語関係を保存することができる。
論文 参考訳(メタデータ) (2023-03-13T15:34:19Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Improve Discourse Dependency Parsing with Contextualized Representations [28.916249926065273]
本稿では,異なるレベルの単位の文脈化表現を符号化するトランスフォーマーの活用を提案する。
記事間で共通に共有される記述パターンの観察に動機付けられ,談話関係の識別をシーケンスラベリングタスクとして扱う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-04T14:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。