論文の概要: Type and Complexity Signals in Multilingual Question Representations
- arxiv url: http://arxiv.org/abs/2510.06304v1
- Date: Tue, 07 Oct 2025 17:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.115175
- Title: Type and Complexity Signals in Multilingual Question Representations
- Title(参考訳): 多言語質問表現におけるタイプと複雑度信号
- Authors: Robin Kokot, Wessel Poelman,
- Abstract要約: 質問タイプと複雑度データセットを7つの言語にまたがって導入する。
凍結したGlot500-m表現の層次プローブをサブワードTF-IDFベースラインと微調整モデルと比較する。
統計的特徴は、明示的なマーキングを持つ言語で質問を効果的に分類し、ニューラルプローブはよりきめ細かな構造的複雑性パターンをよりよく捉えている。
- 参考スコア(独自算出の注目度): 0.27930955543692815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates how a multilingual transformer model represents morphosyntactic properties of questions. We introduce the Question Type and Complexity (QTC) dataset with sentences across seven languages, annotated with type information and complexity metrics including dependency length, tree depth, and lexical density. Our evaluation extends probing methods to regression labels with selectivity controls to quantify gains in generalizability. We compare layer-wise probes on frozen Glot500-m (Imani et al., 2023) representations against subword TF-IDF baselines, and a fine-tuned model. Results show that statistical features classify questions effectively in languages with explicit marking, while neural probes capture fine-grained structural complexity patterns better. We use these results to evaluate when contextual representations outperform statistical baselines and whether parameter updates reduce the availability of pre-trained linguistic information.
- Abstract(参考訳): 本研究は,多言語変換モデルが質問のモルフォシンタクティック特性をどのように表現するかを考察する。
質問タイプと複雑度(QTC)データセットを、7つの言語にまたがる文で導入し、依存関係の長さ、木深度、語彙密度などを含む、型情報と複雑性メトリクスを付加した。
提案手法は回帰ラベルに拡張され,選択性制御により一般化可能性のゲインを定量化する。
凍結したGlot500-m (Imani et al , 2023) 表現の層次プローブとサブワードTF-IDFベースラインと微調整モデルとの比較を行った。
統計的特徴は、明示的なマーキングを持つ言語で質問を効果的に分類し、ニューラルプローブはよりきめ細かな構造的複雑性パターンをよりよく捉えている。
これらの結果を用いて、文脈表現が統計的ベースラインを上回り、パラメータ更新が事前学習した言語情報の可用性を低下させるかどうかを評価する。
関連論文リスト
- Tokenization and Representation Biases in Multilingual Models on Dialectal NLP Tasks [7.216732751280017]
我々は、事前学習された多言語モデルにおける表現バイアスの尺度として、トークン化パリティ(TP)と情報化パリティ(IP)を関連付ける。
我々は,最先端デコーダのみのLLMと,方言分類,話題分類,抽出質問応答の3つのタスクからなるエンコーダベースモデルを比較した。
分析の結果,TPは統語的・形態的手法に依存したタスクの性能を予測し,IPは意味的タスクのパフォーマンスを予測できることがわかった。
論文 参考訳(メタデータ) (2025-09-24T12:13:53Z) - How Compositional Generalization and Creativity Improve as Diffusion Models are Trained [82.08869888944324]
構成規則を学習するために生成モデルに必要なサンプルはいくつあるか?
ルールを学習するために、データのどのシグナルが利用されるのか?
ここで紹介する階層的クラスタリング機構と物理における再正規化群との関係について論じる。
論文 参考訳(メタデータ) (2025-02-17T18:06:33Z) - Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Cross-Lingual Transfer of Cognitive Processing Complexity [11.939409227407769]
我々は,構造的複雑さの認知指標として,文レベルの視線追跡パターンを用いる。
マルチ言語モデル XLM-RoBERTa は,13言語に対して様々なパターンを予測できることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:48:23Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Syntax-informed Question Answering with Heterogeneous Graph Transformer [2.139714421848487]
本稿では、事前学習されたニューラルネットワークモデルを拡張し、微調整する言語インフォームド質問応答手法を提案する。
本稿では,トークンと仮想トークンを接続する依存関係グラフ構造と領域グラフィック構造という形で,構文情報の追加によるアプローチについて説明する。
論文 参考訳(メタデータ) (2022-04-01T07:48:03Z) - Investigating representations of verb bias in neural language models [7.455546102930909]
本稿では,5Kの異なる文対に対する5Kの人的判断を含むベンチマークデータセットであるDAISを紹介する。
このデータセットは200のユニークな動詞を含み、体系的に引数の定性や長さを変える。
このデータセットと、既存の自然発生データコーパスを使用して、最近のニューラルネットワークモデルがいかに人間の好みを捉えるかを評価する。
論文 参考訳(メタデータ) (2020-10-05T22:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。