論文の概要: Do BERT Embeddings Encode Narrative Dimensions? A Token-Level Probing Analysis of Time, Space, Causality, and Character in Fiction
- arxiv url: http://arxiv.org/abs/2604.10786v1
- Date: Sun, 12 Apr 2026 19:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.215337
- Title: Do BERT Embeddings Encode Narrative Dimensions? A Token-Level Probing Analysis of Time, Space, Causality, and Character in Fiction
- Title(参考訳): BERTは物語の次元をエンコードしているか? -時間、空間、因果性、そしてフィクションのキャラクタのToken-Level Probing分析-
- Authors: Beicheng Bei, Hannah Hyesun Chun, Chen Guo, Arwa Saghiri,
- Abstract要約: 本研究では,BERT埋め込みが架空の物語意味論の次元をエンコードするかどうかを検討する。
BERT埋め込みの線形プローブは、分散マッチングされたランダム埋め込みの制御プローブよりも大幅に優れる。
- 参考スコア(独自算出の注目度): 2.9769545727805813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Narrative understanding requires multidimensional semantic structures. This study investigates whether BERT embeddings encode dimensions of fictional narrative semantics -- time, space, causality, and character. Using an LLM to accelerate annotation, we construct a token-level dataset labeled with these four narrative categories plus "others." A linear probe on BERT embeddings (94% accuracy) significantly outperforms a control probe on variance-matched random embeddings (47%), confirming that BERT encodes meaningful narrative information. With balanced class weighting, the probe achieves a macro-average recall of 0.83, with moderate success on rare categories such as causality (recall = 0.75) and space (recall = 0.66). However, confusion matrix analysis reveals "Boundary Leakage," where rare dimensions are systematically misclassified as "others." Clustering analysis shows that unsupervised clustering aligns near-randomly with predefined categories (ARI = 0.081), suggesting that narrative dimensions are encoded but not as discretely separable clusters. Future work includes a POS-only baseline to disentangle syntactic patterns from narrative encoding, expanded datasets, and layer-wise probing.
- Abstract(参考訳): 物語的理解には多次元の意味構造が必要である。
本研究では,BERT埋め込みが時間,空間,因果性,性格といった架空の物語意味論の次元をエンコードするかどうかを検討する。
LLMを用いてアノテーションを加速し、これらの4つの物語カテゴリと「他のもの」をラベル付けしたトークンレベルのデータセットを構築する。
BERT埋め込みの線形プローブ(94%の精度)は、分散マッチングされたランダム埋め込みの制御プローブ(47%)を著しく上回り、BERTが有意義な物語情報をエンコードしていることを確認した。
平衡クラスの重み付けにより、プローブは平均0.83のマクロ平均リコールを達成し、因果性(リコール=0.75)や空間(リコール=0.66)のような稀なカテゴリで適度に成功している。
しかし、混乱行列解析により、希少次元が体系的に「他者」と誤分類される「境界漏洩」が明らかになった。
クラスタリング分析は、教師なしクラスタリングが事前定義されたカテゴリ(ARI = 0.081)とほぼランダムに一致していることを示し、物語の次元は符号化されているが、離散的に分離可能なクラスタではないことを示唆している。
今後の作業には、ナラティブエンコーディングや拡張データセット、レイヤワイドな探索から構文パターンを分離するPOSのみのベースラインが含まれる。
関連論文リスト
- Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Context-Aware Pseudo-Label Scoring for Zero-Shot Video Summarization [6.057968525653529]
本稿では,ルーリック誘導型,擬似ラベル付き,即時駆動型ゼロショットビデオ要約フレームワークを提案する。
人間のアノテーションの小さなサブセットは、高信頼の擬似ラベルに変換される。
推論中、境界シーンはそれぞれの記述に基づいて独立してスコアされる。
論文 参考訳(メタデータ) (2025-10-20T12:54:32Z) - Topic Identification in LLM Input-Output Pairs through the Lens of Information Bottleneck [0.0]
幾何学的クラスタリングのための決定論的情報ボトルネック(DIB)に基づく基本的トピック識別手法を開発した。
我々の重要な貢献は、DIB法を計算効率の良い上界を持つ難解なKL発散項に代えて、高次元データのための実用的なアルゴリズムに変換することである。
論文 参考訳(メタデータ) (2025-08-26T20:00:51Z) - Categorical Data Clustering via Value Order Estimated Distance Metric Learning [53.28598689867732]
本稿では,分類属性を直感的に表現する新しい順序距離計量学習手法を提案する。
新しい共同学習パラダイムが開発され、クラスタリングとオーダー距離メートル法学習の代替となる。
提案手法は分類および混合データセットのクラスタリング精度に優れる。
論文 参考訳(メタデータ) (2024-11-19T08:23:25Z) - A Debiased Nearest Neighbors Framework for Multi-Label Text Classification [13.30576550077694]
マルチラベルテキスト分類(MLTC)のためのDebiased Nearest Neighbors(DENN)フレームワークについて紹介する。
組込みアライメントバイアスに対処するために,ラベル共起における近傍の一貫性を向上する,非バイアス付きコントラスト学習戦略を提案する。
信頼度推定バイアスには,$k$NNの予測と帰納的二分分類の適応的組み合わせを改善し,偏りのある信頼度推定戦略を提案する。
論文 参考訳(メタデータ) (2024-08-06T14:00:23Z) - A Fixed-Point Approach to Unified Prompt-Based Counting [51.20608895374113]
本研究の目的は,ボックス,ポイント,テキストなど,さまざまなプロンプト型で示されるオブジェクトの密度マップを生成することができる包括的プロンプトベースのカウントフレームワークを確立することである。
本モデルは,クラスに依存しない顕著なデータセットに優れ,データセット間の適応タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-15T12:05:44Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Intrinsic dimension estimation for discrete metrics [65.5438227932088]
本稿では,離散空間に埋め込まれたデータセットの内在次元(ID)を推定するアルゴリズムを提案する。
我々は,その精度をベンチマークデータセットで示すとともに,種鑑定のためのメダゲノミクスデータセットの分析に応用する。
このことは、列の空間の高次元性にもかかわらず、蒸発圧が低次元多様体に作用することを示唆している。
論文 参考訳(メタデータ) (2022-07-20T06:38:36Z) - Homonym Identification using BERT -- Using a Clustering Approach [0.0]
本研究の目的は, 文脈情報が正称単語の識別に十分かどうかを判断することである。
コンテキストをキャプチャするために、BERTの埋め込みはWord2Vecとは対照的に使用される。
埋め込みには様々なクラスタリングアルゴリズムが適用される。
最後に、埋め込みを低次元空間に可視化し、クラスタリングプロセスの実現可能性を理解する。
論文 参考訳(メタデータ) (2021-01-07T06:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。