論文の概要: Lexicon-Enriched Graph Modeling for Arabic Document Readability Prediction
- arxiv url: http://arxiv.org/abs/2509.22870v1
- Date: Fri, 26 Sep 2025 19:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.919546
- Title: Lexicon-Enriched Graph Modeling for Arabic Document Readability Prediction
- Title(参考訳): アラビア文字可読性予測のための語彙拡張グラフモデリング
- Authors: Passant Elchafei, Mayar Osama, Mohamed Rageh, Mervat Abuelkheir,
- Abstract要約: アラビア語における文書レベルの可読性を予測するために,レキシコンに富んだグラフベースの手法を提案する。
我々のシステムは各文書を文レベルグラフとしてモデル化し、ノードは文と補題を表す。
文書レベルの予測には、最大プーリングを用いて文レベルの出力を集約し、最も難しい文を反映する。
- 参考スコア(独自算出の注目度): 0.2333246928962179
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present a graph-based approach enriched with lexicons to predict document-level readability in Arabic, developed as part of the Constrained Track of the BAREC Shared Task 2025. Our system models each document as a sentence-level graph, where nodes represent sentences and lemmas, and edges capture linguistic relationships such as lexical co-occurrence and class membership. Sentence nodes are enriched with features from the SAMER lexicon as well as contextual embeddings from the Arabic transformer model. The graph neural network (GNN) and transformer sentence encoder are trained as two independent branches, and their predictions are combined via late fusion at inference. For document-level prediction, sentence-level outputs are aggregated using max pooling to reflect the most difficult sentence. Experimental results show that this hybrid method outperforms standalone GNN or transformer branches across multiple readability metrics. Overall, the findings highlight that fusion offers advantages at the document level, but the GNN-only approach remains stronger for precise prediction of sentence-level readability.
- Abstract(参考訳): 本稿では,BAREC共有タスク2025の制約トラックの一部として開発された,アラビア語の文書レベルの可読性を予測するために,辞書にリッチなグラフベースのアプローチを提案する。
本システムでは,各文書を文レベルグラフとしてモデル化し,ノードが文や補題を表現し,エッジが語彙的共起やクラスメンバシップなどの言語的関係をキャプチャする。
文ノードは、アラビア変圧器モデルからのコンテキスト埋め込みと同様に、 sameRレキシコンの特徴によって豊かになる。
グラフニューラルネットワーク(GNN)とトランスフォーマー文エンコーダは、2つの独立した分岐として訓練され、それらの予測は推論時に遅延融合によって結合される。
文書レベルの予測には、最大プーリングを用いて文レベルの出力を集約し、最も難しい文を反映する。
実験結果から,本手法は,複数の可読性指標にまたがるスタンドアロンGNNやトランスフォーマーブランチよりも優れていた。
全体としては、融合は文書レベルで優位性をもたらすが、GNNのみのアプローチは文レベルの読みやすさを正確に予測する上で依然として強力である。
関連論文リスト
- Training Large Recommendation Models via Graph-Language Token Alignment [53.3142545812349]
本稿では,グラフ言語トークンアライメントによる大規模推薦モデルのトレーニングを行う新しいフレームワークを提案する。
インタラクショングラフからアイテムとユーザノードを事前訓練されたLLMトークンにアライメントすることで、GLTAはLLMの推論能力を効果的に活用する。
さらに、エンドツーエンドのアイテム予測のためのトークンアライメントを最適化するために、GLLM(Graph-Language Logits Matching)を導入する。
論文 参考訳(メタデータ) (2025-02-26T02:19:10Z) - SaVe-TAG: Semantic-aware Vicinal Risk Minimization for Long-Tailed Text-Attributed Graphs [16.24571541782205]
実世界のグラフデータは、しばしば長い尾の分布に従うため、グラフニューラルネットワーク(GNN)が頭と尾の両方のクラスをうまく一般化することは困難である。
ウイルスリスク最小化(VRM)の最近の進歩は、クラス不均衡と数値意味論の緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-10-22T10:36:15Z) - GLIMMER: Incorporating Graph and Lexical Features in Unsupervised Multi-Document Summarization [13.61818620609812]
我々はGLIMMERと呼ばれる軽量で効果的な非教師付きアプローチを提案し、グラフとLexIcalの特徴をベースとした教師なしマルチ文書要約手法を提案する。
まず、ソース文書から文グラフを構築し、それからテキストから低レベルの特徴をマイニングすることで意味クラスタを自動的に識別する。
また,Multi-News,Multi-XScience,DUC-2004で行った実験により,既存の教師なしアプローチよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-19T16:01:48Z) - Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models [31.443478448031886]
RoSE (Relation-oriented Semantic Edge-Decomposition) は、生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。
我々のフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上させ、ウィスコンシンデータセットでは最大16%の改善を実現した。
論文 参考訳(メタデータ) (2024-05-28T20:54:47Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Exploiting Global Contextual Information for Document-level Named Entity
Recognition [46.99922251839363]
我々は、GCDoc(Global Context enhanced Document-level NER)と呼ばれるモデルを提案する。
単語レベルでは、文書グラフは単語間のより広範な依存関係をモデル化するために構築される。
文レベルでは、単一文を超えてより広い文脈を適切にモデル化するために、横断文モジュールを用いる。
我々のモデルは、CoNLL 2003データセットで92.22(BERTで93.40)、Ontonotes 5.0データセットで88.32(BERTで90.49)のスコアに達した。
論文 参考訳(メタデータ) (2021-06-02T01:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。