論文の概要: LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP
- arxiv url: http://arxiv.org/abs/2408.04628v1
- Date: Thu, 8 Aug 2024 17:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 14:48:21.025590
- Title: LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP
- Title(参考訳): LogogramNLP:NLPのための古記録書記システムの視覚的表現とテクスチャ的表現の比較
- Authors: Danlu Chen, Freda Shi, Aditi Agarwal, Jacobo Myerston, Taylor Berg-Kirkpatrick,
- Abstract要約: 記録データの大部分は、転写がないため、純粋に視覚的に持続する。
この問題は、NLPツールキットを古代のログ言語研究に応用しようとする研究者にとってボトルネックとなる。
我々は,古代のログ言語のNLP解析を可能にする最初のベンチマークであるLogogramNLPを紹介する。
- 参考スコア(独自算出の注目度): 30.804518354947565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard natural language processing (NLP) pipelines operate on symbolic representations of language, which typically consist of sequences of discrete tokens. However, creating an analogous representation for ancient logographic writing systems is an extremely labor intensive process that requires expert knowledge. At present, a large portion of logographic data persists in a purely visual form due to the absence of transcription -- this issue poses a bottleneck for researchers seeking to apply NLP toolkits to study ancient logographic languages: most of the relevant data are images of writing. This paper investigates whether direct processing of visual representations of language offers a potential solution. We introduce LogogramNLP, the first benchmark enabling NLP analysis of ancient logographic languages, featuring both transcribed and visual datasets for four writing systems along with annotations for tasks like classification, translation, and parsing. Our experiments compare systems that employ recent visual and text encoding strategies as backbones. The results demonstrate that visual representations outperform textual representations for some investigated tasks, suggesting that visual processing pipelines may unlock a large amount of cultural heritage data of logographic languages for NLP-based analyses.
- Abstract(参考訳): 標準自然言語処理(NLP)パイプラインは、典型的には離散トークンのシーケンスで構成される言語を象徴的に表現する。
しかし、古代の書記システムに類似した表現を作ることは、専門家の知識を必要とする非常に労働集約的なプロセスである。
現在、記録データの大部分は、転写がないために純粋に視覚的に保たれており、この問題は、古代のログラフ言語の研究にNLPツールキットを適用しようとする研究者にとってボトルネックとなっている。
本稿では,視覚表現の直接処理が潜在的な解決策となるかどうかを考察する。
筆者らは,4つの記述システムのための転写データセットと視覚データセットと,分類,翻訳,構文解析などのタスクのためのアノテーションを特徴とする,古代のロググラフィ言語のNLP解析を可能にする最初のベンチマークであるLogogramNLPを紹介した。
我々の実験は、最近の視覚とテキストのエンコーディング戦略をバックボーンとして利用するシステムと比較した。
その結果,視覚的表現はテキスト表現よりも優れており,視覚処理パイプラインは,NLPに基づく解析のために,大量の文化遺産データをアンロックできる可能性が示唆された。
関連論文リスト
- Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - The Learnable Typewriter: A Generative Approach to Text Analysis [17.355857281085164]
テキスト行中の文字解析と認識に対する生成文書固有のアプローチを提案する。
同様のフォントや手書きのテキスト行を入力として、我々のアプローチは多数の異なる文字を学習することができる。
論文 参考訳(メタデータ) (2023-02-03T11:17:59Z) - Logographic Information Aids Learning Better Representations for Natural
Language Inference [3.677231059555795]
本稿では,より優れた意味表現を学習する上で,言語モデルにログ情報を提供することのメリットを探求する新しい研究を提案する。
6つの言語で評価した結果,ロゴグラフシステムを持つ言語にマルチモーダル埋め込みを組み込むことによる大きなメリットが示唆された。
論文 参考訳(メタデータ) (2022-11-03T20:40:14Z) - Improving Graph-Based Text Representations with Character and Word Level
N-grams [30.699644290131044]
単語と文字n-gramノードを文書ノードと組み合わせた新しい単語文字テキストグラフを提案する。
また、提案したテキストグラフをモデル化するための2つの新しいグラフベースニューラルモデルWCTextGCNとWCTextGATを提案する。
論文 参考訳(メタデータ) (2022-10-12T08:07:54Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Bird's Eye: Probing for Linguistic Graph Structures with a Simple
Information-Theoretic Approach [23.66191446048298]
本研究では,言語グラフに表現がエンコードされているかどうかを検知する新しい情報理論プローブ,Bird's Eyeを提案する。
また,本研究では,摂動解析を用いて言語グラフの局所言語情報を調べる手法を提案する。
論文 参考訳(メタデータ) (2021-05-06T13:01:57Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。