論文の概要: SemImage: Semantic Image Representation for Text, a Novel Framework for Embedding Disentangled Linguistic Features
- arxiv url: http://arxiv.org/abs/2512.00088v1
- Date: Wed, 26 Nov 2025 12:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.056773
- Title: SemImage: Semantic Image Representation for Text, a Novel Framework for Embedding Disentangled Linguistic Features
- Title(参考訳): SemImage: テキストのセマンティックな画像表現 - 絡み合った言語特徴を埋め込む新しいフレームワーク
- Authors: Mohammad Zare,
- Abstract要約: SemImageは、畳み込みニューラルネットワーク(CNN)によって処理される2次元のセマンティックイメージとしてテキスト文書を表現する新しい方法である。
SemImageでは、各単語は2D画像のピクセルとして表現される:行は文に対応し、追加の境界行は文間に挿入されて意味遷移を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose SemImage, a novel method for representing a text document as a two-dimensional semantic image to be processed by convolutional neural networks (CNNs). In a SemImage, each word is represented as a pixel in a 2D image: rows correspond to sentences and an additional boundary row is inserted between sentences to mark semantic transitions. Each pixel is not a typical RGB value but a vector in a disentangled HSV color space, encoding different linguistic features: the Hue with two components H_cos and H_sin to account for circularity encodes the topic, Saturation encodes the sentiment, and Value encodes intensity or certainty. We enforce this disentanglement via a multi-task learning framework: a ColorMapper network maps each word embedding to the HSV space, and auxiliary supervision is applied to the Hue and Saturation channels to predict topic and sentiment labels, alongside the main task objective. The insertion of dynamically computed boundary rows between sentences yields sharp visual boundaries in the image when consecutive sentences are semantically dissimilar, effectively making paragraph breaks salient. We integrate SemImage with standard 2D CNNs (e.g., ResNet) for document classification. Experiments on multi-label datasets (with both topic and sentiment annotations) and single-label benchmarks demonstrate that SemImage can achieve competitive or better accuracy than strong text classification baselines (including BERT and hierarchical attention networks) while offering enhanced interpretability. An ablation study confirms the importance of the multi-channel HSV representation and the dynamic boundary rows. Finally, we present visualizations of SemImage that qualitatively reveal clear patterns corresponding to topic shifts and sentiment changes in the generated image, suggesting that our representation makes these linguistic features visible to both humans and machines.
- Abstract(参考訳): 本稿では、畳み込みニューラルネットワーク(CNN)によって処理される2次元意味画像としてテキスト文書を表現する新しい方法であるSemImageを提案する。
SemImageでは、各単語は2D画像のピクセルとして表現される:行は文に対応し、追加の境界行は文間に挿入されて意味遷移を示す。
各画素は典型的なRGB値ではなく、アンタングルされたHSV色空間のベクトルであり、異なる言語的特徴を符号化する:2つのコンポーネントH_cosとH_sinを持つヒューはトピックを符号化し、飽和は感情を符号化し、値は強度または確信を符号化する。
各単語をHSV空間に埋め込み、Hue と Saturation チャネルに補助的な監督を加えて、メインタスクの目的に沿ってトピックや感情のラベルを予測する。
文間で動的に計算された境界行を挿入すると、連続する文が意味的に異なるときに画像のシャープな視覚的境界が得られ、段落が健全になる。
我々はSemImageを標準の2D CNN(例えばResNet)と統合して文書分類を行う。
マルチラベルデータセット(トピックとセンチメントアノテーションの両方を含む)とシングルラベルベンチマークの実験は、SemImageが強力なテキスト分類ベースライン(BERTや階層的アテンションネットワークを含む)よりも、競争力や精度が向上し、解釈可能性も向上していることを示している。
Ablation study is confirmed the importance of the multi-channel HSV representation and the dynamic boundary rows。
最後に、生成した画像の話題変化や感情変化に対応する明確なパターンを定性的に明らかにするSemImageの可視化について述べる。
関連論文リスト
- UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation [51.31795451147935]
本稿では,単一のピクセル間拡散フレームワーク内での視覚的理解と視覚的生成を支援する統合生成モデルを提案する。
私たちのゴールは、モデル、タスク、表現の3つの軸に沿った統一を達成することです。
画像間合成と画像間理解の実験は、強いモーダルアライメントを示す。
論文 参考訳(メタデータ) (2025-11-21T03:02:10Z) - InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph [27.77392307623526]
マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
論文 参考訳(メタデータ) (2022-08-19T16:04:29Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Text-Guided Neural Image Inpainting [20.551488941041256]
塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。