論文の概要: Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction
- arxiv url: http://arxiv.org/abs/2604.13056v1
- Date: Tue, 17 Mar 2026 19:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.643361
- Title: Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction
- Title(参考訳): テキスト・アズ・シタル:埋め込み・ログプロブ・ノイズ低減による定量的セマンティック・スコアリング
- Authors: Hugo Moreira,
- Abstract要約: 本稿では,テキストコーパスを定量的意味信号に変換するための実用的なパイプラインを提案する。
本稿では,Qwen埋め込み, UMAP, モデル出力空間から直接導出される意味指標, および3段階の異常検出手順が, 操作用テキスト・アズ・サインのワークフローにどのように組み合わされているかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a practical pipeline for turning text corpora into quantitative semantic signals. Each news item is represented as a full-document embedding, scored through logprob-based evaluation over a configurable positional dictionary, and projected onto a noise-reduced low-dimensional manifold for structural interpretation. In the present case study, the dictionary is instantiated as six semantic dimensions and applied to a corpus of 11,922 Portuguese news articles about Artificial Intelligence. The resulting identity space supports both document-level semantic positioning and corpus-level characterization through aggregated profiles. We show how Qwen embeddings, UMAP, semantic indicators derived directly from the model output space, and a three-stage anomaly-detection procedure combine into an operational text-as-signal workflow for AI engineering tasks such as corpus inspection, monitoring, and downstream analytical support. Because the identity layer is configurable, the same framework can be adapted to the requirements of different analytical streams rather than fixed to a universal schema.
- Abstract(参考訳): 本稿では,テキストコーパスを定量的意味信号に変換するための実用的なパイプラインを提案する。
各ニュース項目は、全文書埋め込みとして表現され、構成可能な位置辞書上で対数プロブに基づく評価を行い、構造的解釈のためにノイズ低減された低次元多様体に投影される。
本稿では,辞書を6つの意味的次元としてインスタンス化し,11,922のポルトガル語ニュース記事のコーパスに適用する。
結果として得られるアイデンティティ空間は、文書レベルのセマンティックな位置決めと、集約されたプロファイルによるコーパスレベルの特徴付けの両方をサポートする。
Qwenの埋め込み、UMAP、モデル出力空間から直接導出される意味指標、および3段階の異常検出手順が、コーパスインスペクション、モニタリング、ダウンストリーム分析サポートなどのAIエンジニアリングタスクのための運用用テキスト・アズ・シグナルワークフローにどのように組み合わされているかを示す。
アイデンティティ層は設定可能であるため、ユニバーサルスキーマに固定されるのではなく、異なる分析ストリームの要求に同じフレームワークを適用することができる。
関連論文リスト
- Logics-Parsing-Omni Technical Report [18.897248420641386]
本稿では,断片化タスク定義の課題とマルチモーダル解析における非構造化データの均一性に対処するOmni Parsingフレームワークを提案する。
このフレームワークの重要な利点は、そのエビデンスアンカー機構であり、ハイレベルなセマンティック記述と低レベルな事実の厳密な一致を強制する。
これにより、エビデンスに基づく'論理的帰納化が可能となり、構造化されていない信号を、位置可能で、エナメル性があり、トレース可能な標準化された知識に変換する。
論文 参考訳(メタデータ) (2026-03-10T13:46:32Z) - StyleDecipher: Robust and Explainable Detection of LLM-Generated Texts with Stylistic Analysis [18.44456241158174]
StyleDecipherは堅牢で説明可能な検出フレームワークである。
組み合わせた特徴抽出器を用いてテキスト検出を再検討し、構造的差異を定量化する。
常に最先端のドメイン内精度を達成する。
論文 参考訳(メタデータ) (2025-10-14T15:07:27Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Text-Queried Audio Source Separation via Hierarchical Modeling [53.94434504259829]
本研究では,HSM-TSSという階層的分解フレームワークを提案し,そのタスクをグローバルな意味誘導特徴分離と構造保存音響再構成に分解する。
Q-Audioアーキテクチャは、事前訓練されたグローバルセマンティックエンコーダとして機能するオーディオとテキストのモダリティを調整するために使用される。
本手法は,複雑な聴覚シーンにおけるクエリとのセマンティック一貫性を保ちながら,データ効率のトレーニングによる最先端の分離性能を実現する。
論文 参考訳(メタデータ) (2025-05-27T11:00:38Z) - Empirical Evaluation of Embedding Models in the Context of Text Classification in Document Review in Construction Delay Disputes [6.076874513889027]
テキスト埋め込みはテキストデータの数値表現であり、単語、フレーズ、文書全体を実数のベクトルに変換する。
本稿では,4つの異なるモデルの包括的比較分析を通じて,異なる埋め込みを評価する作業について述べる。
K-Nearest Neighbors (KNN) と Logistic Regression (LR) の両方を用いてバイナリ分類タスクを行い、特にラベル付きデータセット内でテキストスニペットが 'delay' あるいは 'not delay' に関連付けられているかどうかを判断する。
論文 参考訳(メタデータ) (2025-01-16T22:12:11Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。