論文の概要: How Non-Linguistic Is the Indus Sign System? A Synthetic-Baseline Scorecard
- arxiv url: http://arxiv.org/abs/2604.17828v1
- Date: Mon, 20 Apr 2026 05:29:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.711465
- Title: How Non-Linguistic Is the Indus Sign System? A Synthetic-Baseline Scorecard
- Title(参考訳): インダス符号系は非言語的か? : 合成ベースラインスコアカード
- Authors: Ashish Nair,
- Abstract要約: 本稿では,インダス・バレーの符号体系が音声言語を符号化するかどうかを検証するための多次元識別フレームワークを提案する。
このフレームワークをICIT/Yajnadevamのデジタル化から1,916の非重複の碑文に適用すると、Indus corpusはどちらのベースラインともきれいに一致しないことがわかった。
また、Sproat(2014)データセットを含む7つの実世界の非言語コーパスを比較し、証明された非言語系が完全なIndus統計プロファイルを再現していないことを発見した。
- 参考スコア(独自算出の注目度): 0.913755431537592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether the Indus Valley sign system (c. 2600-1900 BCE) encodes spoken language has been debated for decades. This paper introduces a multi-metric discrimination framework that tests the observed Indus corpus against two kinds of computer-generated non-linguistic baseline -- one mimicking a heraldic emblem system, the other an administrative coding system -- each calibrated with Zipfian frequency distributions, positional constraints, and bigram dependencies derived from six attested non-linguistic corpora. The scorecard evaluates four properties central to the Farmer-Sproat-Witzel (2004) critique: text brevity, repeated formulaic phrases, hapax legomenon rate, and positional rigidity. Applying this framework to 1,916 deduplicated inscriptions (584 unique signs, 11,110 tokens) from the ICIT/Yajnadevam digitization, we find that the Indus corpus does not match either baseline cleanly. Across the four metrics examined, the Indus corpus occupies an intermediate position relative to the two baseline families, matching neither cleanly. Neither a heraldic nor an administrative generator can reproduce all four properties at once. We also compare against seven real-world non-linguistic corpora including Sproat's (2014) datasets, finding that no attested non-linguistic system reproduces the full Indus statistical profile either. We replicate key prior results including a Zipf slope of -1.49 and conditional entropy of 3.23 bits. All code and data are publicly available.
- Abstract(参考訳): インダス・バレーの符号体系(紀元前2600-1900年頃)が音声言語を符号化するかどうかについては、何十年も議論されてきた。
本稿では,インダスコーパスを2種類のコンピュータ生成非言語的ベースライン – 紋章エンブレムシステムと行政コードシステム – に対してテストするマルチメトリック識別フレームワークを提案する。
スコアカードはFarmer-Sproat-Witzel (2004) 批判の中心となる4つの特性を評価する。
この枠組みをICIT/Yajnadevamのデジタル化から1,916の非重複な碑文(584のユニークな記号、11,110のトークン)に適用すると、Indus corpusはどちらのベースラインともきれいに一致しないことがわかった。
調査した4つの指標の中で、インダス・コーパスは2つの基準系に対して中間的な位置を占めており、きれいに一致しない。
紋章も管理ジェネレータも、一度に4つのプロパティ全てを再生することはできない。
また、Sproat(2014)データセットを含む7つの実世界の非言語コーパスを比較し、証明された非言語系が完全なIndus統計プロファイルを再現していないことを発見した。
Zipf勾配の-1.49、条件エントロピーの3.23ビットを含む主要な先行結果を再現する。
すべてのコードとデータは公開されています。
関連論文リスト
- Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals [0.0]
本研究では,4つの行動不正パターン(P1-P4)の分類法を定式化し,事象間タイミング,バースト構造,マルチアカウントグラフモチーフ,速度ルールトリガ率について検討した。
我々は、IEEE-CIS Fraud DetectionとAmazon FraudデータセットでCTGAN、TVAE、GaussianCopula、TabularARGNをベンチマークした。
P1-P4フレームワークは、医療やネットワークセキュリティを含む、エンティティレベルのシーケンシャルデータを持つ任意のドメインに拡張する。
論文 参考訳(メタデータ) (2026-04-13T19:36:00Z) - Reconstructing Trust Embeddings from Siamese Trust Scores: A Direct-Sum Approach with Fixed-Point Semantics [0.0]
本研究では,多くの分散セキュリティフレームワークが公開している1次元シームズ信頼スコアから高次元信頼埋め込みを再構築する逆問題について検討する。
合成ベンチマークのスイートは、ガウスノイズの存在下でも、回収された埋め込みはユークリッドとコサインの計測値によって測定されたデバイス間幾何学を保存することを確認している。
詳細な信頼スコアを公開することで、デバイスと評価モデルの両方に関する潜伏した行動情報が漏洩する可能性がある。
論文 参考訳(メタデータ) (2025-08-02T20:19:22Z) - The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - ToxSyn-PT: A Large-Scale Synthetic Dataset for Hate Speech Detection in Portuguese [37.69303106863453]
ToxSyn-PTは、きめ細かいヘイトスピーチ分類を可能にする最初の大規模なポルトガルのコーパスである。
データセットには、マイノリティグループと毒性ラベルに等しく分散された53,274の合成文が含まれている。
論文 参考訳(メタデータ) (2025-06-11T23:59:29Z) - LipSim: A Provably Robust Perceptual Similarity Metric [56.03417732498859]
敵攻撃に対するViTベースの特徴抽出器のアンサンブルに基づく,最先端の知覚的類似度指標の脆弱性を示す。
次に、証明可能な保証とともに、LipSimと呼ばれる堅牢な知覚的類似度メトリックをトレーニングするためのフレームワークを提案する。
LipSimは、各データポイント周辺の保護された領域と、$ell$ ball内のすべての摂動の証明書を提供する。
論文 参考訳(メタデータ) (2023-10-27T16:59:51Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - A New Approach for Texture based Script Identification At Block Level
using Quad Tree Decomposition [38.20489458130109]
マルチスクリプトシナリオが一般的であるインドのような国では、事前にスクリプトを特定することが義務付けられます。
公式手書き文字11文字に対する方向エネルギーとエントロピー分布の抽出におけるガボルウェーブレットフィルタの重要性を示す。
論文 参考訳(メタデータ) (2020-09-16T02:50:03Z) - Sparse Concept Coded Tetrolet Transform for Unconstrained Odia Character
Recognition [0.0]
スパースの概念を符号化したテトロレットを用いて,制約なしの英数字に対する新しい画像表現手法を提案する。
提案するOCRシステムは,PCA,SparsePCA,Slantletなどのスパースベース技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-03T13:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。