論文の概要: Beyond Pairwise Comparisons: A Distributional Test of Distinctiveness for Machine-Generated Works in Intellectual Property Law
- arxiv url: http://arxiv.org/abs/2601.18156v1
- Date: Mon, 26 Jan 2026 05:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.687468
- Title: Beyond Pairwise Comparisons: A Distributional Test of Distinctiveness for Machine-Generated Works in Intellectual Property Law
- Title(参考訳): 知的財産法における機械作品の識別性の分布テスト
- Authors: Anirban Mukherjee, Hannah Hanwen Chang,
- Abstract要約: 本稿では,2つの創造的プロセスが統計的に区別可能な出力分布を生成するかどうかを判断するために,意味埋め込みに基づいて計算された平均誤差に基づく2サンプルテストを提案する。
手書きディジット(制御された画像)、特許抽象化(テキスト)、AI生成アート(現実世界の画像)の3分野にわたるフレームワークを検証する。
以上の結果から,生成モデルが単なる学習データのリグルジエータとして機能する,という見解に反する証拠が得られた。
- 参考スコア(独自算出の注目度): 0.31061678033205636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Key doctrines, including novelty (patent), originality (copyright), and distinctiveness (trademark), turn on a shared empirical question: whether a body of work is meaningfully distinct from a relevant reference class. Yet analyses typically operationalize this set-level inquiry using item-level evidence: pairwise comparisons among exemplars. That unit-of-analysis mismatch may be manageable for finite corpora of human-created works, where it can be bridged by ad hoc aggregations. But it becomes acute for machine-generated works, where the object of evaluation is not a fixed set of works but a generative process with an effectively unbounded output space. We propose a distributional alternative: a two-sample test based on maximum mean discrepancy computed on semantic embeddings to determine if two creative processes-whether human or machine-produce statistically distinguishable output distributions. The test requires no task-specific training-obviating the need for discovery of proprietary training data to characterize the generative process-and is sample-efficient, often detecting differences with as few as 5-10 images and 7-20 texts. We validate the framework across three domains: handwritten digits (controlled images), patent abstracts (text), and AI-generated art (real-world images). We reveal a perceptual paradox: even when human evaluators distinguish AI outputs from human-created art with only about 58% accuracy, our method detects distributional distinctiveness. Our results present evidence contrary to the view that generative models act as mere regurgitators of training data. Rather than producing outputs statistically indistinguishable from a human baseline-as simple regurgitation would predict-they produce outputs that are semantically human-like yet stochastically distinct, suggesting their dominant function is as a semantic interpolator within a learned latent space.
- Abstract(参考訳): 独創性(Paent)、独創性(copyright)、独創性(trademark)を含む主要な教義は、ある作品が関連する参照クラスと有意義に異なるかどうかという、共有された経験的疑問を解き放つ。
しかし、分析は通常、アイテムレベルのエビデンスを使って、このセットレベルの調査を運用する。
このユニット・オブ・アナリシスのミスマッチは、人造作品の有限コーパスに対して管理可能であり、アドホックアグリゲーションによってブリッジすることができる。
しかし、評価対象が固定された作品の集合ではなく、効果的に非有界な出力空間を持つ生成過程である機械生成作品には急激になる。
そこで我々は,2つの創造的プロセス – 統計的に区別可能な出力分布の有無を決定するために,セマンティック埋め込みに基づいて計算された最大平均誤差に基づく2サンプルテストを提案する。
このテストでは、生成プロセスを特徴付けるための独自のトレーニングデータの発見の必要性を回避し、しばしば5-10イメージと7-20テキストの差を検出する。
手書き桁(制御された画像)、特許抽象化(テキスト)、AI生成技術(実世界の画像)の3分野にわたるフレームワークを検証する。
人間の評価者が人間の制作したアートからAI出力を約58%の精度で区別したとしても,本手法は分布の特異性を検出する。
以上の結果から,生成モデルが単なる学習データのリグルジテータとして機能する,という見解に反する証拠が得られた。
人間のベースラインから統計的に区別できないアウトプットを生成するのではなく、単純なリグルテーションは、意味的に人間に似ているが確率的に異なるアウトプットを生成する。
関連論文リスト
- Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Charting the Parrot's Song: A Maximum Mean Discrepancy Approach to Measuring AI Novelty, Originality, and Distinctiveness [0.2209921757303168]
本稿では, 生成過程間の分布差を測定するための, 頑健で定量的な手法を提案する。
ペアワイズな類似性チェックを行うのではなく、出力分布全体を比較することで、私たちのアプローチは創造的なプロセスと直接対比する。
この研究は、裁判所や政策立案者に、AIのノベルティを定量化する計算効率が高く、法的に関係のあるツールを提供する。
論文 参考訳(メタデータ) (2025-04-11T11:15:26Z) - Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。
データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文 参考訳(メタデータ) (2024-02-16T04:32:22Z) - Sample and Predict Your Latent: Modality-free Sequential Disentanglement
via Contrastive Estimation [2.7759072740347017]
外部信号のないコントラスト推定に基づく自己教師付きシーケンシャル・アンタングルメント・フレームワークを提案する。
実際に,データのセマンティックに類似し,異種なビューに対して,統一的で効率的かつ容易にサンプリングできる手法を提案する。
提案手法は,既存の手法と比較して最先端の結果を示す。
論文 参考訳(メタデータ) (2023-05-25T10:50:30Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Human-Guided Fair Classification for Natural Language Processing [9.652938946631735]
本稿では、教師なしスタイル転送とGPT-3のゼロショット機能を利用して、意味論的に類似した文を生成する方法を示す。
これらのペアの多くは、毒性分類の文脈における公正性に関する人間の直感と一致していることを確認した。
論文 参考訳(メタデータ) (2022-12-20T10:46:40Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - Few-shot Visual Reasoning with Meta-analogical Contrastive Learning [141.2562447971]
本稿では,類似推論に頼って,数ショット(または低ショット)の視覚推論問題を解くことを提案する。
両領域の要素間の構造的関係を抽出し、類似学習と可能な限り類似するように強制する。
RAVENデータセット上での本手法の有効性を検証し, トレーニングデータが少ない場合, 最先端の手法より優れることを示す。
論文 参考訳(メタデータ) (2020-07-23T14:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。