論文の概要: Embeddings for Preferences, Not Semantics
- arxiv url: http://arxiv.org/abs/2605.08360v1
- Date: Fri, 08 May 2026 18:15:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.589184
- Title: Embeddings for Preferences, Not Semantics
- Title(参考訳): セマンティックスではなく、推論のための埋め込み
- Authors: Carter Blair, Ariel D. Procaccia, Milind Tambe,
- Abstract要約: 現代のAIは、参加者が自分の見解を自由形式のテキストとして表現する、集合的な意思決定への扉を開く。
標準テキスト埋め込みは意味的類似度を測定するが、施設位置問題と公正クラスタリングの距離はテクスタイト優先類似度と呼ばれるものを必要とする。
この相関関係を断ち切るために設計された合成トレーニングデータにより、最適スコアラーはニュアンスに支配されたコサインから確実にシフトし、11のオンライン熟考データセットにおける選好予測を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 42.35314862635723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern AI is opening the door to collective decision-making in which participants express their views as free-form text rather than voting on a fixed set of candidates. A natural idea is to embed these opinions in a vector space so that the substantial literature on facility location problems and fair clustering can be brought to bear. But standard text embeddings measure semantic similarity, whereas distances in facility location problems and fair clustering require what we call \textit{preferential similarity}: a participant's agreement with a piece of text should be inversely related to their distance from it. Off-the-shelf embeddings inherit a coarse preference signal through a correlation between semantic and preferential similarity, but fail to capture preferences when the correlation breaks. We formalize this as an invariance problem: text embedding models encode both a preference-relevant signal (stance and values) and semantic nuisance (style and wording), and the two are observationally correlated, so a geometry that relies on nuisance can appear preference-correct even when it is not. We show that synthetic training data designed to break this correlation provably shifts the optimal scorer away from nuisance-dominated cosine and significantly improves preference prediction across 11 online deliberation datasets.
- Abstract(参考訳): 現代のAIは、参加者が一定の候補に投票するのではなく、自由形式のテキストとして自分の見解を表現する、集合的な意思決定への扉を開く。
自然な考え方は、これらの意見をベクトル空間に埋め込むことで、施設の位置問題や公平なクラスタリングに関するかなりの文献を扱えるようにすることである。
しかし、標準的なテキスト埋め込みは意味的類似度を測るが、施設の位置問題と公正クラスタリングの距離は、私たちが「textit{preferential similarity}」と呼ぶものを必要としている。
オフザシェルフ埋め込みは、意味的類似性と優先的類似性の間の相関を通じて粗い選好信号を継承するが、相関が壊れると選好を捉えない。
テキスト埋め込みモデルは、嗜好関連信号(スタンスと値)と意味的ニュアンス(スタイルと単語)の両方を符号化し、両者は観察的に相関しているため、ニュアンスに依存した幾何学は、たとえそうでなくても好ましくないように見える。
この相関関係を断ち切るために設計された合成トレーニングデータにより、最適スコアラーはニュアンスに支配されたコサインから確実にシフトし、11のオンライン熟考データセットにおける選好予測を大幅に改善することを示す。
関連論文リスト
- Text Corpora as Concept Fields: Black-Box Hallucination and Novelty Measurement [3.035872403903575]
本稿では,テキストコーパスのtextbfConcept Field について紹介する。
我々は、観測されたデルタとフィールドの局所ガウス推定の間の平均的な絶対的なz-距離である$で、フィールドとの合意を採点する。
提案手法は, 連邦規制法典に基づく接地性検出と, プロジェクト・グーテンベルクにおける新規性検出の2つの大規模設定において評価される。
論文 参考訳(メタデータ) (2026-05-06T16:38:49Z) - From Data Statistics to Feature Geometry: How Correlations Shape Superposition [23.393264014989615]
機械的解釈可能性における中心的な考え方は、ニューラルネットワークが次元よりも多くの特徴を表現することである。
重ね合わせは、特徴がスパースで非相関な理想的な設定で研究されている。
重ね合わせは一般に、幾何学的に最小化され、非線形性によってフィルタリングされなければならない干渉を導入するものとして理解される。
論文 参考訳(メタデータ) (2026-03-10T17:59:02Z) - Learning by Neighbor-Aware Semantics, Deciding by Open-form Flows: Towards Robust Zero-Shot Skeleton Action Recognition [41.77490816513839]
ゼロショットスケルトン動作認識のための新しい手法を,$texttt$textbfFlora$$として提案する。
具体的には、方向対応の地域意味論と相互整合性目標を取り入れたテキスト意味論を実践する。
3つのベンチマークデータセットによる実験により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-11-12T14:54:53Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Logic Constrained Pointer Networks for Interpretable Textual Similarity [11.142649867439406]
本稿では, セシネルゲーティング機能を備えた新しいポインターネットワークモデルを導入し, 構成チャンクを整列させる。
両文の相違を等しく補償し、アライメントが双方向であることを保証するために、損失関数によるこのベースモデルを改善する。
このモデルは、チャンクアライメントタスクのためのベンチマークSemEvalデータセットにおいて、97.73と96.32のF1スコアを達成する。
論文 参考訳(メタデータ) (2020-07-15T13:01:44Z) - Rationalizing Text Matching: Learning Sparse Alignments via Optimal
Transport [14.86310501896212]
本研究では,この選択的合理化アプローチをテキストマッチングに拡張する。
目標は、下流の予測の正当化として、トークンや文などのテキストを共同で選択し、調整することである。
我々のアプローチでは、入力間の最小コストアライメントを見つけるために最適なトランスポート(OT)を採用している。
論文 参考訳(メタデータ) (2020-05-27T01:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。