論文の概要: Evolutionary Feature-wise Thresholding for Binary Representation of NLP Embeddings
- arxiv url: http://arxiv.org/abs/2507.17025v1
- Date: Tue, 22 Jul 2025 21:29:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.778045
- Title: Evolutionary Feature-wise Thresholding for Binary Representation of NLP Embeddings
- Title(参考訳): NLP埋め込みのバイナリ表現のための進化的特徴量閾値法
- Authors: Soumen Sinha, Shahryar Rahnamayan, Azam Asilian Bidgoli,
- Abstract要約: Thresholdingは、連続的な埋め込みをバイナリ表現に変換する一般的な方法である。
本稿では,各特徴の最適しきい値を特定するためのコーディネート検索に基づく最適化フレームワークを提案する。
我々の最適なバーコード表現は、様々なNLPアプリケーションで有望な結果を示している。
- 参考スコア(独自算出の注目度): 0.24578723416255746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient text embedding is crucial for large-scale natural language processing (NLP) applications, where storage and computational efficiency are key concerns. In this paper, we explore how using binary representations (barcodes) instead of real-valued features can be used for NLP embeddings derived from machine learning models such as BERT. Thresholding is a common method for converting continuous embeddings into binary representations, often using a fixed threshold across all features. We propose a Coordinate Search-based optimization framework that instead identifies the optimal threshold for each feature, demonstrating that feature-specific thresholds lead to improved performance in binary encoding. This ensures that the binary representations are both accurate and efficient, enhancing performance across various features. Our optimal barcode representations have shown promising results in various NLP applications, demonstrating their potential to transform text representation. We conducted extensive experiments and statistical tests on different NLP tasks and datasets to evaluate our approach and compare it to other thresholding methods. Binary embeddings generated using using optimal thresholds found by our method outperform traditional binarization methods in accuracy. This technique for generating binary representations is versatile and can be applied to any features, not just limited to NLP embeddings, making it useful for a wide range of domains in machine learning applications.
- Abstract(参考訳): 大規模自然言語処理(NLP)アプリケーションには,効率的なテキスト埋め込みが不可欠である。
本稿では,BERTのような機械学習モデルから派生したNLP埋め込みにおいて,実数値機能の代わりにバイナリ表現(バーコード)を用いる方法について検討する。
Thresholdingは、連続的な埋め込みをバイナリ表現に変換する一般的な方法である。
本稿では,各特徴に対して最適なしきい値を特定するためのコーディネート検索に基づく最適化フレームワークを提案する。
これによりバイナリ表現が正確かつ効率的になり、さまざまな機能のパフォーマンスが向上する。
最適なバーコード表現は、様々なNLPアプリケーションにおいて有望な結果を示し、テキスト表現を変換する可能性を示している。
異なるNLPタスクやデータセットに対する広範な実験と統計的試験を行い、我々のアプローチを評価し、他のしきい値法と比較した。
本手法で得られた最適しきい値を用いて生成したバイナリ埋め込みは,従来のバイナライズ法よりも精度が高い。
バイナリ表現を生成するこのテクニックは汎用的であり、NLP埋め込みに限らず、あらゆる機能に適用することができる。
関連論文リスト
- Learning Binarized Representations with Pseudo-positive Sample Enhancement for Efficient Graph Collaborative Filtering [35.82405808653398]
効率的な協調フィルタリングのためのグラフ表現バイナライゼーションの問題について検討する。
その結果, バイナライゼーションの様々な段階における情報損失の低減は, 性能に有意な影響を及ぼすことが示唆された。
前者のBiGeaRと比較して、BiGeaR++は微細な推論蒸留機構と効果的な埋め込みサンプル合成手法を導入している。
論文 参考訳(メタデータ) (2025-06-03T11:11:43Z) - Advancements in Natural Language Processing: Exploring Transformer-Based Architectures for Text Understanding [10.484788943232674]
本稿では,BERT や GPT などのトランスフォーマーモデルの進歩を考察し,テキスト理解タスクにおける優れた性能に着目した。
その結果、GLUEやSQuADのようなベンチマークでは、高い計算コストなどの課題はあるものの、F1スコアが90%を超えている。
論文 参考訳(メタデータ) (2025-03-26T04:45:33Z) - Beyond the Edge of Function: Unraveling the Patterns of Type Recovery in Binary Code [55.493408628371235]
本稿では,バイナリコードの変数型を復元するフレームワークByteTRを提案する。
ByteTRは、関数間の変数伝搬の普遍性を考慮して、変数伝搬をトレースするためのプロシーダ間解析を行い、ゲートグラフニューラルネットワークを用いて、変数型回復のための長距離データフロー依存性をキャプチャする。
論文 参考訳(メタデータ) (2025-03-10T12:27:05Z) - A Progressive Transformer for Unifying Binary Code Embedding and Knowledge Transfer [15.689556592544667]
本稿では,バイナリコード埋め込みのための新しいトランスフォーマーベースの手法であるProTSTを紹介する。
ProTSTは、独特の木のような構造に基づく階層的なトレーニングプロセスを採用している。
その結果, ProTSTは従来の2段階トレーニングに比べて14.8%改善した(F1, MRR, Recall@1)。
論文 参考訳(メタデータ) (2024-12-15T13:04:29Z) - Binary Classifier Optimization for Large Language Model Alignment [4.61411484523337]
ChatGPTのような現実世界のサービスでは、ユーザーフィードバックに基づいたモデルの調整がパフォーマンス向上に不可欠である。
既存のアライメント研究の多くは、ペアとして正と負の両方の反応を必要とする嗜好に基づくアプローチに依存している。
本稿では,バイナリフィードバックのみを用いてLLMを効果的に整合させる手法であるバイナリ最適化(BCO)を提案する。
論文 参考訳(メタデータ) (2024-04-06T15:20:59Z) - BiPFT: Binary Pre-trained Foundation Transformer with Low-rank Estimation of Binarization Residual Polynomials [27.573329030086676]
本研究では,自然言語理解(NLU)タスクのためのBiPFT(Bibinary Pretrained Foundation Transformer)を提案する。
BiPFTはバイナリニューラルネットワーク(BNN)の学習能力を大幅に向上させる
大規模な実験により、GLUEベンチマークでタスク固有のベースラインを平均15.4%上回るBiPFTの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-14T13:42:57Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [2.2329530239800035]
モデルがバイナリコードの複雑なニュアンスをキャプチャすることを保証するために,新しいリッチ・セマンティック関数表現手法を提案する。
新たに設計された2つのトレーニングタスクを含むUniASMという,UniLMベースのバイナリコード埋め込みモデルを紹介した。
実験の結果,UniASMは評価データセットに対する最先端(SOTA)アプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Provably Efficient Representation Selection in Low-rank Markov Decision
Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。
Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。
オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文 参考訳(メタデータ) (2021-06-22T17:16:50Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。