このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240804となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 2次元ベクトル磁気画像からの電流密度再構成のための機械学習
Machine Learning for Improved Current Density Reconstruction from 2D Vector Magnetic Images ( http://arxiv.org/abs/2407.14553v2 ) ライセンス: Link先を確認 | Niko R. Reed, Danyal Bhutto, Matthew J. Turner, Declan M. Daly, Sean M. Oliver, Jiashen Tang, Kevin S. Olsson, Nicholas Langellier, Mark J. H. Ku, Matthew S. Rosen, Ronald L. Walsworth, | (参考訳) 磁場測定による電流密度の再構成は、材料科学、回路設計、品質制御、プラズマ物理学、生物学における重要な技術である。
平面電流に対する解析的再構成法は存在するが、高空間周波数ノイズや大きなスタンドオフ距離の存在下では分解され、研究可能なシステムの種類が制限される。
本稿では, 量子ダイヤモンド顕微鏡 (QDM) で取得したベクトル磁場の2次元(2次元)画像から, ダイヤモンド中の窒素空孔 (NV) 中心の表面層を利用して, 電流密度再構成にディープ畳み込みニューラルネットワークを用いることを実証する。
トレーニングされたネットワーク性能は、高いノイズや大きな待機距離を持つデータの解析的再構成をはるかに上回る。
この機械学習技術は、低いSNRデータの品質インバージョンを実行し、データ収集時間を約400倍に短縮し、より弱い3次元電流源の再構築を可能にする。
The reconstruction of electrical current densities from magnetic field measurements is an important technique with applications in materials science, circuit design, quality control, plasma physics, and biology. Analytic reconstruction methods exist for planar currents, but break down in the presence of high spatial frequency noise or large standoff distance, restricting the types of systems that can be studied. Here, we demonstrate the use of a deep convolutional neural network for current density reconstruction from two-dimensional (2D) images of vector magnetic fields acquired by a quantum diamond microscope (QDM) utilizing a surface layer of Nitrogen Vacancy (NV) centers in diamond. Trained network performance significantly exceeds analytic reconstruction for data with high noise or large standoff distances. This machine learning technique can perform quality inversions on lower SNR data, reducing the data collection time by a factor of about 400 and permitting reconstructions of weaker and three-dimensional current sources. | 翻訳日:2024-08-25 14:30:57 公開日:2024-08-04 |
# 動的コントラスト領域適応によるマルチソース脳波感情認識
Multi-Source EEG Emotion Recognition via Dynamic Contrastive Domain Adaptation ( http://arxiv.org/abs/2408.10235v1 ) ライセンス: Link先を確認 | Yun Xiao, Yimeng Zhang, Xiaopeng Peng, Shuzheng Han, Xia Zheng, Dingyi Fang, Xiaojiang Chen, | (参考訳) 脳波検査(EEG)は、人間の認知と精神状態の信頼性を示す。
脳波からの正確な感情認識は、個人間および測定セッション間の信号のばらつきにより依然として困難である。
これらの課題に対処するため,マルチブランチ・コントラッシブ・ニューラルネットとコントラッシブ・サブドメインの差分学習を用いて,ドメイン間の粗粒度とクラス内適応をモデル化するマルチソース動的コントラッシブ・ドメイン適応法(MS-DCDA)を提案する。
モデルでは,各ソースからのドメイン知識と補完的なソースアンサンブルを活用し,動的重み付け学習を用いてドメイン転送可能性と識別可能性の最適なトレードオフを実現する。
提案したMS-DCDAモデルはSEEDデータセットとSEED-IVデータセットを用いて評価され, クロスオブジェクト実験では90.84\%と78.49\%, クロスセッション実験では955.82\%, 822.25\%が最も高い精度を達成した。
我々のモデルは、認識精度、クラス間マージン、クラス内コンパクト性において、いくつかの代替領域適応法より優れている。
また, 前頭葉, 頭頂葉の感情感受性が向上し, メンタルヘルス介入, パーソナライズドメディカル, 予防戦略の発達が示唆された。
Electroencephalography (EEG) provides reliable indications of human cognition and mental states. Accurate emotion recognition from EEG remains challenging due to signal variations among individuals and across measurement sessions. To address these challenges, we introduce a multi-source dynamic contrastive domain adaptation method (MS-DCDA), which models coarse-grained inter-domain and fine-grained intra-class adaptations through a multi-branch contrastive neural network and contrastive sub-domain discrepancy learning. Our model leverages domain knowledge from each individual source and a complementary source ensemble and uses dynamically weighted learning to achieve an optimal tradeoff between domain transferability and discriminability. The proposed MS-DCDA model was evaluated using the SEED and SEED-IV datasets, achieving respectively the highest mean accuracies of $90.84\%$ and $78.49\%$ in cross-subject experiments as well as $95.82\%$ and $82.25\%$ in cross-session experiments. Our model outperforms several alternative domain adaptation methods in recognition accuracy, inter-class margin, and intra-class compactness. Our study also suggests greater emotional sensitivity in the frontal and parietal brain lobes, providing insights for mental health interventions, personalized medicine, and development of preventive strategies. | 翻訳日:2024-08-25 14:21:10 公開日:2024-08-04 |
# AID-DTI:詳細なモデルに基づく深層学習による高密度拡散テンソルイメージングの高速化
AID-DTI: Accelerating High-fidelity Diffusion Tensor Imaging with Detail-preserving Model-based Deep Learning ( http://arxiv.org/abs/2408.10236v1 ) ライセンス: Link先を確認 | Wenxin Fan, Jian Cheng, Cheng Li, Jing Yang, Ruoyou Wu, Juan Zou, Shanshan Wang, | (参考訳) 深層学習は拡散テンソルイメージング(DTI)の加速に大きな可能性を示している。
それにもかかわらず、既存の手法はリッチノイズや渦電流に悩まされがちであり、特に少量のサンプルq空間データを使用する場合、DTI由来のパラメトリックマップの再構成において詳細が失われる。
そこで本研究では, AID-DTI (\textbf{A}ccelerating h\textbf{I}gh fi\textbf{D}elity \textbf{D}iffusion \textbf{T}ensor \textbf{I}maging)を提案する。
AID-DTIは新たに設計されたSingular Value Decomposition-based regularizerを備えており、DTIから派生したパラメータ間の相関を利用して、ネットワークトレーニング中にノイズを抑えながら細部を効果的に捉えることができる。
さらに,Nesterovに基づく適応学習アルゴリズムを導入し,正規化パラメータを動的に最適化して性能を向上させる。
AID-DTIは柔軟なネットワークアーキテクチャを組み込むことができる拡張可能なフレームワークである。
HCP(Human Connectome Project)データによる実験結果から,提案手法はDTIパラメータマップを細粒度で推定し,定量的かつ定性的に他の最先端手法よりも優れていることが示された。
Deep learning has shown great potential in accelerating diffusion tensor imaging (DTI). Nevertheless, existing methods tend to suffer from Rician noise and eddy current, leading to detail loss in reconstructing the DTI-derived parametric maps especially when sparsely sampled q-space data are used. To address this, this paper proposes a novel method, AID-DTI (\textbf{A}ccelerating h\textbf{I}gh fi\textbf{D}elity \textbf{D}iffusion \textbf{T}ensor \textbf{I}maging), to facilitate fast and accurate DTI with only six measurements. AID-DTI is equipped with a newly designed Singular Value Decomposition-based regularizer, which can effectively capture fine details while suppressing noise during network training by exploiting the correlation across DTI-derived parameters. Additionally, we introduce a Nesterov-based adaptive learning algorithm that optimizes the regularization parameter dynamically to enhance the performance. AID-DTI is an extendable framework capable of incorporating flexible network architecture. Experimental results on Human Connectome Project (HCP) data consistently demonstrate that the proposed method estimates DTI parameter maps with fine-grained details and outperforms other state-of-the-art methods both quantitatively and qualitatively. | 翻訳日:2024-08-25 14:21:10 公開日:2024-08-04 |
# Mamba-Spike: 効率的な時間データ処理のためのスパイクフロントエンドによるMambaアーキテクチャの強化
Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing ( http://arxiv.org/abs/2408.11823v1 ) ライセンス: Link先を確認 | Jiahao Qin, Feng Liu, | (参考訳) 近年、ニューラルネットワークの効率と人工知能システムの性能のギャップを埋めることを目的として、ニューロモルフィックコンピューティングの分野が注目されている。
本稿では, スパイクするフロントエンドをMambaバックボーンに統合し, 効率的かつ堅牢な時間データ処理を実現する新しいニューロモルフィックアーキテクチャであるMamba-Spikeを紹介する。
提案手法は、スパイキングニューラルネットワーク(SNN)のイベント駆動性を活用して、非同期で時間変化のある入力をキャプチャし、処理すると同時に、Mambaバックボーンの選択状態空間と線形時間シーケンスモデリング機能を利用して、複雑な時間的依存関係を効果的にモデル化する。
マンバ・スパイクのスパイクフロントエンドは、適応しきい値とシナプス力学とともに生物学的にインスパイアされたニューロンモデルを採用している。
これらのコンポーネントは、入力データの効率的な時空間特徴抽出および符号化を可能にする。
一方、Mambaのバックボーンは、ゲートされた繰り返しユニットとアテンション機構を備えた階層構造を利用して、長期的な依存関係を捕捉し、関連する情報を選択的に処理する。
提案手法の有効性を評価するため,DVS Gesture や TIDIGITS などのニューロモルフィックデータセットと,Sequential MNIST や CIFAR10-DVS などの標準データセットを総合的に検討した。
その結果、Mamba-Spikeは最先端のベースラインを一貫して上回り、精度の向上、レイテンシの低減、エネルギー効率の向上を実現している。
さらに、このモデルは様々な入力摂動やノイズレベルに対して堅牢性を示し、現実世界の応用の可能性を強調している。
コードはhttps://github.com/ECNU-Cross-Innovation-Lab/Mamba-Spikeで入手できる。
The field of neuromorphic computing has gained significant attention in recent years, aiming to bridge the gap between the efficiency of biological neural networks and the performance of artificial intelligence systems. This paper introduces Mamba-Spike, a novel neuromorphic architecture that integrates a spiking front-end with the Mamba backbone to achieve efficient and robust temporal data processing. The proposed approach leverages the event-driven nature of spiking neural networks (SNNs) to capture and process asynchronous, time-varying inputs, while harnessing the power of the Mamba backbone's selective state spaces and linear-time sequence modeling capabilities to model complex temporal dependencies effectively. The spiking front-end of Mamba-Spike employs biologically inspired neuron models, along with adaptive threshold and synaptic dynamics. These components enable efficient spatiotemporal feature extraction and encoding of the input data. The Mamba backbone, on the other hand, utilizes a hierarchical structure with gated recurrent units and attention mechanisms to capture long-term dependencies and selectively process relevant information. To evaluate the efficacy of the proposed architecture, a comprehensive empirical study is conducted on both neuromorphic datasets, including DVS Gesture and TIDIGITS, and standard datasets, such as Sequential MNIST and CIFAR10-DVS. The results demonstrate that Mamba-Spike consistently outperforms state-of-the-art baselines, achieving higher accuracy, lower latency, and improved energy efficiency. Moreover, the model exhibits robustness to various input perturbations and noise levels, highlighting its potential for real-world applications. The code will be available at https://github.com/ECNU-Cross-Innovation-Lab/Mamba-Spike. | 翻訳日:2024-08-25 14:11:11 公開日:2024-08-04 |
# 知識AI:科学知識の抽出と理解を支援する微調整NLPモデル
Knowledge AI: Fine-tuning NLP Models for Facilitating Scientific Knowledge Extraction and Understanding ( http://arxiv.org/abs/2408.04651v1 ) ライセンス: Link先を確認 | Balaji Muralidharan, Hayden Beadles, Reza Marzban, Kalyan Sashank Mupparaju, | (参考訳) 本研究は,大規模言語モデル(LLM)が特定の領域にまたがる科学的知識の理解と抽出に有効であることを調査し,深層学習の枠組みである知識AIを構築することを目的とする。
このフレームワークの一部として、事前訓練されたモデルを採用し、科学領域のデータセットにそれらを微調整します。
モデルは、要約、テキスト生成、質問応答、名前付きエンティティ認識の4つの重要な自然言語処理(NLP)タスクに対応している。
その結果,ドメイン固有の微調整により各タスクのモデル性能が大幅に向上し,科学的文脈への適用性が向上することが示唆された。
この適応により、非専門家は、対象とする科学分野の情報を効率的にクエリし、抽出することができ、科学における知識発見のツールとしての微調整LDMの可能性を実証することができる。
This project investigates the efficacy of Large Language Models (LLMs) in understanding and extracting scientific knowledge across specific domains and to create a deep learning framework: Knowledge AI. As a part of this framework, we employ pre-trained models and fine-tune them on datasets in the scientific domain. The models are adapted for four key Natural Language Processing (NLP) tasks: summarization, text generation, question answering, and named entity recognition. Our results indicate that domain-specific fine-tuning significantly enhances model performance in each of these tasks, thereby improving their applicability for scientific contexts. This adaptation enables non-experts to efficiently query and extract information within targeted scientific fields, demonstrating the potential of fine-tuned LLMs as a tool for knowledge discovery in the sciences. | 翻訳日:2024-08-19 04:16:58 公開日:2024-08-04 |
# 交通事故重大度分析と推論のためのチェーン・オブ・サートとプロンプト・エンジニアリングによる大規模言語モデルの活用
Leveraging Large Language Models with Chain-of-Thought and Prompt Engineering for Traffic Crash Severity Analysis and Inference ( http://arxiv.org/abs/2408.04652v1 ) ライセンス: Link先を確認 | Hao Zhen, Yucheng Shi, Yongcan Huang, Jidong J. Yang, Ninghao Liu, | (参考訳) 本研究では,大規模言語モデル (LLM) のパワーを生かして,GPT-3.5-turbo, LLaMA3-8B, LLaMA3-70B の3つの最先端 LLM をクラッシュ重大性推論に利用し,それらを分類タスクとして利用することを検討した。
我々は、ドメイン知識を取り入れた事前構築テンプレートを用いて、オリジナルのトラフィッククラッシュ表データからテキスト物語を生成する。
さらに, 衝突原因の解析においてLCMを誘導し, 深刻度を推定するためにChain-of-Thought(CoT)推論を組み込んだ。
また, 本研究は, 衝突重大度推定に特化して設計されたプロンプトエンジニアリングの影響についても検討した。
1)衝突重大度解析におけるモデルの能力評価,(2)CoTとドメインインフォームド・プロンプト・エンジニアリングの有効性評価,(3)CoTフレームワークによる推論能力の検討。
以上の結果から,LLaMA3-70Bは他のモデル,特にゼロショット設定では一貫して優れていた。
CoTとPrompt Engineeringの技術は性能を大幅に向上させ、論理的推論を改善し、アライメントの問題に対処した。
特に、COTはLSMの推論プロセスに関する貴重な洞察を提供し、環境条件、運転者行動、重大度分析と推論における車両特性など様々な要因を考慮できる能力を公開した。
Harnessing the power of Large Language Models (LLMs), this study explores the use of three state-of-the-art LLMs, specifically GPT-3.5-turbo, LLaMA3-8B, and LLaMA3-70B, for crash severity inference, framing it as a classification task. We generate textual narratives from original traffic crash tabular data using a pre-built template infused with domain knowledge. Additionally, we incorporated Chain-of-Thought (CoT) reasoning to guide the LLMs in analyzing the crash causes and then inferring the severity. This study also examine the impact of prompt engineering specifically designed for crash severity inference. The LLMs were tasked with crash severity inference to: (1) evaluate the models' capabilities in crash severity analysis, (2) assess the effectiveness of CoT and domain-informed prompt engineering, and (3) examine the reasoning abilities with the CoT framework. Our results showed that LLaMA3-70B consistently outperformed the other models, particularly in zero-shot settings. The CoT and Prompt Engineering techniques significantly enhanced performance, improving logical reasoning and addressing alignment issues. Notably, the CoT offers valuable insights into LLMs' reasoning processes, unleashing their capacity to consider diverse factors such as environmental conditions, driver behavior, and vehicle characteristics in severity analysis and inference. | 翻訳日:2024-08-19 04:16:58 公開日:2024-08-04 |
# 物理層認証のための一級分類器による類似テストの学習
Learning The Likelihood Test With One-Class Classifiers for Physical Layer Authentication ( http://arxiv.org/abs/2210.12494v4 ) ライセンス: Link先を確認 | Francesco Ardizzon, Stefano Tomasin, | (参考訳) 物理層認証(PLA)機構では、メッセージが移動した物理チャネルの特徴に応じて、受信したメッセージが正規のユーザまたは侵入者によって送信されたかどうかを検証者が判定する。
検証器で実装された認証チェックを設計するには、通常、正規ユーザからチャネルに統計情報または機能のデータセットが利用可能であり、攻撃中は情報がない。
統計が知られているとき、よく知られた良い解は、可能性テスト(LT)である。
データセットが利用可能であれば、決定問題は1クラス分類(OCC)であり、そのソリューションで使用される機械学習(ML)テクニックの理解は、セキュリティを確保する上で重要である。
そこで本稿では,ニューラルネットワーク(NN)と1クラス最小二乗サポートベクトルマシン(OCLSSVM)モデルを用いて,単一クラスデータセットと人工データセットの2クラス分類器として訓練したML PLA検証手法を提案する。
正則クラスデータセットのドメイン上に均一に分散されたチャネル特徴(CF)ベクトルを生成して、負のクラスのための人工データセットを得る。
また、人工データセットを必要とせずに、LTとして動作するPLA検証器を訓練する修正確率勾配降下法(SGD)アルゴリズムを導出する。
さらに,一級最小二乗化ベクトルマシンが収束時にLTとして動作することを示す。
最後に、広く使われているオートエンコーダ分類器は一般にLTを提供していないことを示す。
In physical layer authentication (PLA) mechanisms, a verifier decides whether a received message has been transmitted by a legitimate user or an intruder, according to some features of the physical channel over which the message traveled. To design the authentication check implemented at the verifier, typically either the statistics or a dataset of features are available for the channel from the legitimate user, while no information is available when under attack. When the statistics are known, a well-known good solution is the likelihood test (LT). When a dataset is available, the decision problem is one-class classification (OCC) and a good understanding of the machine learning (ML) techniques used for its solution is important to ensure security. Thus, in this paper, we aim at obtaining ML PLA verifiers that operate as the LT. We show how to do it with the neural network (NN) and the one-class least-squares support vector machine (OCLSSVM) models, trained as two-class classifiers on the single-class dataset and an artificial dataset. The artificial dataset for the negative class is obtained by generating channel feature (CF) vectors uniformly distributed over the domain of the legitimate class dataset. We also derive a modified stochastic gradient descent (SGD) algorithm that trains a PLA verifier operating as LT without the need for the artificial dataset. Furthermore, we show that the one-class least-squares support vector machine with suitable kernels operates as the LT at convergence. Lastly, we show that the widely used autoencoder classifier generally does not provide the LT. Numerical results are provided considering PLA on both wireless and underwater acoustic channels. | 翻訳日:2024-08-07 20:01:27 公開日:2024-08-04 |
# 一般化三光子化:低地球軌道の初期軌道決定のための近似最大公準推定器
Generalizing Trilateration: Approximate Maximum Likelihood Estimator for Initial Orbit Determination in Low-Earth Orbit ( http://arxiv.org/abs/2407.15180v2 ) ライセンス: Link先を確認 | Ricardo Ferreira, Filipa Valdeira, Marta Guimarães, Cláudia Soares, | (参考訳) 軌道上でのアクティブな衛星や宇宙デブリの数の増加に伴い、初期軌道決定(IOD)の問題がますます重要になり、高い精度が要求される。
長年にわたり、フィルター法(例えば拡張カルマンフィルタ)、微分代数学、ランベルトの問題を解く様々なアプローチが提示されてきた。
本研究では,3つのモノスタティックレーダの設定について検討する。
これは、それぞれのレーダーが射程と射程の単一の測定値を得ることのできる最先端のアプローチであるトリラテレーション(英語版)と類似した設定に従う。
また,Multiple-Input Multiple-Output (MIMO) レーダーの進歩により,各位置がより広い範囲,角度,ドップラーシフトの測定値を得ることができると仮定した。
したがって, この手法は, より最近の技術を活用し, 追加データを取り入れた3次化の拡張と解釈できる。
我々は、いくつかの観測において漸近的に偏りがなく、漸近的に効率的である最大様相推定器(MLE)として問題を定式化する。
数値実験により,本手法は測定回数の3乗法と同じ精度を達成し,衛星の状態ベクトルのより正確な推定値を返すための代替および一般化を提供することを示した。
With the increase in the number of active satellites and space debris in orbit, the problem of initial orbit determination (IOD) becomes increasingly important, demanding a high accuracy. Over the years, different approaches have been presented such as filtering methods (for example, Extended Kalman Filter), differential algebra or solving Lambert's problem. In this work, we consider a setting of three monostatic radars, where all available measurements are taken approximately at the same instant. This follows a similar setting as trilateration, a state-of-the-art approach, where each radar is able to obtain a single measurement of range and range-rate. Differently, and due to advances in Multiple-Input Multiple-Output (MIMO) radars, we assume that each location is able to obtain a larger set of range, angle and Doppler shift measurements. Thus, our method can be understood as an extension of trilateration leveraging more recent technology and incorporating additional data. We formulate the problem as a Maximum Likelihood Estimator (MLE), which for some number of observations is asymptotically unbiased and asymptotically efficient. Through numerical experiments, we demonstrate that our method attains the same accuracy as the trilateration method for the same number of measurements and offers an alternative and generalization, returning a more accurate estimation of the satellite's state vector, as the number of available measurements increases. | 翻訳日:2024-08-07 18:32:55 公開日:2024-08-04 |
# 因子モデルのためのkanベースのオートエンコーダ
KAN based Autoencoders for Factor Models ( http://arxiv.org/abs/2408.02694v1 ) ライセンス: Link先を確認 | Tianqi Wang, Shubham Singh, | (参考訳) Kolmogorov-Arnold Networks (KANs) の最近の進歩に触発されて、潜在因子条件付き資産価格モデルに新しいアプローチを導入する。
従来の機械学習アプリケーションでは,ReLUアクティベーション機能を備えた多層パーセプトロンを用いて遅延因子の露光をモデル化する手法が主流であったが,本手法では,精度と解釈性の両方でMLPモデルを上回る自動エンコーダが提案されている。
提案モデルは,資産特性の非線形機能として露出を近似する際の柔軟性を向上するとともに,潜在要因を解釈するための直感的なフレームワークをユーザに提供する。
実証的なバックテストは、我々のモデルが横断的リスク露光を説明する優れた能力を示している。
さらに,本モデルで構築した長短ポートフォリオはシャープ比を高くし,投資管理における実用的価値を強調した。
Inspired by recent advances in Kolmogorov-Arnold Networks (KANs), we introduce a novel approach to latent factor conditional asset pricing models. While previous machine learning applications in asset pricing have predominantly used Multilayer Perceptrons with ReLU activation functions to model latent factor exposures, our method introduces a KAN-based autoencoder which surpasses MLP models in both accuracy and interpretability. Our model offers enhanced flexibility in approximating exposures as nonlinear functions of asset characteristics, while simultaneously providing users with an intuitive framework for interpreting latent factors. Empirical backtesting demonstrates our model's superior ability to explain cross-sectional risk exposures. Moreover, long-short portfolios constructed using our model's predictions achieve higher Sharpe ratios, highlighting its practical value in investment management. | 翻訳日:2024-08-07 16:17:55 公開日:2024-08-04 |
# 連続学習のための分散レベルメモリリコール:知識の保存とコンフュージョン回避
Distribution-Level Memory Recall for Continual Learning: Preserving Knowledge and Avoiding Confusion ( http://arxiv.org/abs/2408.02695v1 ) ライセンス: Link先を確認 | Shaoxu Cheng, Kanglei Geng, Chiyuan He, Zihuan Qiu, Linfeng Xu, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Hongliang Li, | (参考訳) 継続学習(CL)は、Deep Neural Networks(DNN)が、学習済みの知識を忘れずに、新しいデータを学習できるようにすることを目的としている。
この目標を達成するための鍵は、機能レベルでの混乱を避けること、すなわち、古いタスクと新しいタスクと古いタスクの混同を避けることである。
従来のプロトタイプベースCL法は,ガウスノイズを古いクラスのセントロイドに付加することにより,古い知識再生のための擬似特徴を生成する。
しかし、特徴空間の分布は漸進的過程の間に異方性を示すため、擬似的特徴が特徴空間における古い知識の分布を忠実に再現することを防ぎ、古いタスクの分類境界が混乱する。
この問題に対処するために,ガウス混合モデルを用いて,古知識の特徴分布を分布レベルで正確に適合させ,次の段階で擬似特徴を生成する分散レベルメモリリコール法を提案する。
さらに, 分散レベルの混乱に対する耐性は, 多モーダル不均衡の問題が, 異なるモーダル間の特徴応答に有意な差をもたらし, 試作CL法における古いタスクの混乱を悪化させるため, 多モーダル学習においても重要である。
そこで,本研究では,モーダル間誘導・イントラモーダルマイニング(IGIM)法を用いて,支配的モダリティからの事前情報を用いて弱いモダリティを誘導し,モダリティ内で有用な情報を探るため,マルチモーダル不均衡問題を緩和する。
第2のキーとして、新しいタスクと古いタスクを区別するモデルの能力を定量的に記述するコンフュージョン指標を提案し、インクリメンタル・ミックス・フィーチャー・エンハンスメント(IMFE)法を用いて、新しいサンプル特徴で擬似特徴を増強し、新しい知識と古い知識の分類的混乱を緩和する。
Continual Learning (CL) aims to enable Deep Neural Networks (DNNs) to learn new data without forgetting previously learned knowledge. The key to achieving this goal is to avoid confusion at the feature level, i.e., avoiding confusion within old tasks and between new and old tasks. Previous prototype-based CL methods generate pseudo features for old knowledge replay by adding Gaussian noise to the centroids of old classes. However, the distribution in the feature space exhibits anisotropy during the incremental process, which prevents the pseudo features from faithfully reproducing the distribution of old knowledge in the feature space, leading to confusion in classification boundaries within old tasks. To address this issue, we propose the Distribution-Level Memory Recall (DMR) method, which uses a Gaussian mixture model to precisely fit the feature distribution of old knowledge at the distribution level and generate pseudo features in the next stage. Furthermore, resistance to confusion at the distribution level is also crucial for multimodal learning, as the problem of multimodal imbalance results in significant differences in feature responses between different modalities, exacerbating confusion within old tasks in prototype-based CL methods. Therefore, we mitigate the multi-modal imbalance problem by using the Inter-modal Guidance and Intra-modal Mining (IGIM) method to guide weaker modalities with prior information from dominant modalities and further explore useful information within modalities. For the second key, We propose the Confusion Index to quantitatively describe a model's ability to distinguish between new and old tasks, and we use the Incremental Mixup Feature Enhancement (IMFE) method to enhance pseudo features with new sample features, alleviating classification confusion between new and old knowledge. | 翻訳日:2024-08-07 16:17:55 公開日:2024-08-04 |
# 深部非弾性過程領域における空間と時間の追加次元
Additional dimensions of space and time in the region of deep inelastic processes ( http://arxiv.org/abs/2408.02696v1 ) ライセンス: Link先を確認 | B. B. Levchenko, | (参考訳) 我々は、有名なハイゼンベルクの不確実性関係とランダウ=ピエルスの不確実性関係が、新しい不確実性関係に属する'hidden'' 角変数を暗黙的に含んでいることを証明した。
得られた関係に基づいて、間接測定において仮想粒子の速度を$U^*$と推定する式を導出した。
間接測定理論と導出式を適用し, DIS HERAデータから仮想光子の群速度の加群を推定した。
HERAデータから, 仮想光子の速度は, 自由空間における光速$c$, $U^*>c$を超えることが示された。
仮想光子と仮説タキオン粒子の性質はほぼ同一である。
粒子相互作用の領域では、新しい角パラメータは位相空間幾何学のタイプと時空連続体の次元性と密接に関連している。
正規化条件 $U^* =c$ at $Q^2=0\, \rm{GeV}^2$ の問題は、I. Bars が開発した 'Two-Time Physics' の枠組みの中で自然に解けることが示唆されている。
2T-物理学は、位相空間における局所シンプレクティック$\mathrm{Sp(2,R)}$ゲージ対称性とシグネチャ$\mathrm{(1+1',d+1')}$の時空幾何学を持つ理論である。
We prove that the well-known Heisenberg uncertainty relations and Landau-Peierls uncertainty relations implicitly contain ``hidden'' angular variables, which belong to new uncertainty relations. Based on the obtained relations, we derive a formula for estimating the speed $U^*$ of a virtual particle in indirect measurements. We applied the theory of indirect measurements and the derived formula to estimate the module of the group velocity of virtual photons from the DIS HERA data. The HERA data indicate that the speed of virtual photons exceeds the speed of light $c$ in free space, $U^*>c$. The properties of virtual photons and a hypothetical tachyon particle are almost identical. It is found that in the realm of particle interaction, the new angular parameters are closely related to the type of the phase-space geometry and dimensionality of the space-time continuum. It is suggested that the problem of the normalization condition $U^* =c$ at $Q^2=0\, \rm{GeV}^2$ can be solved naturally within the framework of ``Two-Time Physics'' developed by I. Bars. 2T-physics is the theory with local symplectic $\mathrm{Sp(2,R)}$ gauge symmetry in phase-space and the space-time geometry of signature $\mathrm{(1+1',d+1')}$ with one extra time-like and one extra space-like dimensions. | 翻訳日:2024-08-07 16:17:55 公開日:2024-08-04 |
# 電力ユニットネットワークが機能しない理由と改善方法--有効理論の視点から
Why Rectified Power Unit Networks Fail and How to Improve It: An Effective Theory Perspective ( http://arxiv.org/abs/2408.02697v1 ) ライセンス: Link先を確認 | Taeyoung Kim, Myungjoo Kang, | (参考訳) Rectified Power Unit (RePU) のアクティベーション機能は、Rectified Linear Unit (ReLU) とは異なり、ニューラルネットワークを構築する際に微分可能な機能である。
しかし、深い層が積み重なり、RePUで構築されたニューラルネットワークが重大な問題に直面すると、実験的に観察できる。
これらの問題には、価値の爆発や消滅、トレーニングの失敗などが含まれる。
ハイパーパラメータの初期化に関わらず、これらは発生します。
有効理論の観点から、本現象の原因を特定し、その欠点を克服しつつRePUの優位性を保った新たな活性化関数を提案する。
The Rectified Power Unit (RePU) activation functions, unlike the Rectified Linear Unit (ReLU), have the advantage of being a differentiable function when constructing neural networks. However, it can be experimentally observed when deep layers are stacked, neural networks constructed with RePU encounter critical issues. These issues include the values exploding or vanishing and failure of training. And these happen regardless of the hyperparameter initialization. From the perspective of effective theory, we aim to identify the causes of this phenomenon and propose a new activation function that retains the advantages of RePU while overcoming its drawbacks. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-04 |
# DeepNetBeam: 機能的傾斜多孔質ビーム解析のためのフレームワーク
DeepNetBeam: A Framework for the Analysis of Functionally Graded Porous Beams ( http://arxiv.org/abs/2408.02698v1 ) ライセンス: Link先を確認 | Mohammad Sadegh Eshaghi, Mostafa Bamdad, Cosmin Anitescu, Yizheng Wang, Xiaoying Zhuang, Timon Rabczuk, | (参考訳) 本研究では,FG多孔質ビームの解析における科学機械学習(SciML)のアプローチについて検討し,新しい枠組みの下で比較する。
ビーム材料特性は任意の連続関数として異なると仮定される。
提案手法は, ニューラルネットワーク/演算子の出力を変位場への近似とみなし, 連続体定式化に基づくビーム挙動を規定する方程式を導出する。
メソッドはフレームワークで実装され、3つのアプローチで定式化されます。
(a)ベクトルアプローチは物理情報ニューラルネットワーク(PINN)に導かれる。
b) エネルギーアプローチは、ディープエナジー・メソッド(DEM)をもたらし、
(c) データ駆動型アプローチにより、Neural Operatorメソッドのクラスが生成される。
最後に、ニューラルオペレーターは、ポロシティ分布パターンと任意のトラクション条件の下で、機能的にグレードされた材料による多孔質ビームの応答を予測するように訓練されている。
結果は解析的および数値的基準解を用いて検証される。
この原稿に付随するデータとコードはhttps://github.com/eshaghi-ms/DeepNetBeam.comで公開される。
This study investigates different Scientific Machine Learning (SciML) approaches for the analysis of functionally graded (FG) porous beams and compares them under a new framework. The beam material properties are assumed to vary as an arbitrary continuous function. The methods consider the output of a neural network/operator as an approximation to the displacement fields and derive the equations governing beam behavior based on the continuum formulation. The methods are implemented in the framework and formulated by three approaches: (a) the vector approach leads to a Physics-Informed Neural Network (PINN), (b) the energy approach brings about the Deep Energy Method (DEM), and (c) the data-driven approach, which results in a class of Neural Operator methods. Finally, a neural operator has been trained to predict the response of the porous beam with functionally graded material under any porosity distribution pattern and any arbitrary traction condition. The results are validated with analytical and numerical reference solutions. The data and code accompanying this manuscript will be publicly available at https://github.com/eshaghi-ms/DeepNetBeam. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-04 |
# 発明問題とパラメトリック測度 $m_λ$
Inventory problems and the parametric measure $m_λ$ ( http://arxiv.org/abs/2408.02700v1 ) ライセンス: Link先を確認 | Irina Georgescu, | (参考訳) 信頼性理論は、B. Liuによってファジィ不確実性を記述する新しい方法として導入された。
信頼性尺度は、信頼性理論の基本的な概念である。
最近、L.Yang と K. Iwamura はパラメトリック測度 $m_{\lambda}$$$$\lambda$ は区間 $[0,1]$ の真のパラメータであり、$\lambda = 1/2$ は特定の場合において信頼性測度の概念を得る。
本論文では,$m_{\lambda}$-measureを用いて,リスク中立なマルチイテム在庫問題について検討した。
我々は,2019年にY. Li と Y. Liu によって開発された信頼性在庫モデルを一般化した。
我々のモデルでは、需要ベクトルの成分はファジィ変数であり、最大化問題は$m_{\lambda}$-expected値という概念を用いて定式化される。
我々は最適化問題の解の一般公式を証明し、要求が台形および三角形のファジィ数である特定の場合における最適解の計算に有効な公式を得る。
例えば、$\lambda=1/2$ の場合、Li と Liu の信頼性在庫問題の最適解の計算公式を得る。
これらの計算式は数値データから得られる$m_{\lambda}$-modelに対して適用される。
The credibility theory was introduced by B. Liu as a new way to describe the fuzzy uncertainty. The credibility measure is the fundamental notion of the credibility theory. Recently, L.Yang and K. Iwamura extended the credibility measure by defining the parametric measure $m_{\lambda}$ ($\lambda$ is a real parameter in the interval $[0,1]$ and for $\lambda= 1/2$ we obtain as a particular case the notion of credibility measure). By using the $m_{\lambda}$-measure, we studied in this paper a risk neutral multi-item inventory problem. Our construction generalizes the credibilistic inventory model developed by Y. Li and Y. Liu in 2019. In our model, the components of demand vector are fuzzy variables and the maximization problem is formulated by using the notion of $m_{\lambda}$-expected value. We shall prove a general formula for the solution of optimization problem, from which we obtained effective formulas for computing the optimal solutions in the particular cases where the demands are trapezoidal and triangular fuzzy numbers. For $\lambda=1/2$ we obtain as a particular case the computation formulas of the optimal solutions of the credibilistic inventory problem of Li and Liu. These computation formulas are applied for some $m_{\lambda}$-models obtained from numerical data. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-04 |
# 階層的完全確率設計によるランダム化輸送計画
Randomized Transport Plans via Hierarchical Fully Probabilistic Design ( http://arxiv.org/abs/2408.02701v1 ) ライセンス: Link先を確認 | Sarah Boufelja Y., Anthony Quinn, Robert Shorten, | (参考訳) バランスよく正規化されたマストランスポート計画の設計のための最適ランダム化戦略を開発した。
それは -- しかし -- 決定論的で規則化された最適な輸送(OT)戦略に特化している。
不完全な-したがって不確実な-輸送計画がランダムなプロセスであると認識されている。
したがって、階層的完全確率的設計(HFPD)が採用され、可能な輸送計画のセットに最適な超越性を持ち、不確実な計画の限界における事前平均制約と整合する。
HFPD-OTと呼ばれる輸送計画の設計問題をベイズが再設定することで、新たな機会がもたらされる。
以下を含む。
一 共同輸送計画のランダムなサンプルを作成するための戦略
(ii)個々のソース・ターゲット対に対するランダム化辺縁契約、及び
三 計画及び契約の不確実性の一貫した措置
HFPD-OTは、従来のOTよりも、より多様な契約サブセットを、期待される計画のデリバリに採用することができる。
また、不確実な量化器によって公正なプロキシを付与することを可能にする。
An optimal randomized strategy for design of balanced, normalized mass transport plans is developed. It replaces -- but specializes to -- the deterministic, regularized optimal transport (OT) strategy, which yields only a certainty-equivalent plan. The incompletely specified -- and therefore uncertain -- transport plan is acknowledged to be a random process. Therefore, hierarchical fully probabilistic design (HFPD) is adopted, yielding an optimal hyperprior supported on the set of possible transport plans, and consistent with prior mean constraints on the marginals of the uncertain plan. This Bayesian resetting of the design problem for transport plans -- which we call HFPD-OT -- confers new opportunities. These include (i) a strategy for the generation of a random sample of joint transport plans; (ii) randomized marginal contracts for individual source-target pairs; and (iii) consistent measures of uncertainty in the plan and its contracts. An application in algorithmic fairness is outlined, where HFPD-OT enables the recruitment of a more diverse subset of contracts -- than is possible in classical OT -- into the delivery of an expected plan. Also, it permits fairness proxies to be endowed with uncertainty quantifiers. | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-04 |
# SU(N)代数と二部量子ビット系と四重項系の絡み合いに対する新しいサムル
SU(N) algebras and new thumbrules for entanglement of bipartite qubit and qutrit systems ( http://arxiv.org/abs/2408.02702v1 ) ライセンス: Link先を確認 | P. Dasgupta, D. Gangopadhyay, | (参考訳) シュミット分解に基づいて、二部分量子ビット系と四重項系の波動関数の絡み合いをテストするために、新しい便利なサムルールが得られた。
量子ビット系には、基礎となる SU(2) 代数が存在するが、クォート系には SU(3) が存在する。
Based on the Schmidt decomposition new convenient thumbrules are obtained to test entanglement of wavefunctions for bipartite qubit and qutrit systems. For the qubit system there is an underlying SU(2) algebra , while the same for a qutrit system is SU(3). | 翻訳日:2024-08-07 16:08:09 公開日:2024-08-04 |
# マルチモーダルLCMのユーザ・イン・ザ・ループ評価
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance ( http://arxiv.org/abs/2408.03160v1 ) ライセンス: Link先を確認 | Mrinal Verghese, Brian Chen, Hamid Eghbalzadeh, Tushar Nagarajan, Ruta Desai, | (参考訳) 本研究では,大規模言語モデル(LLM)をベースとした現代多モーダル推論モデルの有用性について検討した。
そのようなアシスタントは可能でなければならない
1)アシスタントのセンサー、例えばカメラからの視覚履歴をエンコードする。
2 活動を達成するための将来の行動を予測すること、及び
3) ループ内のユーザに基づくリプラン。
最初の2つの機能を評価するために、視覚履歴と予測を短くて長い地平線で評価するため、オフラインデータセットを用いたビデオベースのアクション予測タスクにおいて、ソクラティックモデルとビジョン条件付き言語モデル(VCLM)という、2つの著名なマルチモーダル LLM アプローチのクラスをベンチマークする。
しかし、これらのオフラインベンチマークでは、ユーザとのループをクローズすることができません。これは、リプラン機能を評価し、アシストシナリオでのアクティビティ完了を成功させるのに不可欠です。
そこで我々は,Ariaと呼ばれる自我中心の観察装置を装着し,マルチモーダルLCMの補助を受けながら,18人の参加者が3つの異なる多段階調理活動を行う,ファースト・オブ・イズ・ユーザー・スタディを行った。
Socraticのアプローチは、オフラインとオンラインの両方でVCLMよりも優れています。
特にVCLMでは、活動支援に共通する長い視覚的履歴が、現在のモデルでは依然として困難なままであり、オフラインメトリクスがオンラインのパフォーマンスを示すものではないことを実証しています。
Our research investigates the capability of modern multimodal reasoning models, powered by Large Language Models (LLMs), to facilitate vision-powered assistants for multi-step daily activities. Such assistants must be able to 1) encode relevant visual history from the assistant's sensors, e.g., camera, 2) forecast future actions for accomplishing the activity, and 3) replan based on the user in the loop. To evaluate the first two capabilities, grounding visual history and forecasting in short and long horizons, we conduct benchmarking of two prominent classes of multimodal LLM approaches -- Socratic Models and Vision Conditioned Language Models (VCLMs) on video-based action anticipation tasks using offline datasets. These offline benchmarks, however, do not allow us to close the loop with the user, which is essential to evaluate the replanning capabilities and measure successful activity completion in assistive scenarios. To that end, we conduct a first-of-its-kind user study, with 18 participants performing 3 different multi-step cooking activities while wearing an egocentric observation device called Aria and following assistance from multimodal LLMs. We find that the Socratic approach outperforms VCLMs in both offline and online settings. We further highlight how grounding long visual history, common in activity assistance, remains challenging in current models, especially for VCLMs, and demonstrate that offline metrics do not indicate online performance. | 翻訳日:2024-08-07 14:07:58 公開日:2024-08-04 |
# 異なる設定における価値に基づく意思決定時間と背景計画手法の検討
A Look at Value-Based Decision-Time vs. Background Planning Methods Across Different Settings ( http://arxiv.org/abs/2206.08442v2 ) ライセンス: Link先を確認 | Safa Alver, Doina Precup, | (参考訳) モデルベース強化学習(RL)では、エージェントは学習したモデルを利用して、様々な方法で行動の仕方を改善することができる。
これを行う一般的な方法の2つは、意思決定時間とバックグラウンド計画方法である。
本研究では、これらの2つの計画手法の価値に基づくバージョンが、異なる設定でどのように比較されるかを理解することに興味を持つ。
この目標に向けて、まず、価値に基づく意思決定時間および背景計画手法の最も単純なインスタンス化を検討し、通常のRLと伝達学習設定において、どの手法がより良く機能するか理論的結果を提供する。
次に,それらの近代的なインスタンス化について考察し,同じ設定でより優れた性能を示す仮説を提案する。
最後に,これらの理論的結果と仮説を検証するための実証実験を行った。
全体として,2つの計画手法の値ベースのバージョンは,最も単純なインスタンス化において同等に動作するが,価値ベースの意思決定時間計画手法の現代インスタンス化は,通常のRLと転写学習設定の両方において,価値ベースの背景計画手法の現代インスタンス化よりも同等かそれ以上に実行可能であることが示唆された。
In model-based reinforcement learning (RL), an agent can leverage a learned model to improve its way of behaving in different ways. Two of the prevalent ways to do this are through decision-time and background planning methods. In this study, we are interested in understanding how the value-based versions of these two planning methods will compare against each other across different settings. Towards this goal, we first consider the simplest instantiations of value-based decision-time and background planning methods and provide theoretical results on which one will perform better in the regular RL and transfer learning settings. Then, we consider the modern instantiations of them and provide hypotheses on which one will perform better in the same settings. Finally, we perform illustrative experiments to validate these theoretical results and hypotheses. Overall, our findings suggest that even though value-based versions of the two planning methods perform on par in their simplest instantiations, the modern instantiations of value-based decision-time planning methods can perform on par or better than the modern instantiations of value-based background planning methods in both the regular RL and transfer learning settings. | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-04 |
# 垂直的フェデレーション学習におけるプライバシ・ユーティリティのトレードオフ評価フレームワーク
A Framework for Evaluating Privacy-Utility Trade-off in Vertical Federated Learning ( http://arxiv.org/abs/2209.03885v4 ) ライセンス: Link先を確認 | Yan Kang, Jiahuan Luo, Yuanqin He, Xiaojin Zhang, Lixin Fan, Qiang Yang, | (参考訳) フェデレートラーニング(FL)は、ユーザのプライバシを損なうことなく、データサイロ問題に取り組むための実践的なソリューションとして登場した。
VFLは、より価値の高い機能を活用して、より優れた機械学習モデルを構築し、ユーザのプライバシを保存するという、企業の要求に適合するものだ。
VFLにおける現在の研究は、特定のVFLアルゴリズムの特定の保護または攻撃メカニズムの開発に集中している。
本研究では,プライバシ・ユーティリティ評価問題を定式化する評価フレームワークを提案する。
次に、このフレームワークを3つの広くデプロイされたVFLアルゴリズムに対する最先端のプライバシ攻撃に対して、幅広い保護メカニズムを包括的に評価するためのガイドとして使用します。
これらの評価は、FL実践者が特定の要件を満たす適切な保護メカニズムを選択するのに役立つかもしれない。
モデルインバージョンとラベル推論攻撃のほとんどが既存の保護機構によって抑制され,モデル完了(MC)攻撃の防止が困難であり,より高度なMC目標保護機構が要求される。
評価結果に基づいて,VFLシステムのプライバシ保護機能を改善するための具体的なアドバイスを提供する。
コードはhttps://github.com/yankang18/Attack-Defense-VFLで公開されている。
Federated learning (FL) has emerged as a practical solution to tackle data silo issues without compromising user privacy. One of its variants, vertical federated learning (VFL), has recently gained increasing attention as the VFL matches the enterprises' demands of leveraging more valuable features to build better machine learning models while preserving user privacy. Current works in VFL concentrate on developing a specific protection or attack mechanism for a particular VFL algorithm. In this work, we propose an evaluation framework that formulates the privacy-utility evaluation problem. We then use this framework as a guide to comprehensively evaluate a broad range of protection mechanisms against most of the state-of-the-art privacy attacks for three widely deployed VFL algorithms. These evaluations may help FL practitioners select appropriate protection mechanisms given specific requirements. Our evaluation results demonstrate that: the model inversion and most of the label inference attacks can be thwarted by existing protection mechanisms; the model completion (MC) attack is difficult to be prevented, which calls for more advanced MC-targeted protection mechanisms. Based on our evaluation results, we offer concrete advice on improving the privacy-preserving capability of VFL systems. The code is available at https://github.com/yankang18/Attack-Defense-VFL | 翻訳日:2024-08-07 00:54:45 公開日:2024-08-04 |
# 検索から生成へ:効率的で効果的なエンティティセット拡張
From Retrieval to Generation: Efficient and Effective Entity Set Expansion ( http://arxiv.org/abs/2304.03531v4 ) ライセンス: Link先を確認 | Shulin Huang, Shirong Ma, Yangning Li, Yinghui Li, Hai-Tao Zheng, | (参考訳) Entity Set Expansion(ESE)は、シードエンティティによって記述されるターゲットセマンティッククラスのエンティティを拡張することを目的とした重要なタスクである。
既存のESEメソッドの多くは、エンティティのコンテキストの特徴を抽出し、シードエンティティと候補エンティティの類似性を計算する必要がある検索ベースのフレームワークである。
この2つの目的を達成するために、コーパスとエンティティの語彙を反復的に横切り、効率とスケーラビリティが低下する。
実験結果から, 検索に基づくESE法で消費される時間は, 実体語彙やコーパスサイズとともに線形に増加することがわかった。
本稿では、まず、生成事前学習型自動回帰言語モデルを用いてESEタスクを実現する、生成エンティティセット拡張(GenExpan)フレームワークを提案する。
具体的には、エンティティ生成の妥当性を保証するためにプレフィックスツリーを使用し、自動的に生成されたクラス名を採用して、モデルをガイドしてターゲットエンティティを生成する。
さらに,言語モデルの一般的な知識とESEタスクの目標とのギャップを埋めるため,知識校正と生成ランク付けを提案する。
効率性のために、GenExpanが消費する拡張時間はエンティティ語彙とコーパスサイズとは独立であり、GenExpanは強いベースラインに比べて平均600%のスピードアップを達成する。
拡張効率を向上させるため,従来のESE手法よりも優れた性能を示す。
Entity Set Expansion (ESE) is a critical task aiming at expanding entities of the target semantic class described by seed entities. Most existing ESE methods are retrieval-based frameworks that need to extract contextual features of entities and calculate the similarity between seed entities and candidate entities. To achieve the two purposes, they iteratively traverse the corpus and the entity vocabulary, resulting in poor efficiency and scalability. Experimental results indicate that the time consumed by the retrieval-based ESE methods increases linearly with entity vocabulary and corpus size. In this paper, we firstly propose Generative Entity Set Expansion (GenExpan) framework, which utilizes a generative pre-trained auto-regressive language model to accomplish ESE task. Specifically, a prefix tree is employed to guarantee the validity of entity generation, and automatically generated class names are adopted to guide the model to generate target entities. Moreover, we propose Knowledge Calibration and Generative Ranking to further bridge the gap between generic knowledge of the language model and the goal of ESE task. For efficiency, expansion time consumed by GenExpan is independent of entity vocabulary and corpus size, and GenExpan achieves an average 600% speedup compared to strong baselines. For expansion effectiveness, our framework outperforms previous state-of-the-art ESE methods. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-04 |
# コントラスト的特徴再構成を用いたプログレッシブ・プロンプト学習
Progressive Visual Prompt Learning with Contrastive Feature Re-formation ( http://arxiv.org/abs/2304.08386v3 ) ライセンス: Link先を確認 | Chen Xu, Yuhan Zhu, Haocheng Shen, Boheng Chen, Yixuan Liao, Xiaoxin Chen, Limin Wang, | (参考訳) プロンプト学習は、下流タスクに視覚言語(V-L)モデルを適用するための微調整の代替として設計されている。
以前の作品は主にテキストプロンプトに焦点を当て、視覚的プロンプトはV-Lモデルに限られていた。
既存の視覚的プロンプト法は、中途半端なパフォーマンスまたは不安定なトレーニングプロセスに耐え、視覚的プロンプト学習の難しさを示している。
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
さらに重要なことは、当社のProVPが画像の埋め込みを深層に効果的に伝播し、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることです。
一般化の劣化を軽減するため,修正されたCLIP視覚特徴分布から引き起こされる視覚特徴の重大なずれを防止するために,新たなコントラスト的特徴再構成を提案する。
両手法を組み合わせることで,11の画像ベンチマークデータからProVP-Ref(ProVP-Ref)が評価され,少数撮影とベース・ツー・ノーベル設定の両方で7/11の最先端結果が得られる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
一方、私たちのProVP-Refは、適応し、一般化する最善の能力を示します。
Prompt learning has been designed as an alternative to fine-tuning for adapting Vision-language (V-L) models to the downstream tasks. Previous works mainly focus on text prompt while visual prompt works are limited for V-L models. The existing visual prompt methods endure either mediocre performance or unstable training process, indicating the difficulty of visual prompt learning. In this paper, we propose a new Progressive Visual Prompt (ProVP) structure to strengthen the interactions among prompts of different layers. More importantly, our ProVP could effectively propagate the image embeddings to deep layers and behave partially similar to an instance adaptive prompt method. To alleviate generalization deterioration, we further propose a new contrastive feature re-formation, which prevents the serious deviation of the prompted visual feature from the fixed CLIP visual feature distribution. Combining both, our method (ProVP-Ref) is evaluated on 11 image benchmark datasets and achieves 7/11 state-of-theart results on both few-shot and base-to-novel settings. To the best of our knowledge, we are the first to demonstrate the superior performance of visual prompts in V-L models to previous prompt-based methods in downstream tasks. Meanwhile, it implies that our ProVP-Ref shows the best capability to adapt and to generalize. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-04 |
# Transformer-based Visual Segmentation: A Survey
Transformer-Based Visual Segmentation: A Survey ( http://arxiv.org/abs/2304.09854v4 ) ライセンス: Link先を確認 | Xiangtai Li, Henghui Ding, Haobo Yuan, Wenwei Zhang, Jiangmiao Pang, Guangliang Cheng, Kai Chen, Ziwei Liu, Chen Change Loy, | (参考訳) ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
この技術には、自律運転、画像編集、ロボットセンシング、医療分析など、多くの現実世界の応用がある。
過去10年間、ディープラーニングベースの手法がこの分野で顕著な進歩を遂げてきた。
近年,自然言語処理用に設計された自己認識型ニューラルネットワークであるTransformerは,様々な視覚処理タスクにおいて,従来の畳み込みや再帰的なアプローチを大幅に上回っている。
具体的には、視覚変換器は、様々なセグメンテーションタスクに対して堅牢で統一的で、さらに単純なソリューションを提供する。
このサーベイは、最近の進歩を要約して、トランスフォーマーに基づく視覚的セグメンテーションの徹底的な概要を提供する。
まず、問題定義、データセット、事前の畳み込みメソッドを含む背景をレビューする。
次に、最近のトランスフォーマーベースのアプローチをすべて統合したメタアーキテクチャを要約する。
このメタアーキテクチャに基づいて,メタアーキテクチャや関連アプリケーションの変更など,様々な手法の設計について検討する。
また、3Dポイントクラウドセグメンテーション、ファンデーションモデルチューニング、ドメイン認識セグメンテーション、効率的なセグメンテーション、医療セグメンテーションなど、いくつかの密接に関連する設定も提示する。
さらに、いくつかの確立されたデータセット上で、レビューされたメソッドをコンパイルし、再評価する。
最後に,この分野でのオープンな課題を特定し,今後の研究の方向性を提案する。
プロジェクトのページはhttps://github.com/lxtGH/Awesome-Segmentation-With-Transformerにある。
この急速に発展する分野での開発も継続的に監視します。
Visual segmentation seeks to partition images, video frames, or point clouds into multiple segments or groups. This technique has numerous real-world applications, such as autonomous driving, image editing, robot sensing, and medical analysis. Over the past decade, deep learning-based methods have made remarkable strides in this area. Recently, transformers, a type of neural network based on self-attention originally designed for natural language processing, have considerably surpassed previous convolutional or recurrent approaches in various vision processing tasks. Specifically, vision transformers offer robust, unified, and even simpler solutions for various segmentation tasks. This survey provides a thorough overview of transformer-based visual segmentation, summarizing recent advancements. We first review the background, encompassing problem definitions, datasets, and prior convolutional methods. Next, we summarize a meta-architecture that unifies all recent transformer-based approaches. Based on this meta-architecture, we examine various method designs, including modifications to the meta-architecture and associated applications. We also present several closely related settings, including 3D point cloud segmentation, foundation model tuning, domain-aware segmentation, efficient segmentation, and medical segmentation. Additionally, we compile and re-evaluate the reviewed methods on several well-established datasets. Finally, we identify open challenges in this field and propose directions for future research. The project page can be found at https://github.com/lxtGH/Awesome-Segmentation-With-Transformer. We will also continually monitor developments in this rapidly evolving field. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-04 |
# 外的時間過程におけるマルコフ決定過程
Markov Decision Processes under External Temporal Processes ( http://arxiv.org/abs/2305.16056v2 ) ライセンス: Link先を確認 | Ranga Shaarad Ayyagari, Ambedkar Dukkipati, | (参考訳) ほとんどの強化学習アルゴリズムは、定常的、孤立的、不安定な環境として機能する状況を扱う。
しかし、現実世界のアプリケーションでは、様々な外部イベントによって環境は常に変化します。
この問題に対処するために,マルコフ決定過程(MDP)を外的時間的プロセスの影響下で研究する。
我々はこの概念を定式化し、適切な解で問題に対処できる条件について論じる。
本稿では,この問題を解決するためのポリシー反復アルゴリズムを提案し,その性能を理論的に解析する。
提案手法は, アルゴリズムのサンプルの複雑さから導出し, 環境の非定常性の程度への依存性について検討する。
次に、古典的な制御環境で実験を行い、その結果を説明します。
Most reinforcement learning algorithms treat the context under which they operate as a stationary, isolated, and undisturbed environment. However, in real world applications, environments constantly change due to a variety of external events. To address this problem, we study Markov Decision Processes (MDP) under the influence of an external temporal process. We formalize this notion and discuss conditions under which the problem becomes tractable with suitable solutions. We propose a policy iteration algorithm to solve this problem and theoretically analyze its performance. We derive results on the sample complexity of the algorithm and study its dependency on the extent of non-stationarity of the environment. We then conduct experiments to illustrate our results in a classic control environment. | 翻訳日:2024-08-07 00:45:00 公開日:2024-08-04 |
# 医療における知識グラフ : 資源・応用・約束
A Review on Knowledge Graphs for Healthcare: Resources, Applications, and Promises ( http://arxiv.org/abs/2306.04802v4 ) ライセンス: Link先を確認 | Carl Yang, Hejie Cui, Jiaying Lu, Shiyu Wang, Ran Xu, Wenjing Ma, Yue Yu, Shaojun Yu, Xuan Kan, Chen Ling, Tianfan Fu, Liang Zhao, Joyce Ho, Fei Wang, | (参考訳) 医療知識グラフ(Healthcare knowledge graphs, HKGs)は、生体医学の概念と解釈可能な構造との関係を整理するための貴重なツールである。
最近の大規模言語モデル(LLM)の出現は、より包括的で正確なHKGを構築するための道を開いた。
これにより、生成されたコンテンツの信頼性が向上し、LCMのより良い評価が可能になる。
しかし、データの不均一性や範囲の限定といったHKGの課題は完全には理解されておらず、詳細なレビューの必要性が浮き彫りになっている。
この研究は、HKGの最初の包括的なレビューを提供する。
これは、HKG構築のためのパイプラインとキーテクニックを要約し、モデルフリーとモデルベースという一般的な利用手法をまとめたものである。
既存のHKGリソースは、キャプチャしたデータタイプと、それらがカバーするアプリケーションドメイン、関連する統計情報(https://github.com/lujiaying/Awesome-HealthCare-KnowledgeBaseで公開されている)に基づいて構成されている。
応用レベルでは、詳細な基礎科学研究からハイレベルな臨床決定支援、公衆衛生まで、さまざまな医療分野におけるHKGの統合を成功に導く。
最後に、LLMの時代におけるHKGの機会を強調した。
この研究は、健康研究におけるHKGの可能性と機会を理解するための貴重な資源として機能することを目的としている。
Healthcare knowledge graphs (HKGs) are valuable tools for organizing biomedical concepts and their relationships with interpretable structures. The recent advent of large language models (LLMs) has paved the way for building more comprehensive and accurate HKGs. This, in turn, can improve the reliability of generated content and enable better evaluation of LLMs. However, the challenges of HKGs such as regarding data heterogeneity and limited coverage are not fully understood, highlighting the need for detailed reviews. This work provides the first comprehensive review of HKGs. It summarizes the pipeline and key techniques for HKG construction, as well as the common utilization approaches, i.e., model-free and model-based. The existing HKG resources are also organized based on the data types they capture and application domains they cover, along with relevant statistical information (Resource available at https://github.com/lujiaying/Awesome-HealthCare-KnowledgeBase). At the application level, we delve into the successful integration of HKGs across various health domains, ranging from fine-grained basic science research to high-level clinical decision support and public health. Lastly, the paper highlights the opportunities for HKGs in the era of LLMs. This work aims to serve as a valuable resource for understanding the potential and opportunities of HKG in health research. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-04 |
# Data-Copilot: 自律ワークフローで数十億のデータと人間をブリッジする
Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow ( http://arxiv.org/abs/2306.07209v6 ) ライセンス: Link先を確認 | Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang, | (参考訳) 金融、気象学、エネルギーといった産業は毎日大量のデータを生み出している。
このデータの効率的な管理、処理、表示には専門的な専門知識が必要です。
自動化ワークフローの開発に大規模言語モデル(LLM)を活用することは、非常に有望なソリューションである。
しかし、LLMは複雑な数値計算やテーブル操作に不適であり、文脈予算の制限もある。
そこで本研究では,データ分析エージェントであるData-Copilotを提案する。
まず、人間のリクエストを受け取り、大量のデータを処理する仲介役としてコードを生成するコード中心のエージェントで、大規模なデータ処理タスクに非常に柔軟です。
第2に、Data-Copilotには事前にデータ探索フェーズが含まれており、リアルタイム応答のためのより普遍的でエラーのないインターフェースを設計する方法を探っている。
具体的には、データソースを積極的に探索し、多くの共通要求を発見し、それらを日々の呼び出しのために多くのユニバーサルインターフェースに抽象化する。
リアルタイムリクエストにデプロイする場合、Data-Copilotは事前に設計されたインターフェースを呼び出すだけで、生データを視覚化された出力(例えば、チャート、テーブル)に変換し、ユーザの意図に最もよくマッチする。
スクラッチからコードを生成するのに比べ、事前に設計され、コンパイラに検証されたインターフェイスを呼び出すことで、リアルタイムリクエスト時のエラーを大幅に削減できる。
さらに、インターフェースワークフローはより効率的で、コードよりも解釈性が高い。
当社はData-Copilotをオープンソース化し、株式、ファンド、ニュースなどの大規模な中国金融データを公開し、将来有望なアプリケーションの見通しを示した。
Industries such as finance, meteorology, and energy generate vast amounts of data daily. Efficiently managing, processing, and displaying this data requires specialized expertise and is often tedious and repetitive. Leveraging large language models (LLMs) to develop an automated workflow presents a highly promising solution. However, LLMs are not adept at handling complex numerical computations and table manipulations and are also constrained by a limited context budget. Based on this, we propose Data-Copilot, a data analysis agent that autonomously performs querying, processing, and visualization of massive data tailored to diverse human requests. The advancements are twofold: First, it is a code-centric agent that receives human requests and generates code as an intermediary to handle massive data, which is quite flexible for large-scale data processing tasks. Second, Data-Copilot involves a data exploration phase in advance, which explores how to design more universal and error-free interfaces for real-time response. Specifically, it actively explores data sources, discovers numerous common requests, and abstracts them into many universal interfaces for daily invocation. When deployed in real-time requests, Data-Copilot only needs to invoke these pre-designed interfaces, transforming raw data into visualized outputs (e.g., charts, tables) that best match the user's intent. Compared to generating code from scratch, invoking these pre-designed and compiler-validated interfaces can significantly reduce errors during real-time requests. Additionally, interface workflows are more efficient and offer greater interpretability than code. We open-sourced Data-Copilot with massive Chinese financial data, such as stocks, funds, and news, demonstrating promising application prospects. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-04 |
# モードワイド主部分空間探索とマトリックススパイク共分散モデル
Mode-wise Principal Subspace Pursuit and Matrix Spiked Covariance Model ( http://arxiv.org/abs/2307.00575v2 ) ライセンス: Link先を確認 | Runshi Tang, Ming Yuan, Anru R. Zhang, | (参考訳) 本稿では,行列データの行次元と列次元の両方に隠れたバリエーションを抽出するMOP-UP(Mode-wise principal Subspace Pursuit)という新しいフレームワークを提案する。
フレームワークの理解を深めるために,MOP-UPアルゴリズムの開発にインスピレーションを与える,行列変量スパイク共分散モデルのクラスを導入する。
MOP-UPアルゴリズムはAverage Subspace Capture (ASC) と Alternating Projection (AP) の2つのステップで構成されている。
これらのステップは、データの最も情報性の高い特徴を含む行単位と列単位の次元還元された部分空間をキャプチャするために特別に設計されている。
ASCは、新しい平均射影演算子を初期化として使用し、ノイズのない設定で正確な回復を実現する。
MOP-UPの収束および非漸近誤差境界を解析し、古典的摂動境界が失敗する所望の境界を証明するブロックワイズ行列固有値摂動境界を導入する。
提案フレームワークの有効性と実用性は、シミュレーションと実データの両方の実験を通して実証される。
最後に、高次データに対する我々のアプローチの一般化について論じる。
This paper introduces a novel framework called Mode-wise Principal Subspace Pursuit (MOP-UP) to extract hidden variations in both the row and column dimensions for matrix data. To enhance the understanding of the framework, we introduce a class of matrix-variate spiked covariance models that serve as inspiration for the development of the MOP-UP algorithm. The MOP-UP algorithm consists of two steps: Average Subspace Capture (ASC) and Alternating Projection (AP). These steps are specifically designed to capture the row-wise and column-wise dimension-reduced subspaces which contain the most informative features of the data. ASC utilizes a novel average projection operator as initialization and achieves exact recovery in the noiseless setting. We analyze the convergence and non-asymptotic error bounds of MOP-UP, introducing a blockwise matrix eigenvalue perturbation bound that proves the desired bound, where classic perturbation bounds fail. The effectiveness and practical merits of the proposed framework are demonstrated through experiments on both simulated and real datasets. Lastly, we discuss generalizations of our approach to higher-order data. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-04 |
# 適応主成分回帰とパネルデータへの応用
Adaptive Principal Component Regression with Applications to Panel Data ( http://arxiv.org/abs/2307.01357v3 ) ライセンス: Link先を確認 | Anish Agarwal, Keegan Harris, Justin Whitehouse, Zhiwei Steven Wu, | (参考訳) 主成分回帰(プリンシパル・コンポーネント・レグレッション、英: principal component regression, PCR)は、観測された共変体がランダムノイズで劣化する線形回帰設定の一般化である。
我々は、データが適応的に収集されるたびに(正規化)PCRに対する最初の時間均一な有限サンプル保証を提供する。
固定設計環境におけるPCR解析の手法は, オンライン環境にも容易には適用できないため, 現代のマルティンゲール濃度からエラー・イン・ヴァリタブル・セッティングへの適応ツールに頼っている。
我々は,パネルデータの領域,すなわち計量学と統計学のユビキタスな設定に適用することで,境界値の有用性を実証する。
最初のアプリケーションとして、介入が適応的にアサインされた場合、パネルデータ設定で実験的な設計を行うためのフレームワークを提供する。
本フレームワークは,適応的介入代入ポリシを通じてデータを収集する合成制御・合成介入フレームワークの一般化と考えられる。
第2の応用は、処理対象のユニットが順次到着する環境で、そのような介入割当ポリシーを学習するための手順である。
理論的性能保証(後悔によって測定される)を提供するのに加えて,本手法は,エラー・イン・ヴァリタブル・レグレッションを生かさないベースラインを経験的に上回っていることを示す。
Principal component regression (PCR) is a popular technique for fixed-design error-in-variables regression, a generalization of the linear regression setting in which the observed covariates are corrupted with random noise. We provide the first time-uniform finite sample guarantees for (regularized) PCR whenever data is collected adaptively. Since the proof techniques for analyzing PCR in the fixed design setting do not readily extend to the online setting, our results rely on adapting tools from modern martingale concentration to the error-in-variables setting. We demonstrate the usefulness of our bounds by applying them to the domain of panel data, a ubiquitous setting in econometrics and statistics. As our first application, we provide a framework for experiment design in panel data settings when interventions are assigned adaptively. Our framework may be thought of as a generalization of the synthetic control and synthetic interventions frameworks, where data is collected via an adaptive intervention assignment policy. Our second application is a procedure for learning such an intervention assignment policy in a setting where units arrive sequentially to be treated. In addition to providing theoretical performance guarantees (as measured by regret), we show that our method empirically outperforms a baseline which does not leverage error-in-variables regression. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-04 |
# スキーマ複雑な異種情報ネットワークのための帰納的メタパス学習
Inductive Meta-path Learning for Schema-complex Heterogeneous Information Networks ( http://arxiv.org/abs/2307.03937v2 ) ライセンス: Link先を確認 | Shixuan Liu, Changjun Fan, Kewei Cheng, Yunfei Wang, Peng Cui, Yizhou Sun, Zhong Liu, | (参考訳) Heterogeneous Information Networks (HIN) は、複数のノードとエッジを持つ情報ネットワークである。
メタパスの概念、すなわち2つのエンティティを接続するエンティティタイプと関係型のシーケンスは、様々なHINタスクのためのメタレベル説明可能なセマンティクスを提供するために提案される。
伝統的に、メタパスは主にスキーマシンプルなHIN、例えば、いくつかのエンティティタイプしか持たない書誌ネットワークに使われており、メタパスはドメイン知識で列挙されることが多い。
しかし、数百のエンティティと関係型を持つ知識ベース(KB)のようなスキーマ複雑なHINに対するメタパスの採用は、メタパス列挙に伴う計算複雑性のために制限されている。
さらに、メタパスを効果的に評価するには、関連するパスインスタンスを列挙する必要がある。
これらの課題に対処するために,スキーマ複雑HINのための帰納的メタパス学習フレームワークであるSchemaWalkを提案する。
メタパスをスキーマレベルの表現で表現し、様々な関係に対するメタパスのスコアの学習を支援し、それぞれの関係に対する網羅的なパスインスタンス列挙の必要性を軽減します。
さらに、ネットワークスキーマ(スキーマグラフ)を直接ナビゲートして、高いカバレッジと複数の関係性に対する信頼性を持つメタパスを確立するためのポリシーを学習する強化学習ベースのパスフィニングエージェントを設計する。
実データ集合に対する大規模な実験により,提案手法の有効性が示された。
Heterogeneous Information Networks (HINs) are information networks with multiple types of nodes and edges. The concept of meta-path, i.e., a sequence of entity types and relation types connecting two entities, is proposed to provide the meta-level explainable semantics for various HIN tasks. Traditionally, meta-paths are primarily used for schema-simple HINs, e.g., bibliographic networks with only a few entity types, where meta-paths are often enumerated with domain knowledge. However, the adoption of meta-paths for schema-complex HINs, such as knowledge bases (KBs) with hundreds of entity and relation types, has been limited due to the computational complexity associated with meta-path enumeration. Additionally, effectively assessing meta-paths requires enumerating relevant path instances, which adds further complexity to the meta-path learning process. To address these challenges, we propose SchemaWalk, an inductive meta-path learning framework for schema-complex HINs. We represent meta-paths with schema-level representations to support the learning of the scores of meta-paths for varying relations, mitigating the need of exhaustive path instance enumeration for each relation. Further, we design a reinforcement-learning based path-finding agent, which directly navigates the network schema (i.e., schema graph) to learn policies for establishing meta-paths with high coverage and confidence for multiple relations. Extensive experiments on real data sets demonstrate the effectiveness of our proposed paradigm. | 翻訳日:2024-08-07 00:35:17 公開日:2024-08-04 |
# 量子ビットの少ない量子化学
More Quantum Chemistry with Fewer Qubits ( http://arxiv.org/abs/2308.16873v3 ) ライセンス: Link先を確認 | Jakob Günther, Alberto Baiardi, Markus Reiher, Matthias Christandl, | (参考訳) 量子計算は、化学、固体物理学、材料科学、分子生物学など、電子と原子核からなる物理系のシミュレーションのための最も有望な新しいパラダイムの1つである。
これは有限個の軌道を用いて、電子構造ハミルトニアンの切り離された表現を必要とする。
原理的には、より多くの軌道を含むことによって表現を改善する方法が明確であるが、実際には(例えば、利用可能な量子ビットの数が限られているため)実現不可能であり、得られた結果の精度を著しく損なう。
本稿では,2次摂動理論を用いて物理問題の表現を改善する量子アルゴリズムを提案する。
特に、我々の量子アルゴリズムは、未摂動ハミルトニアンの下での一連の時間進化ステップを通じて、二階エネルギー補正を評価する。
重要な応用は、多参照摂動理論(英語版)として知られる仮想軌道の補正を含むことができるような活動空間近似を超えることである。
ここでは、未摂動ハミルトニアンが仮想軌道の対角線であり、量子ビットの数は仮想軌道の数とは独立であることを示す。
これにより、量子ビットの数を増やすことなく、より正確なエネルギー推定が生まれる。
さらに, 実際の化学系において, 従来の研究と比較して, 仮想軌道の個数に対して, 総ランタイムが非常に好適なスケーリングを有することを数値的に示す。
数値計算により、正確な基底状態エネルギー推定に到達するためには、多重参照摂動理論のエネルギー補正が必要であることが確認される。
我々の摂動理論は、シンメトリー適応摂動理論にも応用できる。
このように、摂動理論は量子化学における量子ハードウェアの要求を減らすのに有効であることを示す。
Quantum computation is one of the most promising new paradigms for the simulation of physical systems composed of electrons and atomic nuclei, with applications in chemistry, solid-state physics, materials science, or molecular biology. This requires a truncated representation of the electronic structure Hamiltonian using a finite number of orbitals. While it is, in principle, obvious how to improve on the representation by including more orbitals, this is usually unfeasible in practice (e.g., because of the limited number of qubits available) and severely compromises the accuracy of the obtained results. Here, we propose a quantum algorithm that improves on the representation of the physical problem by virtue of second-order perturbation theory. In particular, our quantum algorithm evaluates the second-order energy correction through a series of time-evolution steps under the unperturbed Hamiltonian. An important application is to go beyond the active-space approximation, allowing to include corrections of virtual orbitals, known as multireference perturbation theory. Here, we exploit that the unperturbed Hamiltonian is diagonal for virtual orbitals and show that the number of qubits is independent of the number of virtual orbitals. This gives rise to more accurate energy estimates without increasing the number of qubits. Moreover, we demonstrate numerically for realistic chemical systems that the total runtime has highly favourable scaling in the number of virtual orbitals compared to previous work. Numerical calculations confirm the necessity of the multireference perturbation theory energy corrections to reach accurate ground state energy estimates. Our perturbation theory quantum algorithm can also be applied to Symmetry-Adapted Perturbation Theory. As such, we demonstrate that perturbation theory can help to reduce the quantum hardware requirements for quantum chemistry. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-04 |
# マルチモーダル・セマンティック・コミュニケーションを利用した大規模AIモデル
Large AI Model Empowered Multimodal Semantic Communications ( http://arxiv.org/abs/2309.01249v2 ) ライセンス: Link先を確認 | Feibo Jiang, Li Dong, Yubo Peng, Kezhi Wang, Kun Yang, Cunhua Pan, Xiaohu You, | (参考訳) テキスト、音声、画像、ビデオを含むマルチモーダル信号は、セマンティックコミュニケーション(SC)システムに統合され、低レイテンシで、セマンティックレベルで高品質な没入型体験を提供する。
しかし、マルチモーダルSCには、データ不均一性、意味的曖昧性、伝送中の信号歪みなど、いくつかの課題がある。
大規模AIモデルの最近の進歩、特にMLM(Multimodal Language Model)とLLM(Large Language Model)は、これらの問題に対処するための潜在的な解決策を提供する。
そこで我々は,MLMを利用したMLMベースのマルチモーダルアライメント(MMA)を初めて提示し,意味的一貫性を維持しつつ,マルチモーダルデータとユニモーダルデータの変換を可能にする,大規模AIモデルに基づくマルチモーダルSC(LAM-MSC)フレームワークを提案する。
次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、LLMを通してパーソナライズされた意味抽出やリカバリを行うことができる。
これは意味的あいまいさに効果的に対処する。
最後に,CGE(Conditional Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
このアプローチはSCにおけるフェードチャネルの影響を効果的に軽減する。
最後に,LAM-MSCフレームワークの優れた性能を示すシミュレーションを行う。
Multimodal signals, including text, audio, image, and video, can be integrated into Semantic Communication (SC) systems to provide an immersive experience with low latency and high quality at the semantic level. However, the multimodal SC has several challenges, including data heterogeneity, semantic ambiguity, and signal distortion during transmission. Recent advancements in large AI models, particularly in the Multimodal Language Model (MLM) and Large Language Model (LLM), offer potential solutions for addressing these issues. To this end, we propose a Large AI Model-based Multimodal SC (LAM-MSC) framework, where we first present the MLM-based Multimodal Alignment (MMA) that utilizes the MLM to enable the transformation between multimodal and unimodal data while preserving semantic consistency. Then, a personalized LLM-based Knowledge Base (LKB) is proposed, which allows users to perform personalized semantic extraction or recovery through the LLM. This effectively addresses the semantic ambiguity. Finally, we apply the Conditional Generative adversarial network-based channel Estimation (CGE) for estimating the wireless channel state information. This approach effectively mitigates the impact of fading channels in SC. Finally, we conduct simulations that demonstrate the superior performance of the LAM-MSC framework. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-04 |
# 単位節の伝搬に無関係なCNF式について
On CNF formulas irredundant with respect to unit clause propagation ( http://arxiv.org/abs/2309.01750v4 ) ライセンス: Link先を確認 | Petr Savický, | (参考訳) 2つのCNF式はucp-等価(ucp-equivalent)と呼ばれ、単位節の伝搬(UCP)に関して同じように振る舞う。
公式がucp-irredundant(英語版)と呼ばれるのは、任意の節を削除すると、元の句と等価でない公式が導かれるからである。
既知の結果の結果、ucp-不等式のサイズと最小のucp-等価式のサイズの比率は、少なくとも$n^2$であり、$n$は変数の数である。
対称定値ホーン関数に対するucp-不等式の例を、$\Omega(n/\ln n)$ で最小のucp-等価式より大きくし、したがって上記の比の一般上界は、これより小さくならない。
Two CNF formulas are called ucp-equivalent, if they behave in the same way with respect to the unit clause propagation (UCP). A formula is called ucp-irredundant, if removing any clause leads to a formula which is not ucp-equivalent to the original one. As a consequence of known results, the ratio of the size of a ucp-irredundant formula and the size of a smallest ucp-equivalent formula is at most $n^2$, where $n$ is the number of the variables. We demonstrate an example of a ucp-irredundant formula for a symmetric definite Horn function which is larger than a smallest ucp-equivalent formula by a factor $\Omega(n/\ln n)$ and, hence, a general upper bound on the above ratio cannot be smaller than this. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-04 |
# 大規模言語モデルの連鎖によるプライベートチュータの強化
Empowering Private Tutoring by Chaining Large Language Models ( http://arxiv.org/abs/2309.08112v2 ) ライセンス: Link先を確認 | Yulin Chen, Ning Ding, Hai-Tao Zheng, Zhiyuan Liu, Maosong Sun, Bowen Zhou, | (参考訳) 人工知能は、教育と学習を促進するために、オンライン教育の様々な側面に応用されてきた。
しかし、完全なAIによるチューリングシステムへのアプローチはほとんどない。
本研究では,現在最先端の大規模言語モデル (LLM) をベースとした知的学習システムの開発について検討し,自動コース計画と調整,調整,柔軟なクイズ評価について検討する。
システムを長期の相互作用に堅牢にし、個別の教育に役立てるために、システムは3つの相互接続されたコアプロセス(相互作用、反射、反応)に分解される。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
ツールは、一度に1つの特定のタスクを実行するように促されるLSMであり、メモリは、教育プロセス中に更新されるデータストレージである。
学習ログから得られた統計的結果は、各ツールの使用の有効性とメカニズムを示している。
ヒトのユーザからの主観的なフィードバックは、各機能のユーザビリティを明らかにし、アブレーションシステムとの比較により、長期的相互作用における設計プロセスのメリットをさらに証明する。
Artificial intelligence has been applied in various aspects of online education to facilitate teaching and learning. However, few approaches has been made toward a complete AI-powered tutoring system. In this work, we explore the development of a full-fledged intelligent tutoring system powered by state-of-the-art large language models (LLMs), covering automatic course planning and adjusting, tailored instruction, and flexible quiz evaluation. To make the system robust to prolonged interaction and cater to individualized education, the system is decomposed into three inter-connected core processes-interaction, reflection, and reaction. Each process is implemented by chaining LLM-powered tools along with dynamically updated memory modules. Tools are LLMs prompted to execute one specific task at a time, while memories are data storage that gets updated during education process. Statistical results from learning logs demonstrate the effectiveness and mechanism of each tool usage. Subjective feedback from human users reveal the usability of each function, and comparison with ablation systems further testify the benefits of the designed processes in long-term interaction. | 翻訳日:2024-08-07 00:25:32 公開日:2024-08-04 |
# LLMの嘘:幻覚はバグではなく、逆の例としての特徴
LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples ( http://arxiv.org/abs/2310.01469v3 ) ライセンス: Link先を確認 | Jia-Yu Yao, Kun-Peng Ning, Zhen-Hui Liu, Mu-Nan Ning, Yu-Yang Liu, Li Yuan, | (参考訳) GPT-3.5、LLaMA、PaLMを含む大規模言語モデル(LLM)は知識があり、多くのタスクに適応できるようである。
しかし, LLMは, 既知事実を偽造し, 利用者の意識を損なう, という問題に悩まされているため, 回答を完全には信頼できない。
しかし、その存在と普及の理由は不明である。
本稿では,無作為なトークンからなる非意味なプロンプトがLLMを幻覚に反応させることを実証する。
さらに、入力シーケンスを摂動することで、トランスフォーマーを操作して特定のプリデフィントークンを生成するという理論的および実験的証拠を提供する。
この現象は、 \emph{hallucination may be another view of adversarial examples} を再考させ、LLMの基本的な性質として従来の逆例と類似した特徴を共有している。
そこで本稿では, 自動幻覚トリガー法を, 対角的に「textit{hallucination attack}」として定式化する。
最後に、攻撃された敵のプロンプトの基本的特性について検討し、シンプルで効果的な防衛戦略を提案する。
私たちのコードはGitHub\footnote{https://github.com/PKU-YuanGroup/Hallucination-Attack}でリリースされています。
Large Language Models (LLMs), including GPT-3.5, LLaMA, and PaLM, seem to be knowledgeable and able to adapt to many tasks. However, we still cannot completely trust their answers, since LLMs suffer from \textbf{hallucination}\textemdash fabricating non-existent facts, deceiving users with or without their awareness. However, the reasons for their existence and pervasiveness remain unclear. In this paper, we demonstrate that nonsensical prompts composed of random tokens can also elicit the LLMs to respond with hallucinations. Moreover, we provide both theoretical and experimental evidence that transformers can be manipulated to produce specific pre-define tokens by perturbing its input sequence. This phenomenon forces us to revisit that \emph{hallucination may be another view of adversarial examples}, and it shares similar characteristics with conventional adversarial examples as a basic property of LLMs. Therefore, we formalize an automatic hallucination triggering method as the \textit{hallucination attack} in an adversarial way. Finally, we explore the basic properties of attacked adversarial prompts and propose a simple yet effective defense strategy. Our code is released on GitHub\footnote{https://github.com/PKU-YuanGroup/Hallucination-Attack}. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-04 |
# sign.mt: リアルタイム多言語手話翻訳アプリケーション
sign.mt: Real-Time Multilingual Sign Language Translation Application ( http://arxiv.org/abs/2310.05064v2 ) ライセンス: Link先を確認 | Amit Moryossef, | (参考訳) 本稿では、音声言語と署名された言語間のリアルタイム多言語双方向翻訳の先駆的なオープンソースアプリケーションである sign.mt を紹介する。
このツールは、最先端のオープンソースモデルと相まって、聴覚と聴覚のコミュニケーションの相違に対処することを目的としており、音声-署名/署名/音声の両翻訳方向のシームレスな翻訳を容易にする。
sign.mtは信頼性と無制限の通信をプロットし、オフライン機能を提供し、インターネット接続が限られている地域では不可欠である。
カスタマイズ可能な写真リアリスティックな手話アバターを提供することにより、ユーザエンゲージメントをさらに強化し、よりパーソナライズされ、認証されたユーザエクスペリエンスを促進する。
CC BY-NC-SA 4.0 でライセンスされている sign.mt はオープンで包括的なコミュニケーションに向けた重要な一歩である。
アプリは個人的および学術的な用途で使用、変更可能で、翻訳APIもサポートしており、幅広いアプリケーションへの統合を促進することができる。
しかし、必ずしも完成品ではない。
我々はNLPコミュニティにSign.mtの進化への貢献を依頼する。
より洗練されたモデルの統合、イノベーティブなパイプラインの開発、あるいはユーザエクスペリエンスの改善といったものであれ、あなたのコントリビューションは、このプロジェクトを新たなレベルまで進めることができます。
https://sign.mt.comで公開されており、コミュニケーションを誰にでもアクセスできるようにするため、一緒にできることの証として機能する。
This demo paper presents sign.mt, an open-source application pioneering real-time multilingual bi-directional translation between spoken and signed languages. Harnessing state-of-the-art open-source models, this tool aims to address the communication divide between the hearing and the deaf, facilitating seamless translation in both spoken-to-signed and signed-to-spoken translation directions. Promising reliable and unrestricted communication, sign.mt offers offline functionality, crucial in areas with limited internet connectivity. It further enhances user engagement by offering customizable photo-realistic sign language avatars, thereby encouraging a more personalized and authentic user experience. Licensed under CC BY-NC-SA 4.0, sign.mt signifies an important stride towards open, inclusive communication. The app can be used, and modified for personal and academic uses, and even supports a translation API, fostering integration into a wider range of applications. However, it is by no means a finished product. We invite the NLP community to contribute towards the evolution of sign.mt. Whether it be the integration of more refined models, the development of innovative pipelines, or user experience improvements, your contributions can propel this project to new heights. Available at https://sign.mt, it stands as a testament to what we can achieve together, as we strive to make communication accessible to all. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-04 |
# 局所微分プライバシーに基づくプライバシー保護グラフ埋め込み
Privacy-Preserving Graph Embedding based on Local Differential Privacy ( http://arxiv.org/abs/2310.11060v2 ) ライセンス: Link先を確認 | Zening Li, Rong-Hua Li, Meihao Liao, Fusheng Jin, Guoren Wang, | (参考訳) グラフ埋め込みは、グラフ内のノードの潜在表現を学習するための強力なツールになっている。
グラフベースの機械学習タスクのパフォーマンスは優れていますが、グラフデータが個人または機密情報を含んでいる場合、深刻なプライバシー上の懸念が発生します。
この問題に対処するため,局所微分プライバシー(LDP)を満たすグラフ埋め込みアルゴリズムを検討・開発する。
ノードデータのプライバシを保護するために,PrivGEという新たなプライバシ保護グラフ埋め込みフレームワークを導入する。
具体的には,ノードデータを難読化するための LDP 機構を提案し,パーソナライズされた PageRank を近接指標としてノード表現を学習する。
さらに,PrivGEフレームワークが提供するプライバシ保証とユーティリティに関する理論的分析を行った。
いくつかの実世界のグラフデータセットに対する大規模な実験は、PrivGEがプライバシとユーティリティの最適なバランスを達成し、ノード分類やリンク予測タスクにおいて既存の方法よりも大幅に優れていることを示している。
Graph embedding has become a powerful tool for learning latent representations of nodes in a graph. Despite its superior performance in various graph-based machine learning tasks, serious privacy concerns arise when the graph data contains personal or sensitive information. To address this issue, we investigate and develop graph embedding algorithms that satisfy local differential privacy (LDP). We introduce a novel privacy-preserving graph embedding framework, named PrivGE, to protect node data privacy. Specifically, we propose an LDP mechanism to obfuscate node data and utilize personalized PageRank as the proximity measure to learn node representations. Furthermore, we provide a theoretical analysis of the privacy guarantees and utility offered by the PrivGE framework. Extensive experiments on several real-world graph datasets demonstrate that PrivGE achieves an optimal balance between privacy and utility, and significantly outperforms existing methods in node classification and link prediction tasks. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-04 |
# Pseudorandom Statesから$\bot$-PRFsによる署名
Signatures From Pseudorandom States via $\bot$-PRFs ( http://arxiv.org/abs/2311.00847v5 ) ライセンス: Link先を確認 | Mohammed Barhoush, Amit Behera, Lior Ozer, Louis Salvail, Or Sattath, | (参考訳) 量子擬似ランダム性の異なるフレーバーは、様々な暗号アプリケーションに有用であることが証明されており、これらのプリミティブは量子後片道関数よりも弱い可能性がある。
Ananth, Lin, and Yuen (2023) は、対数擬似ランダム状態が擬決定論的PRGを構成するのに使えることを示した。
本研究では, $\bot$-PRG と $\bot$-PRF の新たな定義を導入する。
正当性保証は、固定種の場合、無視可能な確率を除いて、出力が同一(確率1-1/poly$)または認識可能な中止($\bot$)である。
当社のアプローチは、PRFの適応セキュリティと同様に、マルチタイムPRGセキュリティの自然な定義を認めている。
疑似決定論的PRGから$\bot$-PRGを構築し、そこから$\bot$-PRFを得る。
対称鍵暗号、コミットメント、MAC、長さ制限されたワンタイムデジタルシグネチャなど、ほとんどのミニ暗号化プリミティブは、様々な量子擬似ランダム性の仮定に基づいて示されているが、デジタルシグネチャは解明されていない。
本研究の主な応用は,古典的な公開鍵と署名を備えた(量子)デジタル署名方式であり,森前と山川の作品(クリプト,2022年)に提示された未解決問題に対処するものである。
さらに, タンパーレジリエントな量子公開鍵を用いたセキュアな公開鍵暗号を構築する。
Different flavors of quantum pseudorandomness have proven useful for various cryptographic applications, with the compelling feature that these primitives are potentially weaker than post-quantum one-way functions. Ananth, Lin, and Yuen (2023) have shown that logarithmic pseudorandom states can be used to construct a pseudo-deterministic PRG: informally, for a fixed seed, the output is the same with $1-1/poly$ probability. In this work, we introduce new definitions for $\bot$-PRG and $\bot$-PRF. The correctness guarantees are that, for a fixed seed, except with negligible probability, the output is either the same (with probability $1-1/poly$) or recognizable abort, denoted $\bot$. Our approach admits a natural definition of multi-time PRG security, as well as the adaptive security of a PRF. We construct a $\bot$-PRG from any pseudo-deterministic PRG and, from that, a $\bot$-PRF. Even though most mini-crypt primitives, such as symmetric key encryption, commitments, MAC, and length-restricted one-time digital signatures, have been shown based on various quantum pseudorandomness assumptions, digital signatures remained elusive. Our main application is a (quantum) digital signature scheme with classical public keys and signatures, thereby addressing a previously unresolved question posed in Morimae and Yamakawa's work (Crypto, 2022). Additionally, we construct CPA secure public-key encryption with tamper-resilient quantum public keys. | 翻訳日:2024-08-07 00:15:47 公開日:2024-08-04 |
# コンピュータサイエンス教授と学生の学歴と個人的背景に基づく予測成功
Forecasting Success of Computer Science Professors and Students Based on Their Academic and Personal Backgrounds ( http://arxiv.org/abs/2311.02476v4 ) ライセンス: Link先を確認 | Ghazal Kalhor, Behnam Bahrak, | (参考訳) 大学院を卒業した後、多くのコンピュータサイエンス(CS)の学生が北米の競争力のある大学院プログラムに応募した。
彼らの長期的な目標は、大手5社のうちの1社に採用されるか、あるいは教授になることだ。
したがって、受け入れ基準の役割に気付くことは、目標に向かって最良の道を選ぶのに役立つかもしれない。
本稿では,北米の高名な大学に入学し,将来教授として学界に復帰する可能性について,学生の過去の大学の影響を分析した。
以上の結果から,従来の大学ランキングが目標達成の重要な要因であることが示唆された。
次に、上位25のコンピュータサイエンスプログラムを受講した学部の学生に偏見があることを示す。
最後に,これらの大学における教授の成功を予測するために,機械学習モデルを用いた。
我々はこの予測のために7.85のRMSEを達成した。
After completing their undergraduate studies, many computer science (CS) students apply for competitive graduate programs in North America. Their long-term goal is often to be hired by one of the big five tech companies or to become a faculty member. Therefore, being aware of the role of admission criteria may help them choose the best path towards their goals. In this paper, we analyze the influence of students' previous universities on their chances of being accepted to prestigious North American universities and returning to academia as professors in the future. Our findings demonstrate that the ranking of their prior universities is a significant factor in achieving their goals. We then illustrate that there is a bias in the undergraduate institutions of students admitted to the top 25 computer science programs. Finally, we employ machine learning models to forecast the success of professors at these universities. We achieved an RMSE of 7.85 for this prediction task. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-04 |
# 任意の複合系に対する量子安定化器形式
Quantum stabilizer formalism for any composite system ( http://arxiv.org/abs/2311.04255v4 ) ライセンス: Link先を確認 | Zhelin Tian, | (参考訳) 量子安定化器形式は、もともと量子エラー訂正符号をより便利に記述するために導入され、現在では量子コンピューティングや量子基礎など、多くの分野で重要な役割を担っている。
この論文では、まず関連する背景と必要な基礎知識を紹介し、量子安定化器の定義とその量子系の進化と測定への応用を紹介する。
最後に、量子安定化器の定式化を、以前に定義されていない量子ビット量子と量子ビット量子に拡張し、任意の合成系の量子安定化器をさらに定義しようと試みる。
The quantum stabilizer formalism was originally introduced to describe quantum error correction codes more conveniently and now are also playing an important role in many other fields, e.g., quantum computing and quantum foundation. In this dissertation, we first introduce relevant background and necessary basic knowledge, then introduce the definition of quantum stabilizer and its application in quantum system evolution and measurement. Finally, we try to extend the quantum stabilizer formalism to qubit-qutrit and qubit-ququart systems which not defined before, and further define quantum stabilizers of arbitrary composite systems. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-04 |
# 半教師付きシーケンス生成のための大規模言語モデルからの多段階協調的知識蒸留
Multistage Collaborative Knowledge Distillation from a Large Language Model for Semi-Supervised Sequence Generation ( http://arxiv.org/abs/2311.08640v4 ) ライセンス: Link先を確認 | Jiachen Zhao, Wenlong Zhao, Andrew Drozdov, Benjamin Rozonoyer, Md Arafat Sultan, Jay-Yoon Lee, Mohit Iyyer, Andrew McCallum, | (参考訳) 本研究は半教師付きシーケンス生成タスクについて検討し,いくつかのラベル付き例ではモデルを微調整するには不十分であり,また,少数ショットによる大言語モデル(LLM)は改善の余地を示す。
本稿では,数発のLDMから抽出した学生モデルが,教師よりも一般的に一般化できることを発見し,そのような課題の例を提示する。
学習者は,知識蒸留(KD)において教師が生成する高品質な擬似ラベルから一般パターンを学習でき,低品質な擬似ラベルから一般パターンを学習することが好ましい。
そこで本研究では,LLM (MCKD) を用いた多段階協調的知識蒸留法を提案する。
MCKDの最初の数発は、LLMにラベルなしデータの擬似ラベルを作成するよう促す。
そして、反復的なKDプロセスの各段階で、新しい学生ペアが疑似ラベル付きデータの解離分割を訓練し、目に見えない分割のための新しい改善された疑似ラベルを生成する。
我々は4つの構文解析および意味解析データセットについて広範な実験を行い、MCKDの低リソース半教師付きシーケンス生成における有効性を示す。
例えば、CRAFTのバイオメディカル解析では、50のラベル付き例を持つ3段階のMCKDは、LLM教師とバニラKDをそれぞれ7.5%、F1を3.7%解析し、500のラベル付き例で教師付き微調整のパフォーマンスに匹敵する。
We study semi-supervised sequence generation tasks, where the few labeled examples are too scarce to finetune a model, and meanwhile, few-shot prompted large language models (LLMs) exhibit room for improvement. In this paper, we present the discovery that a student model distilled from a few-shot prompted LLM can commonly generalize better than its teacher to unseen examples on such tasks. We find that the student is able to learn a general pattern from the high-quality pseudolabels produced by the teacher during knowledge distillation (KD), and favorably not a general pattern from the low-quality pseudolables. Leveraging this discovery, we propose a new method, Multistage Collaborative Knowledge Distillation from an LLM (MCKD), for these tasks. MCKD first few-shot prompts an LLM to produce pseudolabels for unlabeled data. Then at each stage of an iterative KD process, a new pair of students is trained on disjoint partitions of the pseudolabeled data, and produces new and improved pseudolabels for their unseen partitions. We conduct extensive experiments on four syntactic and semantic parsing datasets and show the effectiveness of MCKD for low-resource semi-supervised sequence generation. On CRAFT biomedical parsing, for example, 3-stage MCKD with 50 labeled examples outperforms an LLM teacher and vanilla KD by 7.5% and 3.7% parsing F1, respectively, and matches the performance of supervised finetuning with 500 labeled examples. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-04 |
# Unified Classification and Rejection: A One-versus-All Framework
Unified Classification and Rejection: A One-versus-All Framework ( http://arxiv.org/abs/2311.13355v2 ) ライセンス: Link先を確認 | Zhen Cheng, Xu-Yao Zhang, Cheng-Lin Liu, | (参考訳) 既知のクラスを分類し、曖昧で斬新な入力(out-of-distribution (OOD)とも呼ばれる)を拒絶するパターンは、オープンワールドのパターン認識に関与している。
ディープニューラルネットワークモデルは、通常クローズドセットの分類において優れているが、OOD入力を拒否するには不十分である。
この問題に対処するために、オープンセット認識(OSR)やOOD拒否/検出タスクを実行するために多くの手法が設計されている。
従来の手法では、学習後のスコア変換やハイブリッドモデルを用いて、既知のクラスを分離しながらOOD入力の低スコアを保証する。
本稿では,オープンな集合分類器を構築するための統一的なフレームワークの構築を試みる。
K $-known-class の開集合認識を $ (K+1) $-class 分類問題として定式化する。
K の $-class 問題を $ K $ 1-versus-all (OVA) のバイナリ分類タスクに分解し、いくつかのパラメータを結合することにより、OVA 分類器のスコアを組み合わせることで、$ (K+1) の $-class 後続確率が得られることを示す。
OVA学習分類器の閉集合分類精度を維持するために,OVA損失とマルチクラスクロスエントロピー損失を組み合わせたハイブリッドトレーニング戦略を提案する。
我々は、最近提案された畳み込みプロトタイプネットワーク上でのOVAフレームワークとハイブリッドトレーニング戦略を実装し、視覚トランスフォーマー(ViT)バックボーン上でのプロトタイプ分類を行う。
一般的なOSRおよびOOD検出データセットの実験により、提案するフレームワークは、単一のマルチクラス分類器を使用して、クローズドセット分類、OOD検出、誤分類検出において競合性能を発揮することが示された。
Classifying patterns of known classes and rejecting ambiguous and novel (also called as out-of-distribution (OOD)) inputs are involved in open world pattern recognition. Deep neural network models usually excel in closed-set classification while performs poorly in rejecting OOD inputs. To tackle this problem, numerous methods have been designed to perform open set recognition (OSR) or OOD rejection/detection tasks. Previous methods mostly take post-training score transformation or hybrid models to ensure low scores on OOD inputs while separating known classes. In this paper, we attempt to build a unified framework for building open set classifiers for both classification and OOD rejection. We formulate the open set recognition of $ K $-known-class as a $ (K+1) $-class classification problem with model trained on known-class samples only. By decomposing the $ K $-class problem into $ K $ one-versus-all (OVA) binary classification tasks and binding some parameters, we show that combining the scores of OVA classifiers can give $ (K+1) $-class posterior probabilities, which enables classification and OOD rejection in a unified framework. To maintain the closed-set classification accuracy of the OVA trained classifier, we propose a hybrid training strategy combining OVA loss and multi-class cross-entropy loss. We implement the OVA framework and hybrid training strategy on the recently proposed convolutional prototype network and prototype classifier on vision transformer (ViT) backbone. Experiments on popular OSR and OOD detection datasets demonstrate that the proposed framework, using a single multi-class classifier, yields competitive performance in closed-set classification, OOD detection, and misclassification detection. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-04 |
# うつ病診療ガイドラインを用いた診断説明可能性へのクロスアテンションアプローチ
A Cross Attention Approach to Diagnostic Explainability using Clinical Practice Guidelines for Depression ( http://arxiv.org/abs/2311.13852v3 ) ライセンス: Link先を確認 | Sumit Dalal, Deepa Tilwani, Kaushik Roy, Manas Gaur, Sarika Jain, Valerie Shalin, Amit Sheth, | (参考訳) 関連する臨床知識を用いた説明可能性の欠如は、非構造化臨床対話の人工知能による分析の導入を妨げる。
MH(Mental Health)に関する豊富なデータがオンラインコミュニティで利用可能であり、オンラインとオフラインの両方のアプリケーションのスクリーニングツールとして、潜在的な影響で説明可能性の問題に対処する機会を提供する。
そこで我々は,一般的なトランスフォーマーモデルにおける注目度を高める手法を開発し,外部臨床知識を取り入れて,分類のための臨床医が理解可能な説明を生成する。
臨床医が患者と対話する際の専門知識をどのように頼っているかに触発されて、関連する臨床知識を活用して患者の入力をモデル化し、分類に意味のある説明を提供する。
これにより、手作業によるレビューの時間を節約し、信頼を深めることができます。
我々は,世界的関心事の精神保健障害であるうつ病の診断に臨床実習ガイドライン(CPG)を用いて,MHの文脈でこのようなシステムを開発する。
本稿では,PSAT(ProcesS knowledge-infused cross Attention)と呼ばれるアプリケーション固有の言語モデルを提案する。
うつ病に関連する3つの専門家計算データセットの厳密な評価を通じて, PSATの応用関連説明可能性を示す。
PSATは9つのベースラインモデルのパフォーマンスを上回り、他のベースラインが不足している説明を提供することができる。
我々は,患者健康アンケート(例えばPHQ-9)などの抑うつに焦点を当てたCPGリソースを,SNOMED-CTを用いた機械可読性オントロジーに変換する。
このリソースにより、PSATはGPT-3.5のようなモデルでアプリケーション関連の説明を生成する能力を高める。
The lack of explainability using relevant clinical knowledge hinders the adoption of Artificial Intelligence-powered analysis of unstructured clinical dialogue. A wealth of relevant, untapped Mental Health (MH) data is available in online communities, providing the opportunity to address the explainability problem with substantial potential impact as a screening tool for both online and offline applications. We develop a method to enhance attention in popular transformer models and generate clinician-understandable explanations for classification by incorporating external clinical knowledge. Inspired by how clinicians rely on their expertise when interacting with patients, we leverage relevant clinical knowledge to model patient inputs, providing meaningful explanations for classification. This will save manual review time and engender trust. We develop such a system in the context of MH using clinical practice guidelines (CPG) for diagnosing depression, a mental health disorder of global concern. We propose an application-specific language model called ProcesS knowledge-infused cross ATtention (PSAT), which incorporates CPGs when computing attention. Through rigorous evaluation on three expert-curated datasets related to depression, we demonstrate application-relevant explainability of PSAT. PSAT also surpasses the performance of nine baseline models and can provide explanations where other baselines fall short. We transform a CPG resource focused on depression, such as the Patient Health Questionnaire (e.g. PHQ-9) and related questions, into a machine-readable ontology using SNOMED-CT. With this resource, PSAT enhances the ability of models like GPT-3.5 to generate application-relevant explanations. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-04 |
# 中本合意のセキュリティ・レイテンシ・アウトプットのトレードオフ
Trade-off of Security, Latency, and Throughput of the Nakamoto Consensus ( http://arxiv.org/abs/2312.05506v4 ) ライセンス: Link先を確認 | Shu-Jie Cao, Dongning Guo, | (参考訳) 本稿では,PoW中本コンセンサス(PoW Nakamotoコンセンサス)として知られる,最長チェーン分岐プロトコル(PoW)におけるセキュリティ,レイテンシ,スループットの基本的なトレードオフについて述べる。
取引の安全性を損なう可能性の新たな上限と下位境界は、正反対のマイニングレート、ブロック伝搬遅延の上限、およびトランザクション確認遅延の関数として、時間とブロック深さの両方で導出される。
結果は、すべての遅延に適応する最初の非自明な閉形式有限レイテンシと、究極の耐障害性までマイニングレートを含む。
特に、上限と下限のギャップは、ビットコインやLitecoinやDogecoin、Ethereum Classicなど、そのデリバティブに関連する幅広いパラメータに対して以前に確立された最良のギャップよりも狭くなっている。
さらに,所望の耐障害性によって決定されるトランザクションスループットと確認遅延の基本的なトレードオフと,ブロックサイズの増加に伴うブロック伝搬遅延の増大を明らかにする。
This paper delves into the fundamental trade-off between security, latency, and throughput in proof-of-work (PoW) longest-chain-fork-choice protocols, also known as the PoW Nakamoto consensus. New upper and lower bounds on the probability of violating transaction safety are derived as a function of honest and adversarial mining rates, an upper bound on block propagation delays, and transaction confirmation latency, both in time and in block depth. The results include a first non-trivial closed-form finite-latency bound applicable to all delays and mining rates up to the ultimate fault tolerance. Notably, the gap between the upper and lower bounds is narrower than the best gaps previously established for a wide range of parameters relevant to Bitcoin and its derivatives such as Litecoin and Dogecoin, as well as for Ethereum Classic. Furthermore, the paper reveals a fundamental trade-off between transaction throughput and confirmation latency, ultimately determined by the desired fault tolerance and the growth of block propagation delay as block size increases. | 翻訳日:2024-08-07 00:06:03 公開日:2024-08-04 |
# ニューラルコード生成の連鎖--軽量言語モデルを中心に
Chain-of-Thought in Neural Code Generation: From and For Lightweight Language Models ( http://arxiv.org/abs/2312.05562v2 ) ライセンス: Link先を確認 | Guang Yang, Yu Zhou, Xiang Chen, Xiangyu Zhang, Terry Yue Zhuo, Taolue Chen, | (参考訳) 大規模言語モデル(LLM)は、コード生成において顕著な可能性を示している。
思考の連鎖(CoT)推論の統合は、そのパフォーマンスをさらに向上させる。
しかしながら、現在のCoTメソッドは、リソース制約のあるシナリオにおいて適用性を妨げ、1000億以上のパラメータを生成するために手書きやLLMを必要とすることが多い。
本研究では,100億未満のパラメータを持つと定義される軽量言語モデル (lLM) について検討する。
経験的に、ほとんどの lLM は数ショット法によって高品質な CoT を生成できないが、コード生成におけるパフォーマンスを向上させるために、他の場所で生成された高品質な CoT を活用することができる。
これらの知見に基づいて,コード生成のためのCOTを自動生成するためにlLMを利用する新しいアプローチCOTTONを設計する。
我々は新しいデータセットを合成し、様々なベンチマークで広範な実験を行う。
その結果,COTTONが生成するCoTsは,自動評価と人的評価の指標において,ベースラインを上回っていることがわかった。
特に、COTTONが生成するCoTは、ChatGLM (130B)のようなLCMよりも高い性能を達成するために様々なlLMを増強し、gpt-3.5-turbo (175B) で生成されたものと競合する。
また,ソフトウェア工学応用における lLM の可能性についても検討した。
Large Language Models (LLMs) have demonstrated remarkable potential in code generation. The integration of Chain of Thought (CoT) reasoning can further boost their performance. However, current CoT methods often require manual writing or LLMs with over 100 billion parameters to generate, impeding their applicability in resource-constrained scenarios. In this study, we investigate lightweight Language Models (lLMs), which are defined to have fewer than 10 billion parameters. Empirically, we find that most lLMs cannot generate high-quality CoTs when prompted by the few-shot method, but can take advantage of high-quality CoTs generated elsewhere to improve their performance in code generation. Based on these findings, we design a novel approach COTTON which can leverage lLMs to automatically generate CoTs for code generation. We synthesize new datasets and conduct extensive experiments on various benchmarks. The results show that the CoTs generated by COTTON outperform the baselines in terms of automated and human evaluation metrics. In particular, the CoTs generated by COTTON boost various lLMs to achieve higher performance gains than those generated by LLMs such as ChatGLM (130B), and are competitive with those generated by gpt-3.5-turbo (175B). Our study also showcases the potential of lLMs in software engineering applications. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-04 |
# 新しいGPT-4 APIの公開
Exploiting Novel GPT-4 APIs ( http://arxiv.org/abs/2312.14302v2 ) ライセンス: Link先を確認 | Kellin Pelrine, Mohammad Taufeeque, Michał Zając, Euan McLean, Adam Gleave, | (参考訳) 言語モデル攻撃は通常、モデルウェイトに対する完全なホワイトボックスアクセスと、テキスト生成APIに制限されたブラックボックスアクセスの2つの極端な脅威モデルのうちの1つを想定する。
しかし、現実のAPIはテキスト生成よりもフレキシブルであることが多い。これらのAPIは、新しい脅威ベクトルにつながる"グレーボックス"アクセスを公開する。
これを探るため、我々はGPT-4 APIで公開された3つの新機能(微調整、関数呼び出し、知識検索)を再設計した。
GPT-4からコアセーフガードを取り除き、有害な出力の範囲を許容する。
さらに、GPT-4アシスタントは、関数呼び出しスキーマを簡単に拡張し、任意の関数呼び出しを実行することができる。
最後に,検索文書に指示を注入することで,知識検索をハイジャックできることを見出した。
これらの脆弱性は、APIによって公開された機能への追加が、新たな脆弱性を生み出す可能性があることを強調している。
Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose "gray-box" access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-04 |
# 逆正則化によるロバスト生存解析
Robust Survival Analysis with Adversarial Regularization ( http://arxiv.org/abs/2312.16019v3 ) ライセンス: Link先を確認 | Michael Potter, Stefano Maxenti, Michael Everett, | (参考訳) 生存分析(Survival Analysis、SA)は、医学、防衛学、金融学、航空宇宙学などの分野で応用されるイベントが発生するまでの時間をモデル化する。
最近の研究によると、ニューラルネットワーク(NN)はSAの複雑な関係を捉えることができる。
しかし、データセットの不確実性(例えば、ノイズ測定、ヒューマンエラー)は、モデル性能を低下させる可能性がある。
これを解決するために、NN検証の進歩を活用して、堅牢で完全なパラメトリックサバイバルモデルのためのアルゴリズムを作成する。
我々は、ロバストな損失関数を導入し、 CROWN-IBP正規化を用いて、Min-Max問題における計算問題に対処する。
SurvSetデータセットに対する我々のアプローチを評価すると、我々のSurvival Analysis with Adversarial Regularization (zawaR) 法は、負ログ類似度(NegLL)、IBS(Integrated Brier Score)、Concordance Index(CI)に関して、様々な摂動の下でベースラインを一貫して上回ります。
このことは、逆正則化がSAのパフォーマンスとキャリブレーションを高め、データの不確実性を緩和し、摂動の規模で最大150%まで多様なデータセットの一般化を改善することを示している。
Survival Analysis (SA) models the time until an event occurs, with applications in fields like medicine, defense, finance, and aerospace. Recent work shows that Neural Networks (NNs) can capture complex relationships in SA. However, dataset uncertainties (e.g., noisy measurements, human error) can degrade model performance. To address this, we leverage NN verification advances to create algorithms for robust, fully-parametric survival models. We introduce a robust loss function and use CROWN-IBP regularization to handle computational challenges in the Min-Max problem. Evaluating our approach on SurvSet datasets, we find that our Survival Analysis with Adversarial Regularization (SAWAR) method consistently outperforms baselines under various perturbations with respect to Negative Log Likelihood (NegLL), Integrated Brier Score (IBS), and Concordance Index (CI). This demonstrates that adversarial regularization enhances SA performance and calibration, mitigating data uncertainty and improving generalization across diverse datasets up to 150% across all perturbation magnitudes. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-04 |
# フラッグで楽しむ:フラッグマニフォールドによるロバストな主要方向
Fun with Flags: Robust Principal Directions via Flag Manifolds ( http://arxiv.org/abs/2401.04071v4 ) ライセンス: Link先を確認 | Nathan Mankovich, Gustau Camps-Valls, Tolga Birdal, | (参考訳) 主成分分析(PCA)は、多様体の拡張や外層汚染データとともに、コンピュータビジョンや機械学習では不可欠である。
そこで本研究では,PCAとその変種に対する統一形式を提示し,線形部分空間のフラグに基づくフレームワークを導入する。
分散を最大化するか、再構成誤差を最小化する従来のPCA手法を一般化することから始める。
我々はこれらの解釈を拡張して、外れ値とデータ多様体を考慮し、新しい次元削減アルゴリズムを広範囲に開発する。
共通の計算手法を考案するために、フラグ多様体の最適化問題として、頑健で双対なPCAを再放送する。
次に、このフラグベースのフレームワークに主測地線解析(Tangent-PCA)の接空間近似を組み込み、新しいロバストかつ双対測地線PCAのバリエーションを作成する。
ここで導入された"フラグ化(flagification)"によって提供される顕著な柔軟性は、特定のフラグタイプによって識別される、さらにアルゴリズム的なバリエーションを可能にします。
最後に、Stiefel多様体を用いたこれらのフラグ形式に対する効果的な収束解法を提案する。
実世界のシナリオと合成シナリオの両方に関する実証的な結果から、新しいアルゴリズムの優位性、特に多様体上の外れ値に対するロバスト性を示す。
Principal component analysis (PCA), along with its extensions to manifolds and outlier contaminated data, have been indispensable in computer vision and machine learning. In this work, we present a unifying formalism for PCA and its variants, and introduce a framework based on the flags of linear subspaces, ie a hierarchy of nested linear subspaces of increasing dimension, which not only allows for a common implementation but also yields novel variants, not explored previously. We begin by generalizing traditional PCA methods that either maximize variance or minimize reconstruction error. We expand these interpretations to develop a wide array of new dimensionality reduction algorithms by accounting for outliers and the data manifold. To devise a common computational approach, we recast robust and dual forms of PCA as optimization problems on flag manifolds. We then integrate tangent space approximations of principal geodesic analysis (tangent-PCA) into this flag-based framework, creating novel robust and dual geodesic PCA variations. The remarkable flexibility offered by the 'flagification' introduced here enables even more algorithmic variants identified by specific flag types. Last but not least, we propose an effective convergent solver for these flag-formulations employing the Stiefel manifold. Our empirical results on both real-world and synthetic scenarios, demonstrate the superiority of our novel algorithms, especially in terms of robustness to outliers on manifolds. | 翻訳日:2024-08-06 23:55:54 公開日:2024-08-04 |
# トリガーリコメンデーションにおけるCTR予測のための深部進化的インスタントネットワーク
Deep Evolutional Instant Interest Network for CTR Prediction in Trigger-Induced Recommendation ( http://arxiv.org/abs/2401.07769v3 ) ライセンス: Link先を確認 | Zhibo Xiao, Luwei Yang, Tao Zhang, Wen Jiang, Wei Ning, Yujiu Yang, | (参考訳) このレコメンデーションは、eコマース、ストリーミングメディア、ソーシャルメディアなど、多くの業界で重要な役割を果たしている。
近年,トリガー誘導勧告 (Trigger-induced Recommendation, TIR) と呼ばれる新たなレコメンデーションシナリオが登場し,ユーザがトリガーアイテムを通じて自身の興味を明示的に表現できるようになった。
ユーザの興味を明示的にモデル化せずに、従来のレコメンデーションメソッドは通常、TIRで準最適結果を得る。
この問題を解決するためにトリガーとターゲットアイテムを同時に検討する手法はいくつかあるが、ユーザ行動の時間的情報、ユーザがスクロールダウンした際のユーザの瞬間的関心の変化、トリガーとターゲットアイテム間の相互作用を考慮に入れていない。
これらの問題に対処するために、TIRシナリオにおけるクリックスルーレート予測のための新しい手法、Deep Evolutional Instant Interest Network (DEI2N)を提案する。
具体的には,ユーザがスクロールダウンした場合の瞬間的関心の強度の動的変化を予測するために,ユーザインスタント・関心モデリング・レイヤを設計する。
時間情報はユーザ行動モデリングに利用される。
さらに、トリガーとターゲットアイテム間のより優れたインタラクションを学ぶために、Interaction Layerが導入された。
オフラインおよび実世界の産業データセットを用いて,本手法の評価を行った。
実験の結果,提案したDEI2Nは最先端のベースラインよりも優れていた。
さらに、オンラインA/Bテストは、実運用環境における既存のベースラインよりも優れていることを示す。
The recommendation has been playing a key role in many industries, e.g., e-commerce, streaming media, social media, etc. Recently, a new recommendation scenario, called Trigger-Induced Recommendation (TIR), where users are able to explicitly express their instant interests via trigger items, is emerging as an essential role in many e-commerce platforms, e.g., Alibaba.com and Amazon. Without explicitly modeling the user's instant interest, traditional recommendation methods usually obtain sub-optimal results in TIR. Even though there are a few methods considering the trigger and target items simultaneously to solve this problem, they still haven't taken into account temporal information of user behaviors, the dynamic change of user instant interest when the user scrolls down and the interactions between the trigger and target items. To tackle these problems, we propose a novel method -- Deep Evolutional Instant Interest Network (DEI2N), for click-through rate prediction in TIR scenarios. Specifically, we design a User Instant Interest Modeling Layer to predict the dynamic change of the intensity of instant interest when the user scrolls down. Temporal information is utilized in user behavior modeling. Moreover, an Interaction Layer is introduced to learn better interactions between the trigger and target items. We evaluate our method on several offline and real-world industrial datasets. Experimental results show that our proposed DEI2N outperforms state-of-the-art baselines. In addition, online A/B testing demonstrates the superiority over the existing baseline in real-world production environments. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-04 |
# FairEHR-CLP:マルチモーダル電子健康記録におけるコントラスト学習による公正な臨床予測に向けて
FairEHR-CLP: Towards Fairness-Aware Clinical Predictions with Contrastive Learning in Multimodal Electronic Health Records ( http://arxiv.org/abs/2402.00955v2 ) ライセンス: Link先を確認 | Yuqing Wang, Malvika Pillai, Yun Zhao, Catherine Curtin, Tina Hernandez-Boussard, | (参考訳) 医療の分野では、予測モデルの公正性の確保が不可欠である。
電子健康記録(EHR)は、医学的意思決定に不可欠なものとなっているが、モデル公正性を高める既存の方法は、不正なデータに制限され、EHRの人口統計学的要因に絡む多面的社会的偏見に対処できない。
これらのバイアスを緩和するため,EHRにおけるFairness-Aware Clinical Predictions with Contrastive Learningの一般的な枠組みであるFairEHR-CLPを提案する。
FairEHR-CLPは2段階のプロセスで動作し、患者の人口統計、縦断データ、臨床ノートを利用する。
第一に、患者ごとに合成相手が生成され、多様な人口密度が得られながら、必須の健康情報を保持することができる。
第二に、フェアネスを意識した予測は、臨床分類タスクのためのソフトマックス層とMLP分類器を併用して、患者表現をセンシティブな属性間で整列させるコントラスト学習を採用する。
グループサイズやクラス不均衡などの EHR の固有の課題を認識し、サブグループ間の誤差率の差異を効果的に測定する新しい公平度指標を導入する。
3つのタスクに関する3つの多種多様なEHRデータセットに対する大規模な実験は、FairEHR-CLPの有効性を、競合ベースラインと比較して公正性と実用性の観点から示している。
FairEHR-CLPは、予測医療モデルにおける正確性と公平性を保証するための進歩である。
In the high-stakes realm of healthcare, ensuring fairness in predictive models is crucial. Electronic Health Records (EHRs) have become integral to medical decision-making, yet existing methods for enhancing model fairness restrict themselves to unimodal data and fail to address the multifaceted social biases intertwined with demographic factors in EHRs. To mitigate these biases, we present FairEHR-CLP: a general framework for Fairness-aware Clinical Predictions with Contrastive Learning in EHRs. FairEHR-CLP operates through a two-stage process, utilizing patient demographics, longitudinal data, and clinical notes. First, synthetic counterparts are generated for each patient, allowing for diverse demographic identities while preserving essential health information. Second, fairness-aware predictions employ contrastive learning to align patient representations across sensitive attributes, jointly optimized with an MLP classifier with a softmax layer for clinical classification tasks. Acknowledging the unique challenges in EHRs, such as varying group sizes and class imbalance, we introduce a novel fairness metric to effectively measure error rate disparities across subgroups. Extensive experiments on three diverse EHR datasets on three tasks demonstrate the effectiveness of FairEHR-CLP in terms of fairness and utility compared with competitive baselines. FairEHR-CLP represents an advancement towards ensuring both accuracy and equity in predictive healthcare models. | 翻訳日:2024-08-06 23:46:09 公開日:2024-08-04 |
# 大規模言語モデルにおける安全度評価のための中国語データセット
A Chinese Dataset for Evaluating the Safeguards in Large Language Models ( http://arxiv.org/abs/2402.12193v3 ) ライセンス: Link先を確認 | Yuxia Wang, Zenan Zhai, Haonan Li, Xudong Han, Lizhi Lin, Zhenxuan Zhang, Jingru Zhao, Preslav Nakov, Timothy Baldwin, | (参考訳) 多くの研究は、大きな言語モデル(LLM)が有害な応答を発生し、LCMがデプロイされた時に予期せぬリスクにユーザをさらすことを実証している。
従来の研究では、LSMがもたらすリスクの包括的分類法や、LSMの安全性のメカニズムを調べるためのそれに対応するプロンプトが提案されている。
しかし、その焦点は英語に限られており、他の言語についてはほとんど語られていない。
ここではこのギャップを埋めることを目指しています。
まず、中国のLCMの安全性評価のためのデータセットを導入し、リスクの高いプロンプト拒絶という観点から、偽陰性および偽陽性の事例をよりよく識別するために使用可能な、他の2つのシナリオに拡張する。
さらに, リスクタイプごとに詳細な安全性評価基準を提示し, LLM応答の有害性の観点から手動のアノテーションと自動評価を容易にする。
5つのLSMに関する実験により、地域固有のリスクが一般的なリスクのタイプであることが示され、私たちが実験したすべての中国LSMにおいて大きな問題が提示される。
私たちのデータはhttps://github.com/Libr-AI/do-not-answer.comで公開されています。
警告:本論文は、攻撃的、有害、偏見のあるサンプルデータを含む。
Many studies have demonstrated that large language models (LLMs) can produce harmful responses, exposing users to unexpected risks when LLMs are deployed. Previous studies have proposed comprehensive taxonomies of the risks posed by LLMs, as well as corresponding prompts that can be used to examine the safety mechanisms of LLMs. However, the focus has been almost exclusively on English, and little has been explored for other languages. Here we aim to bridge this gap. We first introduce a dataset for the safety evaluation of Chinese LLMs, and then extend it to two other scenarios that can be used to better identify false negative and false positive examples in terms of risky prompt rejections. We further present a set of fine-grained safety assessment criteria for each risk type, facilitating both manual annotation and automatic evaluation in terms of LLM response harmfulness. Our experiments on five LLMs show that region-specific risks are the prevalent type of risk, presenting the major issue with all Chinese LLMs we experimented with. Our data is available at https://github.com/Libr-AI/do-not-answer. Warning: this paper contains example data that may be offensive, harmful, or biased. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-04 |
# ランダム化はバイアスと変数の両方を減少させる:ランダム化林を事例として
Randomization Can Reduce Both Bias and Variance: A Case Study in Random Forests ( http://arxiv.org/abs/2402.12668v2 ) ライセンス: Link先を確認 | Brian Liu, Rahul Mazumder, | (参考訳) 我々は、しばしば見落とされがちな現象について研究し、まず最初に『cite{breiman 2001random}』で、ランダムな森林は、バッグングに比べて偏見を減らしているように見えることを指摘した。
著者らは、ランダムな森林が効果的な自由度を減らし、低信号-雑音比(SNR)設定でのみバッグングアンサンブルを上回り、ランダムな森林がバッグングによって欠落したデータのパターンをいかに発見できるかを考察した。
このようなパターンが存在すると、ランダムな森林はばらつきとともにバイアスを減らし、SNRが高い場合にはバッグングアンサンブルを上回ります。
我々の観察は、様々なSNRにおけるランダム林の現実的な成功についての洞察を与え、各分割に注入されたランダム化に関してランダム林とバッグアンサンブルの違いの理解を深める。
我々の調査は、ランダム森林におけるmtry$のチューニングの重要性に関する実践的な洞察ももたらしている。
We study the often overlooked phenomenon, first noted in \cite{breiman2001random}, that random forests appear to reduce bias compared to bagging. Motivated by an interesting paper by \cite{mentch2020randomization}, where the authors argue that random forests reduce effective degrees of freedom and only outperform bagging ensembles in low signal-to-noise ratio (SNR) settings, we explore how random forests can uncover patterns in the data missed by bagging. We empirically demonstrate that in the presence of such patterns, random forests reduce bias along with variance and increasingly outperform bagging ensembles when SNR is high. Our observations offer insights into the real-world success of random forests across a range of SNRs and enhance our understanding of the difference between random forests and bagging ensembles with respect to the randomization injected into each split. Our investigations also yield practical insights into the importance of tuning $mtry$ in random forests. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-04 |
# 単一画像レイニングのための地域情報変換器の試作
Exploiting Regional Information Transformer for Single Image Deraining ( http://arxiv.org/abs/2402.16033v2 ) ライセンス: Link先を確認 | Baiang Li, Zhao Zhang, Huan Zheng, Xiaogang Xu, Yanyan Wei, Jingyi Zhang, Jicong Fan, Meng Wang, | (参考訳) トランスフォーマーをベースとしたSID(Single Image Deraining)手法は、長距離インタラクションをキャプチャする堅牢な能力に起因して、大きな成功を収めている。
しかし,現在の手法では,雨害・無影響地域を同時に扱うことができ,これらの地域間の格差を見越して,雨害と背景部分の混同が生じ,効果的な相互作用が得られず,結果として,最適下地食の結果がもたらされることに気付いた。
以上の課題に対処するため,高画質画像再構成における影響を考慮しつつ,降雨・無影響領域を独立に処理することの重要性を浮き彫りにする新しいSID手法であるRegformer(Regformer)を導入する。
提案手法の要点は、RMA機構とMGFB(Mixed Gate Forward Block)を統合した、革新的なRegional Transformer Block(RTB)である。
我々のRTBは、雨の影響を受けていない地域の注意選択と混合スケールの局所的モデリングに利用されている。
RMAはこれらの2つの地域とその相互作用に合わせてアテンションマップを生成し,雨の除去に不可欠な包括的特徴を抽出する。
高周波テクスチャを回復し,より局所的な詳細を捉えるため,MGFBを補償モジュールとして開発し,局所混合スケールモデルを完成させる。
大規模な実験により、我々のモデルは最先端の性能に到達し、画像の劣化品質を著しく改善することが示された。
私たちのコードとトレーニングされたモデルは公開されています。
Transformer-based Single Image Deraining (SID) methods have achieved remarkable success, primarily attributed to their robust capability in capturing long-range interactions. However, we've noticed that current methods handle rain-affected and unaffected regions concurrently, overlooking the disparities between these areas, resulting in confusion between rain streaks and background parts, and inabilities to obtain effective interactions, ultimately resulting in suboptimal deraining outcomes. To address the above issue, we introduce the Region Transformer (Regformer), a novel SID method that underlines the importance of independently processing rain-affected and unaffected regions while considering their combined impact for high-quality image reconstruction. The crux of our method is the innovative Region Transformer Block (RTB), which integrates a Region Masked Attention (RMA) mechanism and a Mixed Gate Forward Block (MGFB). Our RTB is used for attention selection of rain-affected and unaffected regions and local modeling of mixed scales. The RMA generates attention maps tailored to these two regions and their interactions, enabling our model to capture comprehensive features essential for rain removal. To better recover high-frequency textures and capture more local details, we develop the MGFB as a compensation module to complete local mixed scale modeling. Extensive experiments demonstrate that our model reaches state-of-the-art performance, significantly improving the image deraining quality. Our code and trained models are publicly available. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-04 |
# ここからどこへ行くのか? 自然空間記述からの多スケール同心関係推論
Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions ( http://arxiv.org/abs/2402.16364v2 ) ライセンス: Link先を確認 | Tzuf Paz-Argaman, Sayali Kulkarni, John Palowitch, Jason Baldridge, Reut Tsarfaty, | (参考訳) 自然言語の経路を伝達する場合、取得された空間知識の概念は地理情報検索(GIR)や空間認知研究において重要である。
しかし、NLPナビゲーション研究は、そのような知識がテキスト記述に与える影響をしばしば見落としている。
現在のナビゲーション研究は、エージェントの局所的知覚に関する推論を必要とするエゴセントリックな局所的記述(例えば、'It will be on your right')に焦点を当てている。
これらの命令は、通常一連のステップとして与えられ、各アクションステップが明示的に言及され、次にエージェントが正しいパス(例: 'turn right, then you will see...')にあることを確認するランドマークが続く。
対照的に、地図を通して得られた知識に基づく記述は、環境の完全なビューを提供し、その全体構造をキャプチャする。
これらの指示(例:「中央公園の南、警察署の北のブロック」)は典型的には非順序的であり、複数の空間的関係と暗黙的な行動を持つ同心関係を含む。
本稿では,Rendezvous (RVS) タスクとデータセットについて紹介する。
解析の結果、RVSは空間的同心関係のよりリッチな利用を示し、従来のテキストベースのナビゲーションベンチマークと比較すると、空間的関係を同時に解決する必要があることが明らかとなった。
When communicating routes in natural language, the concept of acquired spatial knowledge is crucial for geographic information retrieval (GIR) and in spatial cognitive research. However, NLP navigation studies often overlook the impact of such acquired knowledge on textual descriptions. Current navigation studies concentrate on egocentric local descriptions (e.g., `it will be on your right') that require reasoning over the agent's local perception. These instructions are typically given as a sequence of steps, with each action-step explicitly mentioning and being followed by a landmark that the agent can use to verify they are on the right path (e.g., `turn right and then you will see...'). In contrast, descriptions based on knowledge acquired through a map provide a complete view of the environment and capture its overall structure. These instructions (e.g., `it is south of Central Park and a block north of a police station') are typically non-sequential, contain allocentric relations, with multiple spatial relations and implicit actions, without any explicit verification. This paper introduces the Rendezvous (RVS) task and dataset, which includes 10,404 examples of English geospatial instructions for reaching a target location using map-knowledge. Our analysis reveals that RVS exhibits a richer use of spatial allocentric relations, and requires resolving more spatial relations simultaneously compared to previous text-based navigation benchmarks. | 翻訳日:2024-08-06 23:36:13 公開日:2024-08-04 |
# InjecAgent: ツール統合大規模言語モデルエージェントにおける間接プロンプトインジェクションのベンチマーク
InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents ( http://arxiv.org/abs/2403.02691v3 ) ライセンス: Link先を確認 | Qiusi Zhan, Zhixiang Liang, Zifan Ying, Daniel Kang, | (参考訳) 最近の研究はLLMをエージェントとして具体化し、ツールにアクセスし、アクションを実行し、外部コンテンツ(eメールやWebサイトなど)と対話することを可能にする。
しかし、外部コンテンツは間接的プロンプトインジェクション(IPI)攻撃のリスクを導入し、悪意のある命令がLLMによって処理されたコンテンツに埋め込まれ、これらのエージェントを操作してユーザに対する有害なアクションを実行する。
このような攻撃による潜在的に深刻な結果を考えると、これらのリスクを評価し緩和するためのベンチマークを確立することが不可欠である。
本稿では,ツール統合LDMエージェントのIPI攻撃に対する脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。
InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。
攻撃意図を2つの主要なタイプに分類する。
我々は30種類のLDMエージェントを評価し、エージェントがIPI攻撃に対して脆弱であることを示し、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱であることを示した。
攻撃指示をハッキングプロンプトで補強する強化設定に関するさらなる調査は、さらなる成功率の増加を示し、ReAct-prompted GPT-4の攻撃成功率をほぼ2倍にしている。
以上の結果から, LLMエージェントの広範な展開に関する疑問が浮かび上がった。
私たちのベンチマークはhttps://github.com/uiuc-kang-lab/InjecAgent.comで公開されています。
Recent work has embodied LLMs as agents, allowing them to access tools, perform actions, and interact with external content (e.g., emails or websites). However, external content introduces the risk of indirect prompt injection (IPI) attacks, where malicious instructions are embedded within the content processed by LLMs, aiming to manipulate these agents into executing detrimental actions against users. Given the potentially severe consequences of such attacks, establishing benchmarks to assess and mitigate these risks is imperative. In this work, we introduce InjecAgent, a benchmark designed to assess the vulnerability of tool-integrated LLM agents to IPI attacks. InjecAgent comprises 1,054 test cases covering 17 different user tools and 62 attacker tools. We categorize attack intentions into two primary types: direct harm to users and exfiltration of private data. We evaluate 30 different LLM agents and show that agents are vulnerable to IPI attacks, with ReAct-prompted GPT-4 vulnerable to attacks 24% of the time. Further investigation into an enhanced setting, where the attacker instructions are reinforced with a hacking prompt, shows additional increases in success rates, nearly doubling the attack success rate on the ReAct-prompted GPT-4. Our findings raise questions about the widespread deployment of LLM Agents. Our benchmark is available at https://github.com/uiuc-kang-lab/InjecAgent. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-04 |
# 制御可能なレコメンデーションのための大規模言語モデルの調整
Aligning Large Language Models for Controllable Recommendations ( http://arxiv.org/abs/2403.05063v2 ) ライセンス: Link先を確認 | Wensheng Lu, Jianxun Lian, Wei Zhang, Guanghua Li, Mingyang Zhou, Hao Liao, Xing Xie, | (参考訳) LLM(Large Language Models)という異例の汎用知性に触発された研究者たちは、次世代のレコメンダシステム(会話型、説明可能、制御可能なシステム)のパイオニアとして、その応用を探求し始めている。
しかし、既存の文献は主にLLMにドメイン固有の知識を統合することに集中しており、しばしば命令に従う能力を無視している。
このギャップに対処するために、我々はまず、従来のレコメンデータモデルから派生したラベルを付加した教師付き学習タスクのコレクションを導入し、レコメンデーション固有の指示に適応するLLMの能力を明確に向上することを目的とした。
その後、ユーザ意図に応じてLCMの能力を高め、フォーマットエラーを軽減するための強化学習ベースのアライメント手法を開発した。
提案手法は,2つの実世界のデータセットに対する広範な実験を通じて,高い精度の精度を維持しつつ,レコメンダシステム内の命令に準拠するLLMの能力を大幅に向上させる。
Inspired by the exceptional general intelligence of Large Language Models (LLMs), researchers have begun to explore their application in pioneering the next generation of recommender systems - systems that are conversational, explainable, and controllable. However, existing literature primarily concentrates on integrating domain-specific knowledge into LLMs to enhance accuracy, often neglecting the ability to follow instructions. To address this gap, we initially introduce a collection of supervised learning tasks, augmented with labels derived from a conventional recommender model, aimed at explicitly improving LLMs' proficiency in adhering to recommendation-specific instructions. Subsequently, we develop a reinforcement learning-based alignment procedure to further strengthen LLMs' aptitude in responding to users' intentions and mitigating formatting errors. Through extensive experiments on two real-world datasets, our method markedly advances the capability of LLMs to comply with instructions within recommender systems, while sustaining a high level of accuracy performance. | 翻訳日:2024-08-06 23:26:29 公開日:2024-08-04 |
# Blended RAG: セマンティック検索とハイブリッドクエリベースの検索によるRAG(Retriever-Augmented Generation)精度の向上
Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers ( http://arxiv.org/abs/2404.07220v2 ) ライセンス: Link先を確認 | Kunal Sawarkar, Abhilasha Mangal, Shivam Raj Solanki, | (参考訳) Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q\&A (Question-Answering) システムを構築するための一般的なアプローチである。
しかし、文書のコーパスが拡大するにつれて、RAGの精度はますます難しくなり、レトリバーは、コーパスから最も関連性の高い文書を抽出し、LCMにコンテキストを提供することにより、RAGの精度において大きすぎる役割を担っている。
本稿では,Dense Vector index や Sparse Encoder index などのセマンティック検索手法を併用した 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
このような「ブレンドレトリバー」をRAGシステムに拡張し、SQUADのような生成Q\&Aデータセットにおいてより優れた結果を示し、微調整性能を上回ります。
Retrieval-Augmented Generation (RAG) is a prevalent approach to infuse a private knowledge base of documents with Large Language Models (LLM) to build Generative Q\&A (Question-Answering) systems. However, RAG accuracy becomes increasingly challenging as the corpus of documents scales up, with Retrievers playing an outsized role in the overall RAG accuracy by extracting the most relevant document from the corpus to provide context to the LLM. In this paper, we propose the 'Blended RAG' method of leveraging semantic search techniques, such as Dense Vector indexes and Sparse Encoder indexes, blended with hybrid query strategies. Our study achieves better retrieval results and sets new benchmarks for IR (Information Retrieval) datasets like NQ and TREC-COVID datasets. We further extend such a 'Blended Retriever' to the RAG system to demonstrate far superior results on Generative Q\&A datasets like SQUAD, even surpassing fine-tuning performance. | 翻訳日:2024-08-06 23:16:45 公開日:2024-08-04 |
# Kolmogorov Arnold Informed Neural Network: Kolmogorov Arnold Networksに基づく前方および逆問題解決のための物理インフォームドディープラーニングフレームワーク
Kolmogorov Arnold Informed neural network: A physics-informed deep learning framework for solving forward and inverse problems based on Kolmogorov Arnold Networks ( http://arxiv.org/abs/2406.11045v2 ) ライセンス: Link先を確認 | Yizheng Wang, Jia Sun, Jinshuai Bai, Cosmin Anitescu, Mohammad Sadegh Eshaghi, Xiaoying Zhuang, Timon Rabczuk, Yinghua Liu, | (参考訳) 偏微分方程式(PDE)のためのAIは特に物理インフォームドニューラルネットワーク(PINN)の出現によって大きな注目を集めている。
最近のコルモゴロフ・アルノルドネットワーク(KAN)の出現は、以前のMPPベースのPINNを再検討し、拡張する可能性があることを示している。
MLPと比較して、kansは解釈可能性を提供し、パラメータを少なくする。
PDEは強形式、エネルギー形式、逆形式など様々な形で記述できる。
数学的に等価であるが、これらの形式は計算学的に等価ではないため、計算物理学において異なるPDE定式化の探索が重要である。
そこで我々は,先進および逆問題の解法として,Kolmogorov-Arnold-Informed Neural Network (KINN) と呼ばれる,MLPの代わりにkanに基づく異なるPDE形式を提案する。
我々は,多スケール,特異点,応力集中,非線形超弾性,不均一,複素幾何問題など,PDEの様々な数値例において,MLPとKAを体系的に比較した。
計算ソリッド力学におけるPDEの精度と収束速度に関して,複雑な幾何学的問題を除いて,KINN は MLP よりも有意に優れていた。
これは、PDEのためのAIにおいて、より効率的で正確なPDEソリューションに対するKINNの可能性を強調している。
AI for partial differential equations (PDEs) has garnered significant attention, particularly with the emergence of Physics-informed neural networks (PINNs). The recent advent of Kolmogorov-Arnold Network (KAN) indicates that there is potential to revisit and enhance the previously MLP-based PINNs. Compared to MLPs, KANs offer interpretability and require fewer parameters. PDEs can be described in various forms, such as strong form, energy form, and inverse form. While mathematically equivalent, these forms are not computationally equivalent, making the exploration of different PDE formulations significant in computational physics. Thus, we propose different PDE forms based on KAN instead of MLP, termed Kolmogorov-Arnold-Informed Neural Network (KINN) for solving forward and inverse problems. We systematically compare MLP and KAN in various numerical examples of PDEs, including multi-scale, singularity, stress concentration, nonlinear hyperelasticity, heterogeneous, and complex geometry problems. Our results demonstrate that KINN significantly outperforms MLP regarding accuracy and convergence speed for numerous PDEs in computational solid mechanics, except for the complex geometry problem. This highlights KINN's potential for more efficient and accurate PDE solutions in AI for PDEs. | 翻訳日:2024-08-06 23:07:02 公開日:2024-08-04 |
# TriForce: 階層的投機的復号化による長周期生成のロスレス高速化
TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding ( http://arxiv.org/abs/2404.11912v3 ) ライセンス: Link先を確認 | Hanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen, | (参考訳) 近年,大規模言語モデル (LLM) が長期コンテンツ生成に広く採用されているため,効率的な長期推論サポートの必要性が高まっている。
しかし、再計算を避けるために格納されるキー値(KV)キャッシュは、シーケンス長と線形に大きくなることで重要なボトルネックとなっている。
LLMの自己回帰性のため、KVキャッシュ全体が生成されたトークン毎にロードされるため、計算コアの低利用と高いレイテンシが生じる。
KVキャッシュの様々な圧縮手法がこの問題を軽減するために提案されているが、それらは生成品質の低下に悩まされている。
本稿では,時系列生成にスケーラブルな階層型投機復号システムTriForceを紹介する。
このアプローチでは,従来のモデル重みと動的スパースKVキャッシュをドラフトモデルとして検索し,階層の中間層として機能する。
TriForceは、Llama2-7B-128Kの印象的なスピードアップを促進し、A100 GPU上で最大2.31$\times$を達成するだけでなく、さらに長いコンテキストを扱うスケーラビリティも示す。
2つのRTX 4090 GPUのオフロード設定のために、TriForceは0.108s/token$\unicode{x2014}$onlyをA100のオートレグレッシブベースラインの半分の速度で達成し、最適化されたオフロードシステムでは7.78$\times$に達する。
さらに、TriForceは1つのRTX 4090 GPU上でDeepSpeed-Zero-Inferenceよりも4.86$\times$を実行する。
トリフォースの頑丈さは、様々な温度で一貫して卓越した性能で強調されている。
コードはhttps://github.com/Infini-AI-Lab/TriForce.comで公開されている。
With large language models (LLMs) widely deployed in long content generation recently, there has emerged an increasing demand for efficient long-sequence inference support. However, key-value (KV) cache, which is stored to avoid re-computation, has emerged as a critical bottleneck by growing linearly in size with the sequence length. Due to the auto-regressive nature of LLMs, the entire KV cache will be loaded for every generated token, resulting in low utilization of computational cores and high latency. While various compression methods for KV cache have been proposed to alleviate this issue, they suffer from degradation in generation quality. We introduce TriForce, a hierarchical speculative decoding system that is scalable for long sequence generation. This approach leverages the original model weights and dynamic sparse KV cache via retrieval as a draft model, which serves as an intermediate layer in the hierarchy and is further speculated by a smaller model to reduce its drafting latency. TriForce not only facilitates impressive speedups for Llama2-7B-128K, achieving up to 2.31$\times$ on an A100 GPU but also showcases scalability in handling even longer contexts. For the offloading setting on two RTX 4090 GPUs, TriForce achieves 0.108s/token$\unicode{x2014}$only half as slow as the auto-regressive baseline on an A100, which attains 7.78$\times$ on our optimized offloading system. Additionally, TriForce performs 4.86$\times$ than DeepSpeed-Zero-Inference on a single RTX 4090 GPU. TriForce's robustness is highlighted by its consistently outstanding performance across various temperatures. The code is available at https://github.com/Infini-AI-Lab/TriForce. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-04 |
# より小さく、より高速なデコーダのみのトランスフォーマーを目指して--アーキテクチャ的変異とその意味
Towards smaller, faster decoder-only transformers: Architectural variants and their implications ( http://arxiv.org/abs/2404.14462v3 ) ライセンス: Link先を確認 | Sathya Krishnan Suresh, Shunmugapriya P, | (参考訳) 近年、Large Language Models (LLMs) の研究は指数関数的に増加しており、主に [1] が確立した変圧器アーキテクチャに根ざしたモデルに焦点が当てられ、デコーダのみのバリエーション [2] によってさらに発展してきた。
この分野での現在の取り組みは、主に、トレーニング中に使用されるアーキテクチャとデータボリュームの両方をスケールアップすることで、モデル機能を強化することを目的としています。
しかし、これらのモデルのサイズを減らし、有効性を保っているという探索は、いまだに残っていない。
本研究では,デコーダのみのトランスフォーマーアーキテクチャであるParallelGPT(pgpt),LinearGPT(lgpt),ConvGPT(cgpt)の3つの改良点を紹介する。
これらのバリエーションは、言語生成における従来のアーキテクチャと同等のパフォーマンスを示すが、モデルのサイズを縮小し、より高速なトレーニングプロセスの恩恵を受ける。
我々はこれらの実装のためのモデルウェイトと完全なコードベースをオープンソース化し、さらなる研究を行っています。
In recent times, the research on Large Language Models (LLMs) has grown exponentially, predominantly focusing on models underpinned by the transformer architecture, as established by [1], and further developed through the decoder-only variations by [2]. Contemporary efforts in this field primarily aim to enhance model capabilities by scaling up both the architecture and data volumes utilized during training. However, the exploration into reduce these model sizes while preserving their efficacy remains scant. In this study, we introduce three modifications to the decoder-only transformer architecture, namely ParallelGPT (pgpt), LinearGPT (lgpt), and ConvGPT (cgpt). These variants demonstrate comparable performance to the conventional architecture in language generation, yet benefit from reduced model sizes and faster training processes. We open-source the model weights and the complete codebase for these implementation for further research. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-04 |
# HaLo-NeRF: 制約のない写真コレクションを探索するための幾何ガイド付きセマンティック学習
HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections ( http://arxiv.org/abs/2404.16845v2 ) ライセンス: Link先を確認 | Chen Dudai, Morris Alper, Hana Bezalel, Rana Hanocka, Itai Lang, Hadar Averbuch-Elor, | (参考訳) 写真家の群衆が撮影した写真を含むインターネット画像コレクションは、大規模な観光名所のデジタル探査を可能にすることを約束している。
しかし、先行研究は主に幾何学的再構築と可視化に焦点を当てており、ナビゲーションときめ細かい理解のためのセマンティックインターフェースを提供する際の言語の主要な役割を無視している。
制約付き3Dドメインでは、近年の手法は2次元視覚意味論の強い先行として視覚・言語モデルを活用している。
これらのモデルは、広い視覚的意味論の優れた理解を示すが、建築分野の専門知識が欠如していることから、観光名所を描いた制約のない写真収集に苦慮している。
本研究では,大規模ランドマークを描写したシーンのニューラル表現とシーン内の意味領域を記述するテキストを結合するローカライズシステムを提案する。
このようなモデルをきめ細かな知識で強化するために、類似のランドマークの画像と弱い関係のあるテキスト情報を含む大規模インターネットデータを活用する。
我々のアプローチは、空間に物理的に接地された画像が、新しい概念をローカライズするための強力な監視信号を提供するという前提に基づいており、その意味論は大きな言語モデルでインターネットのテキストメタデータから解き放たれる可能性がある。
我々は、シーンのビュー間の対応を利用して、これらのセマンティクスの空間的理解をブートストラップし、3D互換セグメンテーションのガイダンスを提供する。
以上の結果から,HaLo-NeRFは他の3次元モデルと強力な2次元セグメンテーションベースラインを超越して,建築ランドマークに関連するさまざまな意味概念を正確にローカライズできることが示唆された。
私たちのプロジェクトページはhttps://tau-vailab.github.io/HaLo-NeRF/です。
Internet image collections containing photos captured by crowds of photographers show promise for enabling digital exploration of large-scale tourist landmarks. However, prior works focus primarily on geometric reconstruction and visualization, neglecting the key role of language in providing a semantic interface for navigation and fine-grained understanding. In constrained 3D domains, recent methods have leveraged vision-and-language models as a strong prior of 2D visual semantics. While these models display an excellent understanding of broad visual semantics, they struggle with unconstrained photo collections depicting such tourist landmarks, as they lack expert knowledge of the architectural domain. In this work, we present a localization system that connects neural representations of scenes depicting large-scale landmarks with text describing a semantic region within the scene, by harnessing the power of SOTA vision-and-language models with adaptations for understanding landmark scene semantics. To bolster such models with fine-grained knowledge, we leverage large-scale Internet data containing images of similar landmarks along with weakly-related textual information. Our approach is built upon the premise that images physically grounded in space can provide a powerful supervision signal for localizing new concepts, whose semantics may be unlocked from Internet textual metadata with large language models. We use correspondences between views of scenes to bootstrap spatial understanding of these semantics, providing guidance for 3D-compatible segmentation that ultimately lifts to a volumetric scene representation. Our results show that HaLo-NeRF can accurately localize a variety of semantic concepts related to architectural landmarks, surpassing the results of other 3D models as well as strong 2D segmentation baselines. Our project page is at https://tau-vailab.github.io/HaLo-NeRF/. | 翻訳日:2024-08-06 22:54:48 公開日:2024-08-04 |
# COTS: RESTfulアプリケーションのためのコネクテッドなOpenAPIテスト合成
COTS: Connected OpenAPI Test Synthesis for RESTful Applications ( http://arxiv.org/abs/2404.19614v2 ) ライセンス: Link先を確認 | Christian Bartolo Burlò, Adrian Francalanza, Alceste Scalas, Emilio Tuosto, | (参考訳) RESTfulアプリケーションをテストするための新しいモデル駆動アプローチを提案する。
紹介
(i)OpenAPI仕様とドメイン固有言語
(ii)方法論をサポートするためのツール。
私たちのDSLはセッションタイプにインスパイアされ、RESTクライアントとサーバ間の通信プロトコルのモデリングを可能にします。
私たちのツールはCOTSと呼ばれ、(ランダムに)モデルベースのテスト実行を生成し、ソフトウェア欠陥を報告します。
いくつかのオープンソースアプリケーションをテストするため,本手法の有効性を評価した。
私たちの方法論は、REST APIの欠陥を識別し、手作りのテストスイートに比べて、同等または優れたコードカバレッジを実現できます。
We present a novel model-driven approach for testing RESTful applications. We introduce a (i) domain-specific language for OpenAPI specifications and (ii) a tool to support our methodology. Our DSL is inspired by session types and enables the modelling of communication protocols between a REST client and server. Our tool, dubbed COTS, generates (randomised) model-based test executions and reports software defects. We evaluate the effectiveness of our approach by applying it to test several open source applications. Our findings indicate that our methodology can identify nuanced defects in REST APIs and achieve comparable or superior code coverage when compared to much larger handcrafted test suites. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-04 |
# 部分予測による非クレアボイアントスケジューリング
Non-clairvoyant Scheduling with Partial Predictions ( http://arxiv.org/abs/2405.01013v2 ) ライセンス: Link先を確認 | Ziyad Benomar, Vianney Perchet, | (参考訳) 非論理的スケジューリング問題は、品質保証のない予測機能を備えた学習強化アルゴリズムにおいて、新たな関心を集めている。
現実的な設定では、コストやデータ制限のため、予測へのアクセスを特定のインスタンスに限定することができる。
我々の調査は、アルゴリズムで利用可能な$n$のうち、B$のジョブサイズしか予測できないシナリオに焦点を当てている。
完全予測の場合、まず、最適に近い下界とアルゴリズムを確立する。
続いて, 頑健さ, 一貫性, 滑らかさの基準を満たす学習拡張アルゴリズムを提案し, シナリオ固有の一貫性と滑らかさとの新たなトレードオフを, 限られた数の予測で明らかにした。
The non-clairvoyant scheduling problem has gained new interest within learning-augmented algorithms, where the decision-maker is equipped with predictions without any quality guarantees. In practical settings, access to predictions may be reduced to specific instances, due to cost or data limitations. Our investigation focuses on scenarios where predictions for only $B$ job sizes out of $n$ are available to the algorithm. We first establish near-optimal lower bounds and algorithms in the case of perfect predictions. Subsequently, we present a learning-augmented algorithm satisfying the robustness, consistency, and smoothness criteria, and revealing a novel tradeoff between consistency and smoothness inherent in the scenario with a restricted number of predictions. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-04 |
# 任意非線形性を持つベイズニューラルネットワークのわずかなサンプル変動推定
Few-sample Variational Inference of Bayesian Neural Networks with Arbitrary Nonlinearities ( http://arxiv.org/abs/2405.02063v3 ) ライセンス: Link先を確認 | David J. Schodt, | (参考訳) ベイズニューラルネットワーク(BNN)は、従来のニューラルネットワークを拡張して、出力に関連する不確実性を提供する。
BNNの前方通過では、モンテカルロが学習後部のネットワーク重みをサンプリングするか、あるいはネットワークを介して統計モーメントを解析的に伝播することによって予測(とその不確実性)を行う。
フレキシブルではあるが、モンテカルロサンプリングは計算コストが高く、資源制約や大規模ネットワークでは実現不可能または実用的ではない。
モーメント伝搬はBNN推論の計算コストを改善することができるが、任意の非線形性を持つネットワークでは困難あるいは不可能であり、そのようなスキームで許容されるネットワーク層のセットを制限することができる。
本研究は, 任意の非線形性による統計モーメントの伝播を, 3つの決定論的サンプルのみを用いて簡易かつ効果的に行うことを示し, ネットワーク層に制限を加えることなく, 少数のBNNの変分推定を可能にする。
さらに,本手法を用いて,BNNの出力ノードに物理インフォームド事前情報を注入する非線形アクティベーション機能を示す。
Bayesian Neural Networks (BNNs) extend traditional neural networks to provide uncertainties associated with their outputs. On the forward pass through a BNN, predictions (and their uncertainties) are made either by Monte Carlo sampling network weights from the learned posterior or by analytically propagating statistical moments through the network. Though flexible, Monte Carlo sampling is computationally expensive and can be infeasible or impractical under resource constraints or for large networks. While moment propagation can ameliorate the computational costs of BNN inference, it can be difficult or impossible for networks with arbitrary nonlinearities, thereby restricting the possible set of network layers permitted with such a scheme. In this work, we demonstrate a simple yet effective approach for propagating statistical moments through arbitrary nonlinearities with only 3 deterministic samples, enabling few-sample variational inference of BNNs without restricting the set of network layers used. Furthermore, we leverage this approach to demonstrate a novel nonlinear activation function that we use to inject physics-informed prior information into output nodes of a BNN. | 翻訳日:2024-08-06 22:45:03 公開日:2024-08-04 |
# FAdam:Adamは対角的な経験的フィッシャー情報を用いた自然な勾配最適化器です。
FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information ( http://arxiv.org/abs/2405.12807v9 ) ライセンス: Link先を確認 | Dongseong Hwang, | (参考訳) 本稿では、Adam Optimizationrの数学的基礎を確立し、リーマン的および情報幾何学による自然勾配降下との関係を解明する。
本稿では,Adam における対角的経験的フィッシャー情報行列 (FIM) の詳細な解析を行い,実験的 FIM の限界により,離散分布に基づいたログ確率関数の損失としての利用を提唱する。
解析によって元のAdamアルゴリズムの欠陥が明らかとなり、運動量計算の強化、バイアス補正の調整、適応エプシロン、勾配クリッピングなどの修正が提案された。
我々は、我々の理論的枠組みに基づいて重量減衰項を洗練する。
我々の修正アルゴリズムであるFisher Adam (FAdam) は、LLM、ASR、VQ-VAEを含む様々な領域で優れた性能を示し、ASRにおける最先端の結果を達成する。
This paper establishes a mathematical foundation for the Adam optimizer, elucidating its connection to natural gradient descent through Riemannian and information geometry. We provide an accessible and detailed analysis of the diagonal empirical Fisher information matrix (FIM) in Adam, clarifying all detailed approximations and advocating for the use of log probability functions as loss, which should be based on discrete distributions, due to the limitations of empirical FIM. Our analysis uncovers flaws in the original Adam algorithm, leading to proposed corrections such as enhanced momentum calculations, adjusted bias corrections, adaptive epsilon, and gradient clipping. We refine the weight decay term based on our theoretical framework. Our modified algorithm, Fisher Adam (FAdam), demonstrates superior performance across diverse domains including LLM, ASR, and VQ-VAE, achieving state-of-the-art results in ASR. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-04 |
# SE3D: 3Dイメージングの精度評価のためのフレームワーク
SE3D: A Framework For Saliency Method Evaluation In 3D Imaging ( http://arxiv.org/abs/2405.14584v2 ) ライセンス: Link先を確認 | Mariusz Wiśniewski, Loris Giulivi, Giacomo Boracchi, | (参考訳) 10年以上にわたって、ディープラーニングモデルは様々な2Dイメージングタスクで支配されてきた。
現在、彼らのアプリケーションは3Dイメージングに拡張されており、3D畳み込みニューラルネットワーク(3D CNN)はLIDAR、MRI、CTスキャンを処理できる。
これらの重要な設定では、モデルの判断を説明するのが基本です。
しかし、最近のExplainable Artificial Intelligenceの進歩にもかかわらず、3D CNNの説明にはほとんど注力していない。
3Dサリエンシ法の発展に対する基本的な制限は、これらを3Dデータ上で定量的に評価するベンチマークが欠如していることである。
この問題に対処するため,我々はSaliency Method EvaluationのフレームワークであるSE3Dを提案する。
本研究では,ShapeNet,ScanNet,BraTSデータセットの修正と3次元CNNの精度評価のための評価指標を提案する。
本研究では,3Dデータ用に設計された最先端のサージエンシ手法と,一般的な2Dサージエンシ手法を3Dに拡張した手法の評価を行った。
実験の結果, 3Dサリエンシ法では十分な品質の説明が得られず, 重要な分野における3D CNNの今後の改良と安全性に限界があることが示唆された。
For more than a decade, deep learning models have been dominating in various 2D imaging tasks. Their application is now extending to 3D imaging, with 3D Convolutional Neural Networks (3D CNNs) being able to process LIDAR, MRI, and CT scans, with significant implications for fields such as autonomous driving and medical imaging. In these critical settings, explaining the model's decisions is fundamental. Despite recent advances in Explainable Artificial Intelligence, however, little effort has been devoted to explaining 3D CNNs, and many works explain these models via inadequate extensions of 2D saliency methods. A fundamental limitation to the development of 3D saliency methods is the lack of a benchmark to quantitatively assess these on 3D data. To address this issue, we propose SE3D: a framework for Saliency method Evaluation in 3D imaging. We propose modifications to ShapeNet, ScanNet, and BraTS datasets, and evaluation metrics to assess saliency methods for 3D CNNs. We evaluate both state-of-the-art saliency methods designed for 3D data and extensions of popular 2D saliency methods to 3D. Our experiments show that 3D saliency methods do not provide explanations of sufficient quality, and that there is margin for future improvements and safer applications of 3D CNNs in critical fields. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-04 |
# アクティベータ:視覚変換器のコアコンポーネントとしてのGLU活性化関数
Activator: GLU Activation Function as the Core Component of a Vision Transformer ( http://arxiv.org/abs/2405.15953v2 ) ライセンス: Link先を確認 | Abdullah Nazhat Abdullah, Tarkan Aydin, | (参考訳) トランスフォーマーアーキテクチャは現在、ディープラーニングによって対処される様々なタスク、特に大規模言語モデル(LLM)で終わる自然言語処理(NLP)の最近の進歩において、多くの成功の要因となっている。
さらに、トランスフォーマーアーキテクチャはコンピュータビジョン(CV)の研究者や実践者から幅広い関心を集めており、視覚関連タスクの多くの進歩を可能にし、同じ操作原理を共有するマルチタスクおよびマルチモーダルディープラーニングアーキテクチャの扉を開くことができる。
これらのアーキテクチャの欠点の1つは、ソフトマックスアクティベーション機能を備えたスケールドドット製品アテンション機構に依存している点である。
本稿では,従来の変圧器設計に組み込まれたデフォルトMLPと合わせて,多層パーセプトロン(MLP)構造にゲート線形単位(GLU)の活性化を組み込んだアーキテクチャを用いて,変圧器アーキテクチャに通常採用されるアテンション機構の置換について検討する。
本稿では,2番目の非ゲート型MLPを除去し,計算コストをさらに削減する。
本研究により, 提案した改良と縮小は, ベースラインアーキテクチャと競合する性能を示し, トランスフォーマーアーキテクチャ設計のコアコンポーネントとして, 従来の注目機構に代わる, より効率的かつ有能な代替手段を確立することを目的としている。
Transformer architecture currently represents the main driver behind many successes in a variety of tasks addressed by deep learning, especially the recent advances in natural language processing (NLP) culminating with large language models (LLM). In addition, transformer architecture has found a wide spread of interest from computer vision (CV) researchers and practitioners, allowing for many advancements in vision-related tasks and opening the door for multi-task and multi-modal deep learning architectures that share the same principle of operation. One drawback to these architectures is their reliance on the scaled dot product attention mechanism with the softmax activation function, which is computationally expensive and requires large compute capabilities both for training and inference. This paper investigates substituting the attention mechanism usually adopted for transformer architecture with an architecture incorporating gated linear unit (GLU) activation within a multi-layer perceptron (MLP) structure in conjunction with the default MLP incorporated in the traditional transformer design. Another step forward taken by this paper is to eliminate the second non-gated MLP to further reduce the computational cost. Experimental assessments conducted by this research show that both proposed modifications and reductions offer competitive performance in relation to baseline architectures, in support of the aims of this work in establishing a more efficient yet capable alternative to the traditional attention mechanism as the core component in designing transformer architectures. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-04 |
# リモートセンシングシーンにおける点雲セマンティックセマンティックセグメンテーションのための双変形点畳み込み
Twin Deformable Point Convolutions for Point Cloud Semantic Segmentation in Remote Sensing Scenes ( http://arxiv.org/abs/2405.19735v2 ) ライセンス: Link先を確認 | Yong-Qiang Mao, Hanbo Bi, Xuexue Li, Kaiqiang Chen, Zhirui Wang, Xian Sun, Kun Fu, | (参考訳) リモートセンシング分野のポイントクラウド処理におけるディープラーニング技術の適用により、ポイントクラウドセグメンテーションは近年研究ホットスポットとなり、現実世界の3D、スマートシティ、その他の分野に適用できる。
既存のソリューションは前例のない進歩を遂げているが、緯度、経度、高度に応じて厳密に配置されたリモートセンシングフィールドにおける点雲の性質を無視しており、遠隔センシングフィールドにおける点雲のセグメンテーションに非常に便利である。
この特性を巧みに考察するために、緯度-経度平面における変形可能なサンプリング点と高度方向の学習により適応的な特徴学習を実現することを目的とした、双変形点畳み込み演算子(TDConvs)を提案する。
まず、緯度-経度平面の特性をモデル化するために、経度-経度方向のシリンダー状格子を構築して2次元シリンダーマップを生成するシリンダーワイズ・デフォルマブル・ポイント・コンボリューション(CyDConv)演算子を提案する。
さらに、緯度面の特徴と空間幾何学的特徴をよりよく統合するために、抽出した緯度面の特徴と空間幾何学的特徴をマルチスケールで融合させ、異なるスケールの隣接点特徴を集約することで実現した。
さらに、球面格子構造を構築し、高度方向の特性をモデル化することを目的として、3次元空間におけるサンプリングポイントを適応的にオフセットするために、球面回りの変形点畳み込み(SpDConv)演算子を導入する。
既存の人気ベンチマークの実験では、我々のTDConvsは、最先端の手法よりも優れたセグメンテーション性能を達成していると結論付けている。
Thanks to the application of deep learning technology in point cloud processing of the remote sensing field, point cloud segmentation has become a research hotspot in recent years, which can be applied to real-world 3D, smart cities, and other fields. Although existing solutions have made unprecedented progress, they ignore the inherent characteristics of point clouds in remote sensing fields that are strictly arranged according to latitude, longitude, and altitude, which brings great convenience to the segmentation of point clouds in remote sensing fields. To consider this property cleverly, we propose novel convolution operators, termed Twin Deformable point Convolutions (TDConvs), which aim to achieve adaptive feature learning by learning deformable sampling points in the latitude-longitude plane and altitude direction, respectively. First, to model the characteristics of the latitude-longitude plane, we propose a Cylinder-wise Deformable point Convolution (CyDConv) operator, which generates a two-dimensional cylinder map by constructing a cylinder-like grid in the latitude-longitude direction. Furthermore, to better integrate the features of the latitude-longitude plane and the spatial geometric features, we perform a multi-scale fusion of the extracted latitude-longitude features and spatial geometric features, and realize it through the aggregation of adjacent point features of different scales. In addition, a Sphere-wise Deformable point Convolution (SpDConv) operator is introduced to adaptively offset the sampling points in three-dimensional space by constructing a sphere grid structure, aiming at modeling the characteristics in the altitude direction. Experiments on existing popular benchmarks conclude that our TDConvs achieve the best segmentation performance, surpassing the existing state-of-the-art methods. | 翻訳日:2024-08-06 20:48:25 公開日:2024-08-04 |
# InterCLIP-MEP:マルチモーダルサーカスム検出のための対話型CLIPとメモリ拡張予測器
InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection ( http://arxiv.org/abs/2406.16464v3 ) ライセンス: Link先を確認 | Junjie Chen, Hang Yu, Weidong Liu, Subin Huang, Sanmin Liu, | (参考訳) ソーシャルメディアにおけるサルカズムの頻度は、テキストと画像の組み合わせを通して伝えられ、感情分析と意図的マイニングにおいて重要な課題が提示される。
既存のマルチモーダルサルカズム検出法は、画像とテキストの相互作用から生じる複雑なサーカシックな手がかりを効果的に捉えるのに苦労するため、性能を過大評価することが証明されている。
これらの問題に対処するため,マルチモーダルサルカズム検出のための新しいフレームワークであるInterCLIP-MEPを提案する。
具体的には,対話型CLIP (InterCLIP) をバックボーンとして導入し,テキストイメージの表現を抽出し,各エンコーダに直接モダリティ情報を埋め込むことにより,テキストイメージのインタラクションをよりよくキャプチャするための表現を改善する。
さらに、提案したメモリ拡張予測器(MEP)にInterCLIPを適用するための効率的なトレーニング戦略を設計する。
MEPは動的で固定長のデュアルチャネルメモリを使用して、推論中に貴重なテストサンプルの履歴情報を格納する。
その後、このメモリを非パラメトリック分類器として利用して最終的な予測を導き、マルチモーダルサルカズムをより堅牢に認識する。
実験により,InterCLIP-MEPはMMSD2.0ベンチマークの最先端性能を実現し,精度は1.08%,F1スコアは1.51%向上した。
コードとデータはhttps://github.com/CoderChen01/InterCLIP-MEPで公開されている。
The prevalence of sarcasm in social media, conveyed through text-image combinations, presents significant challenges for sentiment analysis and intention mining. Existing multi-modal sarcasm detection methods have been proven to overestimate performance, as they struggle to effectively capture the intricate sarcastic cues that arise from the interaction between an image and text. To address these issues, we propose InterCLIP-MEP, a novel framework for multi-modal sarcasm detection. Specifically, we introduce an Interactive CLIP (InterCLIP) as the backbone to extract text-image representations, enhancing them by embedding cross-modality information directly within each encoder, thereby improving the representations to capture text-image interactions better. Furthermore, an efficient training strategy is designed to adapt InterCLIP for our proposed Memory-Enhanced Predictor (MEP). MEP uses a dynamic, fixed-length dual-channel memory to store historical knowledge of valuable test samples during inference. It then leverages this memory as a non-parametric classifier to derive the final prediction, offering a more robust recognition of multi-modal sarcasm. Experiments demonstrate that InterCLIP-MEP achieves state-of-the-art performance on the MMSD2.0 benchmark, with an accuracy improvement of 1.08% and an F1 score improvement of 1.51% over the previous best method. Code and data are available at https://github.com/CoderChen01/InterCLIP-MEP. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-04 |
# 多粒子エンタングルメントモノトン
Multi-partite entanglement monotones ( http://arxiv.org/abs/2406.17447v2 ) ライセンス: Link先を確認 | Abhijit Gadde, Shraiyance Jain, Harshal Kulkarni, | (参考訳) システムの状態の量子を局所的なプロセスで別の状態に変換したい場合、成功の確率は何でしょう?
この確率は両状態の絡み合いを定量化することで有界であることが判明した。
本稿では,局所的な操作下での単調なマルチパーティ・エンタングルメントと,平均的な古典的コミュニケーションのファミリを構築する。
これらの測度は状態とその共役の局所ユニタリ不変多項式から構成され、純粋状態に対する計算が容易である。
これらの測度を用いて、局所量子演算と古典的通信を用いて、与えられた状態を別の状態に変換する成功確率を束縛する。
If we want to transform the quantum of state of a system to another using local processes, what is the probability of success? It turns out that this probability can be bounded by quantifying entanglement within both the states. In this paper, we construct a family of multipartite entanglement measures that are monotonic under local operations and classical communication on average. The measures are constructed out of local unitary invariant polynomials of the state and its conjugate, and hence are easy to compute for pure states. Using these measures we bound the success probability of transforming a given state into another state using local quantum operations and classical communication. | 翻訳日:2024-08-06 20:38:40 公開日:2024-08-04 |
# パラメータ境界ベイズネットの学習可能性
Learnability of Parameter-Bounded Bayes Nets ( http://arxiv.org/abs/2407.00927v2 ) ライセンス: Link先を確認 | Arnab Bhattacharyya, Davin Choo, Sutanu Gayen, Dimitrios Myrisiotis, | (参考訳) ベイズネットは実際には、ランダム変数の集合上の結合確率分布を効率的に表現し、依存関係を捉えるために広く使われている。
Chickering et al (JMLR 2004) は、ベイズネットの辺分布として定義される分布 $\mathbb{P}$ が与えられたとき、$\mathbb{P}$ を表すパラメータ有界ベイズネットが存在するかどうかを決定するために$\mathsf{NP}$-hard であることを示した。
彼らはこの問題をLEARNと呼んだ。
本研究では、LEARN の $\mathsf{NP}$-hardness 結果を拡張し、LEARN のpromise search variant の $\mathsf{NP}$-hardness を証明する。
我々は、パラメータ有界ベイズネットをパラメータ有界ベイズネット(EC 2020)で表される所定の分布に(テレビ距離で)近いパラメータ有界ベイズネットを復元するのに十分であるサンプル複雑性に関する正の結果を補足する。
Bayes nets are extensively used in practice to efficiently represent joint probability distributions over a set of random variables and capture dependency relations. In a seminal paper, Chickering et al. (JMLR 2004) showed that given a distribution $\mathbb{P}$, that is defined as the marginal distribution of a Bayes net, it is $\mathsf{NP}$-hard to decide whether there is a parameter-bounded Bayes net that represents $\mathbb{P}$. They called this problem LEARN. In this work, we extend the $\mathsf{NP}$-hardness result of LEARN and prove the $\mathsf{NP}$-hardness of a promise search variant of LEARN, whereby the Bayes net in question is guaranteed to exist and one is asked to find such a Bayes net. We complement our hardness result with a positive result about the sample complexity that is sufficient to recover a parameter-bounded Bayes net that is close (in TV distance) to a given distribution $\mathbb{P}$, that is represented by some parameter-bounded Bayes net, generalizing a degree-bounded sample complexity result of Brustle et al. (EC 2020). | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-04 |
# ViG-Bias:ビジュアルなバイアス発見と緩和
ViG-Bias: Visually Grounded Bias Discovery and Mitigation ( http://arxiv.org/abs/2407.01996v3 ) ライセンス: Link先を確認 | Badr-Eddine Marani, Mohamed Hanini, Nihitha Malayarukil, Stergios Christodoulidis, Maria Vakalopoulou, Enzo Ferrante, | (参考訳) 批判的な意思決定プロセスにおける機械学習モデルの拡散は、バイアス発見と緩和戦略の必要性を浮き彫りにした。
バイアスのあるシステムの背後にある理由を特定するのは簡単ではない。
標準的なアプローチは、事前に定義されたデータサンプルのサブグループでモデルパフォーマンスを分析することで実行されるバイアス監査に頼っている。
しかし、視覚認識システムの障害モードを定義する特定の属性をa-prioriで知ることは必ずしも不可能である。
近年のアプローチでは, 大規模な視覚言語モデルを用いて, クロスモーダルな埋め込みの抽出とテキスト記述の生成を可能とし, 特定のモデルが不十分な部分群を特徴付ける手法が提案されている。
本研究では、視覚的説明(例えば、GradCAMなどの手法で生成したヒートマップ)を取り入れることで、そのようなバイアス発見や緩和フレームワークの性能を高めることができると論じる。
この目的のために、我々はVisually Grounded Bias Discovery and Mitigation (ViG-Bias)を紹介した。
我々の総合的な評価は、ビジュアルな説明を取り入れることで、CelebA、Waterbirds、NICO++など、いくつかの挑戦的なデータセットをまたいだDOMINO、FACTS、Bias-to-Textといった既存のテクニックが強化されることを示している。
The proliferation of machine learning models in critical decision making processes has underscored the need for bias discovery and mitigation strategies. Identifying the reasons behind a biased system is not straightforward, since in many occasions they are associated with hidden spurious correlations which are not easy to spot. Standard approaches rely on bias audits performed by analyzing model performance in pre-defined subgroups of data samples, usually characterized by common attributes like gender or ethnicity when it comes to people, or other specific attributes defining semantically coherent groups of images. However, it is not always possible to know a-priori the specific attributes defining the failure modes of visual recognition systems. Recent approaches propose to discover these groups by leveraging large vision language models, which enable the extraction of cross-modal embeddings and the generation of textual descriptions to characterize the subgroups where a certain model is underperforming. In this work, we argue that incorporating visual explanations (e.g. heatmaps generated via GradCAM or other approaches) can boost the performance of such bias discovery and mitigation frameworks. To this end, we introduce Visually Grounded Bias Discovery and Mitigation (ViG-Bias), a simple yet effective technique which can be integrated to a variety of existing frameworks to improve both, discovery and mitigation performance. Our comprehensive evaluation shows that incorporating visual explanations enhances existing techniques like DOMINO, FACTS and Bias-to-Text, across several challenging datasets, including CelebA, Waterbirds, and NICO++. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-04 |
# 分散情報ネットワーク(DIN)
Decentralized Intelligence Network (DIN) ( http://arxiv.org/abs/2407.02461v2 ) ライセンス: Link先を確認 | Abraham Nash, | (参考訳) 分散インテリジェンスネットワーク(DIN)は、データの断片化とサイロ化に対処し、データ主権を通じてスケーラブルなAIを可能にする理論的フレームワークである。
さまざまなデータソースにアクセスするための障壁を克服することで、主権ネットワーク内の効果的なAI利用を促進する。
1) 個人データストアは,参加者のコントロール内でデータがセキュアに保持されているデータ主権を保証する。
2) 分散AIトレーニングのためのパブリックブロックチェーン上に実装されたスケーラブルなフェデレーション学習プロトコル。
3) パブリックブロックチェーン上のスケーラブルで信頼性のない暗号化報酬機構により、参加をインセンティブ化し、分散監査プロトコルを通じて公正な報酬配布を保証する。
調整と報酬の分配は、不変レコードでパブリックブロックチェーン上で管理されるため、トレーニングデータへのアクセスを防ぎ、制御したり、金銭的利益に影響を与えることは、このアプローチによって保証される。
このフレームワークは、参加者がデータのコントロールを維持し、金銭的に利益を享受し、集団AIを活用して有益なアルゴリズムを開発する分散型でスケーラブルなエコシステムに貢献することで、効果的なAIトレーニングをサポートする。
Decentralized Intelligence Network (DIN) is a theoretical framework addressing data fragmentation and siloing challenges, enabling scalable AI through data sovereignty. It facilitates effective AI utilization within sovereign networks by overcoming barriers to accessing diverse data sources, leveraging: 1) personal data stores to ensure data sovereignty, where data remains securely within Participants' control; 2) a scalable federated learning protocol implemented on a public blockchain for decentralized AI training, where only model parameter updates are shared, keeping data within the personal data stores; and 3) a scalable, trustless cryptographic rewards mechanism on a public blockchain to incentivize participation and ensure fair reward distribution through a decentralized auditing protocol. This approach guarantees that no entity can prevent or control access to training data or influence financial benefits, as coordination and reward distribution are managed on the public blockchain with an immutable record. The framework supports effective AI training by allowing Participants to maintain control over their data, benefit financially, and contribute to a decentralized, scalable ecosystem that leverages collective AI to develop beneficial algorithms. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-04 |
# 美学を超えて: テキスト・画像モデルにおける文化的能力
Beyond Aesthetics: Cultural Competence in Text-to-Image Models ( http://arxiv.org/abs/2407.06863v4 ) ライセンス: Link先を確認 | Nithish Kannen, Arif Ahmad, Marco Andreetto, Vinodkumar Prabhakaran, Utsav Prabhu, Adji Bousso Dieng, Pushpak Bhattacharyya, Shachi Dave, | (参考訳) テキスト・ツー・イメージ(T2I)モデルは、さまざまなグローバルなコミュニティで採用され、独自の文化を視覚的に表現するようになっている。
現在のT2Iベンチマークは主に、文化的な能力の重要な側面を見越して、生成した画像の忠実さ、美学、リアリズムに焦点を当てている。
本稿では,文化意識と文化多様性という2つの重要な側面に沿って,T2Iモデルの文化的能力を評価する枠組みを導入するとともに,構造化知識ベースと大規模言語モデルを組み合わせたスケーラブルなアプローチを用いて,この評価を実現する。
特に,本手法を,T2Iモデルの文化的能力を評価するための第1級ベンチマークであるCUBE(Cutural BEnchmark for Text-to-Image Model)の構築に適用する。
CUBEは、異なる地理的文化圏の8か国、および3つの概念(料理、ランドマーク、芸術)に関連する文化的アーティファクトをカバーしている。
CUBEは
1)CUBE-1Kは、文化意識の評価を可能にする高品質なプロンプトのセットであり、
2)CUBE-CSpaceは、文化的多様性を評価するための基盤となる文化的アーティファクトのより大きなデータセットである。
品質重み付きベンディスコアを活用した新しいT2I評価コンポーネントとして,文化多様性も導入する。
本評価は,T2Iアウトプットの文化的多様性を,未指定のプロンプトに対して有意義な洞察を与えるとともに,既存モデルの文化的意識に重大なギャップを生じさせるものである。
我々の方法論は、他の文化地域や概念にも拡張可能であり、世界の人口により良いT2Iモデルの開発を促進することができる。
Text-to-Image (T2I) models are being increasingly adopted in diverse global communities where they create visual representations of their unique cultures. Current T2I benchmarks primarily focus on faithfulness, aesthetics, and realism of generated images, overlooking the critical dimension of cultural competence. In this work, we introduce a framework to evaluate cultural competence of T2I models along two crucial dimensions: cultural awareness and cultural diversity, and present a scalable approach using a combination of structured knowledge bases and large language models to build a large dataset of cultural artifacts to enable this evaluation. In particular, we apply this approach to build CUBE (CUltural BEnchmark for Text-to-Image models), a first-of-its-kind benchmark to evaluate cultural competence of T2I models. CUBE covers cultural artifacts associated with 8 countries across different geo-cultural regions and along 3 concepts: cuisine, landmarks, and art. CUBE consists of 1) CUBE-1K, a set of high-quality prompts that enable the evaluation of cultural awareness, and 2) CUBE-CSpace, a larger dataset of cultural artifacts that serves as grounding to evaluate cultural diversity. We also introduce cultural diversity as a novel T2I evaluation component, leveraging quality-weighted Vendi score. Our evaluations reveal significant gaps in the cultural awareness of existing models across countries and provide valuable insights into the cultural diversity of T2I outputs for under-specified prompts. Our methodology is extendable to other cultural regions and concepts, and can facilitate the development of T2I models that better cater to the global population. | 翻訳日:2024-08-06 20:28:55 公開日:2024-08-04 |
# ISMRNN:マンバを用いた長期連続放送のための暗黙的に分割されたRNN方式
ISMRNN: An Implicitly Segmented RNN Method with Mamba for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2407.10768v5 ) ライセンス: Link先を確認 | GaoXiang Zhao, Li Zhou, XiaoQiang Wang, | (参考訳) 長期の時系列予測は、歴史情報を利用して将来の状態を予測することを目的としている。
従来のRNNベースのシリーズ予測手法は、長期連続問題において、長期依存や勾配問題に効果的に対処するのに苦労する。
最近、SegRNNは長期連続予測に適したRNNベースの主要なモデルとして登場し、革新的なセグメンテーションと並列デコード技術を通じて、合理化アーキテクチャを維持しながら最先端の性能を実証している。
しかし、SegRNNにはいくつかの制限がある: その固定されたセグメンテーションはデータの連続性を妨害し、異なるセグメンテーションにまたがる情報を効果的に活用できない。
これらの問題に対処するため、ISMRNN法では、時系列を分解してセグメント化された隠蔽状態にマッピングする暗黙のセグメンテーション構造を導入し、セグメンテーションフェーズ中により密な情報交換を行う。
さらに、符号化層に残余構造を組み込んで、繰り返し構造内の情報損失を軽減する。
より効果的に情報を抽出するために、我々はさらにMambaアーキテクチャを統合し、時系列情報抽出を強化する。
いくつかの実世界の時系列予測データセットの実験は、我々のモデルが現在の最先端モデルの性能を上回ることを示した。
Long time series forecasting aims to utilize historical information to forecast future states over extended horizons. Traditional RNN-based series forecasting methods struggle to effectively address long-term dependencies and gradient issues in long time series problems. Recently, SegRNN has emerged as a leading RNN-based model tailored for long-term series forecasting, demonstrating state-of-the-art performance while maintaining a streamlined architecture through innovative segmentation and parallel decoding techniques. Nevertheless, SegRNN has several limitations: its fixed segmentation disrupts data continuity and fails to effectively leverage information across different segments, the segmentation strategy employed by SegRNN does not fundamentally address the issue of information loss within the recurrent structure. To address these issues, we propose the ISMRNN method with three key enhancements: we introduce an implicit segmentation structure to decompose the time series and map it to segmented hidden states, resulting in denser information exchange during the segmentation phase. Additionally, we incorporate residual structures in the encoding layer to mitigate information loss within the recurrent structure. To extract information more effectively, we further integrate the Mamba architecture to enhance time series information extraction. Experiments on several real-world long time series forecasting datasets demonstrate that our model surpasses the performance of current state-of-the-art models. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-04 |
# Adapt PointFormer:2Dビジュアルトランスによる3Dポイントクラウド分析
Adapt PointFormer: 3D Point Cloud Analysis via Adapting 2D Visual Transformers ( http://arxiv.org/abs/2407.13200v2 ) ライセンス: Link先を確認 | Mengke Li, Da Li, Guoqing Yang, Yiu-ming Cheung, Hui Huang, | (参考訳) 事前訓練された大規模モデルはコンピュータビジョン、特に2次元画像解析において顕著な効果を示した。
しかし、3Dポイントクラウドに関しては、膨大な画像のリポジトリとは対照的に、データの制限されたアクセシビリティは、3D事前訓練されたモデルの開発に課題をもたらす。
そこで本研究では,2次元事前知識を持つ事前学習モデルを直接活用して,3次元ポイントクラウド解析の課題を遂行する。
そこで,APF(Adaptive PointFormer)を提案する。このモデルでは,画像へのマッピングの必要性を回避し,ポイントクラウドを直接処理するためのパラメータの数が少なく,事前訓練された2Dモデルを微調整する。
具体的には、原点雲を画像トークンと寸法を合わせるための点埋め込みに変換する。
画像の構造的性質とは対照的に、点雲に固有の障害を考慮に入れれば、点埋め込みをシーケンスして2次元の注意の事前利用を最適化する。
3Dおよび2D領域の注意を校正し、計算オーバーヘッドを低減するため、限られた数のパラメータを持つトレーニング可能なPointFormerは、その後、凍結事前訓練された画像モデルに連結される。
様々なベンチマークで大規模な実験を行い、提案したAPFの有効性を示した。
ソースコードと詳細はhttps://vcc.tech/research/2024/PointFormer.orgで公開されている。
Pre-trained large-scale models have exhibited remarkable efficacy in computer vision, particularly for 2D image analysis. However, when it comes to 3D point clouds, the constrained accessibility of data, in contrast to the vast repositories of images, poses a challenge for the development of 3D pre-trained models. This paper therefore attempts to directly leverage pre-trained models with 2D prior knowledge to accomplish the tasks for 3D point cloud analysis. Accordingly, we propose the Adaptive PointFormer (APF), which fine-tunes pre-trained 2D models with only a modest number of parameters to directly process point clouds, obviating the need for mapping to images. Specifically, we convert raw point clouds into point embeddings for aligning dimensions with image tokens. Given the inherent disorder in point clouds, in contrast to the structured nature of images, we then sequence the point embeddings to optimize the utilization of 2D attention priors. To calibrate attention across 3D and 2D domains and reduce computational overhead, a trainable PointFormer with a limited number of parameters is subsequently concatenated to a frozen pre-trained image model. Extensive experiments on various benchmarks demonstrate the effectiveness of the proposed APF. The source code and more details are available at https://vcc.tech/research/2024/PointFormer. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-04 |
# 時間整合型ニューラルハイダイナミックレンジビデオレンダリングのための露光補完
Exposure Completing for Temporally Consistent Neural High Dynamic Range Video Rendering ( http://arxiv.org/abs/2407.13309v2 ) ライセンス: Link先を確認 | Jiahao Cui, Wei Jiang, Zhan Peng, Zhiyu Pan, Zhiguo Cao, | (参考訳) 低ダイナミックレンジ(LDR)ビデオからのハイダイナミックレンジ(HDR)ビデオレンダリングでは、各タイムスタンプにおける露出の変化と欠如により、フレームが交互に露出する際の大きな課題が発生する。
露光の変化と欠如により、既存の手法は点滅するHDR結果を生成する。
本稿では,不在な露光情報を完成させることで,HDRフレームを描画する新しいパラダイムを提案する。
提案手法では, 隣接LDRフレームを時間次元で補間し, 露出の欠如に対してLDRフレームを再構成する。
補間されたLDRフレームと与えられたLDRフレームを組み合わせることで、各タイムスタンプで露出情報の完全なセットが利用可能となる。
これにより、HDR結果の融合プロセスの恩恵を受け、ノイズやゴーストを低減し、時間的一貫性を向上させることができる。
提案手法は,HDRビデオレンダリングにおける露光完了の欠如の重要性を浮き彫りにして,最先端の性能を実現することを実証した。
コードはhttps://github.com/cuijiahao666/NECHDRで公開されている。
High dynamic range (HDR) video rendering from low dynamic range (LDR) videos where frames are of alternate exposure encounters significant challenges, due to the exposure change and absence at each time stamp. The exposure change and absence make existing methods generate flickering HDR results. In this paper, we propose a novel paradigm to render HDR frames via completing the absent exposure information, hence the exposure information is complete and consistent. Our approach involves interpolating neighbor LDR frames in the time dimension to reconstruct LDR frames for the absent exposures. Combining the interpolated and given LDR frames, the complete set of exposure information is available at each time stamp. This benefits the fusing process for HDR results, reducing noise and ghosting artifacts therefore improving temporal consistency. Extensive experimental evaluations on standard benchmarks demonstrate that our method achieves state-of-the-art performance, highlighting the importance of absent exposure completing in HDR video rendering. The code is available at https://github.com/cuijiahao666/NECHDR. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-04 |
# ボソニックデフォーカス量子チャネルの識別
Discrimination of bosonic dephasing quantum channels ( http://arxiv.org/abs/2407.14935v2 ) ライセンス: Link先を確認 | Samad Khabbazi Oskouei, Laleh Memarzadeh, Milajiguli Rexiti, Stefano Mancini, | (参考訳) 本研究では,2つのボソニックデフォーカス量子チャネルの識別の可能性について検討する。
明白な差別は実現不可能であることを示す。
次に、非ゼロ誤差確率による判別を考慮し、入力制約がない場合、後者を最小化する。
入力エネルギー制約が存在する場合、誤差確率の上限を導出する。
最後に、これらの結果をシングルショットからマルチショットの識別に拡張し、漸近的な振る舞いを考察する。
We study the possibility of discriminating between two bosonic dephasing quantum channels. We show that unambiguous discrimination is not realizable. We then consider discrimination with nonzero error probability and minimize this latter in the absence of input constraints. In the presence of an input energy constraint, we derive an upper bound on the error probability. Finally, we extend these results from single-shot to multi-shot discrimination, envisaging the asymptotic behavior. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-04 |
# MLモデルのデータ利用監査のための一般的なフレームワーク
A General Framework for Data-Use Auditing of ML Models ( http://arxiv.org/abs/2407.15100v2 ) ライセンス: Link先を確認 | Zonghao Huang, Neil Zhenqiang Gong, Michael K. Reiter, | (参考訳) 機械学習(ML)モデルのトレーニングにおけるデータの使用を監査することは、無数のML実践者が日常的に、許可なくモデルのトレーニングにコンテンツクリエーターの努力を活用しているため、ますます厳しい課題となっている。
本稿では、データを使用するMLタスクの事前知識を必要とせずに、データ所有者のデータを使用するためのMLモデルを評価するための一般的な手法を提案する。
提案手法は,既存のブラックボックスメンバーシップ推定手法と,我々の設計の逐次的仮説テストを利用して,定量化・調整可能な偽検出速度でデータの使用を検出する。
本稿では,2種類のMLモデル,すなわち画像分類器と基礎モデルにおけるデータ利用を監査するために,提案手法の有効性を示す。
Auditing the use of data in training machine-learning (ML) models is an increasingly pressing challenge, as myriad ML practitioners routinely leverage the effort of content creators to train models without their permission. In this paper, we propose a general method to audit an ML model for the use of a data-owner's data in training, without prior knowledge of the ML task for which the data might be used. Our method leverages any existing black-box membership inference method, together with a sequential hypothesis test of our own design, to detect data use with a quantifiable, tunable false-detection rate. We show the effectiveness of our proposed framework by applying it to audit data use in two types of ML models, namely image classifiers and foundation models. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-04 |
# セマンティック細胞を用いた遺伝子組換えの進化解析
Analyzing the Polysemy Evolution using Semantic Cells ( http://arxiv.org/abs/2407.16110v2 ) ライセンス: Link先を確認 | Yukio Ohsawa, Dingming Xue, Kaira Sekiguchi, | (参考訳) 言葉の感覚は進化する。
同じ単語の感覚は、今日から明日に変化し、同じ単語の複数の感覚は、お互いの進化の結果であるかもしれない。
Jubaを進化するエコシステムとみなすならば、言葉の感覚で動かない正しい答えを学ぶというパラダイムはもはや有効ではありません。
本論文は, 単語の多義性は, 著者らが提示したセマンティックセルの改変の進化的帰結であることを示すケーススタディであり, 短い文の現在の集合を分析する例として, 初期状態に少量の多様性を導入することによって, 著者らが提示した。
特に、Chat GPTを用いて収集された単語Springの4つの感覚のそれぞれに対して、ある順序で1000文の文列を解析すると、その単語が、その感覚が進化した順番に配列されたときに、分析において最も多節的に取得されることを示す。
言い換えれば、単語の獲得したポリセミーのダイナミズムを進化とともに分析する方法と、同時に、学習ベースではなく進化フレームワークからポリセミーを見る方法を提案する。
The senses of words evolve. The sense of the same word may change from today to tomorrow, and multiple senses of the same word may be the result of the evolution of each other, that is, they may be parents and children. If we view Juba as an evolving ecosystem, the paradigm of learning the correct answer, which does not move with the sense of a word, is no longer valid. This paper is a case study that shows that word polysemy is an evolutionary consequence of the modification of Semantic Cells, which has al-ready been presented by the author, by introducing a small amount of diversity in its initial state as an example of analyzing the current set of short sentences. In particular, the analysis of a sentence sequence of 1000 sentences in some order for each of the four senses of the word Spring, collected using Chat GPT, shows that the word acquires the most polysemy monotonically in the analysis when the senses are arranged in the order in which they have evolved. In other words, we present a method for analyzing the dynamism of a word's acquiring polysemy with evolution and, at the same time, a methodology for viewing polysemy from an evolutionary framework rather than a learning-based one. | 翻訳日:2024-08-06 20:19:11 公開日:2024-08-04 |
# LLMエージェントが共同経営する中国の法律事務所LawLuo
LawLuo: A Chinese Law Firm Co-run by LLM Agents ( http://arxiv.org/abs/2407.16252v2 ) ライセンス: Link先を確認 | Jingyun Sun, Chengxiao Dai, Zhongze Luo, Yangbo Chang, Yang Li, | (参考訳) LLM(Large Language Models)は、法的背景を持たないユーザに法的相談サービスを配信する大きな可能性を実証している。
それにもかかわらず、既存の中国の法的LLMは、複数のスタッフが単一の協議に貢献する法律事務所の典型的な共同協議とは異なり、単一のモデルユーザー対話にインタラクションを限定している。
この制限は、真の相談経験を妨げます。
さらに,中国におけるLLMは,(1)命令の微調整データの質の制御が不十分なこと,(2)ユーザのあいまいなクエリによるモデル幻覚の増大,(3)複数の対話を通した指示に従うモデルの能力の低下など,重大な制約を被っている。
これらの課題に対応するために、LawLuoと呼ばれる複数のLLMエージェントの協調機能を活用する新しい法的対話フレームワークを提案する。
このフレームワークには、受付係、弁護士、秘書、ボスの4人のエージェントが含まれており、それぞれが異なる機能に責任を持ち、ユーザに対して包括的な法的コンサルテーションを共同で提供する。
さらに,KINLEDとMURLEDの2つの高品質な法的対話データセットと,これらのデータセットを用いた微調整ChatGLM-3-6bを構築した。
そこで本研究では,ToLCという法的なクエリの明確化アルゴリズムを提案する。
実験の結果、LawLuoは、弁護士のような言語スタイル、法的なアドバイスの有用性、法的な知識の正確さの3次元にわたって、GPT-4を含むベースラインLLMよりも優れていることが示された。
私たちのコードとデータセットはhttps://github.com/NEFUJing/LawLuo.orgで公開されています。
Large Language Models (LLMs) demonstrate substantial potential in delivering legal consultation services to users without a legal background, attributed to their superior text comprehension and generation capabilities. Nonetheless, existing Chinese legal LLMs limit interaction to a single model-user dialogue, unlike the collaborative consultations typical of law firms, where multiple staff members contribute to a single consultation. This limitation prevents an authentic consultation experience. Additionally, extant Chinese legal LLMs suffer from critical limitations: (1) insufficient control over the quality of instruction fine-tuning data; (2) increased model hallucination resulting from users' ambiguous queries; and (3) a reduction in the model's ability to follow instructions over multiple dialogue turns. In response to these challenges, we propose a novel legal dialogue framework that leverages the collaborative capabilities of multiple LLM agents, termed LawLuo. This framework encompasses four agents: a receptionist, a lawyer, a secretary, and a boss, each responsible for different functionalities, collaboratively providing a comprehensive legal consultation to users. Additionally, we constructed two high-quality legal dialogue datasets, KINLED and MURLED, and fine-tuned ChatGLM-3-6b using these datasets. We propose a legal query clarification algorithm called ToLC. Experimental results demonstrate that LawLuo outperforms baseline LLMs, including GPT-4, across three dimensions: lawyer-like language style, the usefulness of legal advice, and the accuracy of legal knowledge. Our code and datasets are available at https://github.com/NEFUJing/LawLuo. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-04 |
# 科学的発見のための自動説明選択
Automated Explanation Selection for Scientific Discovery ( http://arxiv.org/abs/2407.17454v2 ) ライセンス: Link先を確認 | Markus Iser, | (参考訳) 自動推論は、若いが急速に成長する説明可能な人工知能(XAI)の分野で重要な技術である。
説明責任は、単なる予測精度と堅牢性を超えて、人工知能システムへの信頼を構築するのに役立つ。
本稿では,機械学習と自動推論を組み合わせた科学的発見のサイクルを提案する。
本稿では,社会学と認知科学の知見に基づく説明選択問題の分類について述べる。
これらの選択基準は、既存の概念を仮定し、それらを新しい性質で拡張する。
Automated reasoning is a key technology in the young but rapidly growing field of Explainable Artificial Intelligence (XAI). Explanability helps build trust in artificial intelligence systems beyond their mere predictive accuracy and robustness. In this paper, we propose a cycle of scientific discovery that combines machine learning with automated reasoning for the generation and the selection of explanations. We present a taxonomy of explanation selection problems that draws on insights from sociology and cognitive science. These selection criteria subsume existing notions and extend them with new properties. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-04 |
# 拡散に基づく地下マルチ物理モニタリングと予測
Diffusion-based subsurface multiphysics monitoring and forecasting ( http://arxiv.org/abs/2407.18426v2 ) ライセンス: Link先を確認 | Xinquan Huang, Fu Wang, Tariq Alkhalifah, | (参考訳) 炭素捕獲貯蔵(CCS)は、特に工業生産からの温室効果ガス排出を緩和する重要な役割を担っている。
地震モニタリングを使用することで、CCSの有効性を確実にし、関連するリスクを軽減するために、正確で堅牢なモニタリングシステムを実現することができる。
しかし、従来の地震波方程式に基づくアプローチは計算的に要求され、リアルタイムの応用を妨げている。
効率性に加えて、予測や不確実性の分析は、そのような数値シミュレーションに基づくアプローチで簡単には処理できない。
そこで本研究では,ビデオ拡散モデルを用いた新しい地下マルチ物理モニタリング・予測フレームワークを提案する。
このアプローチは、CO$2$進化の高品質な表現と、それに伴う地下弾性特性の変化を生成することができる。
再建指導により、過去のフレームや観測データに基づいて予測と逆転が達成される。
一方、アプローチの生成性により、予測の不確かさを定量化することができる。
コンパスモデルに基づく実験の結果、提案手法はCO$2$モニタリングに関連する自然に複雑な物理現象を捕捉し、その進化における表面弾性特性とCO$2$飽和を予測・反転することができることがわかった。
Carbon capture and storage (CCS) plays a crucial role in mitigating greenhouse gas emissions, particularly from industrial outputs. Using seismic monitoring can aid in an accurate and robust monitoring system to ensure the effectiveness of CCS and mitigate associated risks. However, conventional seismic wave equation-based approaches are computationally demanding, which hinders real-time applications. In addition to efficiency, forecasting and uncertainty analysis are not easy to handle using such numerical-simulation-based approaches. To this end, we propose a novel subsurface multiphysics monitoring and forecasting framework utilizing video diffusion models. This approach can generate high-quality representations of CO$2$ evolution and associated changes in subsurface elastic properties. With reconstruction guidance, forecasting and inversion can be achieved conditioned on historical frames and/or observational data. Meanwhile, due to the generative nature of the approach, we can quantify uncertainty in the prediction. Tests based on the Compass model show that the proposed method successfully captured the inherently complex physical phenomena associated with CO$_2$ monitoring, and it can predict and invert the subsurface elastic properties and CO$_2$ saturation with consistency in their evolution. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-04 |
# VSSD:Vision Mamba - 非因果状態空間の双対性
VSSD: Vision Mamba with Non-Causal State Space Duality ( http://arxiv.org/abs/2407.18559v2 ) ライセンス: Link先を確認 | Yuheng Shi, Minjing Dong, Mingjia Li, Chang Xu, | (参考訳) ビジョントランスフォーマーはコンピュータビジョンの分野を大きく進歩させ、堅牢なモデリング機能とグローバルな受容機能を提供している。
しかし、その高い計算要求は、長いシーケンスを処理する際の適用性を制限している。
この問題に対処するため、状態空間モデル(SSM)は線形計算の複雑さを提供するため、視覚タスクで優位に立った。
近年,SSMの改良版であるState Space Duality (SSD) がMamba2で導入され,モデル性能と効率が向上した。
しかし、SSD/SSMの本質的な因果性は、非因果視覚タスクにおけるそれらの応用を制限する。
この制限に対処するために、SSDの非因果形式を持つVisual State Space Duality(VSSD)モデルを導入する。
具体的には,トークンの相対重みを保ちつつ,隠蔽状態とトークン間の相互作用の大きさを排除し,トークンへのコントリビューションの依存性を緩和することを提案する。
マルチスキャン戦略の関与とともに、スキャン結果が非因果性を実現するために統合できることを示し、視力タスクにおけるSSDの性能の向上だけでなく、その効率の向上も図っている。
我々は、VSSDが既存の最先端SSMモデルを上回る画像分類、検出、セグメンテーションを含む様々なベンチマークで広範な実験を行う。
コードとウェイトは \url{https://github.com/YuHengss/VSSD} で入手できる。
Vision transformers have significantly advanced the field of computer vision, offering robust modeling capabilities and global receptive field. However, their high computational demands limit their applicability in processing long sequences. To tackle this issue, State Space Models (SSMs) have gained prominence in vision tasks as they offer linear computational complexity. Recently, State Space Duality (SSD), an improved variant of SSMs, was introduced in Mamba2 to enhance model performance and efficiency. However, the inherent causal nature of SSD/SSMs restricts their applications in non-causal vision tasks. To address this limitation, we introduce Visual State Space Duality (VSSD) model, which has a non-causal format of SSD. Specifically, we propose to discard the magnitude of interactions between the hidden state and tokens while preserving their relative weights, which relieves the dependencies of token contribution on previous tokens. Together with the involvement of multi-scan strategies, we show that the scanning results can be integrated to achieve non-causality, which not only improves the performance of SSD in vision tasks but also enhances its efficiency. We conduct extensive experiments on various benchmarks including image classification, detection, and segmentation, where VSSD surpasses existing state-of-the-art SSM-based models. Code and weights are available at \url{https://github.com/YuHengsss/VSSD}. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-04 |
# PP-TIL:インスタンスを用いた移動模倣学習による自律運転の個人化計画
PP-TIL: Personalized Planning for Autonomous Driving with Instance-based Transfer Imitation Learning ( http://arxiv.org/abs/2407.18569v3 ) ライセンス: Link先を確認 | Fangze Lin, Ying He, Fei Yu, | (参考訳) パーソナライズド・モーション・プランニングは、都会の自動運転において重要な役割を担い、個々の利用者のユニークな要求に応えている。
それにもかかわらず、事前の取り組みは、複雑な都市環境におけるパーソナライズされた計画と、データ利用による計画性能の向上の2つの重要な側面に同時に対処する上で、しばしば困難に直面している。
この課題は、ユーザデータの高価で制限された性質と、無限大に傾向するシーン状態空間から生じます。
これらの要因は、モデルトレーニングにおける過度な適合と一般化の問題に寄与する。
そこで本研究では,インスタンスベースの伝達模倣学習手法を提案する。
本手法は,知識を専門領域データからユーザ領域へ移行し,これらの課題に対する根本的な解決方法を示す。
私たちは最初、大規模な専門家データを使って事前訓練されたモデルをトレーニングします。
その後、微調整フェーズにおいて、専門家とユーザデータからなるバッチデータをフィードする。
逆強化学習手法を用いて,ユーザ・デモからスタイル特徴分布を抽出し,ユーザ・スタイルの近似のための正規化項を構築する。
実験では,提案手法の広範な評価を行った。
本手法は,基本手法と比較して,スパースユーザデータによるオーバーフィッティング問題を緩和する。
さらに、エンド・ツー・エンドのパーソナライズされた微調整結果に対する安全保護層として、運転モデルと微分非線形オプティマイザを統合することにより、計画性能が向上することを発見した。
Personalized motion planning holds significant importance within urban automated driving, catering to the unique requirements of individual users. Nevertheless, prior endeavors have frequently encountered difficulties in simultaneously addressing two crucial aspects: personalized planning within intricate urban settings and enhancing planning performance through data utilization. The challenge arises from the expensive and limited nature of user data, coupled with the scene state space tending towards infinity. These factors contribute to overfitting and poor generalization problems during model training. Henceforth, we propose an instance-based transfer imitation learning approach. This method facilitates knowledge transfer from extensive expert domain data to the user domain, presenting a fundamental resolution to these issues. We initially train a pre-trained model using large-scale expert data. Subsequently, during the fine-tuning phase, we feed the batch data, which comprises expert and user data. Employing the inverse reinforcement learning technique, we extract the style feature distribution from user demonstrations, constructing the regularization term for the approximation of user style. In our experiments, we conducted extensive evaluations of the proposed method. Compared to the baseline methods, our approach mitigates the overfitting issue caused by sparse user data. Furthermore, we discovered that integrating the driving model with a differentiable nonlinear optimizer as a safety protection layer for end-to-end personalized fine-tuning results in superior planning performance. | 翻訳日:2024-08-06 20:09:27 公開日:2024-08-04 |
# 全身運動生成にマルチモーダル制御を加える
Adding Multimodal Controls to Whole-body Human Motion Generation ( http://arxiv.org/abs/2407.21136v2 ) ライセンス: Link先を確認 | Yuxuan Bian, Ailing Zeng, Xuan Ju, Xian Liu, Zhaoyang Zhang, Wei Liu, Qiang Xu, | (参考訳) テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成は、ビデオ生成やキャラクターアニメーションを含む多くの応用がある。
しかし、異なる条件条件で様々な生成タスクを達成するために統一されたモデルを用いることで、異なる生成シナリオ間での運動分布のドリフトと、異なる粒度を持つ混合条件の複雑な最適化の2つの主な課題が提示される。
さらに、既存のデータセットにおける一貫性のないモーションフォーマットは、より効果的なマルチモーダルモーション生成を妨げる。
本稿では,プラグイン・アンド・プレイ方式で全身マルチモーダルモーション生成を制御するための統合フレームワークであるControlMMを提案する。
そこで我々は,静的・動的トポロジーグラフの並列モデリングのための制御MM-Attnを提案する。
粒度の異なる条件に対処するため、ControlMMでは、セマンティック生成のためのステージ1テキスト・ツー・モーション事前学習や、低レベル粒度の条件に対するステージ2マルチモーダル制御適応など、粗い訓練戦略を採用している。
既存のベンチマークのさまざまな動作フォーマット制限に対処するために,統一された全体SMPL-Xフォーマットに基づく,初めて公開されたマルチモーダルな人体モーション生成ベンチマークであるControlMM-Benchを導入する。
広汎な実験により、制御MMは様々な標準動作生成タスクにおいて最先端の性能を達成することが示された。
私たちのウェブサイトはhttps://yxbian23.github.io/ControlMMにあります。
Whole-body multimodal motion generation, controlled by text, speech, or music, has numerous applications including video generation and character animation. However, employing a unified model to accomplish various generation tasks with different condition modalities presents two main challenges: motion distribution drifts across different generation scenarios and the complex optimization of mixed conditions with varying granularity. Furthermore, inconsistent motion formats in existing datasets further hinder effective multimodal motion generation. In this paper, we propose ControlMM, a unified framework to Control whole-body Multimodal Motion generation in a plug-and-play manner. To effectively learn and transfer motion knowledge across different motion distributions, we propose ControlMM-Attn, for parallel modeling of static and dynamic human topology graphs. To handle conditions with varying granularity, ControlMM employs a coarse-to-fine training strategy, including stage-1 text-to-motion pre-training for semantic generation and stage-2 multimodal control adaptation for conditions of varying low-level granularity. To address existing benchmarks' varying motion format limitations, we introduce ControlMM-Bench, the first publicly available multimodal whole-body human motion generation benchmark based on the unified whole-body SMPL-X format. Extensive experiments show that ControlMM achieves state-of-the-art performance across various standard motion generation tasks. Our website is at https://yxbian23.github.io/ControlMM. | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-04 |
# ストリームアルゴリズムとk平均クラスタをRAGに実装する
Implementing Streaming algorithm and k-means clusters to RAG ( http://arxiv.org/abs/2407.21300v2 ) ライセンス: Link先を確認 | Haoyu Kang, Yuzhou Zhu, Yukun Zhong, Ke Wang, | (参考訳) 検索言語拡張世代(RAG)は,外部知識データベースを構築するため,大規模言語モデルを支援する情報検索において大きな成功を収めている。
しかし、巨大なデータベースのために大量のメモリを消費するなど、多くの問題がある。
巨大なストリーミングデータに直面した場合には、確立したインデックスデータベースを時間内に更新することはできない。
データベース構築のメモリを節約し、精度を同時に維持するために、ストリーミングアルゴリズムとk-meansクラスタをRAGと組み合わせた新しいアプローチを提案する。
我々の手法は、インデックスを更新し、メモリ消費を減らすためにストリーミングアルゴリズムを適用している。
次に、k-meansアルゴリズムを用いて、高い類似性を持つドキュメントをクラスタリングし、クエリ時間を短縮する。
提案手法の比較実験により,ストリーミングアルゴリズムとk平均クラスタを用いたRAGが精度とメモリにおいて良好に動作することを示した。
大規模ストリーミングデータの場合、従来のRAGよりも動作がよいことが分かりました。
Retrieval-augmented generation (RAG) has achieved great success in information retrieval to assist large language models because it builds an external knowledge database. However, it also has many problems: it consumes a lot of memory because of the huge database. When faced with massive streaming data, it is unable to update the established index database in time. To save the memory of building the database and maintain accuracy simultaneously, we proposed a new approach combining a streaming algorithm and k-means cluster with RAG. Our approach applies a streaming algorithm to update the index and reduce memory consumption. Then use the k-means algorithm to cluster documents with high similarities together, the query time will be shortened by doing this. We conducted comparative experiments on four methods, and the results show that RAG with streaming algorithm and k-means cluster performs well in accuracy and memory. For massive streaming data, we find that our method behaves better than traditional RAG | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-04 |
# 2024年ConDA共有タスクのデータ汚染報告
Data Contamination Report from the 2024 CONDA Shared Task ( http://arxiv.org/abs/2407.21530v2 ) ライセンス: Link先を確認 | Oscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang, | (参考訳) 第1回データ汚染ワークショップ(CONDA 2024)は、自然言語処理におけるデータ汚染に関するすべての側面に焦点を当てており、データ汚染は、大規模モデルのトレーニングに使用される事前学習コーパスに評価データが含まれている状況として理解され、評価結果が妥協される。
ワークショップでは、現在の利用可能なデータセットとモデルのデータの汚染に関する証拠を収集する共有タスクを育成した。
共有タスクと関連するデータベースの目標は,問題の範囲の理解と,既知の汚染資源に対する報告評価結果の回避を支援することにある。
共有タスクは、GitHubプールリクエストを通じてコミュニティからコントリビューションを受けることができる、汚染証拠の収集のための構造化された、集中型のパブリックデータベースを提供する。
この最初のコンピレーション・ペーパーは、合計23人のコントリビュータから91件以上の汚染された資料が報告された566件を基にしている。
個々の汚染イベントの詳細はプラットフォームで確認できる。
プラットフォームは引き続きオンラインであり、コミュニティからのコントリビューションも受け付けている。
The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant aspects of data contamination in natural language processing, where data contamination is understood as situations where evaluation data is included in pre-training corpora used to train large scale models, compromising evaluation results. The workshop fostered a shared task to collect evidence on data contamination in current available datasets and models. The goal of the shared task and associated database is to assist the community in understanding the extent of the problem and to assist researchers in avoiding reporting evaluation results on known contaminated resources. The shared task provides a structured, centralized public database for the collection of contamination evidence, open to contributions from the community via GitHub pool requests. This first compilation paper is based on 566 reported entries over 91 contaminated sources from a total of 23 contributors. The details of the individual contamination events are available in the platform. The platform continues to be online, open to contributions from the community. | 翻訳日:2024-08-06 19:59:40 公開日:2024-08-04 |
# 他エージェントとのインタラクションによるソーシャルラーニング:調査
Social Learning through Interactions with Other Agents: A Survey ( http://arxiv.org/abs/2407.21713v2 ) ライセンス: Link先を確認 | Dylan Hillier, Cheston Tan, Jing Jiang, | (参考訳) 社会学習は人間の知性の発展に重要な役割を果たしている。
子どものころは、音を出すまで両親の発話パターンを模倣し、私たちを賞賛し、非難し、大人として、他の人と一緒に働くことで学びます。
本研究では,このパラダイム – 社会学習 – が機械学習にどのように反映されているかを調査する。
特に、学習は他者との対話を必要とするため、エージェントがどのように体現し、これらのテクニックを活用できるかに興味がある。
特に,近年の自然言語処理(NLP)の進歩により,新たな社会学習が実現された。
我々は、行動的クローン化と次世代の予測が人間の模倣をどのように反映するか、人間のフィードバックからの学習が人間の教育を反映しているか、そして、相互から学習する完全なコミュニケーションエージェントを実現するために、どのようにさらに進むことができるかを考察する。
個別の社会的学習技術は成功したが、それらを社会的に具体化したエージェントにどのように組み込むかを示す統一的な作業はほとんど行われていない。
Social learning plays an important role in the development of human intelligence. As children, we imitate our parents' speech patterns until we are able to produce sounds; we learn from them praising us and scolding us; and as adults, we learn by working with others. In this work, we survey the degree to which this paradigm -- social learning -- has been mirrored in machine learning. In particular, since learning socially requires interacting with others, we are interested in how embodied agents can and have utilised these techniques. This is especially in light of the degree to which recent advances in natural language processing (NLP) enable us to perform new forms of social learning. We look at how behavioural cloning and next-token prediction mirror human imitation, how learning from human feedback mirrors human education, and how we can go further to enable fully communicative agents that learn from each other. We find that while individual social learning techniques have been used successfully, there has been little unifying work showing how to bring them together into socially embodied agents. | 翻訳日:2024-08-06 19:49:47 公開日:2024-08-04 |
# 大規模言語モデルのための層間アテンション共有
Cross-layer Attention Sharing for Large Language Models ( http://arxiv.org/abs/2408.01890v1 ) ライセンス: Link先を確認 | Yongyu Mu, Yuzhang Wu, Yuchun Fan, Chenglong Wang, Hengyu Li, Qiaozhi He, Murun Yang, Tong Xiao, Jingbo Zhu, | (参考訳) 大きな言語モデル(LLM)が進化するにつれて、モデルの深さとパラメータ数が増加すると、かなりの冗長性がもたらされる。
注意機構の効率を高めるため、従来の作業は主にKVキャッシュやグループアテンションヘッドを圧縮し、層間の冗長性をほとんど見落としていた。
様々なLCMを包括的に分析した結果,多くの層に非常に類似した注意パターンが持続していることが判明した。
レイヤ間で注意重みを共有することで計算を省くのは直感的です。
しかし、さらに分析した結果、(1)注意ヘッドを慎重に並べ替えることなく直接重み行列を共有することは効果が低いこと、(2)注意重みの小さな偏差に弱いこと、の2つの課題が明らかになった。
これらの知見に基づいて、よく訓練されたLLMにおける自己注意の軽量代用であるLiSAを紹介する。
LiSAは、小さなフィードフォワードネットワークを使用して、隣り合う層と低ランクの行列の間に注意を集中させ、層単位での注意重みの差を近似する。
13の典型的なベンチマークを含む評価では、LiSAは、全層の53-84%以内の冗長な注意計算を減らしながら、精度と難易度の観点から高い応答品質を維持している。
LLaMA3-8Bでは最大スループットが19.5%、LLaMA2-7Bでは32.3%向上した。
As large language models (LLMs) evolve, the increase in model depth and parameter number leads to substantial redundancy. To enhance the efficiency of the attention mechanism, previous works primarily compress the KV cache or group attention heads, while largely overlooking redundancy between layers. Our comprehensive analyses across various LLMs show that highly similar attention patterns persist within most layers. It's intuitive to save the computation by sharing attention weights across layers. However, further analysis reveals two challenges: (1) Directly sharing the weight matrix without carefully rearranging the attention heads proves to be ineffective; (2) Shallow layers are vulnerable to small deviations in attention weights. Driven by these insights, we introduce LiSA, a lightweight substitute for self-attention in well-trained LLMs. LiSA employs tiny feed-forward networks to align attention heads between adjacent layers and low-rank matrices to approximate differences in layer-wise attention weights. Evaluations encompassing 13 typical benchmarks demonstrate that LiSA maintains high response quality in terms of accuracy and perplexity while reducing redundant attention calculations within 53-84% of the total layers. Our implementations of LiSA achieve a 6X compression of Q and K, with maximum throughput improvements of 19.5% for LLaMA3-8B and 32.3% for LLaMA2-7B. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-04 |
# Re-ENACT:アクター・クリティカル戦略を用いた感情音声生成のための強化学習
Re-ENACT: Reinforcement Learning for Emotional Speech Generation using Actor-Critic Strategy ( http://arxiv.org/abs/2408.01892v1 ) ライセンス: Link先を確認 | Ravi Shankar, Archana Venkataraman, | (参考訳) 本稿では,アクター・アクターの強化学習戦略を用いて,与えられた音声信号の韻律的特徴を初めて修正する手法を提案する。
我々の手法はベイズ的枠組みを用いて、与えられた発話のセグメントと人間の感情の知覚を結びつける重要部分を特定する。
我々はニューラルネットワークをトレーニングし、ベルヌーイ確率変数の集合の変動後部を生成する。
この分布からのサンプルは下流の感情予測に使用される。
さらに、ニューラルネットワークをトレーニングし、ターゲット変数として感情カテゴリーに対するソフトな割り当てを予測する。
次のステップでは、マスクされたセグメントの韻律的特徴(ピッチ、強度、リズム)を修正し、ターゲット感情のスコアを増加させる。
我々は,修正の空間を識別し,韻律変調器の訓練にアクター・クリティック・リテンション・ラーニングを用いた。
さらに、リズム操作のためのWSOLA演算による勾配計算の簡単な解を提供する。
実験により、この枠組みは、特定の発話のターゲットに対する知覚的感情を変化させることを示した。
さらに、我々の統合手法は、ペアの訓練を必要とする教師なし領域や教師なし領域からの最先端の感情変換モデルと同等であることを示す。
In this paper, we propose the first method to modify the prosodic features of a given speech signal using actor-critic reinforcement learning strategy. Our approach uses a Bayesian framework to identify contiguous segments of importance that links segments of the given utterances to perception of emotions in humans. We train a neural network to produce the variational posterior of a collection of Bernoulli random variables; our model applies a Markov prior on it to ensure continuity. A sample from this distribution is used for downstream emotion prediction. Further, we train the neural network to predict a soft assignment over emotion categories as the target variable. In the next step, we modify the prosodic features (pitch, intensity, and rhythm) of the masked segment to increase the score of target emotion. We employ an actor-critic reinforcement learning to train the prosody modifier by discretizing the space of modifications. Further, it provides a simple solution to the problem of gradient computation through WSOLA operation for rhythm manipulation. Our experiments demonstrate that this framework changes the perceived emotion of a given speech utterance to the target. Further, we show that our unified technique is on par with state-of-the-art emotion conversion models from supervised and unsupervised domains that require pairwise training. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-04 |
# 包括的エンドツーエンドテスト生成のための特徴ベースアプローチ
A Feature-Based Approach to Generating Comprehensive End-to-End Tests ( http://arxiv.org/abs/2408.01894v1 ) ライセンス: Link先を確認 | Parsa Alian, Noor Nashid, Mobina Shahbandeh, Taha Shabani, Ali Mesbah, | (参考訳) エンド・ツー・エンド(E2E)テストは、Webアプリケーションの品質を保証するために不可欠である。
しかし、手動のテスト生成は時間がかかり、現在のテスト生成技術はランダムなテストを生成する。
本稿では,Large Language Models (LLMs) を利用したWebアプリケーションの意味論的特徴駆動型E2Eテストケースの自動生成手法であるAUTOE2Eを提案する。
AUTOE2Eは、Webアプリケーション内の潜在的な機能をインテリジェントに推論し、実行可能なテストシナリオに変換する。
さらに、E2Eテストスイートの機能カバレッジを自動的に評価する新しいベンチマークであるE2EBENCHを導入することで、研究コミュニティにおける重要なギャップに対処する。
E2EBENCHの評価は,AUTOE2Eが平均79%の機能カバレッジを達成し,最高のベースラインを558%上回り,高品質で総合的なテストケースを生成する上での有効性を強調した。
End-to-end (E2E) testing is essential for ensuring web application quality. However, manual test creation is time-consuming and current test generation techniques produce random tests. In this paper, we present AUTOE2E, a novel approach that leverages Large Language Models (LLMs) to automate the generation of semantically meaningful feature-driven E2E test cases for web applications. AUTOE2E intelligently infers potential features within a web application and translates them into executable test scenarios. Furthermore, we address a critical gap in the research community by introducing E2EBENCH, a new benchmark for automatically assessing the feature coverage of E2E test suites. Our evaluation on E2EBENCH demonstrates that AUTOE2E achieves an average feature coverage of 79%, outperforming the best baseline by 558%, highlighting its effectiveness in generating high-quality, comprehensive test cases. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-04 |
# コンピュータトリクロマシー再構成 : 拡張現実による色認識に欠く色覚の強化
Computational Trichromacy Reconstruction: Empowering the Color-Vision Deficient to Recognize Colors Using Augmented Reality ( http://arxiv.org/abs/2408.01895v1 ) ライセンス: Link先を確認 | Yuhao Zhu, Ethan Chen, Colin Hascup, Yukang Yan, Gaurav Charma, | (参考訳) 色覚障害(CVD)患者が色を認識・識別する支援技術を提案する。
ディクロマトリクスの色知覚は、通常のトリクロマトリクスの3次元色(3D)知覚の2次元(2次元)部分集合であり、ディクロマトリクスと同一に見える視覚刺激が異なる色名によって参照されるときに混乱を引き起こす。
提案システムを用いて、CVD個人は、コンピュータカラー空間変換により、異なる知覚的変化を誘発し、本来の混乱色へと導出することができる。
色に対する元の2D規範と識別的変化を組み合わせることで、3次元の色空間を再構成し、ディクロマトグラフィーは色名の混乱を解消し、色を正確に認識することができる。
本システムはスマートフォンのARインタフェースとして実装されており、ユーザーはスワイプジェスチャーで回転をインタラクティブに制御し、カメラビューや表示画像内の色変化を観察することができる。
心理物理学実験と縦断的ユーザスタディを通じて、このような回転色シフトが識別力を持つ(初期は、回転下で色が区別される)ことを示し、ディクロマトリクスが適度なトレーニングで学習できる構造化された知覚色シフトを示す。
ARアプリは、2つの現実世界のシナリオ(レゴブロックで構築し、芸術作品の解釈)で評価されている。
We propose an assistive technology that helps individuals with Color Vision Deficiencies (CVD) to recognize/name colors. A dichromat's color perception is a reduced two-dimensional (2D) subset of a normal trichromat's three dimensional color (3D) perception, leading to confusion when visual stimuli that appear identical to the dichromat are referred to by different color names. Using our proposed system, CVD individuals can interactively induce distinct perceptual changes to originally confusing colors via a computational color space transformation. By combining their original 2D precepts for colors with the discriminative changes, a three dimensional color space is reconstructed, where the dichromat can learn to resolve color name confusions and accurately recognize colors. Our system is implemented as an Augmented Reality (AR) interface on smartphones, where users interactively control the rotation through swipe gestures and observe the induced color shifts in the camera view or in a displayed image. Through psychophysical experiments and a longitudinal user study, we demonstrate that such rotational color shifts have discriminative power (initially confusing colors become distinct under rotation) and exhibit structured perceptual shifts dichromats can learn with modest training. The AR App is also evaluated in two real-world scenarios (building with lego blocks and interpreting artistic works); users all report positive experience in using the App to recognize object colors that they otherwise could not. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-04 |
# 経済安全とリモートステーク
Remote Staking with Economic Safety ( http://arxiv.org/abs/2408.01896v1 ) ライセンス: Link先を確認 | Xinshu Dong, Orfeas Stefanos Thyfronitis Litos, Ertem Nusret Tas, David Tse, Robin Linus Woll, Lei Yang, Mingchao Yu, | (参考訳) Proof-of-Stake(PoS)ブロックチェーンは、検証者がトークンを担保としてロックすることを要求し、プロトコル違反者として識別された場合、トークンを切断する。
PoS鎖は、主にネイティブトークンによって保護されている。
しかし、ネイティブトークンのみを使用すると、ネイティブトークンの市場資本化によって取得できる価値が上限となる。
対照的に、プロバイダチェーンからの別の暗号資産のリモート取得は、コンシューマチェーンの経済的セキュリティを改善するための道を提供する。
本稿では,消費者チェーンに安全違反が発生した場合,消費者チェーンの保護権の少なくとも3分の1が切断される,最適経済安全が保証された最初のリモートステークプロトコルを提案する。
幅広いプロバイダチェーンとコンシューマチェーンのこの目標を達成するために、2つの独立したコントリビューションがなされている。
1 消費者チェーンに安全上の違反があるときは、その利害関係が提供者チェーンに束縛される前に、割断を確実にするリモート・アンボンディング・プロトコル
2) プロバイダチェーンのスマートコントラクトがなくても,利害関係を縮小するプロトコル。
リモートテイクプロトコルは、プロバイダチェーンがBitcoinであり、コンシューマチェーンがTendermintコンセンサスプロトコルを実行するCosmos SDKチェーンである場合に分析および実装される。
Proof-of-stake (PoS) blockchains require validators to lock their tokens as collateral, slashing these tokens if they are identified as protocol violators. PoS chains have mostly been secured by their native tokens. However, using only the native token upper-bounds the value eligible for staking by the market capitalization of the native token. In contrast, the remote staking of another crypto asset from a provider chain provides an avenue to improve the consumer chain's economic security. In this paper, we present the first known remote staking protocols with guaranteed optimal economic safety: whenever there is a safety violation on the consumer chain, at least one third of the provider's stake securing the consumer chain is slashed. To achieve this goal for a broad range of provider and consumer chains, two independent contributions are made: 1) a remote unbonding protocol that ensures slashing before the stake is unbonded on the provider chain if there is safety violation on the consumer chain; 2) a protocol to slash stake even without smart contracts on the provider chain. The remote staking protocol is analyzed and implemented in the case where the provider chain is Bitcoin and the consumer chain is a Cosmos SDK chain running the Tendermint consensus protocol. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-04 |
# 生体画像におけるマルチスケール病変検出のためのロバストフレームワークCAF-YOLO
CAF-YOLO: A Robust Framework for Multi-Scale Lesion Detection in Biomedical Imagery ( http://arxiv.org/abs/2408.01897v1 ) ライセンス: Link先を確認 | Zilin Chen, Shengnan Lu, | (参考訳) 物体検出は生体画像解析において最重要であり、特に病変の同定に重要である。
現在の方法では病変の特定と特定に長けているが、血液や肺病理に重要な微小な生医学的実体(例:異常細胞、肺結節3mm未満)を検出するのに必要な精度が欠如していることが多い。
この課題に対処するために,畳み込みニューラルネットワーク(CNN)とトランスフォーマーの強みを活用した,医療オブジェクト検出のためのニブルで堅牢な手法であるYOLOv8アーキテクチャに基づくCAF-YOLOを提案する。
情報交換能力に制約のある畳み込みカーネルの制限を克服するため,注意・畳み込み融合モジュール(ACFM)を導入する。
このモジュールはグローバルな特徴と局所的な特徴の両方のモデリングを強化し、長期的特徴の依存関係と空間的自己相関をキャプチャする。
さらに、トランスアーキテクチャ内のフィードフォワードネットワーク(FFN)に固有の制限付き単一スケール特徴集約を改善するために、マルチスケールニューラルネットワーク(MSNN)を設計する。
このネットワークは,多様なスケールで特徴を抽出することで,マルチスケール情報収集を改善する。
BCCDやLUNA16のような広く使われているデータセットに対する実験的な評価は、CAF-YOLOの合理的性と有効性を検証する。
この手法は、生体画像中の多種多様な複雑なマイクロレジオンを検出し、正確に見つけ出すのに優れている。
私たちのコードはhttps://github.com/xiaochen925/CAF-YOLOで公開されています。
Object detection is of paramount importance in biomedical image analysis, particularly for lesion identification. While current methodologies are proficient in identifying and pinpointing lesions, they often lack the precision needed to detect minute biomedical entities (e.g., abnormal cells, lung nodules smaller than 3 mm), which are critical in blood and lung pathology. To address this challenge, we propose CAF-YOLO, based on the YOLOv8 architecture, a nimble yet robust method for medical object detection that leverages the strengths of convolutional neural networks (CNNs) and transformers. To overcome the limitation of convolutional kernels, which have a constrained capacity to interact with distant information, we introduce an attention and convolution fusion module (ACFM). This module enhances the modeling of both global and local features, enabling the capture of long-term feature dependencies and spatial autocorrelation. Additionally, to improve the restricted single-scale feature aggregation inherent in feed-forward networks (FFN) within transformer architectures, we design a multi-scale neural network (MSNN). This network improves multi-scale information aggregation by extracting features across diverse scales. Experimental evaluations on widely used datasets, such as BCCD and LUNA16, validate the rationale and efficacy of CAF-YOLO. This methodology excels in detecting and precisely locating diverse and intricate micro-lesions within biomedical imagery. Our codes are available at https://github.com/xiaochen925/CAF-YOLO. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-04 |
# 人工知能情報開示(AID)フレームワークの紹介
The Artificial Intelligence Disclosure (AID) Framework: An Introduction ( http://arxiv.org/abs/2408.01904v1 ) ライセンス: Link先を確認 | Kari D. Weaver, | (参考訳) ジェネレーティブ・人工知能(Generative Artificial Intelligence)ツールの使用が高等教育や研究で成長するにつれて、これらのツールの使用と利用の帰結に関する透明性と粒度の要求が高まっている。
これまでのところ、このニーズはノートを推奨する形で満たされており、ノート自体に含めるべきものについてのガイダンスはほとんど、あるいは全くない。
これは、学術や研究の文脈におけるAIの使用の問題として認識されている。
本稿では、教育・研究のためのGenAI開示の開発と作成を知らせる標準的で包括的で詳細なフレームワークである人工知能開示(AID)フレームワークを紹介する。
As the use of Generative Artificial Intelligence tools have grown in higher education and research, there have been increasing calls for transparency and granularity around the use and attribution of the use of these tools. Thus far, this need has been met via the recommended inclusion of a note, with little to no guidance on what the note itself should include. This has been identified as a problem to the use of AI in academic and research contexts. This article introduces The Artificial Intelligence Disclosure (AID) Framework, a standard, comprehensive, and detailed framework meant to inform the development and writing of GenAI disclosure for education and research. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-04 |
# キャビティ・マグノン系におけるマグノン・スクイージング強化弱磁場センサ
Magnon-squeezing-enhanced weak magnetic field sensing in cavity-magnon system ( http://arxiv.org/abs/2408.01905v1 ) ライセンス: Link先を確認 | Zheng Liu, Yu-qiang Liu, Yi-jia Yang, Chang-shui Yu, | (参考訳) 量子ノイズと熱ノイズは、弱い磁場感知の感度を制限する2つの主要なノイズ源である。
量子ノイズは広く研究されているが、弱い磁場を検出するのに熱ノイズを効果的に低減することは困難である。
我々は、磁気プローブとして異方性楕円YIG球を用いて、マグノンのパラメトリック増幅相互作用を確立し、マグノンのスクイージング効果を誘導する。
これらの効果は、マグノンモードの熱雑音を効果的に抑制し、外部からの弱い磁場信号を増幅することができる。
具体的には、圧縮真空貯留層にYIG球を配置することで、熱雑音を完全に抑制することができる。
我々の手法は、量子センシングのための熱雑音抑制の進歩を刺激する可能性がある。
Quantum noise and thermal noise are the two primary sources of noise that limit the sensitivity of weak magnetic field sensing. Although quantum noise has been widely addressed, effectively reducing thermal noise remains challenging in detecting weak magnetic fields. We employ an anisotropic elliptical YIG sphere as a magnetic field probe to establish a parametric amplification interaction of magnons and induce magnon squeezing effects. These effects can effectively suppress thermal noise in the magnon mode and amplify weak magnetic field signals from external sources. Specifically, complete suppression of thermal noise can be achieved by placing the YIG sphere in a squeezed vacuum reservoir. Our scheme has the potential to inspire advancements in thermal noise suppression for quantum sensing. | 翻訳日:2024-08-06 18:01:12 公開日:2024-08-04 |
# 大規模ソフトウェアシステムへのシンボリックな実行のスケーリング
Scaling Symbolic Execution to Large Software Systems ( http://arxiv.org/abs/2408.01909v1 ) ライセンス: Link先を確認 | Gabor Horvath, Reka Kovacs, Zoltan Porkolab, | (参考訳) 静的解析とは、実行せずにプログラムを解析することであり、通常は自動化ツールによって実行される。
シンボル実行は、プログラム検証とバグ検出ソフトウェアの両方で使用される一般的な静的解析手法である。
コードを解釈し、コンパイル時に未知の値(例えばユーザ入力)ごとにシンボルを導入し、シンボル的に計算を実行する。
分析エンジンは、複数の実行パスを同時に探索するが、多くの可能性のために、すべてのパスをチェックすることは難解な問題である。
我々は、Clang Static Analyzerと呼ばれるエラー検出フレームワークと、その周辺に構築されたインフラストラクチャーであるCodeCheckerに焦点を当てた。
強調するのは、エンドツーエンドのスケーラビリティの実現だ。
これには、分析の実行時間とメモリ消費、ユーザへのバグプレゼンテーション、自動偽陽性の抑制、インクリメンタル分析、結果のパターン発見、継続的インテグレーションループの使用などが含まれる。
また、これらのツールに関する今後の方向性と課題についても概説する。
プログラム検証ソフトウェアには豊富な文献が存在するが、エラー検出ツールは通常、個々の技術に関する調査論文のために解決する必要がある。
本稿では,個別の手法だけでなく,これらの決定がどのように相互に相互作用し,相互に強化するかについても論じる。
Clang Static AnalyzerはCファミリー言語しか扱えないが、本稿で紹介される技術は主に言語に依存しず、他の類似の静的解析ツールに適用できる。
Static analysis is the analysis of a program without executing it, usually carried out by an automated tool. Symbolic execution is a popular static analysis technique used both in program verification and in bug detection software. It works by interpreting the code, introducing a symbol for each value unknown at compile time (e.g. user-given inputs), and carrying out calculations symbolically. The analysis engine strives to explore multiple execution paths simultaneously, although checking all paths is an intractable problem, due to the vast number of possibilities. We focus on an error finding framework called the Clang Static Analyzer, and the infrastructure built around it named CodeChecker. The emphasis is on achieving end-to-end scalability. This includes the run time and memory consumption of the analysis, bug presentation to the users, automatic false positive suppression, incremental analysis, pattern discovery in the results, and usage in continuous integration loops. We also outline future directions and open problems concerning these tools. While a rich literature exists on program verification software, error finding tools normally need to settle for survey papers on individual techniques. In this paper, we not only discuss individual methods, but also how these decisions interact and reinforce each other, creating a system that is greater than the sum of its parts. Although the Clang Static Analyzer can only handle C-family languages, the techniques introduced in this paper are mostly language-independent and applicable to other similar static analysis tools. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# MAO:マルチエージェントオーケストレーションによるプロセスモデル生成フレームワーク
MAO: A Framework for Process Model Generation with Multi-Agent Orchestration ( http://arxiv.org/abs/2408.01916v1 ) ライセンス: Link先を確認 | Leilei Lin, Yumeng Jin, Yingming Zhou, Wenlong Chen, Chen Qian, | (参考訳) プロセスモデルは、ビジネス要件を記述し、ソフトウェアテストと制御システムの改善をガイドするために、ソフトウェア工学で頻繁に使用されます。
しかし、従来のプロセスモデリング手法は、多くの専門家の参加を必要とすることが多い。
そのため、より効率的で費用効率の良い自動モデリング手法の探索が、現在研究の焦点となっている。
本稿では、マルチエージェントオーケストレーション(MAO)でプロセスモデルを自動的に生成するフレームワークについて検討し、プロセスモデリングの効率を高め、ドメインの専門家に貴重な洞察を提供することを目的とする。
当社のフレームワークMAOは,大規模言語モデルをマルチエージェントの基盤として活用し,マルチエージェント間の効率的な協調を保証する革新的なプロンプト戦略を採用している。
具体的には
1世代。
MAOの最初のフェーズは、テキスト記述から少し粗いプロセスモデルを生成することです。
2)改良。
エージェントは、対話の複数のラウンドを通じて、初期プロセスモデルを継続的に洗練します。
3) レビュー。
大規模言語モデルは多ターン対話において幻覚現象を起こす傾向があるため、エージェントはプロセスモデルにおける意味幻覚をレビューし、修復する必要がある。
4) テスト。
プロセスモデルの表現は様々である。
その結果、エージェントは外部ツールを使用して、生成されたプロセスモデルにフォーマットエラー、すなわちフォーマット幻覚が含まれているかどうかを検証し、出力パラダイムに適合するようにプロセスモデルを調整する。
実験により、我々のフレームワークが生成したプロセスモデルは、既存の手法より優れており、それぞれ4つの異なるデータセットにおいて、手動モデリングを89%、61%、52%、75%を上回ります。
Process models are frequently used in software engineering to describe business requirements, guide software testing and control system improvement. However, traditional process modeling methods often require the participation of numerous experts, which is expensive and time-consuming. Therefore, the exploration of a more efficient and cost-effective automated modeling method has emerged as a focal point in current research. This article explores a framework for automatically generating process models with multi-agent orchestration (MAO), aiming to enhance the efficiency of process modeling and offer valuable insights for domain experts. Our framework MAO leverages large language models as the cornerstone for multi-agent, employing an innovative prompt strategy to ensure efficient collaboration among multi-agent. Specifically, 1) generation. The first phase of MAO is to generate a slightly rough process model from the text description; 2) refinement. The agents would continuously refine the initial process model through multiple rounds of dialogue; 3) reviewing. Large language models are prone to hallucination phenomena among multi-turn dialogues, so the agents need to review and repair semantic hallucinations in process models; 4) testing. The representation of process models is diverse. Consequently, the agents utilize external tools to test whether the generated process model contains format errors, namely format hallucinations, and then adjust the process model to conform to the output paradigm. The experiments demonstrate that the process models generated by our framework outperform existing methods and surpass manual modeling by 89%, 61%, 52%, and 75% on four different datasets, respectively. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# 自己監督型事前学習モデルと潜在特徴分布最適化
Self-Supervised Pretrained Models and Latent Feature Distribution Optimization ( http://arxiv.org/abs/2408.01920v1 ) ライセンス: Link先を確認 | Qiuyu Zhu, Liheng Hu, Sijin Wang, | (参考訳) 複雑な自然画像の面において、既存の深層クラスタリングアルゴリズムは、教師付き分類法に比べてクラスタリング精度が著しく低いため、実用的ではない。
本稿では,自己教師付き事前学習モデルと潜在特徴分布最適化に基づく画像クラスタリングアルゴリズムを提案し,クラスタリング性能を大幅に向上させる。
1) 複雑な自然画像に対して, 自己教師付き事前学習モデルとその微調整を活用することにより, 潜在特徴の識別能力を効果的に向上し, クラスタリング性能が向上することがわかった。
2)潜伏特徴空間では,各トレーニングサンプルのk-アレスト近傍画像を探索し,トレーニングサンプルと隣接近傍の距離を短縮することにより,潜伏特徴の識別能力をさらに向上し,クラスタリング性能を向上させることができる。
(3) 潜時特徴空間では, 標本特徴量と最寄りのクラスタセントロイドとの距離を減少させることで, 潜時特徴量の分布を最適化し, クラスタリング性能を向上させることができる。
複数のデータセットの実験を通じて、我々の手法は最新のクラスタリングアルゴリズムより優れ、最先端のクラスタリング結果が得られる。
CIFAR-10 や STL-10 など,データセット内のカテゴリ数が少ない場合,クラスタリングアルゴリズムは事前学習モデルを用いずに教師付き手法と類似した精度で,事前学習モデルを用いた教師付き手法よりもわずかに低い。
コードリンクアルゴリズムはhttps://github.com/LihengHu/ICBPLである。
In the face of complex natural images, existing deep clustering algorithms fall significantly short in terms of clustering accuracy when compared to supervised classification methods, making them less practical. This paper introduces an image clustering algorithm based on self-supervised pretrained models and latent feature distribution optimization, substantially enhancing clustering performance. It is found that: (1) For complex natural images, we effectively enhance the discriminative power of latent features by leveraging self-supervised pretrained models and their fine-tuning, resulting in improved clustering performance. (2) In the latent feature space, by searching for k-nearest neighbor images for each training sample and shortening the distance between the training sample and its nearest neighbor, the discriminative power of latent features can be further enhanced, and clustering performance can be improved. (3) In the latent feature space, reducing the distance between sample features and the nearest predefined cluster centroids can optimize the distribution of latent features, therefore further improving clustering performance. Through experiments on multiple datasets, our approach outperforms the latest clustering algorithms and achieves state-of-the-art clustering results. When the number of categories in the datasets is small, such as CIFAR-10 and STL-10, and there are significant differences between categories, our clustering algorithm has similar accuracy to supervised methods without using pretrained models, slightly lower than supervised methods using pre-trained models. The code linked algorithm is https://github.com/LihengHu/ICBPL. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# テンソル回帰のための効率的な決定木
Efficient Decision Trees for Tensor Regressions ( http://arxiv.org/abs/2408.01926v1 ) ライセンス: Link先を確認 | Hengrui Luo, Akira Horiguchi, Li Ma, | (参考訳) 我々はスカラー・オン・テンソル回帰問題とテンソル・オン・テンソル回帰問題に対するテンソル・インプット・ツリー(TT)法を提案した。
まず,入力変数がテンソルであるスカラー・アウトプット・レグレッションツリーモデル(マルチウェイアレイ)を提案する。
我々はスカラー・オン・テンソル・ツリーの効率的な適合のための高速ランダム化および決定論的アルゴリズムを考案し,実装し,TTがテンソル・インプットGPモデルと競合することを示した。
スカラー・オン・テンソル木モデルに基づいて,加法木アンサンブル法を用いてテンソル・オン・テンソル問題に拡張する。
TTの性能を示すために, 実・合成データセットに関する理論的正当化と広範な実験を行った。
We proposed the tensor-input tree (TT) method for scalar-on-tensor and tensor-on-tensor regression problems. We first address scalar-on-tensor problem by proposing scalar-output regression tree models whose input variable are tensors (i.e., multi-way arrays). We devised and implemented fast randomized and deterministic algorithms for efficient fitting of scalar-on-tensor trees, making TT competitive against tensor-input GP models. Based on scalar-on-tensor tree models, we extend our method to tensor-on-tensor problems using additive tree ensemble approaches. Theoretical justification and extensive experiments on real and synthetic datasets are provided to illustrate the performance of TT. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# 電子商取引における問合せ分類のための半教師付き多チャンネルグラフ畳み込みネットワーク
A Semi-supervised Multi-channel Graph Convolutional Network for Query Classification in E-commerce ( http://arxiv.org/abs/2408.01928v1 ) ライセンス: Link先を確認 | Chunyuan Yuan, Ming Pang, Zheng Fang, Xue Jiang, Changping Peng, Zhangang Lin, | (参考訳) クエリインテントの分類は、顧客がEコマースアプリケーションで素早く望ましい製品を見つけるために必須のモジュールである。
既存のクエリインテント分類手法の多くは、トレーニングサンプルを構築するための教師付き信号として、ユーザのクリック動作に依存している。
しかし、これらの手法は完全に後続ラベルに基づいており、クリックサンプルにおけるマシュー効果のため、深刻なカテゴリー不均衡問題を引き起こす可能性がある。
一般的なカテゴリーと比較して、ロングテールカテゴリーの製品ではトラフィックやユーザクリックの取得が困難であるため、ロングテールカテゴリの製品に対するユーザの意図を検出することができない。
このことは、長い尾のカテゴリーでは交通が得られないという問題を悪化させ、悪循環を形成している。
さらに、ユーザクリックのランダム性のため、後続ラベルは類似したセマンティクスを持つクエリに対して不安定であり、モデルが入力に非常に敏感になるため、カテゴリの不安定かつ不完全なリコールにつながる。
本稿では,ラベルアソシエーションと半教師付き学習の観点から,上記の問題に対処する,新しい半教師付き多チャンネルグラフ畳み込みネットワーク(SMGCN)を提案する。
SMGCNは、クエリとカテゴリの類似点を利用して、カテゴリ情報を拡張し、後続ラベルを強化する。
さらに、カテゴリの共起と意味的類似性グラフを活用して、ラベル間の関係を強化し、後続ラベルの不安定性の影響を弱める。
大規模なオフラインおよびオンラインA/B実験を行い,実験結果からSMGCNが強いベースラインを著しく上回り,その有効性と実用性を示した。
Query intent classification is an essential module for customers to find desired products on the e-commerce application quickly. Most existing query intent classification methods rely on the users' click behavior as a supervised signal to construct training samples. However, these methods based entirely on posterior labels may lead to serious category imbalance problems because of the Matthew effect in click samples. Compared with popular categories, it is difficult for products under long-tail categories to obtain traffic and user clicks, which makes the models unable to detect users' intent for products under long-tail categories. This in turn aggravates the problem that long-tail categories cannot obtain traffic, forming a vicious circle. In addition, due to the randomness of the user's click, the posterior label is unstable for the query with similar semantics, which makes the model very sensitive to the input, leading to an unstable and incomplete recall of categories. In this paper, we propose a novel Semi-supervised Multi-channel Graph Convolutional Network (SMGCN) to address the above problems from the perspective of label association and semi-supervised learning. SMGCN extends category information and enhances the posterior label by utilizing the similarity score between the query and categories. Furthermore, it leverages the co-occurrence and semantic similarity graph of categories to strengthen the relations among labels and weaken the influence of posterior label instability. We conduct extensive offline and online A/B experiments, and the experimental results show that SMGCN significantly outperforms the strong baselines, which shows its effectiveness and practicality. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# 乳癌におけるH&E-IHCステント翻訳の進歩 : 多機能化と注意に基づくアプローチ
Advancing H&E-to-IHC Stain Translation in Breast Cancer: A Multi-Magnification and Attention-Based Approach ( http://arxiv.org/abs/2408.01929v1 ) ライセンス: Link先を確認 | Linhao Qu, Chengsheng Zhang, Guihui Li, Haiyong Zheng, Chen Peng, Wei He, | (参考訳) 乳がんは世界中で重要な医療課題であり、正確な診断と効果的な治療戦略を必要としており、ヘマトキシリンとエオシン(H&E)染色組織セクションの病理組織学的検査が中心的な役割を担っている。
その重要性にもかかわらず、パーソナライズされた治療のためのヒト表皮増殖因子受容体2(HER2)のような特定のバイオマーカーの評価は、IHC(Imimhistochemistry)の資源集約性によって制限されている。
近年のディープラーニングの進歩、特に画像から画像への翻訳は、H\&E染色スライドからIHC-HER2スライドを合成することを約束している。
しかし、既存の手法では、病理画像における複数倍率の管理や、翻訳中の重要な情報への集中不足など、課題に直面している。
これらの問題に対処するために,注意機構と多機能情報処理を統合した新しいモデルを提案する。
本モデルでは,病理画像中の様々な倍率情報から情報を抽出・活用し,ロバストな画像翻訳を容易にするため,多機能化処理方式を採用している。
さらに、生成ネットワーク内のアテンションモジュールは、関連する詳細を最小化しつつ、画像配信翻訳の重要な情報を優先する。
H&E から IHC 染色への画像変換における最先端の手法として,我々のモデルを確立した。
Breast cancer presents a significant healthcare challenge globally, demanding precise diagnostics and effective treatment strategies, where histopathological examination of Hematoxylin and Eosin (H&E) stained tissue sections plays a central role. Despite its importance, evaluating specific biomarkers like Human Epidermal Growth Factor Receptor 2 (HER2) for personalized treatment remains constrained by the resource-intensive nature of Immunohistochemistry (IHC). Recent strides in deep learning, particularly in image-to-image translation, offer promise in synthesizing IHC-HER2 slides from H\&E stained slides. However, existing methodologies encounter challenges, including managing multiple magnifications in pathology images and insufficient focus on crucial information during translation. To address these issues, we propose a novel model integrating attention mechanisms and multi-magnification information processing. Our model employs a multi-magnification processing strategy to extract and utilize information from various magnifications within pathology images, facilitating robust image translation. Additionally, an attention module within the generative network prioritizes critical information for image distribution translation while minimizing less pertinent details. Rigorous testing on a publicly available breast cancer dataset demonstrates superior performance compared to existing methods, establishing our model as a state-of-the-art solution in advancing pathology image translation from H&E to IHC staining. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# DiReCT:大規模言語モデルによる臨床ノートの診断的推論
DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models ( http://arxiv.org/abs/2408.01933v1 ) ライセンス: Link先を確認 | Bowen Wang, Jiuyang Chang, Yiming Qian, Guoxin Chen, Junhao Chen, Zhouqiang Jiang, Jiahao Zhang, Yuta Nakashima, Hajime Nagahara, | (参考訳) 大規模言語モデル(LLM)は、医療領域を含む幅広いタスクやアプリケーションにまたがる、目覚ましい機能を披露している。
GPT-4のようなモデルは、医学的な質問に答える上で優れているが、実際の臨床環境で複雑なタスクを扱う際には、解釈可能性の欠如が問題となる可能性がある。
そこで本論文では,人間の医師と比較してLCMの推論能力と解釈性を評価することを目的とした,臨床ノート用診断推論データセット(DiReCT)について紹介する。
医師が慎重に注記した521の臨床ノートを含み、臨床ノートの観察から最終診断まで、診断の推論過程を詳述している。
さらに、診断知識グラフが提供され、既存のLLMのトレーニングデータには含まれない推論に必要な知識を提供する。
DiReCTにおけるLLMの評価は、その推論能力と人間の医師の間に大きなギャップをもたらし、実際の臨床シナリオにおいて効果的に推論できるモデルに対する重要な必要性を強調している。
Large language models (LLMs) have recently showcased remarkable capabilities, spanning a wide range of tasks and applications, including those in the medical domain. Models like GPT-4 excel in medical question answering but may face challenges in the lack of interpretability when handling complex tasks in real clinical settings. We thus introduce the diagnostic reasoning dataset for clinical notes (DiReCT), aiming at evaluating the reasoning ability and interpretability of LLMs compared to human doctors. It contains 521 clinical notes, each meticulously annotated by physicians, detailing the diagnostic reasoning process from observations in a clinical note to the final diagnosis. Additionally, a diagnostic knowledge graph is provided to offer essential knowledge for reasoning, which may not be covered in the training data of existing LLMs. Evaluations of leading LLMs on DiReCT bring out a significant gap between their reasoning ability and that of human doctors, highlighting the critical need for models that can reason effectively in real-world clinical scenarios. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# 物体検出のための敵攻撃の実態調査と評価
A Survey and Evaluation of Adversarial Attacks for Object Detection ( http://arxiv.org/abs/2408.01934v1 ) ライセンス: Link先を確認 | Khoi Nguyen Tiet Nguyen, Wenyu Zhang, Kangkang Lu, Yuhuan Wu, Xingjian Zheng, Hui Li Tan, Liangli Zhen, | (参考訳) ディープラーニングモデルは、様々なコンピュータビジョンタスクにおいて優れているが、誤った予測につながる入力データの逆例-サブトル摂動の影響を受けやすい。
この脆弱性は、自動運転車、セキュリティ監視、航空機の健康監視など、安全に重要なアプリケーションに重大なリスクをもたらす。
多くの調査は画像分類における敵攻撃に焦点を当てているが、対象検出におけるそのような攻撃に関する文献は限られている。
本稿では,対象検出に特有の敵攻撃の包括的分類を提供し,既存の敵ロバスト性評価指標をレビューし,オープンソースのアタック手法とモデルロバストネスを体系的に評価する。
攻撃の有効性とそれに対応する対策の理解を高めるために、重要な観測結果が提供される。
さらに,自動物体検出システムの安全性確保に向けた今後の取り組みを導く上で,重要な研究課題を明らかにした。
Deep learning models excel in various computer vision tasks but are susceptible to adversarial examples-subtle perturbations in input data that lead to incorrect predictions. This vulnerability poses significant risks in safety-critical applications such as autonomous vehicles, security surveillance, and aircraft health monitoring. While numerous surveys focus on adversarial attacks in image classification, the literature on such attacks in object detection is limited. This paper offers a comprehensive taxonomy of adversarial attacks specific to object detection, reviews existing adversarial robustness evaluation metrics, and systematically assesses open-source attack methods and model robustness. Key observations are provided to enhance the understanding of attack effectiveness and corresponding countermeasures. Additionally, we identify crucial research challenges to guide future efforts in securing automated object detection systems. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# 自然言語推論に応用した言語モデルにおける決定と複合的リスクの定義と評価
Defining and Evaluating Decision and Composite Risk in Language Models Applied to Natural Language Inference ( http://arxiv.org/abs/2408.01935v1 ) ライセンス: Link先を確認 | Ke Shen, Mayank Kejriwal, | (参考訳) 優れたパフォーマンスにもかかわらず、ChatGPTのような大きな言語モデル(LLM)は重要なリスクを生じさせることが知られている。
このようなリスクのセットの1つは、モデルが推論に持っている過信または過信であっても、誤った信頼から生じます。
前者はよく研究されているが、後者はそうではない。
本稿では,2種類のリスク(決定リスクと複合リスク)を定義して,この非対称性に対処する。
最初のレベルは、下層の言語モデルが推論を控えるべきかどうかを決定する決定ルールに依存している。
第2のレベル(モデルを棄却しない場合は適用される)はモデルの推論である。
オープンソースのアンサンブルベースのRoBERTaモデルとChatGPTを用いた4つの自然言語コモンセンス推論データセットに関する詳細な実験により、評価フレームワークの実用性を実証した。
例えば、我々のフレームワークは、他のメソッドがハイリスクと誤分類する可能性のある20.1%の低リスク推論タスクに自信を持って対応でき、19.8%のハイリスクタスクをスキップできる。
Despite their impressive performance, large language models (LLMs) such as ChatGPT are known to pose important risks. One such set of risks arises from misplaced confidence, whether over-confidence or under-confidence, that the models have in their inference. While the former is well studied, the latter is not, leading to an asymmetry in understanding the comprehensive risk of the model based on misplaced confidence. In this paper, we address this asymmetry by defining two types of risk (decision and composite risk), and proposing an experimental framework consisting of a two-level inference architecture and appropriate metrics for measuring such risks in both discriminative and generative LLMs. The first level relies on a decision rule that determines whether the underlying language model should abstain from inference. The second level (which applies if the model does not abstain) is the model's inference. Detailed experiments on four natural language commonsense reasoning datasets using both an open-source ensemble-based RoBERTa model and ChatGPT, demonstrate the practical utility of the evaluation framework. For example, our results show that our framework can get an LLM to confidently respond to an extra 20.1% of low-risk inference tasks that other methods might misclassify as high-risk, and skip 19.8% of high-risk tasks, which would have been answered incorrectly. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# 量子埋め込み法による高基底状態重なり合い
High ground state overlap via quantum embedding methods ( http://arxiv.org/abs/2408.01940v1 ) ライセンス: Link先を確認 | Mihael Erakovic, Freek Witteveen, Dylan Harley, Jakob Günther, Moritz Bensberg, Oinam Romesh Meitei, Minsik Cho, Troy Van Voorhis, Markus Reiher, Matthias Christandl, | (参考訳) 量子コンピュータは位相推定を用いて基底状態エネルギーを正確に計算できるが、これは真の基底状態と大きな重なりを持つ誘導状態を必要とする。
さらに、必要となる量子ビットと量子ゲートの数は、禁止的に大きくなる可能性がある。
これらの課題に対処するための1つのアプローチは、より大きな量子領域に埋め込まれた1つまたは複数の小さな量子コアへの還元を可能にする量子埋め込み法を使用することである。
このような状況下では, 埋込法が優れた案内状態を構築する際の硬さにどのように影響するかは明らかでない。
そこで本研究では,量子埋め込みの文脈における状態の導出について検討する。
我々は、軌道のサブセットの埋め込みを厳密に分析できるフレームワークである量子不純物問題に関する以前の研究を拡張した。
エネルギー最小化の観点からは、最適な能動軌道空間選択の結果は存在するが、基底状態との重なり合いの観点から、選択された軌道空間を定義するために、同じ原理をいかに利用できるかを厳密に実証する。
さらに,タンパク質や核酸などの生体高分子の量が大きいため,量子埋め込み法が必要とされる分野である生化学に関連する分子系の数値的研究を行う。
定性的異なる軌道エンタングルメントを示す2つの異なる埋め込み戦略について検討する。
いずれの場合も、容易に観測できる平均場状態は、量子位相推定を行うためにターゲット状態と十分に重なることが示される。
Quantum computers can accurately compute ground state energies using phase estimation, but this requires a guiding state which has significant overlap with the true ground state.For large molecules and extended materials, it becomes difficult to find guiding states with good ground state overlap for growing molecule sizes. Additionally, the required number of qubits and quantum gates may become prohibitively large. One approach for dealing with these challenges is to use a quantum embedding method, which allows a reduction to one or multiple smaller quantum cores embedded in a larger quantum region. In such situations it is unclear how the embedding method affects the hardness of constructing good guiding states. In this work, we therefore investigate the preparation of guiding states in the context of quantum embedding methods. We extend previous work on quantum impurity problems, a framework in which we can rigorously analyze the embedding of a subset of orbitals. While there exist results for optimal active orbital space selection in terms of energy minimization, we rigorously demonstrate how the same principles can be used to define selected orbital spaces for state preparation in terms of the overlap with the ground state. Moreover, we perform numerical studies of molecular systems relevant to biochemistry, one field in which quantum embedding methods are required due to the large size of biomacromolecules such as proteins and nucleic acids. We investigate two different embedding strategies which can exhibit qualitatively different orbital entanglement. In all cases we demonstrate that the easy-to-obtain mean-field state will have a sufficiently high overlap with the target state to perform quantum phase estimation. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# 強化学習におけるオブジェクトレベル一般化のための視覚的接地
Visual Grounding for Object-Level Generalization in Reinforcement Learning ( http://arxiv.org/abs/2408.01942v1 ) ライセンス: Link先を確認 | Haobin Jiang, Zongqing Lu, | (参考訳) 自然言語命令に従うエージェントにとって、一般化は重要な課題である。
この目標を達成するために、視覚言語モデル(VLM)を用いて、視覚言語知識をオブジェクト中心のタスクの強化学習(RL)に変換し、オブジェクトや命令にゼロショットの一般化を可能にする。
視覚的グラウンド化により、命令で示される対象物に対するオブジェクトグラウンド信頼マップを得る。
本稿では,VLMの知識をRLに転送する2つの経路を紹介する。
まず,信頼性マップから導出した対象対象物固有の報酬関数を提案し,エージェントをより効果的に対象物へ誘導する。
第二に、信頼マップは言語埋め込みよりも、エージェントのポリシーに対してより統一的でアクセスしやすいタスク表現を提供する。
これにより、エージェントは、理解可能な視覚的信頼マップを通じて、見えないオブジェクトや命令を処理することができ、ゼロショットオブジェクトレベルの一般化が容易になる。
シングルタスク実験は、本質的な報酬が挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
マルチタスク実験では、トレーニングセット以外のタスクをテストすることで、タスク表現としての信頼マップが提供されると、言語ベースの条件付けよりも優れた一般化能力を有することを示す。
コードはhttps://github.com/PKU-RL/COPLで公開されている。
Generalization is a pivotal challenge for agents following natural language instructions. To approach this goal, we leverage a vision-language model (VLM) for visual grounding and transfer its vision-language knowledge into reinforcement learning (RL) for object-centric tasks, which makes the agent capable of zero-shot generalization to unseen objects and instructions. By visual grounding, we obtain an object-grounded confidence map for the target object indicated in the instruction. Based on this map, we introduce two routes to transfer VLM knowledge into RL. Firstly, we propose an object-grounded intrinsic reward function derived from the confidence map to more effectively guide the agent towards the target object. Secondly, the confidence map offers a more unified, accessible task representation for the agent's policy, compared to language embeddings. This enables the agent to process unseen objects and instructions through comprehensible visual confidence maps, facilitating zero-shot object-level generalization. Single-task experiments prove that our intrinsic reward significantly improves performance on challenging skill learning. In multi-task experiments, through testing on tasks beyond the training set, we show that the agent, when provided with the confidence map as the task representation, possesses better generalization capabilities than language-based conditioning. The code is available at https://github.com/PKU-RL/COPL. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# 量子コンピュータにおける核プロセスのシミュレーション
Simulation of a nuclear process on a quantum computer ( http://arxiv.org/abs/2408.01943v1 ) ライセンス: Link先を確認 | Luca Nigro, Carlo Barbieri, Enrico Prati, | (参考訳) 量子コンピュータは多くの量子システムのシミュレーションに有効であることが証明されている。
核プロセスと状態準備のシミュレーションは、従来のスーパーコンピュータでも大きな課題となる。
本研究は、基底状態と第1励起状態の両方の調製を含む、核移行の完全なシミュレーションの実現可能性を示す。
2つの核子と3つの核子の間の強い相互作用の複雑さに取り組むために、状態はトリチウム核でモデル化される。
初期状態と最終状態は、変分量子アルゴリズムと帰納バイアスを持つ量子回路を用いて表される。
スピン・アイソスピン状態を記述するには4つの量子ビットが必要であり、合計16個のパラメータを利用するパラメータ化量子回路が初期化される。
推定エネルギーは、基底状態が約2%、系の最初の励起状態が約10%の相対誤差を持つ。
量子コンピュータシミュレーションは、2つの状態間の遷移確率を双極子偏極角の関数として推定する。
この研究は、デジタル量子コンピュータを活用して核物理学をシミュレートする第一歩となる。
Quantum computers have proven to be effective in simulating many quantum systems. Simulating nuclear processes and state preparation poses significant challenges, even for traditional supercomputers. This study demonstrates the feasibility of a complete simulation of a nuclear transition, including the preparation of both ground and first excited states. To tackle the complexity of strong interactions between two and three nucleons, the states are modeled on the tritium nucleus. Both the initial and final states are represented using quantum circuits with variational quantum algorithms and inductive biases. Describing the spin-isospin states requires four qubits, and a parameterized quantum circuit that exploits a total of 16 parameters is initialized. The estimated energy has a relative error of approximately 2% for the ground state and about 10% for the first excited state of the system. The quantum computer simulation estimates the transition probability between the two states as a function of the dipole polarization angle. This work marks a first step towards leveraging digital quantum computers to simulate nuclear physics. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# RobNODDI:連続表現による適応サンプリングによるロバストNODDIパラメータ推定
RobNODDI: Robust NODDI Parameter Estimation with Adaptive Sampling under Continuous Representation ( http://arxiv.org/abs/2408.01944v1 ) ライセンス: Link先を確認 | Taohui Xiao, Jian Cheng, Wenxin Fan, Jing Yang, Cheng Li, Enqing Dong, Shanshan Wang, | (参考訳) ニューライト配向分散密度イメージング(NODDI)は、脳組織の微細構造を評価するために用いられる重要なイメージング技術であり、様々な神経疾患の発見と治療に非常に重要である。
現在の深層学習法では,拡散磁気共鳴画像(dMRI)を用いてパラメータ推定を行う。
これらの手法はパラメータ推定を高速化し、精度を向上させる。
しかし、テスト中に既存のディープラーニングモデルで使われている拡散方向は、トレーニング中の拡散方向と厳密に一致している必要がある。
これにより、dMRIパラメータ推定におけるディープラーニングモデルの一般化とロバスト性は低下する。
本研究では,従来の主流手法のパラメータ推定性能が,試験拡散方向とトレーニング拡散方向とが一致しない場合に著しく低下することを確認した。
連続表現(RobNODDI)下での適応サンプリングを用いた頑健なNODDIパラメータ推定法を提案する。
さらに、長寿命メモリ(LSTM)ユニットと完全連結層を選択して、連続表現信号の学習を行う。
この目的のために、Human Connectome Project(HCP)データセットに基づく実験を行うために、計100名の被験者を用いて、トレーニングに60名、バリデーションに20名、テストに20名を用いている。
実験結果から,RobNODDIはディープラーニングモデルの一般化性能と堅牢性を向上し,ディープラーニングNODDIパラメータ推定アプリケーションの安定性と柔軟性を向上させることが示唆された。
Neurite Orientation Dispersion and Density Imaging (NODDI) is an important imaging technology used to evaluate the microstructure of brain tissue, which is of great significance for the discovery and treatment of various neurological diseases. Current deep learning-based methods perform parameter estimation through diffusion magnetic resonance imaging (dMRI) with a small number of diffusion gradients. These methods speed up parameter estimation and improve accuracy. However, the diffusion directions used by most existing deep learning models during testing needs to be strictly consistent with the diffusion directions during training. This results in poor generalization and robustness of deep learning models in dMRI parameter estimation. In this work, we verify for the first time that the parameter estimation performance of current mainstream methods will significantly decrease when the testing diffusion directions and the training diffusion directions are inconsistent. A robust NODDI parameter estimation method with adaptive sampling under continuous representation (RobNODDI) is proposed. Furthermore, long short-term memory (LSTM) units and fully connected layers are selected to learn continuous representation signals. To this end, we use a total of 100 subjects to conduct experiments based on the Human Connectome Project (HCP) dataset, of which 60 are used for training, 20 are used for validation, and 20 are used for testing. The test results indicate that RobNODDI improves the generalization performance and robustness of the deep learning model, enhancing the stability and flexibility of deep learning NODDI parameter estimatimation applications. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# パースペクティブn-ポイント問題に対する一般化最大近似推定
Generalized Maximum Likelihood Estimation for Perspective-n-Point Problem ( http://arxiv.org/abs/2408.01945v1 ) ライセンス: Link先を確認 | Tian Zhan, Chunfeng Xu, Cheng Zhang, Ke Zhu, | (参考訳) パースペクティブ・n・ポイント(PnP)問題は文献で広く研究され、様々な視覚に基づくポーズ推定シナリオに適用されている。
しかし、本論文ではいくつかの実世界のデータセットで示されているように、既存の手法は観測の異方性不確実性を無視している。
この監視は、特にノイズのある観測の存在において、最適で不正確な推定につながる可能性がある。
この目的のために,GAS手順を反復してポーズと不確実性を同時に推定することにより,決定的基準を最小化する一般化された最大 PnP 解法 GMLPnP を提案する。
さらに,提案手法をカメラモデルから分離する。
GMLPnPは,TUM-RGBDで4.7%/2.0%,KITTI-360データセットで18.6%/18.4%の精度向上を実現した。
視覚に基づくUAVローカライゼーションタスクにおいて非常にノイズの多い観測の下ではより正確であり、翻訳推定精度が34.4%向上した。
The Perspective-n-Point (PnP) problem has been widely studied in the literature and applied in various vision-based pose estimation scenarios. However, existing methods ignore the anisotropy uncertainty of observations, as demonstrated in several real-world datasets in this paper. This oversight may lead to suboptimal and inaccurate estimation, particularly in the presence of noisy observations. To this end, we propose a generalized maximum likelihood PnP solver, named GMLPnP, that minimizes the determinant criterion by iterating the GLS procedure to estimate the pose and uncertainty simultaneously. Further, the proposed method is decoupled from the camera model. Results of synthetic and real experiments show that our method achieves better accuracy in common pose estimation scenarios, GMLPnP improves rotation/translation accuracy by 4.7%/2.0% on TUM-RGBD and 18.6%/18.4% on KITTI-360 dataset compared to the best baseline. It is more accurate under very noisy observations in a vision-based UAV localization task, outperforming the best baseline by 34.4% in translation estimation accuracy. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# リモートセンシング画像のためのマスクアングル対応オートエンコーダ
Masked Angle-Aware Autoencoder for Remote Sensing Images ( http://arxiv.org/abs/2408.01946v1 ) ライセンス: Link先を確認 | Zhihao Li, Biao Hou, Siteng Ma, Zitong Wu, Xianpeng Guo, Bo Ren, Licheng Jiao, | (参考訳) リモートセンシング(RS)画像と自然画像のドメインギャップを克服するために、自己教師付き表現学習手法が進歩している。
しかし、RSオブジェクトに存在する多様な角度を見落としている。
本稿では,masked Angle-Aware Autoencoder (MA3E)を提案する。
我々は,各原画像にランダムな向きの回転した作物を生成するために,明示的な角度変化を導入するために,‘textit{scaling center crop} 演算を設計する。
MA3Eは、原画像の再構成をしながら、この合成画像を入力し、回転作物に導入された角度変化を復元することにより、回転不変表現を効果的に学習することを目的とする。
回転作物を直接再構成することで生じるバイアスを回避するため,各回転作物パッチに類似の原画像パッチを自動的に割り当てる最適輸送(OT)損失を提案する。
MA3Eは、3つの下流タスクで、7つの異なるRSイメージデータセットの既存の事前トレーニング方法よりも、より競争力のあるパフォーマンスを示す。
To overcome the inherent domain gap between remote sensing (RS) images and natural images, some self-supervised representation learning methods have made promising progress. However, they have overlooked the diverse angles present in RS objects. This paper proposes the Masked Angle-Aware Autoencoder (MA3E) to perceive and learn angles during pre-training. We design a \textit{scaling center crop} operation to create the rotated crop with random orientation on each original image, introducing the explicit angle variation. MA3E inputs this composite image while reconstruct the original image, aiming to effectively learn rotation-invariant representations by restoring the angle variation introduced on the rotated crop. To avoid biases caused by directly reconstructing the rotated crop, we propose an Optimal Transport (OT) loss that automatically assigns similar original image patches to each rotated crop patch for reconstruction. MA3E demonstrates more competitive performance than existing pre-training methods on seven different RS image datasets in three downstream tasks. | 翻訳日:2024-08-06 17:51:14 公開日:2024-08-04 |
# シンボリック・ミュージックの摂動はなぜ必要か : 連立確率拡散モデルによる未使用音符の分布設定
Why Perturbing Symbolic Music is Necessary: Fitting the Distribution of Never-used Notes through a Joint Probabilistic Diffusion Model ( http://arxiv.org/abs/2408.01950v1 ) ライセンス: Link先を確認 | Shipei Liu, Xiaoya Fan, Guowei Wu, | (参考訳) 既存の音楽生成モデルは、主に言語に基づいており、音符の周波数連続性を無視し、希少な音符や未使用音符の適合性が不十分になり、生成したサンプルの多様性が低下する。
特に拡散モデルを用いて、周波数領域のガウス雑音を注入することにより、音符の分布を一般化することができる。
しかし、音楽記号の密度の低い性質のため、高密度解空間における音符の分布を推定することは大きな課題となる。
この問題に対処するために,音符の連成分布と付随する意味情報に適合する音楽ディフアーキテクチャを導入し,記号音楽の条件付き生成を行う。
まず、イベントベースの表記法と構造的類似度指数を用いて意味論を抽出するための断片化モジュールを拡張し、境界のぼやけを防止する。
多変量摂動の前提条件として,低密度音符の直接モデリングを回避しつつ,音符と音楽意味論の進行を構築するための共同事前学習手法を提案する。
最後に、パレート最適化により複数の雑音対象に適合するマルチブランチデノイザを用いて、摂動音を復元する。
本実験は, 言語モデルとは対照的に, 音節レベルと意味レベルの両方で摂動する結合確率拡散モデルにより, より多くのサンプルの多様性と構成規則性が得られることを示唆している。
このケーススタディでは,自己相似性指標で表される階層構造を解析することにより,言語モデルとDDPMモデルに対するモデルのリズミカルアドバンテージを強調した。
Existing music generation models are mostly language-based, neglecting the frequency continuity property of notes, resulting in inadequate fitting of rare or never-used notes and thus reducing the diversity of generated samples. We argue that the distribution of notes can be modeled by translational invariance and periodicity, especially using diffusion models to generalize notes by injecting frequency-domain Gaussian noise. However, due to the low-density nature of music symbols, estimating the distribution of notes latent in the high-density solution space poses significant challenges. To address this problem, we introduce the Music-Diff architecture, which fits a joint distribution of notes and accompanying semantic information to generate symbolic music conditionally. We first enhance the fragmentation module for extracting semantics by using event-based notations and the structural similarity index, thereby preventing boundary blurring. As a prerequisite for multivariate perturbation, we introduce a joint pre-training method to construct the progressions between notes and musical semantics while avoiding direct modeling of low-density notes. Finally, we recover the perturbed notes by a multi-branch denoiser that fits multiple noise objectives via Pareto optimization. Our experiments suggest that in contrast to language models, joint probability diffusion models perturbing at both note and semantic levels can provide more sample diversity and compositional regularity. The case study highlights the rhythmic advantages of our model over language- and DDPMs-based models by analyzing the hierarchical structure expressed in the self-similarity metrics. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# CACE-Net: 効果的なオーディオ・ビジュアルイベント・ローカライゼーションのためのコギダランス・アテンションとコントラスト・エンハンスメント
CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization ( http://arxiv.org/abs/2408.01952v1 ) ライセンス: Link先を確認 | Xiang He, Xiangxi Liu, Yang Li, Dongcheng Zhao, Guobin Shen, Qingqun Kong, Xin Yang, Yi Zeng, | (参考訳) 音声-視覚的イベントのローカライゼーションタスクでは、ネットワークモデル内の制約のないビデオから同時視覚イベントと聴覚イベントを識別し、それらを特定し、カテゴリを分類する必要がある。
この分野では、音声と視覚のモーダル情報の効率的な抽出と統合が常に困難である。
本稿では、音声信号のみを用いて視覚情報を誘導する既存の方法とは異なるCACE-Netを提案する。
本稿では,音声と視覚情報間の双方向の双方向の注意誘導を実現することで,モダリティ間の不整合を低減できる音響-視覚協調誘導機構を提案する。
さらに,既存手法では類似した背景と事象の区別が困難であり,イベント分類の詳細な特徴が欠如していることが確認されている。
その結果、複雑なマルチモーダル入力からより洗練され、識別可能な特徴を抽出するために、融合特徴と微調整事前学習モデルの識別を高めるために、バックグラウンドアントラストの強化を用いる。
具体的には、イベントと背景の微妙な差異を識別するモデルの能力を高め、モデルにおけるイベント分類の精度を改善した。
AVEデータセットの実験により、CACE-Netは、制約のないビデオにおける複雑なマルチモーダル学習とイベントローカライゼーションを扱う上で、提案手法の有効性を実証し、音声-視覚イベントローカライゼーションタスクに新しいベンチマークを設定できることが示されている。
コードはhttps://github.com/Brain-Cog-Lab/CACE-Netで入手できる。
The audio-visual event localization task requires identifying concurrent visual and auditory events from unconstrained videos within a network model, locating them, and classifying their category. The efficient extraction and integration of audio and visual modal information have always been challenging in this field. In this paper, we introduce CACE-Net, which differs from most existing methods that solely use audio signals to guide visual information. We propose an audio-visual co-guidance attention mechanism that allows for adaptive bi-directional cross-modal attentional guidance between audio and visual information, thus reducing inconsistencies between modalities. Moreover, we have observed that existing methods have difficulty distinguishing between similar background and event and lack the fine-grained features for event classification. Consequently, we employ background-event contrast enhancement to increase the discrimination of fused feature and fine-tuned pre-trained model to extract more refined and discernible features from complex multimodal inputs. Specifically, we have enhanced the model's ability to discern subtle differences between event and background and improved the accuracy of event classification in our model. Experiments on the AVE dataset demonstrate that CACE-Net sets a new benchmark in the audio-visual event localization task, proving the effectiveness of our proposed methods in handling complex multimodal learning and event localization in unconstrained videos. Code is available at https://github.com/Brain-Cog-Lab/CACE-Net. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# EqvAfford: SE(3)ポイントレベル Affordance Learningの等価性
EqvAfford: SE(3) Equivariance for Point-Level Affordance Learning ( http://arxiv.org/abs/2408.01953v1 ) ライセンス: Link先を確認 | Yue Chen, Chenrui Tie, Ruihai Wu, Hao Dong, | (参考訳) 人間は平等を意識して世界を認識し、相互作用し、さまざまなポーズで異なる物体を操作するのに役立ちます。
ロボット操作においては、そのような同値性は多くのシナリオに存在する。
例えば、引き出しのポーズが何であれ(翻訳、回転、傾き)、操作戦略は一貫した(ハンドルを握ってラインを引っ張る)。
従来のモデルでは,ロボット操作の等価性を意識していない場合が多いため,新たなオブジェクトポーズにおけるトレーニングやパフォーマンスの低下が生じる可能性があるが,下流ロボット操作におけるポイントレベルのアベイランス学習における同値性を保証するための新しい設計であるEqvAffordフレームワークを提案する。
Humans perceive and interact with the world with the awareness of equivariance, facilitating us in manipulating different objects in diverse poses. For robotic manipulation, such equivariance also exists in many scenarios. For example, no matter what the pose of a drawer is (translation, rotation and tilt), the manipulation strategy is consistent (grasp the handle and pull in a line). While traditional models usually do not have the awareness of equivariance for robotic manipulation, which might result in more data for training and poor performance in novel object poses, we propose our EqvAfford framework, with novel designs to guarantee the equivariance in point-level affordance learning for downstream robotic manipulation, with great performance and generalization ability on representative tasks on objects in diverse poses. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# 希土類イオンドープY$_2$SiO$_5$における原子種間の双極子-双極子結合による脱コヒーレンス
Decoherence induced by dipole-dipole couplings between atomic species in rare-earth ion-doped Y$_2$SiO$_5$ ( http://arxiv.org/abs/2408.01958v1 ) ライセンス: Link先を確認 | Charlotte Pignol, Antonio Ortu, Louis Nicolas, Virginia D'Auria, Sebastien Tanzilli, Thierry Chanelière, Mikael Afzelius, Jean Etesse, | (参考訳) 希土類イオンドープ結晶は、特に低温における優れた光学的およびスピンコヒーレンス特性のおかげで、量子情報を処理するための最先端のプラットフォームである。
実験により、静磁場バイアス場の適用は希土類イオンアンサンブルのコヒーレンス時間を大幅に改善することが示されたが、磁場方向と振幅の両方の関数としての依存性に焦点を当てた研究はごくわずかである。
これはmT下の磁場振幅と低磁場双極子モーメントイオンに特に当てはまる。
本稿では, 近接する隣り合う原子核スピンと磁気双極子-双極子結合に起因する脱コヒーレンスと磁場パラメータの関係について検討する。
ここでは、非クラマー非希土類イオンはユーロピウムとプラセオディミウムであるが、mT領域の低い磁気双極子のため、イッテルビウム・クラマースイオンにも研究を拡大する。
我々は、エネルギー構造とコヒーレンス時間進化に関する理論的研究とシミュレーションを行い、実験とシミュレーションされたスピンエコーデータとの良好な対応を同定する。
この研究により、検討された磁場状態において最も関連性の高いデコヒーレンス機構を特定でき、良好な磁気配置を予測できる。
Rare-earth ion doped crystals are state-of-the-art platforms for processing quantum information, particularly thanks to their excellent optical and spin coherence properties at cryogenic temperatures. Experimental observations have shown that the application of a static magnetic bias field significantly improves the coherence times in the rare-earth ions ensemble, but only a few studies have focused on its the dependency as a function of both magnetic field direction and amplitude. This is especially true for magnetic field amplitudes under the mT, and for low magnetic dipole moment ions. In this paper, we investigate the relationship between the magnetic field parameters and the decoherence caused by magnetic dipole-dipole coupling with the nearest neighbors nuclear spins in the crystal. The primary non-Kramers rare-earth ions investigated here are europium and praseodymium, but we also extend our study to the ytterbium Kramers ion due to its low magnetic dipole in the mT range. We perform theoretical investigations and simulations of the energy structure and coherence time evolution and identify good correspondences between experimental and simulated spin echo data. This work allows us to pinpoint the most relevant decoherence mechanisms in the considered magnetic field regime, and to predict favorable magnetic configurations. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# 視覚言語AIにおける顔印象バイアスのデータセット尺度と社会的一貫性
Dataset Scale and Societal Consistency Mediate Facial Impression Bias in Vision-Language AI ( http://arxiv.org/abs/2408.01959v1 ) ライセンス: Link先を確認 | Robert Wolfe, Aayushi Dangol, Alexis Hiniker, Bill Howe, | (参考訳) 画像とテキストを関連付けることができるマルチモーダルAIモデルは、自動キャプションから視覚障害者向けのアクセシビリティアプリケーションまで、多くの領域で約束を達成している。
しかしながら、バイアスに関する不確実性は、一部のケースでは採用と可用性を制限している。
本研究は,43のCLIP視覚言語モデルを用いて,人間の顔印象バイアスを学習するかどうかを判定し,これらのバイアスが3つのCLIPモデルファミリーに反映されていることを示す。
社会全体でバイアスが共有される度合いがCLIPモデルに反映される度合いを予測するのはこれが初めてである。
信頼性やセクシュアリティといった、視覚的に観察不可能な属性の人間的な印象は、最大のデータセットでトレーニングされたモデルにのみ現れる。
さらに、階層的なクラスタリング手法を用いて、データセットのサイズが顔印象バイアスの基盤構造が人間の顔印象バイアスとどのように似ているかを予測していることを示す。
最後に,CLIPをテキストエンコーダとして使用する安定拡散モデルは,顔印象バイアスを学習し,これらのバイアスは,安定拡散XL-Turboの人種バイアスと交差することを示す。
事前訓練されたCLIPモデルはバイアスの科学的研究に有用であるが、ゼロショット設定で汎用モデルとしての使用を意図した場合には、かなりのデータセットのキュレーションも必要である。
Multimodal AI models capable of associating images and text hold promise for numerous domains, ranging from automated image captioning to accessibility applications for blind and low-vision users. However, uncertainty about bias has in some cases limited their adoption and availability. In the present work, we study 43 CLIP vision-language models to determine whether they learn human-like facial impression biases, and we find evidence that such biases are reflected across three distinct CLIP model families. We show for the first time that the the degree to which a bias is shared across a society predicts the degree to which it is reflected in a CLIP model. Human-like impressions of visually unobservable attributes, like trustworthiness and sexuality, emerge only in models trained on the largest dataset, indicating that a better fit to uncurated cultural data results in the reproduction of increasingly subtle social biases. Moreover, we use a hierarchical clustering approach to show that dataset size predicts the extent to which the underlying structure of facial impression bias resembles that of facial impression bias in humans. Finally, we show that Stable Diffusion models employing CLIP as a text encoder learn facial impression biases, and that these biases intersect with racial biases in Stable Diffusion XL-Turbo. While pretrained CLIP models may prove useful for scientific studies of bias, they will also require significant dataset curation when intended for use as general-purpose models in a zero-shot setting. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# AnomalySD:安定拡散モデルを用いたFew-Shot Multi-class Anomaly Detection
AnomalySD: Few-Shot Multi-Class Anomaly Detection with Stable Diffusion Model ( http://arxiv.org/abs/2408.01960v1 ) ライセンス: Link先を確認 | Zhenyu Yan, Qingqing Fang, Wenxi Lv, Qinliang Su, | (参考訳) 異常検出は製造業において重要な課題であり、製品の欠陥部分を特定することを目的としている。
ほとんどの産業的異常検出法は、訓練に十分な正規データが存在することを前提としている。
この仮定は、ラベル付けやデータプライバシポリシのコストのために当てはまらないかもしれない。
さらに、メインストリームの手法では、さまざまなオブジェクトに対して、重いコストを発生させ、実際は柔軟性に欠ける、ベズークモデルをトレーニングする必要があります。
これらの問題に対処するために、我々は、通常のように不規則な領域に活用できるゼロ/フェーショットの塗布能力により、安定拡散モデル(SD)の助けを求める。
本稿では,安定拡散モデルを用いた数発のマルチクラス異常検出フレームワークAnomalySDを提案する。
異常検出タスクにSDを適応させるため、我々は異なる階層的なテキスト記述と、微調整SDのための前景マスク機構を設計する。
推測段階では, 塗装用の異常領域を正確にマスキングするために, 多様な異常領域を扱うためのマルチスケールマスク戦略とプロトタイプ誘導マスク戦略を提案する。
階層的なテキストプロンプトも、推論段階でのインペインティングのプロセスを導くために使われる。
異常スコアは、すべてのマスクの塗装結果に基づいて推定される。
MVTec-ADとVisAデータセットに関する大規模な実験は、我々のアプローチの優位性を示している。
MVTec-ADデータセットでは93.6%/94.8% AUROC,VisAデータセットでは86.1%/96.5% AUROC,マルチクラスおよびワンショット設定では86.1%/96.5% AUROCの異常分類とセグメンテーション結果を得た。
Anomaly detection is a critical task in industrial manufacturing, aiming to identify defective parts of products. Most industrial anomaly detection methods assume the availability of sufficient normal data for training. This assumption may not hold true due to the cost of labeling or data privacy policies. Additionally, mainstream methods require training bespoke models for different objects, which incurs heavy costs and lacks flexibility in practice. To address these issues, we seek help from Stable Diffusion (SD) model due to its capability of zero/few-shot inpainting, which can be leveraged to inpaint anomalous regions as normal. In this paper, a few-shot multi-class anomaly detection framework that adopts Stable Diffusion model is proposed, named AnomalySD. To adapt SD to anomaly detection task, we design different hierarchical text descriptions and the foreground mask mechanism for fine-tuning SD. In the inference stage, to accurately mask anomalous regions for inpainting, we propose multi-scale mask strategy and prototype-guided mask strategy to handle diverse anomalous regions. Hierarchical text prompts are also utilized to guide the process of inpainting in the inference stage. The anomaly score is estimated based on inpainting result of all masks. Extensive experiments on the MVTec-AD and VisA datasets demonstrate the superiority of our approach. We achieved anomaly classification and segmentation results of 93.6%/94.8% AUROC on the MVTec-AD dataset and 86.1%/96.5% AUROC on the VisA dataset under multi-class and one-shot settings. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# AIにおける青年の表現バイアス:バイリンガル・バイカルチャー的研究
Representation Bias of Adolescents in AI: A Bilingual, Bicultural Study ( http://arxiv.org/abs/2408.01961v1 ) ライセンス: Link先を確認 | Robert Wolfe, Aayushi Dangol, Bill Howe, Alexis Hiniker, | (参考訳) 大衆メディアやニュースメディアは、社会へのリスクと社会からのリスクの両方として、センセーショナル・リズムを持つティーンエイジャーをしばしば描いている。
AIが伝統的なメディアのいくつかのエピステミック機能を吸収し始めると、2カ国の10代の若者が2つの言語を話す方法を研究する。
1)AIで表現され、
2) どのように表現されるか。
具体的には、静的単語埋め込み(SWE)と生成言語モデル(GLM)によって学習されたティーンエイジャーのバイアスについて、米国とネパールに住む青年の視点と比較した。
英語のSWEは10代の若者を社会問題に関連付けており、事前訓練されたGloVe SWEに最も関連付けられた1000語のうち50%以上がそのような問題を反映している。
GPT2-XLからの出力の30%、LLaMA-2-7B GLMからの出力の29%は、社会的問題、最も一般的な暴力、薬物使用、精神疾患、性的タブーについても論じている。
ネパールのモデルにはそのような協会は存在しないが、社会問題には支配的ではない。
N=13人の青年とN=18人のネパールの青年のワークショップのデータによると、AIプレゼンテーションは10代の生活から切り離されている。
Pearson's r=.02, n.s. in English FastText and r=.06, n.s. in GloVe, r=.06, n.s. in Nepali FastText and r=-.23, n.s. in GloVe
アメリカの参加者は、多様性を強調して、AIが十代の若者をかなり提示できると提案し、ネパールの参加者は肯定的だった。
参加者は、メディアソースではなく青少年から学んだら、AIはステレオタイプを緩和できると楽観的だった。
我々の研究は、SWEとGLMが発達的に脆弱なグループを誤って表現する方法を理解し、センセーショナルな特徴の少ないテンプレートを提供する。
Popular and news media often portray teenagers with sensationalism, as both a risk to society and at risk from society. As AI begins to absorb some of the epistemic functions of traditional media, we study how teenagers in two countries speaking two languages: 1) are depicted by AI, and 2) how they would prefer to be depicted. Specifically, we study the biases about teenagers learned by static word embeddings (SWEs) and generative language models (GLMs), comparing these with the perspectives of adolescents living in the U.S. and Nepal. We find English-language SWEs associate teenagers with societal problems, and more than 50% of the 1,000 words most associated with teenagers in the pretrained GloVe SWE reflect such problems. Given prompts about teenagers, 30% of outputs from GPT2-XL and 29% from LLaMA-2-7B GLMs discuss societal problems, most commonly violence, but also drug use, mental illness, and sexual taboo. Nepali models, while not free of such associations, are less dominated by social problems. Data from workshops with N=13 U.S. adolescents and N=18 Nepalese adolescents show that AI presentations are disconnected from teenage life, which revolves around activities like school and friendship. Participant ratings of how well 20 trait words describe teens are decorrelated from SWE associations, with Pearson's r=.02, n.s. in English FastText and r=.06, n.s. in GloVe; and r=.06, n.s. in Nepali FastText and r=-.23, n.s. in GloVe. U.S. participants suggested AI could fairly present teens by highlighting diversity, while Nepalese participants centered positivity. Participants were optimistic that, if it learned from adolescents, rather than media sources, AI could help mitigate stereotypes. Our work offers an understanding of the ways SWEs and GLMs misrepresent a developmentally vulnerable group and provides a template for less sensationalized characterization. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# 人間中心型データサイエンス研究におけるオープン生成モデルの意味:Fact-Checking Organizationsを事例として
The Implications of Open Generative Models in Human-Centered Data Science Work: A Case Study with Fact-Checking Organizations ( http://arxiv.org/abs/2408.01962v1 ) ライセンス: Link先を確認 | Robert Wolfe, Tanushree Mitra, | (参考訳) 学術研究にオープンな生成言語モデルを使うことを求める声は、科学的研究において再現性と透明性の必要性を強調している。
しかし、企業や公益団体がこれらのモデルをデータサイエンスパイプラインに統合し始めているため、生成AIの影響は学界をはるかに超えている。
このレンズを拡大して、オープンモデルが組織に与える影響、特にファクトチェックの組織に焦点をあてる。AIを使用して循環する大量の誤報を観察し分析するが、同時に、彼らの作業の再現性と公平性も保証する必要がある。
私たちは、ファクトチェックを行う組織がデータサイエンスパイプラインでオープンモデルを使用する場所、オープンモデルやプロプライエタリモデルの使用を動機付けるもの、そしてオープンモデルやプロプライエタリモデルを使用することが、生成的AIの社会的影響に関する研究にどのように影響するかを理解したかったのです。
これらの疑問に答えるために,我々は6大陸20のファクトチェック組織において,N=24名の専門家を対象にインタビュー調査を行った。
これらのインタビューに基づいて、ファクトチェック組織は、データ取り込み、データ分析、データ検索、データ配信、データ共有など、データサイエンスパイプラインの一部をサポートし、自動化するために、生成AIを使用する5つのコンポーネントの概念モデルを提供します。
次に、オープンモデルの使用に対する事実チェックのモチベーションと、それらがさらにオープンモデルを採用するのを妨げる制限を分類し、彼らが組織的自律性、データプライバシとオーナシップ、アプリケーション固有性、能力透明性のオープンモデルを好むことを確認します。
しかしながら、パフォーマンス、ユーザビリティ、安全性のメリットが認識されていることや、新たな生成AIエコシステムへの参加に関連する機会コストのために、プロプライエタリなモデルを使用している。
私たちの研究は、データ駆動型組織におけるオープンモデルに関する新たな視点を提供します。
Calls to use open generative language models in academic research have highlighted the need for reproducibility and transparency in scientific research. However, the impact of generative AI extends well beyond academia, as corporations and public interest organizations have begun integrating these models into their data science pipelines. We expand this lens to include the impact of open models on organizations, focusing specifically on fact-checking organizations, which use AI to observe and analyze large volumes of circulating misinformation, yet must also ensure the reproducibility and impartiality of their work. We wanted to understand where fact-checking organizations use open models in their data science pipelines; what motivates their use of open models or proprietary models; and how their use of open or proprietary models can inform research on the societal impact of generative AI. To answer these questions, we conducted an interview study with N=24 professionals at 20 fact-checking organizations on six continents. Based on these interviews, we offer a five-component conceptual model of where fact-checking organizations employ generative AI to support or automate parts of their data science pipeline, including Data Ingestion, Data Analysis, Data Retrieval, Data Delivery, and Data Sharing. We then provide taxonomies of fact-checking organizations' motivations for using open models and the limitations that prevent them for further adopting open models, finding that they prefer open models for Organizational Autonomy, Data Privacy and Ownership, Application Specificity, and Capability Transparency. However, they nonetheless use proprietary models due to perceived advantages in Performance, Usability, and Safety, as well as Opportunity Costs related to participation in emerging generative AI ecosystems. Our work provides novel perspective on open models in data-driven organizations. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# 非言語シナリオにおける大規模言語モデルのロバスト性測定のための新しい指標
A Novel Metric for Measuring the Robustness of Large Language Models in Non-adversarial Scenarios ( http://arxiv.org/abs/2408.01963v1 ) ライセンス: Link先を確認 | Samuel Ackerman, Ella Rabinovich, Eitan Farchi, Ateret Anaby-Tavor, | (参考訳) 複数のデータセット上で複数の大規模言語モデルのロバスト性を評価する。
ここでのロバスト性は、入力の意味を保存する変種に対するモデルの答えの相対的不感度を指す。
ベンチマークデータセットは、自然に発生し、重複しない摂動を導入するか、または入力された質問やステートメントの意味論的に等価なパラフレーズを生成することによって構築される。
さらに、モデルロバスト性を評価するための新しい指標を提案し、生成したデータセット上の複数のモデルの経験的評価により、非敵シナリオにおけるその利点を実証する。
We evaluate the robustness of several large language models on multiple datasets. Robustness here refers to the relative insensitivity of the model's answers to meaning-preserving variants of their input. Benchmark datasets are constructed by introducing naturally-occurring, non-malicious perturbations, or by generating semantically equivalent paraphrases of input questions or statements. We further propose a novel metric for assessing a model robustness, and demonstrate its benefits in the non-adversarial scenario by empirical evaluation of several models on the created datasets. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# 非均一グラフノード分類におけるTop K強化強化学習攻撃
Top K Enhanced Reinforcement Learning Attacks on Heterogeneous Graph Node Classification ( http://arxiv.org/abs/2408.01964v1 ) ライセンス: Link先を確認 | Honglin Gao, Gaoxi Xiao, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフベースのデータに対する例外的なパフォーマンスのため、かなりの関心を集めている。
しかし、その頑健性、特に異種グラフ上では、特に敵対的攻撃に対する探索が過小評価されている。
本稿では,ヘテロKRLAttackを提案する。
提案手法は,強化学習とTop-Kアルゴリズムを組み合わせることで,ノード分類タスクを妨害する効果的な攻撃戦略を効果的に同定する。
ヘテロKRLAttackの有効性を複数の異種グラフデータセットの実験により検証し,ベースライン法と比較して分類精度を著しく低下させることを示した。
アブレーション研究は、Top-Kアルゴリズムの攻撃性能向上における重要な役割を浮き彫りにしている。
本研究は、現在のモデルにおける潜在的な脆弱性を明らかにし、異種グラフに対する敵攻撃に対する将来の防衛戦略のガイダンスを提供する。
Graph Neural Networks (GNNs) have attracted substantial interest due to their exceptional performance on graph-based data. However, their robustness, especially on heterogeneous graphs, remains underexplored, particularly against adversarial attacks. This paper proposes HeteroKRLAttack, a targeted evasion black-box attack method for heterogeneous graphs. By integrating reinforcement learning with a Top-K algorithm to reduce the action space, our method efficiently identifies effective attack strategies to disrupt node classification tasks. We validate the effectiveness of HeteroKRLAttack through experiments on multiple heterogeneous graph datasets, showing significant reductions in classification accuracy compared to baseline methods. An ablation study underscores the critical role of the Top-K algorithm in enhancing attack performance. Our findings highlight potential vulnerabilities in current models and provide guidance for future defense strategies against adversarial attacks on heterogeneous graphs. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# ML-EAT: 解釈・透明な社会科学のための多段階埋め込みアソシエーションテスト
ML-EAT: A Multilevel Embedding Association Test for Interpretable and Transparent Social Science ( http://arxiv.org/abs/2408.01966v1 ) ライセンス: Link先を確認 | Robert Wolfe, Alexis Hiniker, Bill Howe, | (参考訳) 本研究は,言語工学における内在バイアスの解釈と透過的測定を目的とした多段階埋め込みアソシエーションテスト(ML-EAT)を紹介する。
ML-EATは、2つの属性概念と2つの属性概念の差分関係、それぞれの目標概念と個々の属性概念の差分関係、という3つのレベルにおいてバイアスを定量化することで、従来のEAT測定の曖昧さと難易度を解釈する問題に対処する。
本研究は, ML-EATを用いて, 埋め込みアソシエーションテストの9つの可能性を示すEATパターンの分類を定義した。
静的およびダイアクロニックな単語埋め込み、GPT-2言語モデル、およびCLIP言語と画像モデルの実証分析により、EATパターンは、EATを構成するコンポーネントバイアスに関する観測不可能な情報を追加し、ゼロショットモデルでプロンプトの効果を明らかにする。
我々の研究は、偏見をより観察可能かつ解釈可能とし、人間の心や社会に対する計算調査の透明性を向上させる方法に貢献している。
This research introduces the Multilevel Embedding Association Test (ML-EAT), a method designed for interpretable and transparent measurement of intrinsic bias in language technologies. The ML-EAT addresses issues of ambiguity and difficulty in interpreting the traditional EAT measurement by quantifying bias at three levels of increasing granularity: the differential association between two target concepts with two attribute concepts; the individual effect size of each target concept with two attribute concepts; and the association between each individual target concept and each individual attribute concept. Using the ML-EAT, this research defines a taxonomy of EAT patterns describing the nine possible outcomes of an embedding association test, each of which is associated with a unique EAT-Map, a novel four-quadrant visualization for interpreting the ML-EAT. Empirical analysis of static and diachronic word embeddings, GPT-2 language models, and a CLIP language-and-image model shows that EAT patterns add otherwise unobservable information about the component biases that make up an EAT; reveal the effects of prompting in zero-shot models; and can also identify situations when cosine similarity is an ineffective metric, rendering an EAT unreliable. Our work contributes a method for rendering bias more observable and interpretable, improving the transparency of computational investigations into human minds and societies. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# セグメントレベルのデータを用いた車線レベル舗装性能予測のためのマルチタスク深層学習手法
A multi-task deep learning approach for lane-level pavement performance prediction with segment-level data ( http://arxiv.org/abs/2408.01967v1 ) ライセンス: Link先を確認 | Bo Wang, Wenbo Zhang, Yunpeng LI, | (参考訳) 精巧な舗装性能予測は、予防的メンテナンスを実装するための重要な前提である。
調査の結果, 舗装性能は, 通常, セグメントレベルで測定され, 全車線が1kmの区間内において一意な性能値が得られることがわかった。
コストのかかるデータ収集と予測モデリングの難しさのため、レーンレベルでのより精巧なパフォーマンス分析はいまだに欠けている。
そこで本研究では,多数の歴史的セグメントレベルの性能測定データを用いて,レーンレベルの舗装性能を予測するためのマルチタスク深層学習手法を開発した。
統一予測フレームワークは、車線間の固有の相関と差異を効果的に解決することができる。
具体的には、予測フレームワークはまずLong Short-Term Memory (LSTM) レイヤを使用して、セグメントレベルの舗装劣化パターンをキャプチャした。
その後、舗装性能のレーンレベル差を捉えるために、複数のタスク固有LSTM層をレーン数に基づいて設計した。
最後に,複数のタスク固有LSTM出力と補助的特徴を連結し,完全連結層後のレーンレベルの予測値を得た。
上記の予測フレームワークは、中国の実例で検証された。
片道2車線、3車線、4車線のシナリオによらず、平均絶対パーセンテージ誤差で10%未満のモデル性能を示した。
提案した予測フレームワークは、他のアンサンブル学習や浅い機械学習手法をほぼすべての車線で上回っている。
The elaborate pavement performance prediction is an important premise of implementing preventive maintenance. Our survey reveals that in practice, the pavement performance is usually measured at segment-level, where an unique performance value is obtained for all lanes within one segment of 1km length. It still lacks more elaborate performance analysis at lane-level due to costly data collection and difficulty in prediction modeling. Therefore, this study developed a multi-task deep learning approach to predict the lane-level pavement performance with a large amount of historical segment-level performance measurement data. The unified prediction framework can effectively address inherent correlation and differences across lanes. In specific, the prediction framework firstly employed an Long Short-Term Memory (LSTM) layer to capture the segment-level pavement deterioration pattern. Then multiple task-specific LSTM layers were designed based on number of lanes to capture lane-level differences in pavement performance. Finally, we concatenated multiple task-specific LSTM outputs with auxiliary features for further training and obtained the lane-level predictions after fully connected layer. The aforementioned prediction framework was validated with a real case in China. It revealed a better model performance regardless of one-way 2-lane, 3-lane, and 4-lane scenarios, all lower than 10% in terms of mean absolute percentage error. The proposed prediction framework also outperforms other ensemble learning and shallow machine learning methods in almost every lane. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# 楕円偏光振幅変調光波を用いた全光原子磁気計測
All-optical atomic magnetometry using an elliptically polarized amplitude-modulated light wave ( http://arxiv.org/abs/2408.01968v1 ) ライセンス: Link先を確認 | Anton Makarov, Katerina Kozlova, Denis Brazhnikov, Vladislav Vishnyakov, Andrey Goncharov, | (参考訳) 横磁場に曝露された楕円偏光波と$^{87}$Rb蒸気(D$_1$線)の共振相互作用について検討した。
5$\times$5$\times$5$~mm$^3$ガラス蒸気電池が実験に使用される。
波の強度は周波数$\Omega_m$で変調される。
ラーモア周波数$\Omega_L$付近で$\Omega_m$を走査することにより、波分極の楕円性パラメータの変化として磁気共鳴(MR)を観測することができる。
このMR観察方法は、円偏波を用いた古典的なベルブルーム方式と比較して、信号対雑音比を著しく改善することができる。
磁界センサの感度は$$130$~fT/$\surd$Hzと推定され、Faraday-rotation Bell-Bloom方式と自信を持って競合する。
この結果は、医学や地球物理学のための超小型全光磁界センサの開発に利用できる。
We study a resonant interaction of an elliptically polarized light wave with $^{87}$Rb vapor (D$_1$ line) exposed to a transverse magnetic field. A $5$$\times$$5$$\times$$5$~mm$^3$ glass vapor cell is used for the experiments. The wave intensity is modulated at the frequency $\Omega_m$. By scanning $\Omega_m$ near the Larmor frequency $\Omega_L$, a magnetic resonance (MR) can be observed as a change in the ellipticity parameter of the wave polarization. This method for observing MR allows to significantly improve the signal-to-noise ratio compared to a classical Bell-Bloom scheme using a circularly polarized wave. The sensitivity of the magnetic field sensor is estimated to be $\approx\,$$130$~fT/$\surd$Hz in a $2$~kHz bandwidth, confidently competing with widely used Faraday-rotation Bell-Bloom schemes. The results can be used to develop a miniature all-optical magnetic field sensor for medicine and geophysics. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# グラフニューラルネットワークを用いた最適かつ効率的なテキスト偽造物
Optimal and efficient text counterfactuals using Graph Neural Networks ( http://arxiv.org/abs/2408.01969v1 ) ライセンス: Link先を確認 | Dimitris Lymperopoulos, Maria Lymperaiou, Giorgos Filandrianos, Giorgos Stamou, | (参考訳) NLPモデルは意思決定プロセスにますます不可欠なものとなり、説明可能性や解釈可能性の必要性が最重要になっている。
そこで本研究では,モデル予測を変化させる反事実的介入と呼ばれる意味論的に編集された入力を生成し,モデルに対する反事実的説明の形式を提供するフレームワークを提案する。
我々は2つのNLPタスク – バイナリ感情分類とトピック分類 – でフレームワークをテストし、生成した編集がコントラストがあり、流動性があり、最小限であることを示した。
As NLP models become increasingly integral to decision-making processes, the need for explainability and interpretability has become paramount. In this work, we propose a framework that achieves the aforementioned by generating semantically edited inputs, known as counterfactual interventions, which change the model prediction, thus providing a form of counterfactual explanations for the model. We test our framework on two NLP tasks - binary sentiment classification and topic classification - and show that the generated edits are contrastive, fluent and minimal, while the whole process remains significantly faster that other state-of-the-art counterfactual editors. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# SR-CIS:記憶と推論を分離した自己回帰インクリメンタルシステム
SR-CIS: Self-Reflective Incremental System with Decoupled Memory and Reasoning ( http://arxiv.org/abs/2408.01970v1 ) ライセンス: Link先を確認 | Biqing Qi, Junqi Gao, Xinquan Chen, Dong Li, Weinan Zhang, Bowen Zhou, | (参考訳) 古い記憶を維持しながら、人間が新しい知識を素早く習得する能力は、現在のディープラーニングモデルにとって重要な課題である。
この課題に対処するため,人間の記憶と学習機構からインスピレーションを得て,自己表現的補完的インクリメンタルシステム(SR-CIS)を提案する。
Deconstructed Complementary Inference Module (CIM) とComplementary Memory Module (CMM) を補完するSR-CISは、高速な推論のための小さなモデルと、CIMにおける緩やかな議論のための大きなモデルを備えており、効率的なコラボレーションのための信頼性認識オンライン異常検出(CA-OAD)機構によって実現されている。
CMMはタスク固有の短期記憶(STM)領域と汎用長期記憶(LTM)領域から構成される。
タスク固有のLow-Rank Adaptive (LoRA)とそれに対応するプロトタイプの重みとバイアスを設定することで、パラメータと表現メモリの外部ストレージをインスタンス化し、メモリモジュールを推論モジュールから分解する。
トレーニング中に画像のテキスト記述を格納し、Scenario Replay Module (SRM) と組み合わせることで、定期的な短期から長期のメモリ再構成とともに、ストレージ要件が限定された安定したインクリメンタルメモリを実現する。
制限されたストレージと低いデータリソースの制約の下で、モデルの可塑性とメモリ安定性のバランスをとることで、SR-CISは、複数の標準および数ショットのインクリメンタル学習ベンチマークにおいて、既存の競合ベースラインを超えている。
The ability of humans to rapidly learn new knowledge while retaining old memories poses a significant challenge for current deep learning models. To handle this challenge, we draw inspiration from human memory and learning mechanisms and propose the Self-Reflective Complementary Incremental System (SR-CIS). Comprising the deconstructed Complementary Inference Module (CIM) and Complementary Memory Module (CMM), SR-CIS features a small model for fast inference and a large model for slow deliberation in CIM, enabled by the Confidence-Aware Online Anomaly Detection (CA-OAD) mechanism for efficient collaboration. CMM consists of task-specific Short-Term Memory (STM) region and a universal Long-Term Memory (LTM) region. By setting task-specific Low-Rank Adaptive (LoRA) and corresponding prototype weights and biases, it instantiates external storage for parameter and representation memory, thus deconstructing the memory module from the inference module. By storing textual descriptions of images during training and combining them with the Scenario Replay Module (SRM) post-training for memory combination, along with periodic short-to-long-term memory restructuring, SR-CIS achieves stable incremental memory with limited storage requirements. Balancing model plasticity and memory stability under constraints of limited storage and low data resources, SR-CIS surpasses existing competitive baselines on multiple standard and few-shot incremental learning benchmarks. | 翻訳日:2024-08-06 17:41:24 公開日:2024-08-04 |
# RVI-SAC: オフ・ポリシックな深層強化学習
RVI-SAC: Average Reward Off-Policy Deep Reinforcement Learning ( http://arxiv.org/abs/2408.01972v1 ) ライセンス: Link先を確認 | Yukinari Hisaki, Isao Ono, | (参考訳) 本稿では,平均報酬基準を用いた非政治的深層強化学習(DRL)手法を提案する。
既存のDRL手法の多くは割引報酬基準を採用しているが、これは継続タスクにおけるトレーニング目標とパフォーマンス指標の相違につながる可能性があり、平均報酬基準が推奨される選択肢となる。
我々は、平均報酬基準に、最先端のオフポリチックDRL法であるSAC(Soft Actor-Critic)の拡張であるRVI-SACを導入する。
本提案は,(1)RVIQ-learningに基づく批判的更新,(2)平均報酬ソフトポリシー改善定理によって導入されたアクター更新,(3)平均報酬強化学習が終了するタスクに適用可能なリセットコストの自動調整からなる。
本稿では,ロコモーションタスクのサブセットであるGymnasiumのMujocoタスクに適用し,既存の手法と比較して,RVI-SACが競合性能を示すことを示す。
In this paper, we propose an off-policy deep reinforcement learning (DRL) method utilizing the average reward criterion. While most existing DRL methods employ the discounted reward criterion, this can potentially lead to a discrepancy between the training objective and performance metrics in continuing tasks, making the average reward criterion a recommended alternative. We introduce RVI-SAC, an extension of the state-of-the-art off-policy DRL method, Soft Actor-Critic (SAC), to the average reward criterion. Our proposal consists of (1) Critic updates based on RVI Q-learning, (2) Actor updates introduced by the average reward soft policy improvement theorem, and (3) automatic adjustment of Reset Cost enabling the average reward reinforcement learning to be applied to tasks with termination. We apply our method to the Gymnasium's Mujoco tasks, a subset of locomotion tasks, and demonstrate that RVI-SAC shows competitive performance compared to existing methods. | 翻訳日:2024-08-06 15:45:07 公開日:2024-08-04 |
# 赤外線小ターゲット検出のための単一点監視高分解能ダイナミックネットワーク
Single-Point Supervised High-Resolution Dynamic Network for Infrared Small Target Detection ( http://arxiv.org/abs/2408.01976v1 ) ライセンス: Link先を確認 | Jing Wu, Rixiang Ni, Feng Huang, Zhaobing Qiu, Liqiong Chen, Changhai Luo, Yunxiang Li, Youli Li, | (参考訳) 赤外線小目標検出(IRSTD)タスクは2つの主な理由から非常に難しい。
1)既存の手法に不可欠な正確なラベル情報を得ることは困難であり、
2)赤外線(IR)小ターゲット情報はディープネットワークで簡単に失われる。
これらの問題に対処するために,シングルポイント教師付き高分解能動的ネットワーク(SSHD-Net)を提案する。
既存の手法とは対照的に,単一点監視のみを用いて最先端(SOTA)検出性能を実現する。
具体的には、まず、ステップ機能カスケードチャネル(SFCC)を介して双方向の特徴相互作用を実現する高分解能クロスフィーチャー抽出モジュール(HCEM)を設計する。
ネットワーク深度と特徴分解能のバランスをとり、深いIR小ターゲット情報を維持する。
第二に、グローバルな特徴と局所的な特徴の効果的な統合は、動的座標融合モジュール(DCFM)によって達成され、複雑な背景における対干渉能力を高める。
さらに,意味情報抽出能力を高めるために,高分解能多レベル残基 (HMRM) を導入する。
最後に、アダプティブターゲット位置検出ヘッド(ATLDH)を設計し、検出精度を向上させる。
公開データセット NUDT-SIRST と IRSTD-1k の実験により,本手法の有効性が示された。
他のSOTA法と比較して,本手法は1点の監視しか行わず,より優れた検出性能を実現することができる。
Infrared small target detection (IRSTD) tasks are extremely challenging for two main reasons: 1) it is difficult to obtain accurate labelling information that is critical to existing methods, and 2) infrared (IR) small target information is easily lost in deep networks. To address these issues, we propose a single-point supervised high-resolution dynamic network (SSHD-Net). In contrast to existing methods, we achieve state-of-the-art (SOTA) detection performance using only single-point supervision. Specifically, we first design a high-resolution cross-feature extraction module (HCEM), that achieves bi-directional feature interaction through stepped feature cascade channels (SFCC). It balances network depth and feature resolution to maintain deep IR small-target information. Secondly, the effective integration of global and local features is achieved through the dynamic coordinate fusion module (DCFM), which enhances the anti-interference ability in complex backgrounds. In addition, we introduce the high-resolution multilevel residual module (HMRM) to enhance the semantic information extraction capability. Finally, we design the adaptive target localization detection head (ATLDH) to improve detection accuracy. Experiments on the publicly available datasets NUDT-SIRST and IRSTD-1k demonstrate the effectiveness of our method. Compared to other SOTA methods, our method can achieve better detection performance with only a single point of supervision. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# ニューラルネットワークのロバスト性向上のためのラベル拡張
Label Augmentation for Neural Networks Robustness ( http://arxiv.org/abs/2408.01977v1 ) ライセンス: Link先を確認 | Fatemeh Amerehi, Patrick Healy, | (参考訳) アウト・オブ・ディストリビューションの一般化は、現実世界の自然の変化から生じる共通の摂動と、ニューラルネットワークを欺くために意図的に作られた敵の摂動の2つのタイプに分類される。
深層ニューラルネットワークは、トレーニングデータとテストデータの間の同一の分布を仮定して精度が優れているが、アウト・オブ・ディストリビューションのシナリオに遭遇することが多いため、精度は大幅に低下する。
データ拡張手法は、一般的な汚職に対する堅牢性を効果的に向上させるが、通常、敵の摂動に対する堅牢性を改善するには不十分である。
本研究では,共通の摂動と意図的摂動に対するロバスト性を高め,不確実性評価を改善するラベル拡張(LA)を開発する。
LAを併用した場合のクリーンエラー率は,ベースラインと比較して最大23.29%向上した。
さらに、一般的な汚職ベンチマークでは、24.23%まで堅牢性を高める。
FGSMとPGD攻撃に対するテストでは、FGSMの最大53.18%、PGD攻撃の24.46%が強化された。
Out-of-distribution generalization can be categorized into two types: common perturbations arising from natural variations in the real world and adversarial perturbations that are intentionally crafted to deceive neural networks. While deep neural networks excel in accuracy under the assumption of identical distributions between training and test data, they often encounter out-of-distribution scenarios resulting in a significant decline in accuracy. Data augmentation methods can effectively enhance robustness against common corruptions, but they typically fall short in improving robustness against adversarial perturbations. In this study, we develop Label Augmentation (LA), which enhances robustness against both common and intentional perturbations and improves uncertainty estimation. Our findings indicate a Clean error rate improvement of up to 23.29% when employing LA in comparisons to the baseline. Additionally, it enhances robustness under common corruptions benchmark by up to 24.23%. When tested against FGSM and PGD attacks, improvements in adversarial robustness are noticeable, with enhancements of up to 53.18% for FGSM and 24.46% for PGD attacks. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# AdvQDet: 対向的プロンプトチューニングによるクエリベースの逆アタックの検出
AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning ( http://arxiv.org/abs/2408.01978v1 ) ライセンス: Link先を確認 | Xin Wang, Kai Chen, Xingjun Ma, Zhineng Chen, Jingjing Chen, Yu-Gang Jiang, | (参考訳) ディープニューラルネットワーク(DNN)は、敵がモデルのみをクエリできるブラックボックス設定下であっても、敵の攻撃に対して脆弱であることが知られている。
特に、クエリベースのブラックボックス逆数攻撃は、クエリのシーケンスに対するターゲットモデルの返却確率ベクトルに基づいて、逆勾配を推定する。
この過程で、対象モデルに対するクエリは、前回のアタックステップで作成された中間対向的な例であり、ピクセル空間における高い類似点を共有している。
この観測により、クエリベースの攻撃を検出し、拒否するステートフル検出法が提案されている。
有望な結果を示す一方で、これらの手法はより先進的な攻撃によって回避されたり、異なる攻撃を検出するのに必要なショット(クエリ)の数で低い効率を損なわれたりする。
おそらく、ここでの鍵となる課題は、同じクリーンな画像からくる2つの中間対角的な例に対して高い類似度スコアを割り当てることである。
この課題に対処するために,CLIP画像エンコーダを頑健に微調整し,任意の2つの中間対向クエリに対して類似した埋め込みを抽出する,新しいAdversarial Contrastive Prompt Tuning (ACPT)法を提案する。
ACPTでは、さらにAdvQDetという、最先端のクエリベースの7つの攻撃を5ショット以内で99\%の検出レートで検出できる検出フレームワークを導入しています。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
コードはhttps://github.com/xinwong/AdvQDet.comで入手できる。
Deep neural networks (DNNs) are known to be vulnerable to adversarial attacks even under a black-box setting where the adversary can only query the model. Particularly, query-based black-box adversarial attacks estimate adversarial gradients based on the returned probability vectors of the target model for a sequence of queries. During this process, the queries made to the target model are intermediate adversarial examples crafted at the previous attack step, which share high similarities in the pixel space. Motivated by this observation, stateful detection methods have been proposed to detect and reject query-based attacks. While demonstrating promising results, these methods either have been evaded by more advanced attacks or suffer from low efficiency in terms of the number of shots (queries) required to detect different attacks. Arguably, the key challenge here is to assign high similarity scores for any two intermediate adversarial examples perturbed from the same clean image. To address this challenge, we propose a novel Adversarial Contrastive Prompt Tuning (ACPT) method to robustly fine-tune the CLIP image encoder to extract similar embeddings for any two intermediate adversarial queries. With ACPT, we further introduce a detection framework AdvQDet that can detect 7 state-of-the-art query-based attacks with $>99\%$ detection rate within 5 shots. We also show that ACPT is robust to 3 types of adaptive attacks. Code is available at https://github.com/xinwong/AdvQDet. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# 衛星コンステレーションネットワークにおけるルーティングのためのマルチエージェント深部Q-Networksについて
Shaping Rewards, Shaping Routes: On Multi-Agent Deep Q-Networks for Routing in Satellite Constellation Networks ( http://arxiv.org/abs/2408.01979v1 ) ライセンス: Link先を確認 | Manuel M. H. Roth, Anupama Hegde, Thomas Delamotte, Andreas Knopp, | (参考訳) 衛星メガ星の効率的なルーティングは、トラフィック負荷の増加、より複雑なネットワークアーキテクチャ、および6Gネットワークへの統合の処理を容易にするために重要になっている。
予測不能なトラフィック要求への適応性と堅牢性を向上し、動的ルーティング環境を効率的に解決するため、機械学習ベースのソリューションが検討されている。
パケット転送決定をQuality of Serviceの要件に従って最適化したり、ネットワークの安定性を保ったりといったネットワーク制御の問題に対して、深層強化学習技術は有望な結果を示してきた。
このため、衛星コンステレーションネットワークにおけるルーティングのためのマルチエージェント深部Qネットワークの実現可能性について検討する。
静的シナリオと動的シナリオにおいて、レイテンシとロードバランシングを共同で最適化するための報酬形成とトレーニング収束の定量化に特化する。
同定された欠点に対処するために,集中学習と分散制御に基づく新しいハイブリッドソリューションを提案する。
Effective routing in satellite mega-constellations has become crucial to facilitate the handling of increasing traffic loads, more complex network architectures, as well as the integration into 6G networks. To enhance adaptability as well as robustness to unpredictable traffic demands, and to solve dynamic routing environments efficiently, machine learning-based solutions are being considered. For network control problems, such as optimizing packet forwarding decisions according to Quality of Service requirements and maintaining network stability, deep reinforcement learning techniques have demonstrated promising results. For this reason, we investigate the viability of multi-agent deep Q-networks for routing in satellite constellation networks. We focus specifically on reward shaping and quantifying training convergence for joint optimization of latency and load balancing in static and dynamic scenarios. To address identified drawbacks, we propose a novel hybrid solution based on centralized learning and decentralized control. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# マジック・リソースの計測
Measurement Induced Magic Resources ( http://arxiv.org/abs/2408.01980v1 ) ライセンス: Link先を確認 | Gongchu Li, Lei Chen, Si-Qi Zhang, Xu-Song Hong, Huaqing Xu, Yuancheng Liu, You Zhou, Geng Chen, Chuan-Feng Li, Alioscia Hamma, Guang-Can Guo, | (参考訳) マジック状態とマジックゲートは普遍的な計算を達成するために重要であるが、量子優位性を達成するために魔法の資源をどのように実装すべきかという重要な疑問は、例えば、単一の量子ビットの測定だけで測定ベースの量子計算(MQC)の文脈において、まだ探索されていない。
この研究は、'invested'と'potential'マジックリソースの概念を導入することで、MQCとマジックのリソース理論のギャップを埋める。
前者はMQCフレームワークに関連するマジックコストを定量化し、マジックリソースの証人および望ましいユニタリ変換の実現のための上限として機能する。
潜在的なマジックリソースは、MQCを定義するグラフ構造における最大達成可能なマジックリソースを表す。
我々はこれらの概念を利用して量子フーリエ変換(QFT)のマジックリソース要件を分析し、異なるリソース状態のMQCの普遍性について新たな視点を提供し、マジックを注入するための非パウリ測定の重要性を強調した。
高忠実度4光子配置における我々の理論的予測を実験的に実証し、従来のマジック状態注入法の限界を超えながら、魔法状態の生成におけるMQCの効率を実証する。
本研究は, MQCフレームワーク内での魔法資源最適化と新しい蒸留スキームを探求し, フォールトトレラントな普遍量子計算の進歩に寄与する。
Magic states and magic gates are crucial for achieving universal computation, but some important questions about how magic resources should be implemented to attain quantum advantage have remained unexplored, for instance, in the context of Measurement-based Quantum Computation (MQC) with only single-qubit measurements. This work bridges the gap between MQC and the resource theory of magic by introducing the concept of ``invested'' and ``potential" magic resources. The former quantifies the magic cost associated with the MQC framework, serving both as a witness of magic resources and an upper bound for the realization of a desired unitary transformation. Potential magic resources represent the maximum achievable magic resource in a given graph structure defining the MQC. We utilize these concepts to analyze the magic resource requirements of the Quantum Fourier Transform (QFT) and provide a fresh perspective on the universality of MQC of different resource states, highlighting the crucial role of non-Pauli measurements for injecting magic. We demonstrate experimentally our theoretical predictions in a high-fidelity four-photon setup and demonstrate the efficiency of MQC in generating magic states, surpassing the limitations of conventional magic state injection methods. Our findings pave the way for future research exploring magic resource optimization and novel distillation schemes within the MQC framework, contributing to the advancement of fault-tolerant universal quantum computation. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# 双対パラメトリックマージンSVMによるマルチビュー学習
Multiview learning with twin parametric margin SVM ( http://arxiv.org/abs/2408.01981v1 ) ライセンス: Link先を確認 | A. Quadir, M. Tanveer, | (参考訳) マルチビュー学習(MVL)は、さまざまな視点の利点を活用して相互補完し、データセット内の潜伏情報を効果的に抽出し活用することを目指している。
いくつかのツインサポートベクタベースMVL(MvTSVM)モデルが導入され、様々な学習タスクで優れた性能を示した。
しかし、MvTSVMベースのモデルは、4つの行列逆転による計算複雑性の形式、非線型ケースを扱うためにカーネル生成表面を利用する最適化問題、トレーニングデータにおける一様雑音仮定の制約など、大きな課題に直面している。
特にデータがヘテロセダスティックなエラー構造を持つ場合、これらの課題はさらに顕著になる。
上記の課題を踏まえ,マルチビュー双対パラメトリック・マージン支援ベクトルマシン(MvTPMSVM)を提案する。
MvTPMSVMは、2つのクラス間のパラメトリックマージンを最大化することを目的としてパラメトリック超平面を構築し、データ内に存在する異方性雑音構造の影響を規制・管理することを目的としている。
提案したMvTPMSVMモデルは、二重定式化における行列逆変換の明示的な計算を回避し、計算効率を向上する。
UCI,KEEL,Synthetic,Animals with Attributes (AwA)といったベンチマークデータセットを用いて,MvTPMSVMモデルを広範囲に評価する。
実験結果は,厳密な統計解析と合わせて,提案したMvTPMSVMモデルのベースラインモデルと比較して,優れた一般化能力を確認した。
提案されたMvTPMSVMモデルのソースコードは、 \url{https://github.com/mtanveer1/MvTPMSVM}で入手できる。
Multiview learning (MVL) seeks to leverage the benefits of diverse perspectives to complement each other, effectively extracting and utilizing the latent information within the dataset. Several twin support vector machine-based MVL (MvTSVM) models have been introduced and demonstrated outstanding performance in various learning tasks. However, MvTSVM-based models face significant challenges in the form of computational complexity due to four matrix inversions, the need to reformulate optimization problems in order to employ kernel-generated surfaces for handling non-linear cases, and the constraint of uniform noise assumption in the training data. Particularly in cases where the data possesses a heteroscedastic error structure, these challenges become even more pronounced. In view of the aforementioned challenges, we propose multiview twin parametric margin support vector machine (MvTPMSVM). MvTPMSVM constructs parametric hyperplanes with the goal of maximizing the parametric margin between two classes, aiming to regulate and manage the impact of the heteroscedastic noise structure existing within the data. The proposed MvTPMSVM model avoids the explicit computation of matrix inversions in the dual formulation, leading to enhanced computational efficiency. We perform an extensive assessment of the MvTPMSVM model using benchmark datasets such as UCI, KEEL, synthetic, and Animals with Attributes (AwA). Our experimental results, coupled with rigorous statistical analyses, confirm the superior generalization capabilities of the proposed MvTPMSVM model compared to the baseline models. The source code of the proposed MvTPMSVM model is available at \url{https://github.com/mtanveer1/MvTPMSVM}. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# DeMansia:Mambaは決してトークンを忘れない
DeMansia: Mamba Never Forgets Any Tokens ( http://arxiv.org/abs/2408.01986v1 ) ライセンス: Link先を確認 | Ricky Fang, | (参考訳) 本稿では, 変圧器アーキテクチャの数学的基礎を考察し, 特に長周期処理における限界を明らかにする。
Mamba、Vision Mamba (ViM)、LV-ViTといった前提モデルについて検討し、提案したアーキテクチャであるDeMansiaの道筋をたどる。
DeMansiaは、状態空間モデルとトークンラベリング技術を統合して、画像分類タスクのパフォーマンスを高め、従来のトランスフォーマーによる計算上の課題に効率的に対処する。
アーキテクチャ、ベンチマーク、および同時代のモデルとの比較は、デマンシアの有効性を示している。
この論文の実装はGitHubでhttps://github.com/catalpaaa/DeMansiaで公開されている。
This paper examines the mathematical foundations of transformer architectures, highlighting their limitations particularly in handling long sequences. We explore prerequisite models such as Mamba, Vision Mamba (ViM), and LV-ViT that pave the way for our proposed architecture, DeMansia. DeMansia integrates state space models with token labeling techniques to enhance performance in image classification tasks, efficiently addressing the computational challenges posed by traditional transformers. The architecture, benchmark, and comparisons with contemporary models demonstrate DeMansia's effectiveness. The implementation of this paper is available on GitHub at https://github.com/catalpaaa/DeMansia | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# MetaWearS:少しのショットしか持たないウェアラブルシステムライフサイクルのショートカット
MetaWearS: A Shortcut in Wearable Systems Lifecycle with Only a Few Shots ( http://arxiv.org/abs/2408.01988v1 ) ライセンス: Link先を確認 | Alireza Amirshahi, Maedeh H. Toosi, Siamak Mohammadi, Stefano Albini, Pasquale Davide Schiavone, Giovanni Ansaloni, Amir Aminifar, David Atienza, | (参考訳) ウェアラブルシステムは継続的な健康モニタリングを提供し、潜在的な健康問題の早期発見につながる可能性がある。
しかし、ウェアラブルシステムのライフサイクルはいくつかの課題に直面している。
第一に、新しいウェアラブルデバイスのための効果的なモデルトレーニングは、ウェアラブルによって直接収集された様々な被験者からの実質的なラベル付きデータを必要とする。
第二に、後続のモデル更新は、再トレーニングのためにさらに広範なラベル付きデータを必要とする。
最後に、ウェアラブルデバイスの頻繁なモデル更新は、長期データ監視におけるバッテリ寿命を減少させる可能性がある。
本稿では,初期データ収集量を削減するメタ学習手法であるMetaWearSを提案する。
さらに,本手法では,モデル全体をトレーニングするのではなく,クラスプロトタイプを変更することで,更新プロセスを簡素化する。
発作性てんかんの検出と心房細動の診断にMetaWearSが有用であった2症例について検討した。
少数の試料を微調整し, てんかん発作の検出と心房細動の検出において, 70%, 82%のAUCが得られた。
従来の手法と比較して,提案手法は最大45%のAUCで性能が向上した。
さらに、ラベル付きデータを16分追加するだけでモデルを更新すると、AUCは最大5.3%向上する。
最後に、MetaWearSは、それぞれてんかん発作とAF検出のために、モデル更新のエネルギー消費量を456xと418xに削減する。
Wearable systems provide continuous health monitoring and can lead to early detection of potential health issues. However, the lifecycle of wearable systems faces several challenges. First, effective model training for new wearable devices requires substantial labeled data from various subjects collected directly by the wearable. Second, subsequent model updates require further extensive labeled data for retraining. Finally, frequent model updating on the wearable device can decrease the battery life in long-term data monitoring. Addressing these challenges, in this paper, we propose MetaWearS, a meta-learning method to reduce the amount of initial data collection required. Moreover, our approach incorporates a prototypical updating mechanism, simplifying the update process by modifying the class prototype rather than retraining the entire model. We explore the performance of MetaWearS in two case studies, namely, the detection of epileptic seizures and the detection of atrial fibrillation. We show that by fine-tuning with just a few samples, we achieve 70% and 82% AUC for the detection of epileptic seizures and the detection of atrial fibrillation, respectively. Compared to a conventional approach, our proposed method performs better with up to 45% AUC. Furthermore, updating the model with only 16 minutes of additional labeled data increases the AUC by up to 5.3%. Finally, MetaWearS reduces the energy consumption for model updates by 456x and 418x for epileptic seizure and AF detection, respectively. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# EDRソリューションにおけるLCMを用いたキーボード自動検出の実現に向けて
Towards Automatic Hands-on-Keyboard Attack Detection Using LLMs in EDR Solutions ( http://arxiv.org/abs/2408.01993v1 ) ライセンス: Link先を確認 | Amit Portnoy, Ehud Azikri, Shay Kels, | (参考訳) エンドポイント検出と修復(EDR)プラットフォームは、サイバー脅威の特定と対応に不可欠である。
本研究では,大規模言語モデル(LLM)を用いて,HOK(Hands-on-Keyboard)サイバー攻撃を検出する手法を提案する。
本手法では, 終端アクティビティデータを, LLMが通常の操作と潜在的HOK攻撃を区別するために分析できる物語形式に変換する。
我々は、物語をウィンドウに分割し、デュアルトレーニング戦略を採用することによって、エンドポイントデータを解釈する課題に対処する。
結果は、LLMベースのモデルが従来の機械学習手法を上回り、EDR能力を向上し、LLMをサイバーセキュリティに適用するための有望な方向性を提供する可能性を実証している。
Endpoint Detection and Remediation (EDR) platforms are essential for identifying and responding to cyber threats. This study presents a novel approach using Large Language Models (LLMs) to detect Hands-on-Keyboard (HOK) cyberattacks. Our method involves converting endpoint activity data into narrative forms that LLMs can analyze to distinguish between normal operations and potential HOK attacks. We address the challenges of interpreting endpoint data by segmenting narratives into windows and employing a dual training strategy. The results demonstrate that LLM-based models have the potential to outperform traditional machine learning methods, offering a promising direction for enhancing EDR capabilities and apply LLMs in cybersecurity. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# 背景のないものは何か? 細粒度タスクのための前景専用データの構築
What Happens Without Background? Constructing Foreground-Only Data for Fine-Grained Tasks ( http://arxiv.org/abs/2408.01998v1 ) ライセンス: Link先を確認 | Yuetian Wang, Wenjin Hou, Qinmu Peng, Xinge You, | (参考訳) 視覚信号処理における重要なタスクである微粒化認識は、サンプルに存在する識別情報に基づいて類似のサブクラスを識別することを目的としている。
しかし、主流の手法は、しばしば背景に誤って焦点を合わせ、真に有効な識別情報の収集を無視し、実用的な応用を妨げている。
背景雑音がモデルに与える影響の研究を容易にし,被験者の識別的特徴に集中する能力を高めるために,SAMとDeticの能力を生かした設計パイプラインを提案する。
大規模なクロス実験は、このアプローチをトレーニング前の前処理ステップとして検証し、アルゴリズムの性能を高め、データのさらなるモーダル展開の可能性を秘めている。
Fine-grained recognition, a pivotal task in visual signal processing, aims to distinguish between similar subclasses based on discriminative information present in samples. However, prevailing methods often erroneously focus on background areas, neglecting the capture of genuinely effective discriminative information from the subject, thus impeding practical application. To facilitate research into the impact of background noise on models and enhance their ability to concentrate on the subject's discriminative features, we propose an engineered pipeline that leverages the capabilities of SAM and Detic to create fine-grained datasets with only foreground subjects, devoid of background. Extensive cross-experiments validate this approach as a preprocessing step prior to training, enhancing algorithmic performance and holding potential for further modal expansion of the data. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# サイバーインシデント対応における効果的なマルウェア調査のための強化学習
Reinforcement Learning for an Efficient and Effective Malware Investigation during Cyber Incident Response ( http://arxiv.org/abs/2408.01999v1 ) ライセンス: Link先を確認 | Dipo Dunsin, Mohamed Chahine Ghanem, Karim Ouazzane, Vassil Vassilev, | (参考訳) 本研究は、強化学習RLを用いた事故後マルウェア鑑定の強化に焦点を当てた。
本研究は,ポストインシデント調査モデルと,ポストインシデント調査の迅速化を目的としたMDPポストインシデントマルウェア調査モデルとフレームワークを提案する。
次に,提案フレームワークにおける構造化MDPに基づくRLマルウェア調査モデルを実装した。
マルウェアのアーティファクトを識別するために、RLエージェントは、Qテーブルと時間差分学習を用いて、その能力を反復的に改善し、法医学的証拠ファイルを取得し、検査する。
Q学習アルゴリズムは、マルウェアを識別するエージェント能力を大幅に改善した。
エプシロンの欲求調査戦略とQラーニングのアップデートにより、効率的な学習と意思決定が可能になった。
実験の結果, 最適学習速度はMDP環境の複雑さに依存することが明らかとなった。
マルウェアの同定・分類における本モデルの性能は,人間の専門家と比較してマルウェア解析時間を短縮し,堅牢性と適応性を実証した。
この研究は、ハイパーパラメータチューニングの重要性を強調し、複雑な環境に対する適応戦略を提案する。
我々のRLベースのアプローチは有望な結果を生み出し、特に継続的学習と新たなマルウェア脅威への適応を提供することによって従来の方法に代わるものとして検証され、最終的には事後法医学的な調査が促進される。
This research focused on enhancing post-incident malware forensic investigation using reinforcement learning RL. We proposed an advanced MDP post incident malware forensics investigation model and framework to expedite post incident forensics. We then implement our RL Malware Investigation Model based on structured MDP within the proposed framework. To identify malware artefacts, the RL agent acquires and examines forensics evidence files, iteratively improving its capabilities using Q Table and temporal difference learning. The Q learning algorithm significantly improved the agent ability to identify malware. An epsilon greedy exploration strategy and Q learning updates enabled efficient learning and decision making. Our experimental testing revealed that optimal learning rates depend on the MDP environment complexity, with simpler environments benefiting from higher rates for quicker convergence and complex ones requiring lower rates for stability. Our model performance in identifying and classifying malware reduced malware analysis time compared to human experts, demonstrating robustness and adaptability. The study highlighted the significance of hyper parameter tuning and suggested adaptive strategies for complex environments. Our RL based approach produced promising results and is validated as an alternative to traditional methods notably by offering continuous learning and adaptation to new and evolving malware threats which ultimately enhance the post incident forensics investigations. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# Adelie:DAGベースのコンセンサスプロトコルにおけるビザンチン行動の検出と防止
Adelie: Detection and prevention of Byzantine behaviour in DAG-based consensus protocols ( http://arxiv.org/abs/2408.02000v1 ) ライセンス: Link先を確認 | Andrey Chursin, | (参考訳) 近年のビザンチンフォールトトレラントコンセンサスプロトコルの発展により、DAGベースのプロトコルは非常に有望な技術であることが示されている。
Narwhal/BullsharkのようなDAGベースのプロトコルの初期実装は低レイテンシで高いスループットを保っているが、MysticetiやShoal++のようなDAGベースのプロトコルの最新バージョンは、実際にはHotStuffのような従来のコンセンサスプロトコルと同等のレイテンシをDAGベースのコンセンサスプロトコルで達成でき、高いスループットを維持していることを示している。
Mysticetiは、認証されていないDAGを使用する新しいアプローチを実装することで、特に低レイテンシを実現している。
しかし、認証されていないDAGは、認証されたDAGプロトコルに存在しないビザンツのバリデータによる攻撃の新たなベクターにシステムを公開する。
本稿では,これらの問題を記述し,未認証DAGで発生する問題に対処するAdelieプロトコルを提案する。
さらに、Shoal++のテクニックを取り入れて、レイテンシをさらに削減しています。
本稿では,最大TPSおよび低レイテンシにおける新たなブレークスルーを示す,Adelieプロトコル-bftdの実装について述べる。
Recent developments in the Byzantine Fault Tolerant consensus protocols have shown the DAG-based protocols to be a very promising technique. While early implementations of DAG-based protocols such as Narwhal/Bullshark trade high throughput for a low latency, the latest versions of DAG-based protocols such as Mysticeti and Shoal++ show that indeed a latency comparable to that of traditional consensus protocols such as HotStuff can be achieve with the DAG-based consensus protocols while still maintaining high throughput. Mysticeti in particular achieves a low latency by implementing a novel approach of using an uncertified DAG - a significant breakthrough comparing to the certified DAG used in the previous generations of the protocol. However, the uncertified DAG exposes the system to new vectors of attacks by Byzantine validators that did not exist in the certified DAG protocols. In this paper we describe those issues and present the Adelie protocol, that addresses issues that comes with an uncertified DAG. We also incorporate some of the techniques from the Shoal++ to reduce latency even further. This paper also presents an implementation of Adelie protocol - bftd that demonstrates yet another breakthrough in the maximum achieved TPS and low latency. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# AdaCBM:説明可能かつ正確な診断のための適応型概念ボトルネックモデル
AdaCBM: An Adaptive Concept Bottleneck Model for Explainable and Accurate Diagnosis ( http://arxiv.org/abs/2408.02001v1 ) ライセンス: Link先を確認 | Townim F. Chowdhury, Vu Minh Hieu Phan, Kewen Liao, Minh-Son To, Yutong Xie, Anton van den Hengel, Johan W. Verjans, Zhibin Liao, | (参考訳) CLIPやConcept Bottleneck Models(CBM)といったビジョン言語モデルの統合は、人間によって理解可能な概念を使用して、ディープニューラルネットワーク(DNN)の決定を説明するための有望なアプローチを提供し、DNNのブラックボックスの懸念に対処する。
CLIPは説明可能性とゼロショット分類の両方を提供するが、ジェネリックイメージとテキストデータによる事前トレーニングは、その分類精度と医療画像診断タスクへの適用性を制限し、転写学習問題を生み出す可能性がある。
説明可能性とアドレス転送学習の必要性を維持するため、CBM法はボトルネックモジュールの後、一般的に後処理モジュールを設計する。
しかし、この方法は効果がなかった。
本稿では, 単純な線形分類システムとして, 幾何学的表現のレンズを通して CBM フレームワークを再検討することによって, 従来と異なるアプローチをとる。
この分析により、CBM後の微調整モジュールはシステムの分類結果を再スケール・シフトするだけで、システムの学習能力を十分に活用できないことが判明した。
ソースドメインと下流ドメインのギャップを埋めるために,CLIPとCBMの間に戦略的に配置された適応モジュールを導入する。
このシンプルで効果的なアプローチは、フレームワークが提供する説明可能性を維持しながら、分類性能を高める。
我々の研究は、概念発見からモデルトレーニングまで、プロセス全体を含む包括的なソリューションを提供し、GPT、CLIP、CBMの強みを活用するための総合的なレシピを提供します。
The integration of vision-language models such as CLIP and Concept Bottleneck Models (CBMs) offers a promising approach to explaining deep neural network (DNN) decisions using concepts understandable by humans, addressing the black-box concern of DNNs. While CLIP provides both explainability and zero-shot classification capability, its pre-training on generic image and text data may limit its classification accuracy and applicability to medical image diagnostic tasks, creating a transfer learning problem. To maintain explainability and address transfer learning needs, CBM methods commonly design post-processing modules after the bottleneck module. However, this way has been ineffective. This paper takes an unconventional approach by re-examining the CBM framework through the lens of its geometrical representation as a simple linear classification system. The analysis uncovers that post-CBM fine-tuning modules merely rescale and shift the classification outcome of the system, failing to fully leverage the system's learning potential. We introduce an adaptive module strategically positioned between CLIP and CBM to bridge the gap between source and downstream domains. This simple yet effective approach enhances classification performance while preserving the explainability afforded by the framework. Our work offers a comprehensive solution that encompasses the entire process, from concept discovery to model training, providing a holistic recipe for leveraging the strengths of GPT, CLIP, and CBM. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# LLaSA: 大規模言語とEコマースショッピングアシスタント
LLaSA: Large Language and E-Commerce Shopping Assistant ( http://arxiv.org/abs/2408.02006v1 ) ライセンス: Link先を確認 | Shuo Zhang, Boci Peng, Xinping Zhao, Boren Hu, Yun Zhu, Yanjia Zeng, Xuming Hu, | (参考訳) eコマースプラットフォームは、その普及と利便性のために急速に進化している。
顧客のためのeコマースショッピングアシスタントの開発は、彼らが望む製品を素早く見つけ出し、彼らが必要とするものを正確に推奨するのを助けるために不可欠だ。
しかし,従来のショッピングアシスタントでは,(1)様々なタスクのための異なるモデルの開発を必要とし,開発コストを増大させ,有効性を制限するタスク特異性,(2)訓練されたモデルが最新の製品で不適切な動作を行うような一般化の不足,という2つの問題に直面している。
これらの問題を解決するため、我々はLarge Language Models (LLMs) を用いて全能アシスタントを構築する。
それでもLLMにはeコマースの概念に関する固有の知識が欠けている。
これを解決するために、EshopInstructと呼ばれる65,000のサンプルと多様なタスクからなる命令データセットを作成します。
我々のデータセットの命令チューニングを通じて、LLaSAという名前のアシスタントは、全能アシスタントとして機能する可能性を示す。
さらに,限られた推論資源による性能向上のための様々な推論最適化手法を提案する。
Amazon KDD Cup 2024 Challengeでは、提案手法であるLLaSAが、57のタスクと約20,000の質問を含む、ShopBenchで3位にランクインしました。
当社の広範な実践は、LCMが優れたeコマースショッピングアシスタントになる大きな可能性を持っていることを十分に証明しています。
The e-commerce platform has evolved rapidly due to its widespread popularity and convenience. Developing an e-commerce shopping assistant for customers is crucial to aiding them in quickly finding desired products and recommending precisely what they need. However, most previous shopping assistants face two main problems: (1) task-specificity, which necessitates the development of different models for various tasks, thereby increasing development costs and limiting effectiveness; and (2) poor generalization, where the trained model performs inadequately on up-to-date products. To resolve these issues, we employ Large Language Models (LLMs) to construct an omnipotent assistant, leveraging their adeptness at handling multiple tasks and their superior generalization capability. Nonetheless, LLMs lack inherent knowledge of e-commerce concepts. To address this, we create an instruction dataset comprising 65,000 samples and diverse tasks, termed as EshopInstruct. Through instruction tuning on our dataset, the assistant, named LLaSA, demonstrates the potential to function as an omnipotent assistant. Additionally, we propose various inference optimization strategies to enhance performance with limited inference resources. In the Amazon KDD Cup 2024 Challenge, our proposed method, LLaSA, achieved an overall ranking of 3rd place on ShopBench, including 57 tasks and approximately 20,000 questions, and we secured top-5 rankings in each track, especially in track4, where we achieved the best performance result among all student teams. Our extensive practices fully demonstrate that LLMs possess the great potential to be competent e-commerce shopping assistants. | 翻訳日:2024-08-06 15:45:06 公開日:2024-08-04 |
# 音楽における感情と一般音の同時学習
Joint Learning of Emotions in Music and Generalized Sounds ( http://arxiv.org/abs/2408.02009v1 ) ライセンス: Link先を確認 | Simonetta Federico, Certo Francesca, Ntalampiras Stavros, | (参考訳) 本研究では、一般化された音と音楽が共通の感情空間を共有できるかどうかを判断し、覚醒的・無効性の観点から感情の予測を改善することを目的とする。
マルチドメイン学習手法として複数のデータセットを提案する。
我々のアプローチは、一般的な音と音楽の両方を特徴付ける特徴を包含する共通空間を作ることである。
これを実現するために、IADS-EとPMEmoという2つの公開データセットを標準化された実験プロトコルに従って利用した。
我々は、スペクトル、エネルギー、発声のキーパラメータを含む、オーディオ構造の様々な側面を捉える様々な特徴を取り入れた。
その後、異種モデルアーキテクチャを活用し、共通特徴空間で共同学習を行った。
興味深いことに、このシナジスティックなスキームは、音と音楽の感情の予測において最先端の手法よりも優れています。
提案された実験パイプラインの完全なレプリケーションを可能にするコードはhttps://github.com/LIMUNIMI/MusicSoundEmotions.comで公開されている。
In this study, we aim to determine if generalized sounds and music can share a common emotional space, improving predictions of emotion in terms of arousal and valence. We propose the use of multiple datasets as a multi-domain learning technique. Our approach involves creating a common space encompassing features that characterize both generalized sounds and music, as they can evoke emotions in a similar manner. To achieve this, we utilized two publicly available datasets, namely IADS-E and PMEmo, following a standardized experimental protocol. We employed a wide variety of features that capture diverse aspects of the audio structure including key parameters of spectrum, energy, and voicing. Subsequently, we performed joint learning on the common feature space, leveraging heterogeneous model architectures. Interestingly, this synergistic scheme outperforms the state-of-the-art in both sound and music emotion prediction. The code enabling full replication of the presented experimental pipeline is available at https://github.com/LIMUNIMI/MusicSoundEmotions. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# 肝外傷のトリアージのための意思決定支援システム
Decision Support System to triage of liver trauma ( http://arxiv.org/abs/2408.02012v1 ) ライセンス: Link先を確認 | Ali Jamali, Azadeh Nazemi, Ashkan Sami, Rosemina Bahrololoom, Shahram Paydar, Alireza Shakibafar, | (参考訳) トラウマは世界の健康に大きく影響し、毎年500万人以上が死亡しており、結核、エイズ、マラリアなどの病気による死亡率に匹敵する。
イランでは、道路交通事故の財政的影響は、毎年グロス・ナショナル・プロダクツの約2%を占める。
出血は、外傷後24時間以内に外傷患者が死亡する主要な原因であり、迅速な診断と重症度の評価が不可欠である。
外傷患者は全臓器の包括的スキャンを必要とし、大量のデータを生成する。
全身のCT画像を評価するには時間がかかり、診断における効率的な時間管理の必要性を裏付ける重要な専門知識が必要である。
効率的な診断プロセスは治療コストを大幅に削減し、二次合併症の可能性を減らすことができる。
このような状況下では,外傷トリアージ,特に腹部領域に焦点を当てた信頼性決定支援システム(DSS)の開発が不可欠である。
本稿では,GAN Pix2Pix翻訳モデルを用いて,CTスキャンを用いて肝出血と裂傷を検出する新しい方法を提案する。
本手法の有効性はDiceスコアで定量化され,肝出血97%,肝裂傷検出93%の精度が得られた。
これらの結果は、現在の最先端技術よりも顕著に改善されている。
システムの設計は既存の医療画像技術とシームレスに統合され、救急医療サービスに実用的な追加となる。
この研究は、GAN Pix2Pixのような高度な画像翻訳モデルが、クリティカルケアシナリオにおける医療診断の精度とスピードを改善する可能性を強調している。
Trauma significantly impacts global health, accounting for over 5 million deaths annually, which is comparable to mortality rates from diseases such as tuberculosis, AIDS, and malaria. In Iran, the financial repercussions of road traffic accidents represent approximately 2% of the nation's Gross National Product each year. Bleeding is the leading cause of mortality in trauma patients within the first 24 hours following an injury, making rapid diagnosis and assessment of severity crucial. Trauma patients require comprehensive scans of all organs, generating a large volume of data. Evaluating CT images for the entire body is time-consuming and requires significant expertise, underscoring the need for efficient time management in diagnosis. Efficient diagnostic processes can significantly reduce treatment costs and decrease the likelihood of secondary complications. In this context, the development of a reliable Decision Support System (DSS) for trauma triage, particularly focused on the abdominal area, is vital. This paper presents a novel method for detecting liver bleeding and lacerations using CT scans, utilising the GAN Pix2Pix translation model. The effectiveness of the method is quantified by Dice score metrics, with the model achieving an accuracy of 97% for liver bleeding and 93% for liver laceration detection. These results represent a notable improvement over current state-of-the-art technologies. The system's design integrates seamlessly with existing medical imaging technologies, making it a practical addition to emergency medical services. This research underscores the potential of advanced image translation models like GAN Pix2Pix in improving the precision and speed of medical diagnostics in critical care scenarios. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# バランス付き自己注意マッチングによる教師なし表現学習
Unsupervised Representation Learning by Balanced Self Attention Matching ( http://arxiv.org/abs/2408.02014v1 ) ライセンス: Link先を確認 | Daniel Shalam, Simon Korman, | (参考訳) 教師なし表現学習(特に画像特徴の埋め込み)のための多くの指導的自己指導手法は、特徴の崩壊につながる不安定性に起因した最適化が知られているインスタンス識別タスクの変種に基づいて構築されている。
異なる対照的な損失を持つ負対の使用、外部メモリバンクの使用、異なる構造を持つ別の符号化ネットワークを使用することによる対称性の破壊など、この問題を回避するために様々な技術が考案されている。
入力画像の異なるビュー(拡張)の特徴を直接マッチングするのではなく、BAMと呼ばれる手法は、バッチの付加画像全体の類似性の分布である自己アテンションベクトルのマッチングに基づいている。
我々は,これらの分布とグローバルなバランスとエントロピーの正規化バージョンに一致する損失を最小化することにより,豊かな表現と特徴の崩壊を回避し,簡単な自己最適化-輸送計算によって得られる。
我々は,半教師付きベンチマークと移動学習ベンチマークの両方において,先行する手法と競合する性能を示す幅広い実験を通じて,提案手法を改良し,検証する。
我々の実装と事前訓練されたモデルはgithub.com/DanielShalam/BAMで利用可能です。
Many leading self-supervised methods for unsupervised representation learning, in particular those for embedding image features, are built on variants of the instance discrimination task, whose optimization is known to be prone to instabilities that can lead to feature collapse. Different techniques have been devised to circumvent this issue, including the use of negative pairs with different contrastive losses, the use of external memory banks, and breaking of symmetry by using separate encoding networks with possibly different structures. Our method, termed BAM, rather than directly matching features of different views (augmentations) of input images, is based on matching their self-attention vectors, which are the distributions of similarities to the entire set of augmented images of a batch. We obtain rich representations and avoid feature collapse by minimizing a loss that matches these distributions to their globally balanced and entropy regularized version, which is obtained through a simple self-optimal-transport computation. We ablate and verify our method through a wide set of experiments that show competitive performance with leading methods on both semi-supervised and transfer-learning benchmarks. Our implementation and pre-trained models are available at github.com/DanielShalam/BAM . | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# 多体局在系のダイナミクス:$α$-Rényiエントロピーの対数光錐と$\log \, t$-law
Dynamics of many-body localized systems: logarithmic lightcones and $\log \, t$-law of $α$-Rényi entropies ( http://arxiv.org/abs/2408.02016v1 ) ライセンス: Link先を確認 | Daniele Toniolo, Sougato Bose, | (参考訳) Many-Body-Localization 現象論の文脈では、任意に大きい1次元スピン系を考える。
障害を伴うXXZモデルは、原型的な例である。
指数関数的に局所化された運動積分 (LIOMs) の存在を仮定することなく、代わりに対数的な光錐を仮定し、$ \alpha$-R\'enyi エントロピー、$ 0< \alpha<1 $ の動的生成を厳格に評価し、$\log \, t$-law を得る。
LIOM の存在を仮定すると、系の力学のリーブ・ロビンソン(L-R)境界が対数光錐を持つことを証明し、一般的な初期積状態からフォン・ノイマンエントロピーの動的生成が大々的に$ \log \, t$-シェープであることを示す。
局所作用素の動的拡散を定量化するL-R境界は、絡み合いのような大域的な量と比較して実験で測定しやすくなる。
In the context of the Many-Body-Localization phenomenology we consider arbitrarily large one-dimensional spin systems. The XXZ model with disorder is a prototypical example. Without assuming the existence of exponentially localized integrals of motion (LIOMs), but assuming instead a logarithmic lightcone we rigorously evaluate the dynamical generation of $ \alpha$-R\'enyi entropies, $ 0< \alpha<1 $ close to one, obtaining a $\log \, t$-law. Assuming the existence of LIOMs we prove that the Lieb-Robinson (L-R) bound of the system's dynamics has a logarithmic lightcone and show that the dynamical generation of the von Neumann entropy, from a generic initial product state, has for large times a $ \log \, t$-shape. L-R bounds, that quantify the dynamical spreading of local operators, may be easier to measure in experiments in comparison to global quantities such as entanglement. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# アルツハイマー病に対する個人別マルチホライゾンMRIトラジェクトリー予測
Individualized multi-horizon MRI trajectory prediction for Alzheimer's Disease ( http://arxiv.org/abs/2408.02018v1 ) ライセンス: Link先を確認 | Rosemary He, Gabriella Ang, Daniel Tward, | (参考訳) MRIによる神経変性はアルツハイマー病(AD)の診断の潜在的なバイオマーカーとして認識されているが、一般的にはアミロイドやタウ系バイオマーカーよりも特異的ではないと考えられている。
個人間での脳解剖学の多様性は多岐にわたるため、MRIの時系列を活用することで、各患者を自身のベースラインとして扱うことで、特異性を改善することができると仮説を立てる。
ここでは条件付き変分オートエンコーダを用いて、被験者の年齢、疾患状態、前回の1回のスキャンから、個別化されたMRI予測を生成する。
アルツハイマー病神経画像イニシアチブのシリアルイメージングデータを用いて、我々は新しいアーキテクチャをトレーニングし、潜在空間分布を構築する。
これにより、データセットを超えて外挿し、MRIを最大10年予測することが可能になります。
我々は,ADNIと独立データセット(Open Access Series of Imaging Studies)の保持集合を用いて,モデルの評価を行った。
いくつかの代替手法と比較することにより,より高解像度でより個別化された画像を生成することを示す。
さらに,すでにMRIをフォローアップしている個人に対しては,病状度比の分類器の算出にモデルを用いていることを示す。
実際には、このモデルはADの早期診断を支援し、治療効果推定のための対実的ベースライン軌跡を提供することができるかもしれない。
さらに、異常検出や分類などの下流タスクに使用できる合成データセットを生成する。
Neurodegeneration as measured through magnetic resonance imaging (MRI) is recognized as a potential biomarker for diagnosing Alzheimer's disease (AD), but is generally considered less specific than amyloid or tau based biomarkers. Due to a large amount of variability in brain anatomy between different individuals, we hypothesize that leveraging MRI time series can help improve specificity, by treating each patient as their own baseline. Here we turn to conditional variational autoencoders to generate individualized MRI predictions given the subject's age, disease status and one previous scan. Using serial imaging data from the Alzheimer's Disease Neuroimaging Initiative, we train a novel architecture to build a latent space distribution which can be sampled from to generate future predictions of changing anatomy. This enables us to extrapolate beyond the dataset and predict MRIs up to 10 years. We evaluated the model on a held-out set from ADNI and an independent dataset (from Open Access Series of Imaging Studies). By comparing to several alternatives, we show that our model produces more individualized images with higher resolution. Further, if an individual already has a follow-up MRI, we demonstrate a usage of our model to compute a likelihood ratio classifier for disease status. In practice, the model may be able to assist in early diagnosis of AD and provide a counterfactual baseline trajectory for treatment effect estimation. Furthermore, it generates a synthetic dataset that can potentially be used for downstream tasks such as anomaly detection and classification. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# エキスパート協調学習による不均一・長期データの個人化フェデレーション学習
Personalized Federated Learning on Heterogeneous and Long-Tailed Data via Expert Collaborative Learning ( http://arxiv.org/abs/2408.02019v1 ) ライセンス: Link先を確認 | Fengling Lv, Xinyi Shang, Yang Zhou, Yiqun Zhang, Mengke Li, Yang Lu, | (参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は、分散クライアントの集合的知識を活用することにより、生データを開示することなく、各クライアント用にカスタマイズされたモデルを取得することを目的としている。
しかし、実際のシナリオで収集されたデータは、長い尾の分布に従う可能性が高い。
例えば、医学領域では、特定の疾患に関連するものよりも、一般的な健康メモの数の方がはるかに多いことが一般的である。
長い尾を持つデータの存在は、PFLモデルの性能を著しく低下させる可能性がある。
さらに、各クライアントが運用する多様な環境のため、データの不均一性もまた、連合学習における古典的な課題である。
本稿では,PFLにおける大域的長期分布とデータ不均一性の連立問題を考察し,この問題に対処するための専門家協調学習(ECL)手法を提案する。
具体的には、各クライアントは複数のエキスパートを持ち、各専門家は異なるトレーニングサブセットを持ち、各クラス、特にマイノリティクラスが十分なトレーニングを受けられるようにします。
複数の専門家が相乗的に協力して最終的な予測出力を生成する。
特別な鐘や笛がなければ、バニラECLはデータの異質性や長い尾の分布の異なるいくつかのベンチマークデータセットにおいて、最先端のPFLメソッドよりも優れている。
Personalized Federated Learning (PFL) aims to acquire customized models for each client without disclosing raw data by leveraging the collective knowledge of distributed clients. However, the data collected in real-world scenarios is likely to follow a long-tailed distribution. For example, in the medical domain, it is more common for the number of general health notes to be much larger than those specifically relatedto certain diseases. The presence of long-tailed data can significantly degrade the performance of PFL models. Additionally, due to the diverse environments in which each client operates, data heterogeneity is also a classic challenge in federated learning. In this paper, we explore the joint problem of global long-tailed distribution and data heterogeneity in PFL and propose a method called Expert Collaborative Learning (ECL) to tackle this problem. Specifically, each client has multiple experts, and each expert has a different training subset, which ensures that each class, especially the minority classes, receives sufficient training. Multiple experts collaborate synergistically to produce the final prediction output. Without special bells and whistles, the vanilla ECL outperforms other state-of-the-art PFL methods on several benchmark datasets under different degrees of data heterogeneity and long-tailed distribution. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# Angular依存ポテンシャルを持つ時間依存ダンクルシュレーディンガー方程式
Time-Dependent Dunkl-Schrödinger Equation with an Angular-Dependent Potential ( http://arxiv.org/abs/2408.02021v1 ) ライセンス: Link先を確認 | B. Khantoul, B. Hamil, A. Benchikha, B. C. Lütfüoğlu, | (参考訳) Schr\\odinger 方程式は量子力学の基本的な方程式であり、ポテンシャルエネルギーの範囲における量子系の振る舞いを理解する手段を提供する。
特に、過去10年間、理論研究はダンクル微分を量子力学的問題に適応させることに重点を置いてきた。
このアプローチは単に、有限反射群に付随する微分差分演算子を利用することで、従来の量子力学技法を一般化し、パリティに依存する解を与えるだけである。
本稿では、時依存質量と周波数を持つ高調波発振器に対する時依存シュリンガー方程式の解析解を、ダンクル微分を利用して角依存ポテンシャルエネルギーと組み合わせて検討する。
この解を得るために、ルイス=リースフェルト不変法を用いる。
我々のアプローチは量子力学解析の範囲を広げ、様々な条件下での動的量子システムに対する正確な解と新たな洞察を提供する。
The Schr\"odinger equation is a fundamental equation in quantum mechanics, providing a means of understanding the behavior of quantum systems under a range of potential energies. In particular, over the past decade, theoretical studies have focused on adapting the Dunkl derivative to quantum mechanical problems. This approach merely seeks to generalize traditional quantum mechanical techniques through the utilization of differential-difference operators associated with finite reflection groups, thereby providing solutions that are dependent on parity. In this manuscript, we investigate the analytical solution of the time-dependent Schr\"odinger equation for a harmonic oscillator with time-dependent mass and frequency, coupled with angular-dependent potential energy by utilizing the Dunkl derivatives. To obtain the solution, we employ the Lewis-Riesenfeld invariant methodology. Our approach broadens the scope of quantum mechanical analyses, offering exact solutions and new insights into dynamic quantum systems under varying conditions. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# 深層強化学習によるシナリオベース熱管理パラメトリゼーション
Scenario-based Thermal Management Parametrization Through Deep Reinforcement Learning ( http://arxiv.org/abs/2408.02022v1 ) ライセンス: Link先を確認 | Thomas Rudolf, Philip Muhl, Sören Hohmann, Lutz Eckstein, | (参考訳) 電気自動車の熱システムは高度な制御を必要とする。
その熱管理は、様々な運転条件で有効成分を効果的に制御する必要がある。
頑健な制御関数のパラメトリゼーションが必要であるが、現在の手法には大きな欠点がある。
彼らはかなりの時間、人間の努力、そして広範囲の現実世界のテストに費やしている。
したがって、組み込みコントローラを自律的にパラメータ化できる革新的でインテリジェントなソリューションが必要である。
この問題に対処するため,本論文では学習に基づくチューニング手法を提案する。
車両使用シナリオ間のロバスト性を高めるために,自動シナリオ生成の恩恵を受ける手法を提案する。
我々の深層強化学習エージェントは、チューニングタスクコンテキストを処理し、組込みパラメータセットのイメージベースの解釈を組み込む。
本稿では,バルブ制御器のパラメトリゼーションタスクへの適用性を実証し,実際の車両試験で検証する。
その結果,ベースライン手法との競合性能が注目された。
この新たなアプローチは、自動車産業における大規模パラメータチューニングの可能性を秘めた、熱管理機能の仮想開発へのシフトに寄与する。
The thermal system of battery electric vehicles demands advanced control. Its thermal management needs to effectively control active components across varying operating conditions. While robust control function parametrization is required, current methodologies show significant drawbacks. They consume considerable time, human effort, and extensive real-world testing. Consequently, there is a need for innovative and intelligent solutions that are capable of autonomously parametrizing embedded controllers. Addressing this issue, our paper introduces a learning-based tuning approach. We propose a methodology that benefits from automated scenario generation for increased robustness across vehicle usage scenarios. Our deep reinforcement learning agent processes the tuning task context and incorporates an image-based interpretation of embedded parameter sets. We demonstrate its applicability to a valve controller parametrization task and verify it in real-world vehicle testing. The results highlight the competitive performance to baseline methods. This novel approach contributes to the shift towards virtual development of thermal management functions, with promising potential of large-scale parameter tuning in the automotive industry. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# 脅威・サイバー犯罪・デジタル犯罪調査のためのスマートシティインフラストラクチャオントロジー
A Smart City Infrastructure Ontology for Threats, Cybercrime, and Digital Forensic Investigation ( http://arxiv.org/abs/2408.02023v1 ) ライセンス: Link先を確認 | Yee Ching Tok, Davis Zheng Yang, Sudipta Chattopadhyay, | (参考訳) サイバー犯罪とサイバー関連の妥協の市場は、国家が支援する俳優、サイバー犯罪者、そして金融難の影響を受けている技術関係者にとって魅力的な収入源になりつつある。
新たな技術フロンティアに対するサイバー犯罪の急増により、デジタル法科学調査員(DFI)と法執行機関(LEA)の捜査活動を支援する努力がなされている。
統一サイバーオントロジー(UCO)やサイバー調査分析標準表現(CASE)のような法医学ツールの革新とオントロジーの発展は、DFIとLEAを支援するために提案されている。
これらのツールとオントロジーは有用であるが、広範な情報共有とツールの相互運用性機能は欠如しており、オントロジーには提案された最新のスマートシティインフラストラクチャ(SCI)コンテキストが欠如している。
両ソリューションの弱点を緩和し,より安全なサイバー物理環境を確保するために,MITRE の SCI 脅威モデル,SCI デジタル法医学的証拠,攻撃テクニック,パターン,分類を実装した UCO および Case オントロジーの拡張プロファイルである Smart City Ontological Paradigm Expression (SCOPE) を提案する。
SCI固有の脅威、サイバー犯罪、調査データ、インシデントハンドリングワークフローなどの複雑なデータを、APT(Advanced Persistent Threat)グループによる現実世界のインシデントをモデルとしたインシデントシナリオを通じて、SCOPEがどのように提示できるかを示す。
また、SCOPEをコミュニティに提供し、SCIのような新興トレンドにおける脅威、デジタル証拠、サイバー犯罪を識別し、表現し、共同で共有できるようにする。
Cybercrime and the market for cyber-related compromises are becoming attractive revenue sources for state-sponsored actors, cybercriminals and technical individuals affected by financial hardships. Due to burgeoning cybercrime on new technological frontiers, efforts have been made to assist digital forensic investigators (DFI) and law enforcement agencies (LEA) in their investigative efforts. Forensic tool innovations and ontology developments, such as the Unified Cyber Ontology (UCO) and Cyber-investigation Analysis Standard Expression (CASE), have been proposed to assist DFI and LEA. Although these tools and ontologies are useful, they lack extensive information sharing and tool interoperability features, and the ontologies lack the latest Smart City Infrastructure (SCI) context that was proposed. To mitigate the weaknesses in both solutions and to ensure a safer cyber-physical environment for all, we propose the Smart City Ontological Paradigm Expression (SCOPE), an expansion profile of the UCO and CASE ontology that implements SCI threat models, SCI digital forensic evidence, attack techniques, patterns and classifications from MITRE. We showcase how SCOPE could present complex data such as SCI-specific threats, cybercrime, investigation data and incident handling workflows via an incident scenario modelled after publicly reported real-world incidents attributed to Advanced Persistent Threat (APT) groups. We also make SCOPE available to the community so that threats, digital evidence and cybercrime in emerging trends such as SCI can be identified, represented, and shared collaboratively. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# 高速拡散作用セグメンテーション
Faster Diffusion Action Segmentation ( http://arxiv.org/abs/2408.02024v1 ) ライセンス: Link先を確認 | Shuaibing Wang, Shunli Wang, Mingcheng Li, Dingkang Yang, Haopeng Kuang, Ziyun Qian, Lihua Zhang, | (参考訳) 時間的アクションセグメンテーション(TAS)はビデオ分析において不可欠なタスクであり、連続したフレームを別のアクションセグメンテーションに分割し分類することを目的としている。
しかし、アクション間のあいまいな境界は、高精度なセグメンテーションにとって重要な課題である。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
しかし、拡散モデルで必要とされる重いサンプリングステップは、リアルタイムアプリケーションにおける実用性を制限し、かなりの計算負荷をもたらす。
さらに、ほとんどの関連研究はTransformerベースのエンコーダアーキテクチャを利用している。
これらのアーキテクチャは、長距離依存関係の取得に優れていますが、長いビデオシーケンスを処理する際に、高い計算コストと特徴平準化の問題に直面します。
これらの課題に対処するために,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
具体的には、計算オーバーヘッドを低減し、従来の自己認識機構に関連するランク崩壊現象を緩和する軽量な時間的特徴エンコーダを開発する。
さらに、推論中に計算された類似度指標に基づいて時間ステップ長を動的に調整できる適応型スキップ戦略を導入し、計算効率をさらに向上する。
50Salads、Breakfast、GTEAデータセットに関する総合的な実験は、提案アルゴリズムの有効性を実証した。
Temporal Action Segmentation (TAS) is an essential task in video analysis, aiming to segment and classify continuous frames into distinct action segments. However, the ambiguous boundaries between actions pose a significant challenge for high-precision segmentation. Recent advances in diffusion models have demonstrated substantial success in TAS tasks due to their stable training process and high-quality generation capabilities. However, the heavy sampling steps required by diffusion models pose a substantial computational burden, limiting their practicality in real-time applications. Additionally, most related works utilize Transformer-based encoder architectures. Although these architectures excel at capturing long-range dependencies, they incur high computational costs and face feature-smoothing issues when processing long video sequences. To address these challenges, we propose EffiDiffAct, an efficient and high-performance TAS algorithm. Specifically, we develop a lightweight temporal feature encoder that reduces computational overhead and mitigates the rank collapse phenomenon associated with traditional self-attention mechanisms. Furthermore, we introduce an adaptive skip strategy that allows for dynamic adjustment of timestep lengths based on computed similarity metrics during inference, thereby further enhancing computational efficiency. Comprehensive experiments on the 50Salads, Breakfast, and GTEA datasets demonstrated the effectiveness of the proposed algorithm. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# 多言語音声対面アソシエーションのためのコントラスト学習に基づく連鎖クラスタ
Contrastive Learning-based Chaining-Cluster for Multilingual Voice-Face Association ( http://arxiv.org/abs/2408.02025v1 ) ライセンス: Link先を確認 | Wuyang Chen, Yanjie Sun, Kele Xu, Yong Dou, | (参考訳) 人の顔と声の自然的相関は、近年、特に多言語環境の文脈において、魅力的な研究領域として現れている。
本稿では,FAME (Face-Voice Association in Multilingual Environments, FAME) 2024の課題に対する新たな解決策を紹介する。
この課題は、聴覚と視覚のモダリティ間の生体的関係を構築し、データに存在する内在的および外在的変動に対処しながら、異なる言語間の韻律相互依存性をモデル化することである。
これらの難題に対処するため,多言語シナリオにおける音声と顔の堅牢な関連を確立するために,教師付きクロスコントラスト学習(SCC)を用いた。
これに続いて、我々はチェーンクラスタベースの後処理ステップを特別に設計し、野生データに制限されていない場合の異常値の影響を軽減するようにしました。
言語が対面音声の関連性に与える影響について検討した。
結果はFAMEの公開評価プラットフォームで評価され、2位となった。
その結果,提案手法の優れた性能を示し,提案手法の堅牢性と有効性を検証した。
コードはhttps://github.com/colaudiolab/FAME24_solution.comから入手できる。
The innate correlation between a person's face and voice has recently emerged as a compelling area of study, especially within the context of multilingual environments. This paper introduces our novel solution to the Face-Voice Association in Multilingual Environments (FAME) 2024 challenge, focusing on a contrastive learning-based chaining-cluster method to enhance face-voice association. This task involves the challenges of building biometric relations between auditory and visual modality cues and modelling the prosody interdependence between different languages while addressing both intrinsic and extrinsic variability present in the data. To handle these non-trivial challenges, our method employs supervised cross-contrastive (SCC) learning to establish robust associations between voices and faces in multi-language scenarios. Following this, we have specifically designed a chaining-cluster-based post-processing step to mitigate the impact of outliers often found in unconstrained in the wild data. We conducted extensive experiments to investigate the impact of language on face-voice association. The overall results were evaluated on the FAME public evaluation platform, where we achieved 2nd place. The results demonstrate the superior performance of our method, and we validate the robustness and effectiveness of our proposed approach. Code is available at https://github.com/colaudiolab/FAME24_solution. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# 大規模財産図におけるマイニングパスアソシエーションルール
Mining Path Association Rules in Large Property Graphs (with Appendix) ( http://arxiv.org/abs/2408.02029v1 ) ライセンス: Link先を確認 | Yuya Sasaki, Panagiotis Karras, | (参考訳) エッジラベルと頂点属性を持つグラフから、頻繁なパスの正規性をどうやってマイニングできるのか?
ルールマイニングの課題は、アイテムセットやサブストラクチャにおける規則パターンの発見に成功している。
しかし、私たちの知る限りでは、この概念は大きなプロパティグラフのパスパターンにはまだ拡張されていない。
本稿では,パス・アソシエーション・ルール・マイニング(PARM)の問題を紹介する。
グラフ内の2つの頂点間の任意の \emph{reachability path} に適用すると、PARM は頂点属性とエッジラベルによって識別される経路パターンが互いに共起する規則的な方法を発見する。
我々は,探索空間を効果的に創り出すために,対単調性特性を利用した効率的でスケーラブルなアルゴリズムPIONEERを開発した。
さらに、近似手法を考案し、並列化を用いて、スケーラブルな経路関連ルールマイニングを実現する。
実世界のグラフデータを用いた実験により,経路関連ルールの重要性と解の効率性を検証した。
How can we mine frequent path regularities from a graph with edge labels and vertex attributes? The task of association rule mining successfully discovers regular patterns in item sets and substructures. Still, to our best knowledge, this concept has not yet been extended to path patterns in large property graphs. In this paper, we introduce the problem of path association rule mining (PARM). Applied to any \emph{reachability path} between two vertices within a large graph, PARM discovers regular ways in which path patterns, identified by vertex attributes and edge labels, co-occur with each other. We develop an efficient and scalable algorithm PIONEER that exploits an anti-monotonicity property to effectively prune the search space. Further, we devise approximation techniques and employ parallelization to achieve scalable path association rule mining. Our experimental study using real-world graph data verifies the significance of path association rules and the efficiency of our solutions. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# 自己イントロスペクティブデコーディング:大規模視覚言語モデルに対する幻覚の緩和
Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models ( http://arxiv.org/abs/2408.02032v1 ) ライセンス: Link先を確認 | Fushuo Huo, Wenchao Xu, Zhong Zhang, Haozhao Wang, Zhicheng Chen, Peilin Zhao, | (参考訳) 近年、LVLM(Large Vision-Language Models)が急速に進歩してきたが、'hallucination'問題と呼ばれる大きな問題が重大なボトルネックとして浮上し、現実のデプロイメントを妨げている。
既存の手法は、主に2つの観点からこの問題を軽減する: 1つのアプローチは、堅牢なインストラクションチューニング LVLM をキュレートされたデータセットでチューニングしたり、補助的な分析ネットワークを使用したり、追加コストを発生させないような、余分な知識を活用する。
対照的な復号法として知られる別のアプローチは、視覚を手動で妨害したり、生の入力を指示することで幻覚を誘導し、乱された元のLVLMの出力と対比することでそれらを緩和する。
しかし、これらのアプローチは経験的全体論的入力障害と推論コストの2倍に依存する。
これらの問題を回避するために,SID (Self-Introspective Decoding) というシンプルな手法を提案する。
我々の経験的調査により,事前学習したLVLMは,先行する視覚とテキスト(命令と生成の両方)のトークンに基づいて,視覚トークンの重要性を内省的に評価できることがわかった。
我々は,LVLMの初期層の後,重要でない視覚トークンのみを保存し,自動回帰デコード中のテキストインフォームド幻覚を適応的に増幅するCT2S(Context and Text-aware Token Selection)戦略を開発した。
このアプローチは、初期層に吸収されたマルチモーダル知識が、目的のない幻覚ではなく、多モーダルコンテキストを誘導することを保証する。
その後、オリジナルのトークンロジットは増幅された視覚・テキスト関連幻覚を減らし、LVLMを忠実に復号する。
大規模な実験では、SIDは余分な知識と余分な計算負担を伴わずに、様々な指標をまたいだより低いハロシン化と高品質なテキストを生成する。
While Large Vision-Language Models (LVLMs) have rapidly advanced in recent years, the prevalent issue known as the `hallucination' problem has emerged as a significant bottleneck, hindering their real-world deployments. Existing methods mitigate this issue mainly from two perspectives: One approach leverages extra knowledge like robust instruction tuning LVLMs with curated datasets or employing auxiliary analysis networks, which inevitable incur additional costs. Another approach, known as contrastive decoding, induces hallucinations by manually disturbing the vision or instruction raw inputs and mitigates them by contrasting the outputs of the disturbed and original LVLMs. However, these approaches rely on empirical holistic input disturbances and double the inference cost. To avoid these issues, we propose a simple yet effective method named Self-Introspective Decoding (SID). Our empirical investigation reveals that pretrained LVLMs can introspectively assess the importance of vision tokens based on preceding vision and text (both instruction and generated) tokens. We develop the Context and Text-aware Token Selection (CT2S) strategy, which preserves only unimportant vision tokens after early layers of LVLMs to adaptively amplify text-informed hallucination during the auto-regressive decoding. This approach ensures that multimodal knowledge absorbed in the early layers induces multimodal contextual rather than aimless hallucinations. Subsequently, the original token logits subtract the amplified vision-and-text association hallucinations, guiding LVLMs decoding faithfully. Extensive experiments illustrate SID generates less-hallucination and higher-quality texts across various metrics, without extra knowledge and much additional computation burdens. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# 深層学習型視覚融合による人間の行動認識と暴力検出の強化
Enhancing Human Action Recognition and Violence Detection Through Deep Learning Audiovisual Fusion ( http://arxiv.org/abs/2408.02033v1 ) ライセンス: Link先を確認 | Pooya Janani, Amirabolfazl Suratgar, Afshin Taghvaeipour, | (参考訳) 本稿では,公共の場での人間の行動認識と暴力検出を改善するために,オーディオとビデオの2つの異なるモードに基づくハイブリッドフュージョンベースのディープラーニング手法を提案する。
オーディオビジョンフュージョンを利用するために、レイトフュージョン、中間フュージョン、ハイブリッドフュージョンベースディープラーニング(HFBDL)を用いて比較する。
公共の場での人間の暴力の検出と認識が目的であるため、実生活暴力状況(RLVS)データセットを拡張して使用する。
HFBDLの結果をシミュレーションすると、検証データの96.67\%の精度が示され、このデータセットの他の最先端手法よりも正確である。
実世界のシナリオにおける我々のモデルの能力を示すために、暴力的かつ非暴力的な状況の54の映像の別のデータセットが記録された。
このモデルは54本中52本を正確に検出することができた。
提案手法は実シナリオにおける有望な性能を示す。
したがって、安全のために公共の場所での人間の行動認識や暴力検出に使用できる。
This paper proposes a hybrid fusion-based deep learning approach based on two different modalities, audio and video, to improve human activity recognition and violence detection in public places. To take advantage of audiovisual fusion, late fusion, intermediate fusion, and hybrid fusion-based deep learning (HFBDL) are used and compared. Since the objective is to detect and recognize human violence in public places, Real-life violence situation (RLVS) dataset is expanded and used. Simulating results of HFBDL show 96.67\% accuracy on validation data, which is more accurate than the other state-of-the-art methods on this dataset. To showcase our model's ability in real-world scenarios, another dataset of 54 sounded videos of both violent and non-violent situations was recorded. The model could successfully detect 52 out of 54 videos correctly. The proposed method shows a promising performance on real scenarios. Thus, it can be used for human action recognition and violence detection in public places for security purposes. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# ミニモンキー:マルチスケール適応型キャッピングによるソートゥース効果を軽減する
Mini-Monkey: Alleviate the Sawtooth Effect by Multi-Scale Adaptive Cropping ( http://arxiv.org/abs/2408.02034v1 ) ライセンス: Link先を確認 | Mingxin Huang, Yuliang Liu, Dingkang Liang, Lianwen Jin, Xiang Bai, | (参考訳) 近年,マルチモーダル大規模言語モデル (MLLM) の高解像度画像処理能力向上への関心が高まっている。
既存のほとんどの手法は、画像の詳細を理解するためのマルチモーダルな大規模言語モデルの能力を改善するために、収穫戦略を採用することに重点を置いている。
しかし、この収穫操作は必然的にオブジェクトと連結領域のセグメンテーションを引き起こし、MLLMが小さなまたは不規則な形やテキストを認識する能力を損なう。
この問題は軽量MLLMでは特に顕著である。
この問題に対処するため,マルチスケール適応作物戦略(MSAC)と呼ばれるプラグアンドプレイ方式を組み込んだ軽量MLLMであるMini-Monkeyを提案する。
Mini-Monkeyは適応的にマルチスケールの表現を生成し、様々なスケールから非セグメンテーションオブジェクトを選択できる。
画像トークンを効果的に圧縮するスケール圧縮機構(SCM)を提案する。
Mini-Monkeyは2BパラメータMLLM間の最先端性能を実現する。
これは、様々な汎用マルチモーダル理解タスクにおける主要なパフォーマンスを示すだけでなく、文書理解能力の一貫した改善を示す。
OCRBenchでは、Mini-Monkeyのスコアは802で、8Bパラメータの最先端モデルであるInternVL2-8Bを上回っている。
さらに、我々のモデルとトレーニング戦略は非常に効率的で、8つのRTX 3090でトレーニングできる。
コードはhttps://github.com/Yuliang-Liu/Monkeyで入手できる。
Recently, there has been significant interest in enhancing the capability of multimodal large language models (MLLMs) to process high-resolution images. Most existing methods focus on adopting a cropping strategy to improve the ability of multimodal large language models to understand image details. However, this cropping operation inevitably causes the segmentation of objects and connected areas, which impairs the MLLM's ability to recognize small or irregularly shaped objects or text. This issue is particularly evident in lightweight MLLMs. Addressing this issue, we propose Mini-Monkey, a lightweight MLLM that incorporates a plug-and-play method called multi-scale adaptive crop strategy (MSAC). Mini-Monkey adaptively generates multi-scale representations, allowing it to select non-segmented objects from various scales. To mitigate the computational overhead introduced by MSAC, we propose a Scale Compression Mechanism (SCM), which effectively compresses image tokens. Mini-Monkey achieves state-of-the-art performance among 2B-parameter MLLMs. It not only demonstrates leading performance on a variety of general multimodal understanding tasks but also shows consistent improvements in document understanding capabilities. On the OCRBench, Mini-Monkey achieves a score of 802, outperforming 8B-parameter state-of-the-art model InternVL2-8B. Besides, our model and training strategy are very efficient, which can be trained with only eight RTX 3090. The code is available at https://github.com/Yuliang-Liu/Monkey. | 翻訳日:2024-08-06 15:35:21 公開日:2024-08-04 |
# テキスト・画像拡散モデルにおける透かしのロバスト性
Robustness of Watermarking on Text-to-Image Diffusion Models ( http://arxiv.org/abs/2408.02035v1 ) ライセンス: Link先を確認 | Xiaodong Wu, Xiangman Li, Jianbing Ni, | (参考訳) ウォーターマーキングは、AI生成画像の識別を助けるだけでなく、これらのモデルの非倫理的使用に対する抑止力としても機能する、有望な技術のひとつになっている。
しかし近年,透かし技術の堅牢性は研究されていない。
本稿では,ジェネレーションモデル,例えば潜時拡散モデルにおいて,ウォーターマーキング埋め込みとテキスト・ツー・イメージ生成処理の統合から生成するジェネレーション・ウォーターマーキングの堅牢性について検討する。
具体的には、ウォーターマークデコーダがアクセスできないシナリオにおいて、識別器ベースの攻撃、エッジ予測ベースの攻撃、およびファインチューンベースの攻撃という3つの攻撃方法を提案する。
このモデルは、パーソナライズまたは特殊化のための特定の生成タスクを備えたAIエージェントに微調整することができる。
生成型透かし法は, 識別器による攻撃やエッジ予測に基づく攻撃のエッジ情報に基づく操作など, 直接回避攻撃に対して堅牢であるが, 悪意のある微調整には脆弱であることがわかった。
実験結果から,我々の微妙な攻撃は透かし検出の精度を約67.92 %$に低下させる可能性が示唆された。
さらに、微調整されたメッセージの長さ、エンコーダ/デコーダの深さと構造に関するアブレーション調査を行い、微調整による攻撃の性能に影響を与える重要な要因を特定する。
Watermarking has become one of promising techniques to not only aid in identifying AI-generated images but also serve as a deterrent against the unethical use of these models. However, the robustness of watermarking techniques has not been extensively studied recently. In this paper, we investigate the robustness of generative watermarking, which is created from the integration of watermarking embedding and text-to-image generation processing in generative models, e.g., latent diffusion models. Specifically, we propose three attacking methods, i.e., discriminator-based attacks, edge prediction-based attacks, and fine-tune-based attacks, under the scenario where the watermark decoder is not accessible. The model is allowed to be fine-tuned to created AI agents with specific generative tasks for personalizing or specializing. We found that generative watermarking methods are robust to direct evasion attacks, like discriminator-based attacks, or manipulation based on the edge information in edge prediction-based attacks but vulnerable to malicious fine-tuning. Experimental results show that our fine-tune-based attacks can decrease the accuracy of the watermark detection to nearly $67.92\%$. In addition, We conduct an ablation study on the length of fine-tuned messages, encoder/decoder's depth and structure to identify key factors that impact the performance of fine-tune-based attacks. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# LEGO: シーンテキスト画像のための自己監督型表現学習
LEGO: Self-Supervised Representation Learning for Scene Text Images ( http://arxiv.org/abs/2408.02036v1 ) ライセンス: Link先を確認 | Yujin Ren, Jiaxin Zhang, Lianwen Jin, | (参考訳) 近年,データ駆動方式によるシーンテキスト認識において,顕著な進歩がみられた。
しかし、注釈付き実世界のデータが不足しているため、これらの手法の訓練は主に合成データに依存している。
合成データと実データの間の分配ギャップは、実世界のアプリケーションにおけるこれらの手法のさらなる性能向上を妨げている。
この問題に対処するために、多くのNLPおよびCVタスクで広く有効な自己教師付きトレーニングに大量のラベルのない実データを活用するという、非常に有望なアプローチが提案されている。
それでも、汎用的な自己管理手法は、シーンのテキスト画像にそのシーケンシャルな性質から適さない。
この問題に対処するために,シーンテキスト画像の特徴を考慮に入れたローカル・エクスプリシット・グローバル・オーダー対応自己教師型表現学習法(LEGO)を提案する。
単語の綴り、読み、書きを含む人間の認知プロセスに触発され、レゴがそれぞれシーケンシャル、セマンティック、構造的特徴をモデル化するための3つの新しいプレテキストタスクを提案する。
事前学習プロセス全体は、一貫したテキスト知識コードブックを使用して最適化される。
広範囲にわたる実験により、LEGOは以前のシーンテキストの自己管理方法よりも優れていることが確認された。
事前学習モデルに組み込んだ認識器は,6つのベンチマークにおいて,最先端のシーンテキスト認識手法と比較して,優れた,あるいは同等のパフォーマンスを実現する。
さらに,LEGOは他のテキスト関連タスクにおいて優れたパフォーマンスを実現することができることを示す。
In recent years, significant progress has been made in scene text recognition by data-driven methods. However, due to the scarcity of annotated real-world data, the training of these methods predominantly relies on synthetic data. The distribution gap between synthetic and real data constrains the further performance improvement of these methods in real-world applications. To tackle this problem, a highly promising approach is to utilize massive amounts of unlabeled real data for self-supervised training, which has been widely proven effective in many NLP and CV tasks. Nevertheless, generic self-supervised methods are unsuitable for scene text images due to their sequential nature. To address this issue, we propose a Local Explicit and Global Order-aware self-supervised representation learning method (LEGO) that accounts for the characteristics of scene text images. Inspired by the human cognitive process of learning words, which involves spelling, reading, and writing, we propose three novel pre-text tasks for LEGO to model sequential, semantic, and structural features, respectively. The entire pre-training process is optimized by using a consistent Text Knowledge Codebook. Extensive experiments validate that LEGO outperforms previous scene text self-supervised methods. The recognizer incorporated with our pre-trained model achieves superior or comparable performance compared to state-of-the-art scene text recognition methods on six benchmarks. Furthermore, we demonstrate that LEGO can achieve superior performance in other text-related tasks. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# Pixel-Level Domain Adaptation: 弱修正セマンティックセグメンテーションの新たな視点
Pixel-Level Domain Adaptation: A New Perspective for Enhancing Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2408.02039v1 ) ライセンス: Link先を確認 | Ye Du, Zehua Fu, Qingjie Liu, | (参考訳) 近年,画像タグのみを用いたセマンティックセマンティックセマンティックモデルの学習に注目が集まっている。
既存の試みでは、クラス活性化マップ (Class Activation Maps, CAM) を、最も差別的な対象部分だけが位置する不均衡な活性化問題をまだ観察していない対象領域の先行として採用している。
本稿では,物体の識別的部分と非識別的部分との分布差が,モデルが完全かつ正確に擬似マスクを生成できないことを論じる。
そこで本研究では,ピクセル単位のドメイン不変性を学習する際のモデルとして,ピクセルレベルドメイン適応(PLDA)法を提案する。
具体的には、特徴抽出と逆向きに訓練されたマルチヘッドドメイン分類器を導入し、ソース(識別対象部分)とターゲット(非識別対象部分)とのシフトに関して不変な画素特徴の出現を促進する。
さらに,画像領域内対位訓練の補完として機能するセグメンテーションタスクにおいて,各画素の識別能力を保証するための信頼的擬似スーパービジョン戦略を考案した。
提案手法は概念的にシンプルで直感的であり,既存のWSSS手法と容易に統合できる。
いくつかの強力なベースラインモデルを例にとり、幅広い設定下でのアプローチの有効性を実験的に実証した。
Recent attention has been devoted to the pursuit of learning semantic segmentation models exclusively from image tags, a paradigm known as image-level Weakly Supervised Semantic Segmentation (WSSS). Existing attempts adopt the Class Activation Maps (CAMs) as priors to mine object regions yet observe the imbalanced activation issue, where only the most discriminative object parts are located. In this paper, we argue that the distribution discrepancy between the discriminative and the non-discriminative parts of objects prevents the model from producing complete and precise pseudo masks as ground truths. For this purpose, we propose a Pixel-Level Domain Adaptation (PLDA) method to encourage the model in learning pixel-wise domain-invariant features. Specifically, a multi-head domain classifier trained adversarially with the feature extraction is introduced to promote the emergence of pixel features that are invariant with respect to the shift between the source (i.e., the discriminative object parts) and the target (\textit{i.e.}, the non-discriminative object parts) domains. In addition, we come up with a Confident Pseudo-Supervision strategy to guarantee the discriminative ability of each pixel for the segmentation task, which serves as a complement to the intra-image domain adversarial training. Our method is conceptually simple, intuitive and can be easily integrated into existing WSSS methods. Taking several strong baseline models as instances, we experimentally demonstrate the effectiveness of our approach under a wide range of settings. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# 教師なし超音波画像解釈のためのディープスペクトル法
Deep Spectral Methods for Unsupervised Ultrasound Image Interpretation ( http://arxiv.org/abs/2408.02043v1 ) ライセンス: Link先を確認 | Oleksandra Tmenova, Yordanka Velikova, Mahdi Saleh, Nassir Navab, | (参考訳) 超音波イメージングは、非一様強度、低コントラスト、および固有のアーティファクトのために解釈することが困難であり、非特殊主義者のための広範な訓練を必要としている。
明確な組織構造を分離した高度な表現は、臨床医が基礎となる解剖学をマッピングし、組織層を区別するのに大いに役立ちます。
イメージを意味的に意味のあるセグメントに分解することは、主に教師付きセグメンテーションアルゴリズムを用いて達成される。
大規模ラベル付きデータセットの取得は困難でコストがかかるため、教師なしの手法は有用であるが、その利点にもかかわらず、超音波で調べる必要がある。
本稿では, 超音波を応用した非教師型深層学習手法を提案する。
我々は、スペクトルグラフ理論と深層学習法を組み合わせた教師なしディープスペクトル法から重要な概念を統合する。
スペクトルクラスタリングの自己教師型トランスフォーマー機能を利用して、超音波特有のメトリクスと形状と位置の先行値に基づいて意味のあるセグメントを生成し、データセット間のセマンティック一貫性を確保する。
我々は3つの超音波データセットの教師なしディープラーニング戦略を評価し、ラベルなしで解剖学的文脈で定性的な結果を示す。
また, 他のクラスタリングアルゴリズムとの比較分析を行い, セグメンテーション性能, 境界保存, ラベルの整合性を検証した。
Ultrasound imaging is challenging to interpret due to non-uniform intensities, low contrast, and inherent artifacts, necessitating extensive training for non-specialists. Advanced representation with clear tissue structure separation could greatly assist clinicians in mapping underlying anatomy and distinguishing between tissue layers. Decomposing an image into semantically meaningful segments is mainly achieved using supervised segmentation algorithms. Unsupervised methods are beneficial, as acquiring large labeled datasets is difficult and costly, but despite their advantages, they still need to be explored in ultrasound. This paper proposes a novel unsupervised deep learning strategy tailored to ultrasound to obtain easily interpretable tissue separations. We integrate key concepts from unsupervised deep spectral methods, which combine spectral graph theory with deep learning methods. We utilize self-supervised transformer features for spectral clustering to generate meaningful segments based on ultrasound-specific metrics and shape and positional priors, ensuring semantic consistency across the dataset. We evaluate our unsupervised deep learning strategy on three ultrasound datasets, showcasing qualitative results across anatomical contexts without label requirements. We also conduct a comparative analysis against other clustering algorithms to demonstrate superior segmentation performance, boundary preservation, and label consistency. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# Twitter/X感情分析における微調整多言語モデル--東欧V4言語の研究
Fine-tuning multilingual language models in Twitter/X sentiment analysis: a study on Eastern-European V4 languages ( http://arxiv.org/abs/2408.02044v1 ) ライセンス: Link先を確認 | Tomáš Filip, Martin Pavlíček, Petr Sosík, | (参考訳) アスペクトベースの感情分析(ABSA)は、多数のアプローチとベンチマークを持つ標準のNLPタスクであり、大きな言語モデル(LLM)は現在の最先端技術を表している。
未表現言語におけるTwitter/Xデータに基づくABSAサブタスクに着目した。
このような狭いタスクにおいて、小さなチューニングされた言語モデルは、しばしば普遍的な大きなタスクよりも優れ、利用可能な安価なソリューションを提供する。
LLM(BERT、BERTweet、Llama2、Llama3、Mistral)を、進行中の軍事紛争の文脈でロシアとウクライナに対する感情の分類のために微調整する。
トレーニング/テストデータセットは、2023年にTwitter/Xの学術APIから取得され、V4諸国(チェコ語、スロバキア語、ポーランド語、ハンガリー語)の言語に制限された。
そして、GPT4を参照モデルとして、翻訳、感情目標、コンテキスト内学習など、さまざまな設定でパフォーマンスを測定する。
いくつかのモデルは、多言語Twitterのタスクにおいて、他のモデルよりもはるかに細かいチューニングが可能であり、非常に小さなトレーニングセットでSOTAレベルに達することができることを示す興味深い現象をいくつか報告している。
最後に、最適な結果を提供する設定の組み合わせを特定します。
The aspect-based sentiment analysis (ABSA) is a standard NLP task with numerous approaches and benchmarks, where large language models (LLM) represent the current state-of-the-art. We focus on ABSA subtasks based on Twitter/X data in underrepresented languages. On such narrow tasks, small tuned language models can often outperform universal large ones, providing available and cheap solutions. We fine-tune several LLMs (BERT, BERTweet, Llama2, Llama3, Mistral) for classification of sentiment towards Russia and Ukraine in the context of the ongoing military conflict. The training/testing dataset was obtained from the academic API from Twitter/X during 2023, narrowed to the languages of the V4 countries (Czech Republic, Slovakia, Poland, Hungary). Then we measure their performance under a variety of settings including translations, sentiment targets, in-context learning and more, using GPT4 as a reference model. We document several interesting phenomena demonstrating, among others, that some models are much better fine-tunable on multilingual Twitter tasks than others, and that they can reach the SOTA level with a very small training set. Finally we identify combinations of settings providing the best results. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# DNA-SE: 半パラメトリック推定を支援するディープニューラルネットワークを目指して
DNA-SE: Towards Deep Neural-Nets Assisted Semiparametric Estimation ( http://arxiv.org/abs/2408.02045v1 ) ライセンス: Link先を確認 | Qinshuo Liu, Zixin Wang, Xi-An Li, Xinyao Ji, Lei Zhang, Lin Liu, Zhonghua Liu, | (参考訳) 半パラメトリック統計学は、欠落データ、因果推論、転帰学習などを含む幅広い領域において重要な役割を担っている。
多くの設定において、半パラメトリック理論は(ほぼ)統計学的に最適な手順をもたらすが、第二種のフレドホルム積分方程式を数値的に解く。
多項式やスプライン近似のような従来の数値法は多次元問題へのスケールが難しい。
あるいは統計学者は、元の積分方程式を閉形式解で近似することを選び、計算的により効率的であるが、統計的に最適でない、あるいは正しくない手順へと導かれる。
このギャップを埋めるために,二段階最適化問題としてセミパラメトリック推定問題を定式化し,さらに,ディープニューラルネットワーク(DNN)の普遍近似特性を活用して,ディープニューラルネットワーク支援セミパラメトリック推定(DNA-SE)と呼ばれるスケーラブルなアルゴリズムを開発した。
大規模な数値実験と実データ解析を通じて、従来の手法よりも$\dnase$の数値的および統計的利点を実証する。
我々の知る限り、我々はDNNを一般フレームワークにおける積分方程式の数値解法として半パラメトリック統計学に初めて導入した。
Semiparametric statistics play a pivotal role in a wide range of domains, including but not limited to missing data, causal inference, and transfer learning, to name a few. In many settings, semiparametric theory leads to (nearly) statistically optimal procedures that yet involve numerically solving Fredholm integral equations of the second kind. Traditional numerical methods, such as polynomial or spline approximations, are difficult to scale to multi-dimensional problems. Alternatively, statisticians may choose to approximate the original integral equations by ones with closed-form solutions, resulting in computationally more efficient, but statistically suboptimal or even incorrect procedures. To bridge this gap, we propose a novel framework by formulating the semiparametric estimation problem as a bi-level optimization problem; and then we develop a scalable algorithm called Deep Neural-Nets Assisted Semiparametric Estimation (DNA-SE) by leveraging the universal approximation property of Deep Neural-Nets (DNN) to streamline semiparametric procedures. Through extensive numerical experiments and a real data analysis, we demonstrate the numerical and statistical advantages of $\dnase$ over traditional methods. To the best of our knowledge, we are the first to bring DNN into semiparametric statistics as a numerical solver of integral equations in our proposed general framework. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# $\mathbb{Z}_4$ 1-形式対称性を持つ一般化された北エフハニカムモデルにおけるキラルスピン液体
Chiral spin liquid in a generalized Kitaev honeycomb model with $\mathbb{Z}_4$ 1-form symmetry ( http://arxiv.org/abs/2408.02046v1 ) ライセンス: Link先を確認 | Yu-Xin Yang, Meng Cheng, Ji-Yao Chen, | (参考訳) 我々は、ハミルトニアンと相互作用する単純な近傍相互作用を持つハニカム格子上でのKitaevモデルの大規模な一般化を探求する。
特に、正確な$\mathbb{Z}_4$ 1-形式対称性によって特徴づけられる等方結合を持つ$\mathbb{Z}_4$ケースに焦点を当てる。
対称性の考慮と、無限長のシリンダー上の単一鎖極限における解析的な研究により、モデルは非常に短い相関長でギャップがあることが判明した。
このことは、$\mathbb{Z}_4$ 1-形式対称性と組み合わせることで、モデルは位相的に順序づけられていることを示している。
この位相の性質を明らかにするために、有限長帯と無限長帯のモデルをさらに研究し、そこでは、自由ボソン CFT によって記述されるカイラルエッジモードの存在を示唆する$c=1$共形場理論(CFT)の記述を一貫して見出す。
さらなる証拠は、無限に長いストリップ上の二量体相関子を研究することによって発見される。
この二量体相関関数は、ストリップの境界付近で指数が2に近づき、バルク内でははるかに早く崩壊することを示す。
シリンダー幾何学から抽出されたトポロジカルエントロピーと組み合わせて、スピン液体はキラルであり、$\mathrm{U}(1)_{-8}$キラルトポロジカルオーダーをサポートする。
すべての $\mathbb{Z}_N$ モデルの統一的な視点についても論じる。
We explore a large $N$ generalization of the Kitaev model on the honeycomb lattice with a simple nearest-neighbor interacting Hamiltonian. In particular, we focus on the $\mathbb{Z}_4$ case with isotropic couplings, which is characterized by an exact $\mathbb{Z}_4$ one-form symmetry. Guided by symmetry considerations and an analytical study in the single chain limit, on the infinitely long cylinders, we find the model is gapped with an extremely short correlation length. Combined with the $\mathbb{Z}_4$ one-form symmetry, this suggests the model is topologically ordered. To pin down the nature of this phase, we further study the model on both finite and infinitely long strips, where we consistently find a $c=1$ conformal field theory (CFT) description, suggesting the existence of chiral edge modes described by a free boson CFT. Further evidence is found by studying the dimer correlators on infinitely long strips. We find the dimer correlation functions show a power-law decay with the exponent close to 2 on the boundary of the strip, while decay much faster in the bulk. Combined with the topological entanglement entropy extracted from cylinder geometry, we identify the spin liquid is chiral and supports a $\mathrm{U}(1)_{-8}$ chiral topological order. A unified perspective for all $\mathbb{Z}_N$ type Kitaev models is also discussed. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# 深層強化学習によるモバイルエッジ生成とコンピューティングのためのレイテンシを考慮したリソース割り当て
Latency-Aware Resource Allocation for Mobile Edge Generation and Computing via Deep Reinforcement Learning ( http://arxiv.org/abs/2408.02047v1 ) ライセンス: Link先を確認 | Yinyu Wu, Xuhui Zhang, Jinke Ren, Huijun Xing, Yanyan Shen, Shuguang Cui, | (参考訳) 近年、モバイルエッジコンピューティング(MEC)と生成人工知能(GAI)技術の統合により、モバイルエッジ生成・コンピューティング(MEGC)と呼ばれる新しい分野が生まれ、タスクコンピューティングやコンテンツ生成といった異種サービスを提供している。
本稿では,MEGCシステムにおける共同通信,計算,AIGC資源割り当て問題について検討する。
レイテンシの最小化問題は、まずモバイルユーザーのサービス品質を高めるために定式化される。
最適化変数の強い結合により,より効率的に解ける深部強化学習に基づくアルゴリズムを提案する。
数値計算により,提案アルゴリズムは2つのベースラインアルゴリズムよりも低レイテンシを実現することができることを示した。
Recently, the integration of mobile edge computing (MEC) and generative artificial intelligence (GAI) technology has given rise to a new area called mobile edge generation and computing (MEGC), which offers mobile users heterogeneous services such as task computing and content generation. In this letter, we investigate the joint communication, computation, and the AIGC resource allocation problem in an MEGC system. A latency minimization problem is first formulated to enhance the quality of service for mobile users. Due to the strong coupling of the optimization variables, we propose a new deep reinforcement learning-based algorithm to solve it efficiently. Numerical results demonstrate that the proposed algorithm can achieve lower latency than two baseline algorithms. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# 高時間変動を有する点雲における3次元物体追跡
3D Single-object Tracking in Point Clouds with High Temporal Variation ( http://arxiv.org/abs/2408.02049v1 ) ライセンス: Link先を確認 | Qiao Wu, Kun Sun, Pei An, Mathieu Salzmann, Yanning Zhang, Jiaqi Yang, | (参考訳) 点雲の高時間変動は、3D単一物体追跡(3D SOT)の鍵となる課題である。
既存のアプローチは、点雲の形状変化と、隣接するフレームを横切る物体の運動が滑らかであり、高時間変動データに対処できないという仮定に依存している。
本稿では,HVTrackと呼ばれる高時間変動の点群における3次元SOTのための新しいフレームワークを提案する。
HVTrackは、高時間変動シナリオにおける課題に取り組むために、3つの新しいコンポーネントを提案する。
1) 時間点雲の形状の変動を処理する相対型対応メモリモジュール。
2) 拡張検索領域における類似の物体の散逸に対処する基地拡張機能横断モジュール
3)重い背景雑音を抑えるためのコンテキストポイントガイド自己注意モジュール。
我々は、KITTIデータセットのサンプリングのために異なるフレーム間隔を設定することで、高時間変動(KITTI-HV)を持つデータセットを構築する。
5フレーム間隔のKITTI-HVでは、私たちのHVTrackは、最先端のトラッカーであるCXTrackerを11.3%/15.7%上回っている。
The high temporal variation of the point clouds is the key challenge of 3D single-object tracking (3D SOT). Existing approaches rely on the assumption that the shape variation of the point clouds and the motion of the objects across neighboring frames are smooth, failing to cope with high temporal variation data. In this paper, we present a novel framework for 3D SOT in point clouds with high temporal variation, called HVTrack. HVTrack proposes three novel components to tackle the challenges in the high temporal variation scenario: 1) A Relative-Pose-Aware Memory module to handle temporal point cloud shape variations; 2) a Base-Expansion Feature Cross-Attention module to deal with similar object distractions in expanded search areas; 3) a Contextual Point Guided Self-Attention module for suppressing heavy background noise. We construct a dataset with high temporal variation (KITTI-HV) by setting different frame intervals for sampling in the KITTI dataset. On the KITTI-HV with 5 frame intervals, our HVTrack surpasses the state-of-the-art tracker CXTracker by 11.3%/15.7% in Success/Precision. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# ニューラルネットワークを用いた部分状態解による自律システムの状態とダイナミクスの復元
Recovering the state and dynamics of autonomous system with partial states solution using neural networks ( http://arxiv.org/abs/2408.02050v1 ) ライセンス: Link先を確認 | Vijay Kag, | (参考訳) 本稿では,自律システムにおける深部隠れ物理モデル(M. Raissi 2018)の性能について検討する。
状態のダイナミクスは状態そのものに依存している。
このような系は自然界で発見でき、化学濃度、人口動態、物理学におけるn体問題などのモデリングに応用できる。
この研究では、限定された部分状態の解に基づいて状態のダイナミクスをどうやって得るかを見ていく。
提案手法では、トレーニング中にデータが利用されていない状態の解を正確に見つけることはできないが、トレーニング中にデータが提供される状態やダイナミクスを見つけることができる。
In this paper we explore the performance of deep hidden physics model (M. Raissi 2018) for autonomous system, this systems do not explicitly depend on time. The dynamics of states are dependent on states itself. Such systems can be found in nature and have applications in modeling chemical concentrations, population dynamics, n-body problems in physics etc. In this work we are going to see how we can obtain dynamics of states based on solution of limited partial states. The proposed method can find the state and dynamics of which the data is provided in the training, although we do not claim to accurately find the solution of states whose data is not utilized while training. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# EOL:outlier Logitsの強化によるトランスダクティブFew-Shotオープンセット認識
EOL: Transductive Few-Shot Open-Set Recognition by Enhancing Outlier Logits ( http://arxiv.org/abs/2408.02052v1 ) ライセンス: Link先を確認 | Mateusz Ochal, Massimiliano Patacchiola, Malik Boudiaf, Sen Wang, | (参考訳) FSL(Few-Shot Learning)では、モデルがクエリセットから見えないオブジェクトを認識するように訓練されている。
標準FSLでは、モデルは、サポートセットの同じクラス分布からサンプリングされたクエリインスタンスで評価される。
本研究では,Open-Set Few-Shot Recognition (OSFSL) のよりニュアンスで実践的な課題について検討する。
標準のFSLとは異なり、OSFSLは未知のクラスをクエリセットに組み込むため、既知のクラスを分類するだけでなく、外れ値を特定する必要がある。
従来の研究では,InfoMaxの原理を生かした新しいトランスダクティブ推論手法を定義した。
われわれはこの手法を拡張アウトリエ・ロジット(EOL)手法と呼んだ。
EOLはモデルのキャリブレーションを通じてクラスプロトタイプの表現を洗練し、イリヤ・アウトリア比を効果的にバランスさせる。
この校正により、クエリセットの擬似ラベル精度が向上し、トランスダクティブ推論プロセスにおける最適化目標が向上する。
我々は、EOLが従来の手法を一貫して上回り、様々な分類と外乱検出指標とベンチマークにおいて約$+1.3%$から$+6.3%$までのパフォーマンス改善を記録できることを実証した総合的な経験的評価を提供する。
In Few-Shot Learning (FSL), models are trained to recognise unseen objects from a query set, given a few labelled examples from a support set. In standard FSL, models are evaluated on query instances sampled from the same class distribution of the support set. In this work, we explore the more nuanced and practical challenge of Open-Set Few-Shot Recognition (OSFSL). Unlike standard FSL, OSFSL incorporates unknown classes into the query set, thereby requiring the model not only to classify known classes but also to identify outliers. Building on the groundwork laid by previous studies, we define a novel transductive inference technique that leverages the InfoMax principle to exploit the unlabelled query set. We called our approach the Enhanced Outlier Logit (EOL) method. EOL refines class prototype representations through model calibration, effectively balancing the inlier-outlier ratio. This calibration enhances pseudo-label accuracy for the query set and improves the optimisation objective within the transductive inference process. We provide a comprehensive empirical evaluation demonstrating that EOL consistently surpasses traditional methods, recording performance improvements ranging from approximately $+1.3%$ to $+6.3%$ across a variety of classification and outlier detection metrics and benchmarks, even in the presence of inlier-outlier imbalance. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# PanicleNeRF:スマートフォンを用いたイネパニックの低コスト・高精度フィールド表現
PanicleNeRF: low-cost, high-precision in-field phenotypingof rice panicles with smartphone ( http://arxiv.org/abs/2408.02053v1 ) ライセンス: Link先を確認 | Xin Yang, Xuqi Lu, Pengyao Xie, Ziyue Guo, Hui Fang, Haowei Fu, Xiaochun Hu, Zhenbiao Sun, Haiyan Cen, | (参考訳) イネの穂状形質は穀物収量に大きな影響を及ぼし,米の表現型研究の主目的となった。
しかし、既存の技術のほとんどは制御された屋内環境に限られており、自然の生育条件下では稲の穂の形質を捉えるのが困難である。
そこで我々は,スマートフォンを用いた3次元水稲パニックモデル(3D)の高精度かつ低コストな再構築を可能にする新手法であるPanicleNeRFを開発した。
提案手法は, 大規模モデルSegment Anything Model (SAM) と小型モデルYou Only Look Once Version 8 (YOLOv8) を組み合わせることで, イネパニック画像の高精度セグメンテーションを実現する。
その後,2次元分割画像を用いた3次元再構成にNeRF法を応用した。
最後に、結果の点雲を処理してパニック性の特徴を抽出する。
その結果、PanicleNeRFは2次元画像分割作業に効果的に対応し、平均F1スコア86.9%、平均IoU79.8%、境界重なり(BO)性能はYOLOv8の2倍に近いことがわかった。
点雲の品質に関しては、PanicleNeRFはCOLMAPやMetashapeといった従来のSfM-MVS(Structure-from-motionおよびMulti-view stereo)手法よりも大幅に優れていた。
その後、パニック長を正確に抽出し、インディカは2.94%、ジャポニカは1.75%とした。
3次元点雲から推定されるパニック体積は、インディカの粒数(R2 = 0.85、ジャポニカは 0.82、ジャポニカは0.80、ジャポニカは 0.76)と強く相関した。
本発明の方法は、イネの育種効率を向上し、イネパニックの高スループットインフィールド表現のための低コストなソリューションを提供する。
The rice panicle traits significantly influence grain yield, making them a primary target for rice phenotyping studies. However, most existing techniques are limited to controlled indoor environments and difficult to capture the rice panicle traits under natural growth conditions. Here, we developed PanicleNeRF, a novel method that enables high-precision and low-cost reconstruction of rice panicle three-dimensional (3D) models in the field using smartphone. The proposed method combined the large model Segment Anything Model (SAM) and the small model You Only Look Once version 8 (YOLOv8) to achieve high-precision segmentation of rice panicle images. The NeRF technique was then employed for 3D reconstruction using the images with 2D segmentation. Finally, the resulting point clouds are processed to successfully extract panicle traits. The results show that PanicleNeRF effectively addressed the 2D image segmentation task, achieving a mean F1 Score of 86.9% and a mean Intersection over Union (IoU) of 79.8%, with nearly double the boundary overlap (BO) performance compared to YOLOv8. As for point cloud quality, PanicleNeRF significantly outperformed traditional SfM-MVS (structure-from-motion and multi-view stereo) methods, such as COLMAP and Metashape. The panicle length was then accurately extracted with the rRMSE of 2.94% for indica and 1.75% for japonica rice. The panicle volume estimated from 3D point clouds strongly correlated with the grain number (R2 = 0.85 for indica and 0.82 for japonica) and grain mass (0.80 for indica and 0.76 for japonica). This method provides a low-cost solution for high-throughput in-field phenotyping of rice panicles, accelerating the efficiency of rice breeding. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# ステップセーバー:拡散モデル画像生成のための最小デノイングステップを予測する
Step Saver: Predicting Minimum Denoising Steps for Diffusion Model Image Generation ( http://arxiv.org/abs/2408.02054v1 ) ライセンス: Link先を確認 | Jean Yu, Haim Barad, | (参考訳) 本稿では,任意のテキストプロンプトに必要な最小ステップ数を決定するために,特に微調整された革新的なNLPモデルを提案する。
この高度なモデルはリアルタイムツールとして機能し、高品質な画像を効率よく生成するための理想的な装飾ステップを推奨する。
Diffusionモデルとシームレスに動作するように設計されており、可能な限り短時間で画像が優れた品質で生成されることを保証している。
本説明はDDIMスケジューラに焦点を当てているが,本手法は適用可能であり,Euler, Euler Ancestral, Heun, DPM2 Karras, UniPCなどのスケジューラにも適用可能である。
このモデルにより、顧客は、生成した画像の最適な品質を達成するために必要な最小限のデノナイズステップを実行することで、コストの高い計算資源を保存できる。
In this paper, we introduce an innovative NLP model specifically fine-tuned to determine the minimal number of denoising steps required for any given text prompt. This advanced model serves as a real-time tool that recommends the ideal denoise steps for generating high-quality images efficiently. It is designed to work seamlessly with the Diffusion model, ensuring that images are produced with superior quality in the shortest possible time. Although our explanation focuses on the DDIM scheduler, the methodology is adaptable and can be applied to various other schedulers like Euler, Euler Ancestral, Heun, DPM2 Karras, UniPC, and more. This model allows our customers to conserve costly computing resources by executing the fewest necessary denoising steps to achieve optimal quality in the produced images. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# MedSyn: LLMベースの医用テキスト生成フレームワーク
MedSyn: LLM-based Synthetic Medical Text Generation Framework ( http://arxiv.org/abs/2408.02056v1 ) ライセンス: Link先を確認 | Gleb Kumichev, Pavel Blinov, Yulia Kuzkina, Vasily Goncharov, Galina Zubkova, Nikolai Zenovkin, Aleksei Goncharov, Andrey Savchenko, | (参考訳) 合成テキストの生成は、医療などプライバシに敏感な領域におけるデータ可用性の課題に対処する。
本研究では,実世界の医療環境における合成データの適用性について検討する。
MedSynは医療知識グラフ(MKG)と大規模言語モデルを統合する新しい医療用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
ICDコード予測タスクの応用による合成データの利点を評価する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
さらに、医療分野におけるさらなる研究のための新たなデータを提供するため、219のICD-10コードをカバーする41k以上のサンプルからなる、ロシア語の臨床ノートのオープンソース合成データセットを提示する。
Generating synthetic text addresses the challenge of data availability in privacy-sensitive domains such as healthcare. This study explores the applicability of synthetic data in real-world medical settings. We introduce MedSyn, a novel medical text generation framework that integrates large language models with a Medical Knowledge Graph (MKG). We use MKG to sample prior medical information for the prompt and generate synthetic clinical notes with GPT-4 and fine-tuned LLaMA models. We assess the benefit of synthetic data through application in the ICD code prediction task. Our research indicates that synthetic data can increase the classification accuracy of vital and challenging codes by up to 17.8% compared to settings without synthetic data. Furthermore, to provide new data for further research in the healthcare domain, we present the largest open-source synthetic dataset of clinical notes for the Russian language, comprising over 41k samples covering 219 ICD-10 codes. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# 量子ベイズゲーム
Quantum Bayesian Games ( http://arxiv.org/abs/2408.02058v1 ) ライセンス: Link先を確認 | John B. DeBrota, Peter J. Love, | (参考訳) 我々は、QBismにインスパイアされたベイズエージェントベースのフレームワークを、2つの量子ゲーム、CHSHゲームと量子囚人ジレンマの反復に適用する。
各2人プレイヤゲームでは、プレイヤーは共有される絡み合いの量と、他のプレイヤーの行動や信念についての信念を保持する。
それぞれの行動は、期待された効用を最大化し、ラウンド間の古典的ベイズ規則で彼らの信念を再考する。
プレイヤーが共通の絡み合いの存在について学べるかどうかをシミュレートし、彼らのパフォーマンス、彼らの信念、そしてゲームの構造がどのように相互に関連しているかを探るため、繰り返しプレイをシミュレートする。
CHSHゲームでは、プレイヤーが絡み合いがあることを学習し、これを量子的優位性を達成するために利用する。
相手プレイヤーが正しく行動して絡み合いを悪用すると信じている場合に限り、彼らはそれを行うことができる。
CHSHゲームにおいて、低あるいはゼロの絡み合いの場合、プレイヤーは、その絡み合いがそれよりも高いと信じている場合でも、量子的優位性を達成することができない。
囚人ジレンマに対して、1倍の有理的プレイヤー(他方のプレイヤーも有理的であると考える有理的プレイヤー)を仮定すると、囚人ジレンマの量子拡張(アイザート、ウィルケンスおよびルウェンシュタイン、Phys. Lett. 83, 3077 (1999))を2つの戦略しか持たないゲームに還元し、一方(欠陥)は低絡みに支配的であり、他方(量子戦略Q)は高い絡み合いに支配的であることを示す。
中間的絡み合いでは、どちらの戦略も支配的ではない。
また、プレイヤーが繰り返しプレイで絡み合いを学習できることを示します。
また,エンタングルメントに対する強い信念が,エンタングルメントが欠如していても最適なプレイを引き起こすことも示し,エンタングルメントに対する信念がプレイヤー同士の信頼の代役として機能していることを示す。
我々の研究は、リソース検出と量子アルゴリズム設計における将来の応用の可能性を示している。
We apply a Bayesian agent-based framework inspired by QBism to iterations of two quantum games, the CHSH game and the quantum prisoners' dilemma. In each two-player game, players hold beliefs about an amount of shared entanglement and about the actions or beliefs of the other player. Each takes actions which maximize their expected utility and revises their beliefs with the classical Bayes rule between rounds. We simulate iterated play to see if and how players can learn about the presence of shared entanglement and to explore how their performance, their beliefs, and the game's structure interrelate. In the CHSH game, we find that players can learn that entanglement is present and use this to achieve quantum advantage. We find that they can only do so if they also believe the other player will act correctly to exploit the entanglement. In the case of low or zero entanglement in the CHSH game, the players cannot achieve quantum advantage, even in the case where they believe the entanglement is higher than it is. For the prisoners dilemma, we show that assuming 1-fold rational players (rational players who believe the other player is also rational) reduces the quantum extension [Eisert, Wilkens, and Lewenstein, Phys. Rev. Lett. 83, 3077 (1999)] of the prisoners dilemma to a game with only two strategies, one of which (defect) is dominant for low entanglement, and the other (the quantum strategy Q) is dominant for high entanglement. For intermediate entanglement, neither strategy is dominant. We again show that players can learn entanglement in iterated play. We also show that strong belief in entanglement causes optimal play even in the absence of entanglement -- showing that belief in entanglement is acting as a proxy for the players trusting each other. Our work points to possible future applications in resource detection and quantum algorithm design. | 翻訳日:2024-08-06 15:25:25 公開日:2024-08-04 |
# 自信を持つ勝者: モデル選択への応用とArgmin推論の離散化
Winners with Confidence: Discrete Argmin Inference with an Application to Model Selection ( http://arxiv.org/abs/2408.02060v1 ) ライセンス: Link先を確認 | Tianyu Zhang, Hao Lee, Jing Lei, | (参考訳) 本研究では,雑音観測からベクトルの最小値の指数を求める問題について検討する。
この問題は、人口/政治比較、離散的最大可能性、モデル選択に関係している。
クロスバリデーションと差分プライバシーから概念とツールを統合することで、高次元の設定でも、また人口平均ベクトルが潜在的に多くの関係を持つ、漸近的に正常なテスト統計法を開発した。
重要な技術的要素は、グローバル依存データに対する中心極限定理である。
また,信号ランドスケープに適応するチューニングパラメータを選択するための実用的な方法を提案する。
We study the problem of finding the index of the minimum value of a vector from noisy observations. This problem is relevant in population/policy comparison, discrete maximum likelihood, and model selection. We develop a test statistic that is asymptotically normal, even in high-dimensional settings and with potentially many ties in the population mean vector, by integrating concepts and tools from cross-validation and differential privacy. The key technical ingredient is a central limit theorem for globally dependent data. We also propose practical ways to select the tuning parameter that adapts to the signal landscape. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# ParkingE2E: 画像から計画まで、カメラによるエンドツーエンドのパーキングネットワーク
ParkingE2E: Camera-based End-to-end Parking Network, from Images to Planning ( http://arxiv.org/abs/2408.02061v1 ) ライセンス: Link先を確認 | Changze Li, Ziheng Ji, Zhe Chen, Tong Qin, Ming Yang, | (参考訳) 自律駐車はインテリジェントな運転分野において重要な課題である。
従来のパーキングアルゴリズムは通常ルールベースのスキームを使って実装される。
しかし、これらの手法はアルゴリズムの複雑な設計のため、複雑な駐車シナリオでは効果が低い。
対照的に、ニューラルネットワークベースの手法はルールベースの手法よりも直感的で汎用性が高い傾向にある。
多数の専門的な駐車軌跡データを収集し、学習に基づく手法で人的戦略をエミュレートすることにより、効果的に駐車作業に対処できる。
本稿では,人間の運転軌跡を模倣して,RGB画像から経路計画までのエンド・ツー・エンド・プランニングを行うために模倣学習を用いる。
提案したエンドツーエンドアプローチでは、ターゲットクエリエンコーダを使用して画像とターゲット特徴を融合し、トランスフォーマーベースのデコーダを使用して将来のウェイポイントを自動回帰予測する。
提案手法は, 実世界の4つのガレージにおいて, 平均駐車成功率87.8%を達成した。
実車実験は,提案手法の有効性と有効性をさらに検証する。
Autonomous parking is a crucial task in the intelligent driving field. Traditional parking algorithms are usually implemented using rule-based schemes. However, these methods are less effective in complex parking scenarios due to the intricate design of the algorithms. In contrast, neural-network-based methods tend to be more intuitive and versatile than the rule-based methods. By collecting a large number of expert parking trajectory data and emulating human strategy via learning-based methods, the parking task can be effectively addressed. In this paper, we employ imitation learning to perform end-to-end planning from RGB images to path planning by imitating human driving trajectories. The proposed end-to-end approach utilizes a target query encoder to fuse images and target features, and a transformer-based decoder to autoregressively predict future waypoints. We conducted extensive experiments in real-world scenarios, and the results demonstrate that the proposed method achieved an average parking success rate of 87.8% across four different real-world garages. Real-vehicle experiments further validate the feasibility and effectiveness of the method proposed in this paper. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# 時間依存ハミルトニアンの経路積分的アプローチと導関数価格への応用
A Path Integral Approach for Time-Dependent Hamiltonians with Applications to Derivatives Pricing ( http://arxiv.org/abs/2408.02064v1 ) ライセンス: Link先を確認 | Mark Stedman, Luca Capriotti, | (参考訳) ジアチェッティとトグネッティ(英語版)(Phys. 55, 912 (1985))とファインマンとクラインナート(英語版)(Phys. A 34, 5080 (1986)))によって導入された半古典経路積分アプローチを時間依存のハミルトン人に一般化し、この方法の範囲を金融デリバティブの価格に拡張する。
利子率のダイナミックスに対して、よく知られた、しかし解析的に難解なブラック・カラシンスキーモデルの結果を提示することにより、アプローチの正確性を説明する。
この経路積分アプローチの精度と計算効率は、導関数価格の様々な応用に対する完全な数値スキームの代替となる。
We generalize a semi-classical path integral approach originally introduced by Giachetti and Tognetti [Phys. Rev. Lett. 55, 912 (1985)] and Feynman and Kleinert [Phys. Rev. A 34, 5080 (1986)] to time-dependent Hamiltonians, thus extending the scope of the method to the pricing of financial derivatives. We illustrate the accuracy of the approach by presenting results for the well-known, but analytically intractable, Black-Karasinski model for the dynamics of interest rates. The accuracy and computational efficiency of this path integral approach makes it a viable alternative to fully-numerical schemes for a variety of applications in derivatives pricing. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# ディープカジュアルネットワークを利用したマルチクラス配車サービスサブシディシステム
A Multi-class Ride-hailing Service Subsidy System Utilizing Deep Causal Networks ( http://arxiv.org/abs/2408.02065v1 ) ライセンス: Link先を確認 | Zhe Yu, Chi Xia, Shaosheng Cao, Lin Zhou, | (参考訳) 配車業界では、補助金は主に消費者により多くの注文のインセンティブを与え、市場の成長を促進するために雇われている。
消費者の弾力性を異なる補助レベルで推定するために因果推論技術が用いられている。
しかし、共起効果の存在は、上昇効果の偏りのない見積もりを達成する上での課題を生じさせる。
本稿では, 補助金の妥当性と治療効果の関係を把握し, 軽量なオンライン環境を維持しながら有効であることを実証する消費者助成制度を提案する。
In the ride-hailing industry, subsidies are predominantly employed to incentivize consumers to place more orders, thereby fostering market growth. Causal inference techniques are employed to estimate the consumer elasticity with different subsidy levels. However, the presence of confounding effects poses challenges in achieving an unbiased estimate of the uplift effect. We introduce a consumer subsidizing system to capture relationships between subsidy propensity and the treatment effect, which proves effective while maintaining a lightweight online environment. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# PromptSAM+: Prompt Segment Anything Modelに基づくマルウェア検出
PromptSAM+: Malware Detection based on Prompt Segment Anything Model ( http://arxiv.org/abs/2408.02066v1 ) ライセンス: Link先を確認 | Xingyuan Wei, Yichen Liu, Ce Li, Ning Li, Degang Sun, Yan Wang, | (参考訳) 機械学習とディープラーニング(ML/DL)はマルウェア検出に広く応用されており、いくつかの既存手法は堅牢な性能を示している。
しかし、マルウェア検出の分野では、(1)既存の作業は実用性を犠牲にして精度を過度に強調し、重要な指標として偽陽性と偽陰性率を考慮することは滅多にない。
2) マルウェアの進化を考えると, 分類器の性能は時間とともに著しく低下し, マルウェア検出装置の実用性が著しく低下する。
3) ML/DLベースの以前の取り組みは、モデルトレーニングに十分なラベル付きデータに大きく依存しており、機能エンジニアリングや機能データベースを構築するためのドメイン知識に大きく依存しています。
コンピュータビジョンの発展に伴い、視覚ベースのマルウェア検出技術も急速に進化してきた。
本稿では,大規模な視覚ネットワークセグメンテーションモデルであるPrompt Segment Anything Model(PromptSAM+)に基づいて,視覚マルウェアの汎用化分類フレームワークであるPromptSAM+を提案する。
実験の結果,「PromptSAM+」はマルウェアの検出・分類において有効かつ効果的であり,偽陽性・偽陰性で高い精度と低率を達成できることが示唆された。
提案手法は,複数のデータセット上で最も高度な画像ベースマルウェア検出技術より優れている。
PromptSAM+」は、既存の画像ベースのマルウェア分類器の老化を軽減し、アクティブラーニングを通じて新しいマルウェアのサンプルをラベル付けするのに必要なかなりの能力を減らすことができる。
我々はWindowsとAndroidの両方のプラットフォームでデータセットの実験を行い、良好な結果を得た。
さらに、いくつかのデータセットに対するアブレーション実験により、我々のモデルは、大きな視覚ネットワーク内の有効モジュールを識別することを示した。
Machine learning and deep learning (ML/DL) have been extensively applied in malware detection, and some existing methods demonstrate robust performance. However, several issues persist in the field of malware detection: (1) Existing work often overemphasizes accuracy at the expense of practicality, rarely considering false positive and false negative rates as important metrics. (2) Considering the evolution of malware, the performance of classifiers significantly declines over time, greatly reducing the practicality of malware detectors. (3) Prior ML/DL-based efforts heavily rely on ample labeled data for model training, largely dependent on feature engineering or domain knowledge to build feature databases, making them vulnerable if correct labels are scarce. With the development of computer vision, vision-based malware detection technology has also rapidly evolved. In this paper, we propose a visual malware general enhancement classification framework, `PromptSAM+', based on a large visual network segmentation model, the Prompt Segment Anything Model(named PromptSAM+). Our experimental results indicate that 'PromptSAM+' is effective and efficient in malware detection and classification, achieving high accuracy and low rates of false positives and negatives. The proposed method outperforms the most advanced image-based malware detection technologies on several datasets. 'PromptSAM+' can mitigate aging in existing image-based malware classifiers, reducing the considerable manpower needed for labeling new malware samples through active learning. We conducted experiments on datasets for both Windows and Android platforms, achieving favorable outcomes. Additionally, our ablation experiments on several datasets demonstrate that our model identifies effective modules within the large visual network. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# 円量子カスケードの相関
Correlations in Circular Quantum Cascades ( http://arxiv.org/abs/2408.02068v1 ) ライセンス: Link先を確認 | Miguel Ángel Palomo Marcos, Eduardo Zubizarreta Casalengua, Elena del Valle, Fabrice P. Laussy, | (参考訳) 一方向の1量子カスケードを導入し、一つの励起がエネルギーレベルのはしごで一方向に進行する。
これは、より有名な双方向のカスケードのバリエーションであり、このケースでは、ラダー内での興奮やリラックスの後に、励起が上下に上がることができる。
このような円カスケード内の遷移間の2光子相関関数に対する閉形式解を提供する。
非常に単純な実装であるように見える相関関係が、本質的には、強く相関した多体物理学や空洞QED効果に依存する複雑なアーキテクチャから楽しまれているものであるかについて議論する。
We introduce a one-way, one-quantum cascade, whereby a single excitation proceeds one-directionwise in a ladder of energy levels. This makes a variation from more famous two-way cascades where the excitation can go up and down following its excitation or relaxation in the ladder. We provide closed-form solutions for two-photon correlation functions between any transitions in such circular cascades. We discuss how the rich correlations that result from what appears to be an extremely simple implementation, are essentially those which have been entertained from complex architectures relying on strongly-correlated, many-body physics or cavity QED effects. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# ランダウアーの原理とブラックホール領域の量子化
Landauer's principle and black hole area quantization ( http://arxiv.org/abs/2408.02077v1 ) ライセンス: Link先を確認 | Bijan Bagchi, Aritra Ghosh, Sauvik Sen, | (参考訳) この記事では、シュワルツシルトブラックホールの領域量子化の文脈における情報理論からランダウアーの原理を評価する。
ホーキング蒸発が領域(または質量)スペクトルの離散状態間の遷移の観点で解釈できる量子力学的視点の中では、ランダウアーの原理は、ブラックホールのミクロ状態の数が2^n$となるとき、半古典的な状態における領域/質量スペクトルのレベルを示す大きな正の整数であるような境界飽和と一貫して一致することを正当化する。
これは、$\Delta A = \alpha n l_P^2$(自然単位)の領域と等価であり、$\alpha = 4 \ln 2$ はボルツマン単位の連続レベル間のエントロピー間隔がちょうど1ビットの情報と一致する。
また、文献で一般的な$\alpha$の他の値についてもコメントします。
This article assesses Landauer's principle from information theory in the context of area quantization of the Schwarzschild black hole. Within a quantum-mechanical perspective where Hawking evaporation can be interpreted in terms of transitions between the discrete states of the area (or mass) spectrum, we justify that Landauer's principle holds consistently with the bound saturating when the number of microstates of the black hole goes as $2^n$, where $n$ is a large positive integer labeling the levels of the area/mass spectrum in the semiclassical regime. This is equivalent to the area spacing $\Delta A = \alpha n l_P^2$ (in natural units), where $\alpha = 4 \ln 2$ for which the entropy spacing between consecutive levels in Boltzmann units coincides exactly with one bit of information. We also comment on the situation for other values of $\alpha$ prevalent in the literature. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# LDFaceNet:高忠実ディープフェイク生成のための潜時拡散型ネットワーク
LDFaceNet: Latent Diffusion-based Network for High-Fidelity Deepfake Generation ( http://arxiv.org/abs/2408.02078v1 ) ライセンス: Link先を確認 | Dwij Mehta, Aditya Mehta, Pratik Narang, | (参考訳) 過去10年間で、合成メディア生成の領域は飛躍的な進歩を遂げた。
これは主にGAN(Generative Adversarial Network)に基づく強力な手法が原因である。
最近では、非平衡熱力学にインスパイアされた拡散確率モデルが注目を浴びている。
画像生成の分野では,拡散モデル (DM) は, 確率的サンプリング法により, 現実的および異種画像の生成に顕著な習熟性を示した。
本稿では,表情分割と顔認識モジュールを条件付き認知プロセスに用いるガイド付き潜時拡散モデルに基づいて,LDFaceNet(Latent Diffusion based Face Swapping Network)と呼ばれる新しい顔交換モジュールを提案する。
モデルは拡散過程への方向案内を提供するためにユニークな損失関数を用いる。
特にLDFaceNetは、リトレーニングなしに、望ましい結果のために補足的な顔のガイダンスを組み込むことができる。
我々の知る限り、これは事前のトレーニングを伴わずにフェイススワッピングタスクにおける潜伏拡散モデルの最初の応用である。
本研究は,顔のスワップに拡散モデルのポテンシャルを生かして,極めてリアルでコヒーレントな画像を生成することができることを示す。
Over the past decade, there has been tremendous progress in the domain of synthetic media generation. This is mainly due to the powerful methods based on generative adversarial networks (GANs). Very recently, diffusion probabilistic models, which are inspired by non-equilibrium thermodynamics, have taken the spotlight. In the realm of image generation, diffusion models (DMs) have exhibited remarkable proficiency in producing both realistic and heterogeneous imagery through their stochastic sampling procedure. This paper proposes a novel facial swapping module, termed as LDFaceNet (Latent Diffusion based Face Swapping Network), which is based on a guided latent diffusion model that utilizes facial segmentation and facial recognition modules for a conditioned denoising process. The model employs a unique loss function to offer directional guidance to the diffusion process. Notably, LDFaceNet can incorporate supplementary facial guidance for desired outcomes without any retraining. To the best of our knowledge, this represents the first application of the latent diffusion model in the face-swapping task without prior training. The results of this study demonstrate that the proposed method can generate extremely realistic and coherent images by leveraging the potential of the diffusion model for facial swapping, thereby yielding superior visual outcomes and greater diversity. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# 多視点画像からの特徴量によるニューラルサーフェス再構成の改良
Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image ( http://arxiv.org/abs/2408.02079v1 ) ライセンス: Link先を確認 | Xinlin Ren, Chenjie Cao, Yanwei Fu, Xiangyang Xue, | (参考訳) ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
しかし、画像空間における光度整合性のみに依存することは、オクルージョンや非ランベルト面を含む実世界のデータによって引き起こされる複雑さに対処できない。
これらの課題に対処するために,様々な視覚的タスクから価値ある特徴を活用し,現在の制約を克服することを目的とした,特徴レベルの一貫した損失の調査を提案する。
NSRの強化に最も効果的な視覚的タスクを決定するのに、既存のギャップがあることに注意する必要がある。
本研究では,13の手法からなる7つの前文視覚課題から,多視点特徴を包括的に探索する。
我々の主な目標は、幅広い可能性を考慮してNSRトレーニングを強化することです。
さらに,NSRの性能向上のための効果的な戦略について考察し,画素単位でもパッチ的にも一貫した損失も評価する。
MVSFormer と QuadTree の事前学習表現を組み込むことで,MVS-NeuS と Match-NeuS のバリエーションを生成することができる。
DTUとEPFLのデータセットを用いて分析した結果,画像マッチングやマルチビューステレオによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
さらに,パッチワイド光度一貫性を機能レベルに拡張することで,画素ワイドアプローチの性能を上回ることが判明した。
これらの知見は,NSR成績の向上におけるこれらの手法の有効性を裏付けるものである。
Recent advancements in Neural Surface Reconstruction (NSR) have significantly improved multi-view reconstruction when coupled with volume rendering. However, relying solely on photometric consistency in image space falls short of addressing complexities posed by real-world data, including occlusions and non-Lambertian surfaces. To tackle these challenges, we propose an investigation into feature-level consistent loss, aiming to harness valuable feature priors from diverse pretext visual tasks and overcome current limitations. It is crucial to note the existing gap in determining the most effective pretext visual task for enhancing NSR. In this study, we comprehensively explore multi-view feature priors from seven pretext visual tasks, comprising thirteen methods. Our main goal is to strengthen NSR training by considering a wide range of possibilities. Additionally, we examine the impact of varying feature resolutions and evaluate both pixel-wise and patch-wise consistent losses, providing insights into effective strategies for improving NSR performance. By incorporating pre-trained representations from MVSFormer and QuadTree, our approach can generate variations of MVS-NeuS and Match-NeuS, respectively. Our results, analyzed on DTU and EPFL datasets, reveal that feature priors from image matching and multi-view stereo outperform other pretext tasks. Moreover, we discover that extending patch-wise photometric consistency to the feature level surpasses the performance of pixel-wise approaches. These findings underscore the effectiveness of these techniques in enhancing NSR outcomes. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# Pythonとブロックチェーンを用いたセキュアで透明な医療記録管理システム
Secure and Transparent Medical Record Management System Using Python and Blockchain ( http://arxiv.org/abs/2408.02081v1 ) ライセンス: Link先を確認 | Atchiyya Naidu Chitikela, | (参考訳) 本稿では,従来の医療記録システムで直面する課題に対処するため,ブロックチェーン技術上に構築されたロバストな健康記録ストレージと管理システムを提案する。
医療記録管理にブロックチェーンを採用する主な利点は、セキュアで分散化されたプラットフォームを提供する能力である。
単一障害点がデータの整合性とセキュリティを損なう従来の集中型データベースとは異なり、ブロックチェーンはノードのネットワークにデータを分散し、サイバー攻撃に対する冗長性とレジリエンスを確保する。
この分散型ブロックチェーンの性質は、データセキュリティとプライバシ、センシティブなヘルス情報を扱う上で重要な考慮事項を強化する。
提案システムの中心となるのは,事前定義されたルールと条件を持つ自己実行契約であるスマートコントラクトの利用である。
スマートコントラクトは、事前に定義された許可とプロトコルに基づいて、データアクセス、共有、更新などのヘルスレコード管理に関連するプロセスを自動化する。
この自動化は、管理タスクの合理化だけでなく、ヒューマンエラーのリスクを低減し、データの正確性と一貫性を確保する。
さらに,本システムでは,患者の健康記録を完全にコントロールすることで,患者のエンパワーメントを優先する。
患者は暗号化キーを使用してデータを安全にアクセスし、管理することができ、必要に応じて医療提供者や他の認可された機関に許可を与えることができる。
全体として、ブロックチェーン上で提案したヘルスレコードストレージと管理システムは、セキュリティの強化、データの整合性、透明性、患者のコントロールなど、従来のシステムに対して大きなアドバンテージを提供します。
ブロックチェーン技術とスマートコントラクトを活用することで、医療組織は記録管理プラクティスに革命を起こし、セキュアなエコシステムを維持することができる。
In this paper, we propose a robust health record storage and management system built on blockchain technology to address the challenges faced by traditional healthcare record systems. The primary advantage of employing blockchain in healthcare record management is its ability to provide a secure and decentralized platform. Unlike traditional centralized databases, where a single point of failure can compromise data integrity and security, blockchain distributes data across a network of nodes, ensuring redundancy and resilience against cyber-attacks. This distributed nature of blockchain enhances data security and privacy, crucial considerations when dealing with sensitive health information. Central to our proposed system is the utilization of smart contracts, which are self-executing contracts with predefined rules and conditions. Smart contracts automate processes related to health record management, such as data access, sharing, and updating, based on predefined permissions and protocols. This automation not only streamlines administrative tasks but also reduces the risk of human errors and ensures data accuracy and consistency. Furthermore, our system prioritizes patient empowerment by granting individuals complete control over their health records. Patients can securely access and manage their data using cryptographic keys, granting permission to healthcare providers or other authorized entities as needed. Overall, our proposed health record storage and management system on the blockchain offer significant advantages over traditional systems, including enhanced security, data integrity, transparency, and patient control. By leveraging blockchain technology and smart contracts, healthcare organizations can revolutionize their record management practices, and maintaining secure ecosystems. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# 量子誤り訂正のベンチマークにインタクタ様を用いる
Using Detector Likelihood for Benchmarking Quantum Error Correction ( http://arxiv.org/abs/2408.02082v1 ) ライセンス: Link先を確認 | Ian Hesner, Bence Hetényi, James R. Wootton, | (参考訳) 実際の量子ハードウェアの挙動は、量子エラー補正をシミュレートする際に一般的に使用される単純なエラーモデルと大きく異なる。
誤差過程は単一ゲートに適用される単純な偏極ノイズよりもはるかに複雑であり、誤差速度は異なるキュービットと回路の異なる点で大きく変化する。
それでも、単純な一様誤差モデルに対する効果的なエラー率という、この複雑な振る舞いを1つのパラメータに抽出することは有用である。
ここでは,誤差検出の発生頻度を定量化する平均検出率を用いて,これを実現できることを示す。
このパラメータは,2種類の曲面コードに対して,Floquet符号と3-CX曲面コードに対して,全体的なコード性能を予測できることを示す。
このことは、単純な一様雑音モデルに対するシミュレーションが同じ平均検出可能性をもたらすような効果的な誤差率と、論理的誤差率のよい予測を定義するために用いられる。
The behavior of real quantum hardware differs strongly from the simple error models typically used when simulating quantum error correction. Error processes are far more complex than simple depolarizing noise applied to single gates, and error rates can vary greatly between different qubits, and at different points in the circuit. Nevertheless, it would be useful to distill all this complicated behavior down to a single parameter: an effective error rate for a simple uniform error model. Here we show that this can be done by means of the average detector likelihood, which quantifies the rate at which error detection events occur. We show that this parameter is predictive of the overall code performance for two variants of the surface code: Floquet codes and the 3-CX surface code. This is then used to define an effective error rate at which simulations for a simple uniform noise model result in the same average detector likelihood, as well as a good prediction of the logical error rate. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# データ津波の力を解き明かす:言語モデルの学習指導のためのデータアセスメントと選択に関する包括的調査
Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models ( http://arxiv.org/abs/2408.02085v1 ) ライセンス: Link先を確認 | Yulei Qin, Yuncheng Yang, Pengcheng Guo, Gang Li, Hang Shao, Yuchen Shi, Zihan Xu, Yun Gu, Ke Li, Xing Sun, | (参考訳) インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
膨大な量のオープンな命令データセットにもかかわらず、既存のすべての命令に対してLSMを鼻で訓練することは、最適で実用的ではないかもしれない。
最も有用なデータポイントを特定するために、自然言語処理(NLP)とディープラーニングの分野において、データアセスメントと選択法が提案されている。
しかし、命令チューニングのコンテキスト下では、どのようなデータ評価指標を使用できるか、どのように選択メカニズムに統合できるかについて、知識のギャップがまだ残っている。
このギャップを埋めるため,従来のデータアセスメントと選択に関する文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
我々は、すべての適用可能な手法を、統一されたきめ細かい分類法が構成されている品質ベース、多様性ベース、重要ベースに体系的に分類する。
各カテゴリについて、関連する研究の展望を説明するために、代表的手法を詳述する。
また, 最新の手法の比較を, 公式報告された結果に基づいて実施し, その限界について詳細な議論を行う。
最後に,オープンな課題を要約し,今後の研究の道筋を提案する。
関連コンテンツはすべてhttps://github.com/yuleiqin/fantastic-data-engineering.comで公開されている。
Instruction tuning plays a critical role in aligning large language models (LLMs) with human preference. Despite the vast amount of open instruction datasets, naively training a LLM on all existing instructions may not be optimal and practical. To pinpoint the most beneficial datapoints, data assessment and selection methods have been proposed in the fields of natural language processing (NLP) and deep learning. However, under the context of instruction tuning, there still exists a gap in knowledge on what kind of data evaluation metrics can be employed and how they can be integrated into the selection mechanism. To bridge this gap, we present a comprehensive review on existing literature of data assessment and selection especially for instruction tuning of LLMs. We systematically categorize all applicable methods into quality-based, diversity-based, and importance-based ones where a unified, fine-grained taxonomy is structured. For each category, representative methods are elaborated to describe the landscape of relevant research. In addition, comparison between latest methods is conducted on their officially reported results to provide in-depth discussions on their limitations. Finally, we summarize the open challenges and propose the promosing avenues for future studies. All related contents are available at https://github.com/yuleiqin/fantastic-data-engineering. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# Kan-RCBEVDepth:自律運転のための物体検出のための多モード融合アルゴリズム
KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving ( http://arxiv.org/abs/2408.02088v1 ) ライセンス: Link先を確認 | Zhihao Lai, Chuanhao Liu, Shihui Sheng, Zhiqiang Zhang, | (参考訳) 自動運転車における正確な3D物体検出は、閉塞性、様々な物体スケール、複雑な都市環境のために、非常に困難である。
本稿では,カメラ,LiDAR,ミリ波レーダからのマルチモーダルセンサデータを融合させて3次元物体検出の先駆的手法であるCBEV-KANアルゴリズムを提案する。
我々の革新的なBird's Eye View(BEV)ベースのアプローチは、Transformerアーキテクチャを利用して、多様なデータソースをシームレスに統合し、空間的関係処理を改善し、計算プロセスを最適化することにより、検出精度と効率を大幅に向上させる。
RCBEV-KANモデルは,平均距離AP(0.389 vs. 0.316, 23%改善),NDスコア(0.484 vs. 0.415, 17%改善),評価時間(71.28s, 8%高速化)など,ほとんどの検出カテゴリで優れた性能を示した。
これらの結果は、CBEV-KANがより正確で、信頼性が高く、効率的であることを示し、動的かつ挑戦的な自動運転環境に理想的であることを示唆している。
Accurate 3D object detection in autonomous driving is critical yet challenging due to occlusions, varying object scales, and complex urban environments. This paper introduces the RCBEV-KAN algorithm, a pioneering method designed to enhance 3D object detection by fusing multimodal sensor data from cameras, LiDAR, and millimeter-wave radar. Our innovative Bird's Eye View (BEV)-based approach, utilizing a Transformer architecture, significantly boosts detection precision and efficiency by seamlessly integrating diverse data sources, improving spatial relationship handling, and optimizing computational processes. Experimental results show that the RCBEV-KAN model demonstrates superior performance across most detection categories, achieving higher Mean Distance AP (0.389 vs. 0.316, a 23% improvement), better ND Score (0.484 vs. 0.415, a 17% improvement), and faster Evaluation Time (71.28s, 8% faster). These results indicate that RCBEV-KAN is more accurate, reliable, and efficient, making it ideal for dynamic and challenging autonomous driving environments. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# 動作予測のための過去の動き誘導型動き表現学習
Past Movements-Guided Motion Representation Learning for Human Motion Prediction ( http://arxiv.org/abs/2408.02091v1 ) ライセンス: Link先を確認 | Junyu Shi, Baoxuan Wang, | (参考訳) 3Dスケルトンに基づく人間の動き予測は、主に動きの効果的な表現に焦点を当てたコンピュータビジョンにおいて重要な課題である。
本稿では,動作表現の向上を目的とした自己教師型学習フレームワークを提案する。
このフレームワークは、まず、過去のシーケンスの自己再構成を通じてネットワークを事前訓練し、過去の動きに基づく将来のシーケンスのガイド付き再構築を行う。
大規模移動を伴うジョイントに焦点を合わせるために,速度に基づくマスク戦略を設計する。
その後、事前訓練されたネットワークは、特定のタスクを微調整する。
過去の動きのパターンによって導かれる自己再構成は、関節間の時空間関係を表現するモデルの能力を大幅に改善すると同時に、過去と将来のシーケンス間の潜時関係をキャプチャする。
この能力は、歴史的動きデータのみに依存する動き予測タスクに不可欠である。
この単純で効果的なトレーニングパラダイムを用いることで、既存の‘textit{state-of-the-art}メソッドよりも優れ、Human3.6M, 3DPW, AMASSデータセットの平均予測誤差が8.8\%削減される。
コードはhttps://github.com/JunyuShi02/PMG-MRLで公開されている。
Human motion prediction based on 3D skeleton is a significant challenge in computer vision, primarily focusing on the effective representation of motion. In this paper, we propose a self-supervised learning framework designed to enhance motion representation. This framework consists of two stages: first, the network is pretrained through the self-reconstruction of past sequences, and the guided reconstruction of future sequences based on past movements. We design a velocity-based mask strategy to focus on the joints with large-scale moving. Subsequently, the pretrained network undergoes finetuning for specific tasks. Self-reconstruction, guided by patterns of past motion, substantially improves the model's ability to represent the spatiotemporal relationships among joints but also captures the latent relationships between past and future sequences. This capability is crucial for motion prediction tasks that solely depend on historical motion data. By employing this straightforward yet effective training paradigm, our method outperforms existing \textit{state-of-the-art} methods, reducing the average prediction errors by 8.8\% across Human3.6M, 3DPW, and AMASS datasets. The code is available at https://github.com/JunyuShi02/PMG-MRL. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# 放射場におけるビュー一貫性物体除去
View-consistent Object Removal in Radiance Fields ( http://arxiv.org/abs/2408.02100v1 ) ライセンス: Link先を確認 | Yiren Lu, Jing Ma, Yu Yin, | (参考訳) レージアンス・フィールド(RF)は3次元シーン表現の重要な技術として登場し、目覚ましいリアリズムを持つ新しいビューの合成を可能にしている。
しかし、RFがより広く使われるようになると、異なる視点におけるコヒーレンスを維持する効果的な編集技術の必要性が明らかになる。
現在の手法は主にフレームごとの2D画像の塗装に依存しており、多くの場合、ビュー間の一貫性の維持に失敗し、編集されたRFシーンのリアリズムを損なう。
本研究では,単一参照画像のみの塗布を必要とすることで,一貫性を著しく向上する新しいRF編集パイプラインを提案する。
この画像はディープベースアプローチを用いて複数のビューに投影され、フレーム単位の塗装で観測される矛盾を効果的に低減する。
しかしながら、プロジェクションは通常、ビュー間の光度一貫性を前提とします。
光と視界の現実的な変化に対応するため、パイプラインは、塗装された画像の複数の方向変化を発生させることで、投影されたビューの外観を調整し、異なる光度条件に適応する。
さらに、パイプラインの価値のある副産物として、効果的で堅牢な多視点オブジェクトセグメンテーション手法を提案する。
広範にわたる実験により,ビュー間のコンテントの整合性を維持し,視覚的品質を向上する上で,既存のフレームワークをはるかに上回る結果が得られた。
さらなる結果はhttps://vulab-ai.github.io/View-consistent_Object_Removal_in_Radiance_Fieldsで見ることができる。
Radiance Fields (RFs) have emerged as a crucial technology for 3D scene representation, enabling the synthesis of novel views with remarkable realism. However, as RFs become more widely used, the need for effective editing techniques that maintain coherence across different perspectives becomes evident. Current methods primarily depend on per-frame 2D image inpainting, which often fails to maintain consistency across views, thus compromising the realism of edited RF scenes. In this work, we introduce a novel RF editing pipeline that significantly enhances consistency by requiring the inpainting of only a single reference image. This image is then projected across multiple views using a depth-based approach, effectively reducing the inconsistencies observed with per-frame inpainting. However, projections typically assume photometric consistency across views, which is often impractical in real-world settings. To accommodate realistic variations in lighting and viewpoint, our pipeline adjusts the appearance of the projected views by generating multiple directional variants of the inpainted image, thereby adapting to different photometric conditions. Additionally, we present an effective and robust multi-view object segmentation approach as a valuable byproduct of our pipeline. Extensive experiments demonstrate that our method significantly surpasses existing frameworks in maintaining content consistency across views and enhancing visual quality. More results are available at https://vulab-ai.github.io/View-consistent_Object_Removal_in_Radiance_Fields. | 翻訳日:2024-08-06 15:15:41 公開日:2024-08-04 |
# 言語モデルに基づく決定点プロセスによるインテクスト学習のための効果的な実証アノテーション
Effective Demonstration Annotation for In-Context Learning via Language Model-Based Determinantal Point Process ( http://arxiv.org/abs/2408.02103v1 ) ライセンス: Link先を確認 | Peng Wang, Xiaobin Wang, Chao Lou, Shengyu Mao, Pengjun Xie, Yong Jiang, | (参考訳) In-context Learning(ICL)は、入力と出力のペアを通じてマッピングを学習し、それらを新しいインスタンスに適切に適用する、数発の学習パラダイムである。
LLM(Large Language Models)によって実証された卓越したICL機能にもかかわらず、既存の作業は大規模にラベル付けされたサポートセットに大きく依存している。
このアプローチを改良するために、我々は、標準実証検索に先立つ革新的な選択的アノテーション機構に重点を置いている。
言語モデルに基づく決定点プロセス(LM-DPP)を導入し、最適選択のための未ラベルインスタンスの不確かさと多様性を同時に検討する。
これによりアノテーションのサブセットが生成され、2つの要素間のトレードオフが発生する。
GPT-J, LlaMA, GPT-3などの言語モデルにLM-DPPを適用した。
9個のNLUおよび2世代データセットの実験結果から、LM-DPPが効果的に標準例を選択できることが示されている。
さらなる分析により、LLMは低い不確実性と高い多様性の両方を持つサブセットから最も大きな恩恵を受けることが明らかとなった。
In-context learning (ICL) is a few-shot learning paradigm that involves learning mappings through input-output pairs and appropriately applying them to new instances. Despite the remarkable ICL capabilities demonstrated by Large Language Models (LLMs), existing works are highly dependent on large-scale labeled support sets, not always feasible in practical scenarios. To refine this approach, we focus primarily on an innovative selective annotation mechanism, which precedes the standard demonstration retrieval. We introduce the Language Model-based Determinant Point Process (LM-DPP) that simultaneously considers the uncertainty and diversity of unlabeled instances for optimal selection. Consequently, this yields a subset for annotation that strikes a trade-off between the two factors. We apply LM-DPP to various language models, including GPT-J, LlaMA, and GPT-3. Experimental results on 9 NLU and 2 Generation datasets demonstrate that LM-DPP can effectively select canonical examples. Further analysis reveals that LLMs benefit most significantly from subsets that are both low uncertainty and high diversity. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# バナジル-フリー塩基ポルフィリン二量体における電子スピンquditの室温光スピン偏光
Room-temperature optical spin polarization of an electron spin qudit in a vanadyl -- free base porphyrin dimer ( http://arxiv.org/abs/2408.02104v1 ) ライセンス: Link先を確認 | Alberto Privitera, Alessandro Chiesa, Fabio Santanni, Angelo Carella, Davide Ranieri, Andrea Caneschi, Matthew D. Krzyaniak, Ryan M. Young, Michael R. Wasielewski, Stefano Carretta, Roberta Sessoli, | (参考訳) 分子量子ビットに付加された光励起有機クロノフォアは、量子情報応用のためのスピン初期化やマルチレベルクエット生成の源として機能する。
これまでのところ、この手法は主に蛍光/安定ラジカル系で研究されている。
ここでは、この概念をメソメソ結合オキソバナジウム(IV)ポルフィリン-フリー塩基ポルフィリン二量体へと拡張する。
フェムト秒過渡吸収実験は、自由塩基ポルフィリンの光励起が、強化された系間交差を介してピコ秒三重項状態を形成することを示した。
時間分解型電子常磁性共鳴(TREPR)実験は、85Kと室温の両方で行われ、三重項-二重項スピン混合による長寿命のスピン偏極四重項状態の形成を明らかにする。
特に、電子スピン四重項状態とバナジル核(51V, I=7/2)との相互作用から生じる特異な超微細構造が明らかであり、四重項状態は室温でも長寿命のスピン偏極を示す。
TREPRスペクトルの理論シミュレーションは、光発生した四重項の状態を確認し、ボルツマンのスピン集団に関する洞察を与える。
この現象の爆発によって、量子情報としてポルフィリンの光誘起三重項状態を用いることで、分子電子または核スピン量子ビットと量子ビットを偏極し、磁気的に結合させることができる。
Photoexcited organic chromophores appended to molecular qubits can serve as a source of spin initialization or multi-level qudit generation for quantum information applications. So far, this approach has been primarily investigated in chromophore/stable radical systems. Here, we extend this concept to a meso-meso linked oxovanadium(IV) porphyrin - free base porphyrin dimer. Femtosecond transient absorption experiments reveal that photoexcitation of the free base porphyrin leads to picosecond triplet state formation via enhanced intersystem crossing. Time-resolved electron paramagnetic resonance (TREPR) experiments carried out at both 85 K and room temperature reveal the formation of a long-lived spin-polarized quartet state through triplet-doublet spin mixing. Notably, a distinct hyperfine structure arising from the interaction between the electron spin quartet state and the vanadyl nucleus (51V, I=7/2) is evident, with the quartet state exhibiting long-lived spin polarization even at room temperature. Theoretical simulations of the TREPR spectra confirm the photogenerated quartet state and provide insights into the non-Boltzmann spin populations. Exploit-ing this phenomenon affords the possibility of using photoinduced triplet states in porphyrins for quantum information as a resource to polarize and magnetically couple molecular electronic or nuclear spin qubits and qudits. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# トポロジカルp波超伝導体
Topological p-wave Superconductors with Disorder and Interactions ( http://arxiv.org/abs/2408.02105v1 ) ライセンス: Link先を確認 | Frederick Del Pozo, Loïc Herviou, Olesia Dmytruk, Karyn Le Hur, | (参考訳) 我々は,マヨラナフェルミオンのより現実的な応用を支援するため,北エフワイヤーの相互作用および乱れ位相に関する包括的理論的研究を行う。
我々は,有線上の実空間相関関数からアクセス可能なトポロジカルマーカーに関連付けて,一本の有線と二本の有線に対する解析的,数学的,数値的手法を開発した。
本研究では, トポロジカル超伝導相の安定性を検証し, 量子相転移に近い障害効果を定量化する。
2重臨界イジング(DCI)相(半中心電荷とトポロジカル数からなる分数Majorana液)が、ワイヤ間の反転対称性(すなわち各ワイヤのパリティ保存)を尊重する障害に対する強い相互作用によって安定化されることを初めて示す。
% この位相は、2つの量子イジングスピン鎖が$z$方向に沿ってスピン相互作用を介して結合することで等しく実現される。
ワイヤ間ホッピング項の存在下では、DCI相はバルクギャップを持つ保護位相となる。
弱い相互作用の臨界線に沿って発達する局在化物理について検討する。
We present a comprehensive theoretical study of interacting and disordered topological phases of coupled Kitaev wires, which may support further realistic applications of Majorana fermions. We develop a variety of analytical, mathematical and numerical methods for one and two-coupled wires, associated with a topological marker accessible from real-space correlation functions on the wire(s). We verify the stability of the topological superconducting phase and quantify disorder effects close to the quantum phase transitions, e.g. through two-point correlation functions or using a renormalization group (RG) analysis of disorder. We show for the first time that the double critical Ising (DCI) phase -- a fractional Majorana liquid characterized by a pair of half central charges and topological numbers -- is stabilized by strong interactions against disorder which respects the inversion symmetry between the wires (ie. parity conservation on each wire). % This phase may be equally realized with two quantum Ising spin chains coupled through a spin interaction along $z$ direction. In the presence of an inter-wire hopping term, the DCI phase turns into a protected topological phase with a bulk gap. We study the localization physics developing along the critical line for weaker interactions. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# 量子格子力学の指数的テール推定
Exponential tail estimates for quantum lattice dynamics ( http://arxiv.org/abs/2408.02108v1 ) ライセンス: Link先を確認 | Christopher Cedzich, Alain Joye, Albert H. Werner, Reinhard F. Werner, | (参考訳) 格子上の粒子の量子力学を長時間検討する。
翻訳不変性と離散時間あるいは連続時間パラメータを仮定すると、弾塑性スケールされた位置 $Q(t)/t$ の分布は、速度空間においてコンパクトに支持される分布(本質的には初期状態における群速度の分布)に弱収束する。
漸近測度の支持外にある速度の総確率は、$t$で指数関数的にゼロとなることを示し、初期状態において指数率を一様に推定する簡単な方法を提案する。
許容領域の境界付近では、速度関数は境界までの距離のパワー3/2のようにゼロになる。
この方法はいくつかの例で説明されている。
We consider the quantum dynamics of a particle on a lattice for large times. Assuming translation invariance, and either discrete or continuous time parameter, the distribution of the ballistically scaled position $Q(t)/t$ converges weakly to a distribution that is compactly supported in velocity space, essentially the distribution of group velocity in the initial state. We show that the total probability of velocities strictly outside the support of the asymptotic measure goes to zero exponentially with $t$, and we provide a simple method to estimate the exponential rate uniformly in the initial state. Near the boundary of the allowed region the rate function goes to zero like the power 3/2 of the distance to the boundary. The method is illustrated in several examples. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# AvatarPose:スパース・マルチビュー映像からの人間間密接な相互作用のアバターガイドによる3次元評価
AvatarPose: Avatar-guided 3D Pose Estimation of Close Human Interaction from Sparse Multi-view Videos ( http://arxiv.org/abs/2408.02110v1 ) ライセンス: Link先を確認 | Feichi Lu, Zijian Dong, Jie Song, Otmar Hilliges, | (参考訳) 人間のモーションキャプチャの進歩にもかかわらず、既存のマルチビュー手法は、複数の密接に相互作用する人々の3Dポーズと形状を推定する上で、しばしば課題に直面している。
この困難は、人が密接な相互作用をしているとき、閉塞や身体接触のために入手が困難である正確な2次元関節推定に依存することから生じる。
そこで本研究では,個人ごとのパーソナライズされた暗黙的ニューラルアバターを前者として活用し,この課題に対するポーズ推定作業の堅牢性と精度を大幅に向上させる手法を提案する。
具体的には、アバターはスパースマルチビュービデオからの層状ボリュームレンダリングによって効率的に再構成される。
再構成されたアバターは、色とシルエットのレンダリング損失に基づいて3Dポーズを直接最適化することができ、ノイズの多い2D検出に関連する問題を回避できる。
そこで本研究では,アバターの重なり合う形状領域における衝突損失を計算し,浸透制約を付加する手法を提案する。
さらに、3Dポーズとアバターの両方を交互に最適化する。
実験により、いくつかの公開データセット上での最先端の性能を示す。
Despite progress in human motion capture, existing multi-view methods often face challenges in estimating the 3D pose and shape of multiple closely interacting people. This difficulty arises from reliance on accurate 2D joint estimations, which are hard to obtain due to occlusions and body contact when people are in close interaction. To address this, we propose a novel method leveraging the personalized implicit neural avatar of each individual as a prior, which significantly improves the robustness and precision of this challenging pose estimation task. Concretely, the avatars are efficiently reconstructed via layered volume rendering from sparse multi-view videos. The reconstructed avatar prior allows for the direct optimization of 3D poses based on color and silhouette rendering loss, bypassing the issues associated with noisy 2D detections. To handle interpenetration, we propose a collision loss on the overlapping shape regions of avatars to add penetration constraints. Moreover, both 3D poses and avatars are optimized in an alternating manner. Our experimental results demonstrate state-of-the-art performance on several public datasets. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# ランク表記による深層学習の理解
Understanding Deep Learning via Notions of Rank ( http://arxiv.org/abs/2408.02111v1 ) ライセンス: Link先を確認 | Noam Razin, | (参考訳) 科学と産業でディープラーニングが極端に人気があるにもかかわらず、その正式な理解は限られている。
この論文は、一般化と表現性の基本的な側面に焦点をあて、深層学習の理論を発展させる鍵としてランクの概念を提示している。
特に、勾配に基づくトレーニングは、いくつかのニューラルネットワークアーキテクチャにおいて低階に対する暗黙の正規化を誘導できることを確立し、この現象が自然データ(例えば、音声、画像、テキスト)に対する一般化の説明を促進することを実証的に実証する。
そこで我々は,量子物理学における絡み合いの定量化によく用いられるランクの概念を用いて,相互作用をモデル化するグラフニューラルネットワークの能力を特徴付ける。
これらの結果の根底にある中心的なツールは、ニューラルネットワークとテンソル分解の間の接続である。
明示的な正規化スキームとデータ前処理アルゴリズムを設計するための我々の理論の実践的意味を述べる。
Despite the extreme popularity of deep learning in science and industry, its formal understanding is limited. This thesis puts forth notions of rank as key for developing a theory of deep learning, focusing on the fundamental aspects of generalization and expressiveness. In particular, we establish that gradient-based training can induce an implicit regularization towards low rank for several neural network architectures, and demonstrate empirically that this phenomenon may facilitate an explanation of generalization over natural data (e.g., audio, images, and text). Then, we characterize the ability of graph neural networks to model interactions via a notion of rank, which is commonly used for quantifying entanglement in quantum physics. A central tool underlying these results is a connection between neural networks and tensor factorizations. Practical implications of our theory for designing explicit regularization schemes and data preprocessing algorithms are presented. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# 音素と音素の音響的特徴について : 音素と音素の正中性について
Diseño de sonido para producciones audiovisuales e historias sonoras en el aula. Hacia una docencia creativa mediante el uso de herramientas inteligentes ( http://arxiv.org/abs/2408.02113v1 ) ライセンス: Link先を確認 | Miguel Civit, Francisco Cuadrado, | (参考訳) 本研究の目的は、音響映像制作のための音響設計を教える授業経験を共有することであり、学生が取り組んだ異なるプロジェクトを比較することである。
これは、異なる種類の教養の比較分析ではなく、異なる学級でそれを研究する学生の異なるプロファイルで観察される異なる問題の分析である。
オーディオの世界は、多くの学生にとって非常に興味深い。
音楽の作成と制作、画像との同期、ダビングなど。
これらは一般的に興味深い規律ですが、技術的に非常に複雑なため、導入の障壁が非常に高いのです。
学生にとって必ずしも直感的ではないオーディオ編集プログラムを必要以上に使い始めるのに、何週間も何ヶ月もかかることもある。
PBL手法を用いた学習は、我々の経験から、マスタークラスのような他の授業手法を用いて観察できるものよりもはるかに優れた結果をもたらす。
学生は、個人的に関与するクリエイティブなプロジェクトを開発しながら、技術的なスキルを身につけます。
上記のすべてに拘わらず、教師と学生の相互作用のほとんどは、技術的修正の側面に焦点を当てている。
逆数(先延ばし、崩壊、変調など)の異なるパラメータから、圧縮機やノイズゲートなどを正確に調整する方法まで。
オーディオを扱うツールの数は驚くほど多く、その多くの機能はメーカーによって大きく異なる。
This study aims to share a teaching experience teaching sound design for audiovisual productions and compares different projects tackled by students. It is not intended to be a comparative analysis of different types of teaching but rather an analysis of different problems observed in different profiles of students of the subject who study it in different grades. The world of audio can be very interesting for a large part of the students, both those with creative and technical inclinations. Musical creation and production, synchronization with images, dubbing, etc. They are disciplines that are generally interesting but can have a very high barrier to entry due to their great technical complexity. Sometimes it can take weeks or even months for the uninitiated to begin to use audio editing programs with the necessary ease, which are not always particularly intuitive for students. Learning through the use of PBL methodologies generates, in our experience, results much superior to those that can be observed through the use of other teaching methods such as master classes. Students acquire technical skills while developing creative projects in which they get personally involved. Despite everything mentioned above, most interactions between teachers and students focus on aspects of technical correction. From different parameters in reverbs (such as pre-delay, decay, modulation...) to how to correctly adjust compressors, noise gates, etc.; The number of tools with which to work with audio is incredibly extensive, as well as many of its features that can present serious differences depending on their manufacturers. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# マルチコース機械読解の最近の進歩:方法とデータセットに関する調査
Recent Advances in Multi-Choice Machine Reading Comprehension: A Survey on Methods and Datasets ( http://arxiv.org/abs/2408.02114v1 ) ライセンス: Link先を確認 | Shima Foolad, Kourosh Kiani, Razieh Rastgoo, | (参考訳) 本稿では,Multi-choice Machine Reading Comprehension (MRC) の分野における最近の進展を詳細に検討する。
我々の目標は、ベンチマークデータセット、方法論、課題、将来の軌跡に焦点をあてて、研究者にマルチ選択MRCにおける現在の状況の包括的概要を提供することである。
この分析は、コーパススタイル、ドメイン、複雑性、コンテキストスタイル、質問スタイル、回答スタイルといった属性に基づいた、洗練された分類手法を用いて、30の既存のクローゼスタイルおよびマルチチョイスMCCベンチマークデータセットに展開されている。
この分類システムは、各データセットの多様な属性の理解を高め、それらの複雑さに基づいて分類する。
さらに,近年の方法論を細調整法とプロンプト調整法に分類した。
訓練済みの言語モデル(PLM)をドメイン固有のデータセットで再トレーニングすることで特定のタスクに適応する一方で、プロンプトチューニングされたメソッドは、PLM応答生成のガイドにプロンプトを使用し、ゼロショットや少数ショットの学習シナリオにおける潜在的な応用を提示する。
今後の研究の方向性を刺激し,イノベーションの育成に寄与することにより,達成の新たなフロンティアに向けての多目的MRCの推進をめざす。
This paper provides a thorough examination of recent developments in the field of multi-choice Machine Reading Comprehension (MRC). Focused on benchmark datasets, methodologies, challenges, and future trajectories, our goal is to offer researchers a comprehensive overview of the current landscape in multi-choice MRC. The analysis delves into 30 existing cloze-style and multiple-choice MRC benchmark datasets, employing a refined classification method based on attributes such as corpus style, domain, complexity, context style, question style, and answer style. This classification system enhances our understanding of each dataset's diverse attributes and categorizes them based on their complexity. Furthermore, the paper categorizes recent methodologies into Fine-tuned and Prompt-tuned methods. Fine-tuned methods involve adapting pre-trained language models (PLMs) to a specific task through retraining on domain-specific datasets, while prompt-tuned methods use prompts to guide PLM response generation, presenting potential applications in zero-shot or few-shot learning scenarios. By contributing to ongoing discussions, inspiring future research directions, and fostering innovations, this paper aims to propel multi-choice MRC towards new frontiers of achievement. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# XDCネットワークの評価:その質的・技術的側面の総合的評価
Assessing the XDC Network: A Comprehensive Evaluation of its qualitative and technical aspects ( http://arxiv.org/abs/2408.02115v1 ) ライセンス: Link先を確認 | Atul Khekade, Omkar Mestry, Van Khanh Nguyen, | (参考訳) この研究は、技術的、セキュリティ、ビジネスの面において、XDCネットワーク、XDPoS(Deferd proof of stake)コンセンサスに基づくブロックチェーン技術について、徹底的に評価する。
本研究は,ネットワークの分散化,スケーラビリティ,セキュリティ機能(中本係数,バリデータ参加,クライアント分散など)を評価する。
さらに、GitHubメトリクスを含む開発者エコシステムや、トランザクションコストや予測可能性といったビジネス面についても検討している。
この調査の結果は、XDC Networkの長所と短所に関する貴重な洞察を提供し、ステークホルダや意思決定者に、特に貿易金融、資産のトークン化、エンタープライズブロックチェーンソリューションなど、さまざまなユースケースに対する適合性について通知する。
This research provides a thorough assessment of the XDC Network, a delegated proof of stake (XDPoS) consensus-based blockchain technology, across its technical, security, and business dimensions. The study evaluates the network's decentralization, scalability, and security features, including its Nakamoto coefficient, validator participation, and client distribution. Additionally, it examines the developer ecosystem, including GitHub metrics, and business aspects such as transaction costs and predictability. The findings of this research will provide valuable insights into the strengths and weaknesses of the XDC Network, informing stakeholders and decision-makers about its suitability for various use cases, particularly in trade finance, asset tokenization, and enterprise blockchain solutions. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# 価値に基づく合理化は社会体験を改善する:マルチエージェントシミュレーションによる研究
Value-Based Rationales Improve Social Experience: A Multiagent Simulation Study ( http://arxiv.org/abs/2408.02117v1 ) ライセンス: Link先を確認 | Sz-Ting Tzeng, Nirav Ajmeri, Munindar P. Singh, | (参考訳) 意思決定に価値を取り入れたエージェントを実現するためのフレームワークであるExannaを提案する。
Exannaagentは、行動に対する合理性を提供し、他者が提供する合理性を評価する際に、自分自身と他者の価値を考える。
マルチエージェント・シミュレーションにより,意思決定や合理性,特に規範決定行動においては,(1)紛争解決度の向上,(2)社会経験の向上,(3)プライバシーの向上,(4)柔軟性の向上が示される。
We propose Exanna, a framework to realize agents that incorporate values in decision making. An Exannaagent considers the values of itself and others when providing rationales for its actions and evaluating the rationales provided by others. Via multiagent simulation, we demonstrate that considering values in decision making and producing rationales, especially for norm-deviating actions, leads to (1) higher conflict resolution, (2) better social experience, (3) higher privacy, and (4) higher flexibility. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# FovEx: ビジョントランスフォーマーと畳み込みニューラルネットワークのための人間にインスパイアされた説明
FovEx: Human-inspired Explanations for Vision Transformers and Convolutional Neural Networks ( http://arxiv.org/abs/2408.02123v1 ) ライセンス: Link先を確認 | Mahadev Prasad Panda, Matteo Tiezzi, Martina Vilas, Gemma Roig, Bjoern M. Eskofier, Dario Zanca, | (参考訳) 人工知能(XAI)の説明可能性は、マシンラーニングモデルにおける信頼と理解を促進する上で、依然として重要な側面である。
勾配ベースやクラスアクティベーションベースの手法のような現在の視覚的説明技法は、しばしば特定のモデルアーキテクチャに強い依存を示す。
逆に、摂動に基づく手法は、モデルに依存しないにもかかわらず、多くの前方パスでモデルを評価する必要があるため、計算コストがかかる。
本研究では,人間の視覚に触発された新しいXAI手法であるFoveation-based Explanations (FovEx)を紹介する。
FovExは、生物学的にインスピレーションを受けた摂動をシームレスに統合し、画像の織り込みレンダリングを反復的に作成し、勾配に基づく視覚的な探索と組み合わせて、興味のある場所を効率的に決定する。
これらの場所は、下流のタスクに関して説明されるモデルの性能を最大化するために選択され、その後に組み合わせて属性マップを生成する。
確立したベンチマークの質的および定量的評価を徹底的に行う。
提案手法は,変圧器および畳み込みモデル(5つ中4つ),および畳み込みモデル(5つ中3つ)上での最先端性能を実現し,各種アーキテクチャの汎用性を実証する。
さらに,FovExが生成した説明地図と人間の視線パターンのアライメントを示す (NSSでは+14\%, RISEでは+203\%, GradCAMでは+203\%)。
この比較により、人間と機械の間の解釈ギャップを埋めるFovExの能力に対する信頼性が向上する。
Explainability in artificial intelligence (XAI) remains a crucial aspect for fostering trust and understanding in machine learning models. Current visual explanation techniques, such as gradient-based or class-activation-based methods, often exhibit a strong dependence on specific model architectures. Conversely, perturbation-based methods, despite being model-agnostic, are computationally expensive as they require evaluating models on a large number of forward passes. In this work, we introduce Foveation-based Explanations (FovEx), a novel XAI method inspired by human vision. FovEx seamlessly integrates biologically inspired perturbations by iteratively creating foveated renderings of the image and combines them with gradient-based visual explorations to determine locations of interest efficiently. These locations are selected to maximize the performance of the model to be explained with respect to the downstream task and then combined to generate an attribution map. We provide a thorough evaluation with qualitative and quantitative assessments on established benchmarks. Our method achieves state-of-the-art performance on both transformers (on 4 out of 5 metrics) and convolutional models (on 3 out of 5 metrics), demonstrating its versatility among various architectures. Furthermore, we show the alignment between the explanation map produced by FovEx and human gaze patterns (+14\% in NSS compared to RISE, +203\% in NSS compared to GradCAM). This comparison enhances our confidence in FovEx's ability to close the interpretation gap between humans and machines. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# ニューラルネットワークの抽象化
Abstraction in Neural Networks ( http://arxiv.org/abs/2408.02125v1 ) ライセンス: Link先を確認 | Nancy Lynch, | (参考訳) 我々は、スパイキングニューラルネットワークとしてモデル化された脳ネットワークが、異なるレベルの抽象化でどのように見えるかを示す。
下位レベルには、ニューロンやエッジの障害などの合併症が含まれる。
より高いレベルはより抽象的であり、これらの複雑さを避けるために仮定を単純化する。
我々は,異なるレベルのネットワーク実行間の正確な関係を示す。これにより,高レベルのネットワークの動作の観点から,低レベルのネットワークの動作を理解することができる。
我々は,A1 と A2 という2つの抽象的ネットワークを用いて結果を表現し,一方は非ファイリング保証を表現する,もう一方は非ファイリング保証を表現する,もう一方は詳細なネットワークDである。
ここでは、最初に失敗を止めることを考える。
これらのネットワークを定義するために、まず抽象的なネットワークA1から始め、他の2つのネットワークを得るために体系的に変更する。
A2を得るためには、単純にニューロンの発射閾値を下げる。
Dを得るために、我々は、ニューロンとエッジの故障を導入し、障害を補うために、ニューロンとエッジに冗長性を組み込む。
また、ネットワークに対する対応する入力と、ネットワークの実行についても定義する。
我々は、A1 と D の対応する実行と、A2 と D の対応する実行に関する2つの主要な定理を証明し、これらを合わせて、詳細なネットワーク D に対する発火とノンファイリングの保証を与える。
We show how brain networks, modeled as Spiking Neural Networks, can be viewed at different levels of abstraction. Lower levels include complications such as failures of neurons and edges. Higher levels are more abstract, making simplifying assumptions to avoid these complications. We show precise relationships between executions of networks at different levels, which enables us to understand the behavior of lower-level networks in terms of the behavior of higher-level networks. We express our results using two abstract networks, A1 and A2, one to express firing guarantees and the other to express non-firing guarantees, and one detailed network D. The abstract networks contain reliable neurons and edges, whereas the detailed network has neurons and edges that may fail, subject to some constraints. Here we consider just initial stopping failures. To define these networks, we begin with abstract network A1 and modify it systematically to obtain the other two networks. To obtain A2, we simply lower the firing thresholds of the neurons. To obtain D, we introduce failures of neurons and edges, and incorporate redundancy in the neurons and edges in order to compensate for the failures. We also define corresponding inputs for the networks, and corresponding executions of the networks. We prove two main theorems, one relating corresponding executions of A1 and D and the other relating corresponding executions of A2 and D. Together, these give both firing and non-firing guarantees for the detailed network D. We also give a third theorem, relating the effects of D on an external reliable actuator neuron to the effects of the abstract networks on the same actuator neuron. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# 自動プラットフォーム構成とソフトウェア統合
Automatic Platform Configuration and Software Integration for Software-Defined Vehicles ( http://arxiv.org/abs/2408.02127v1 ) ライセンス: Link先を確認 | Fengjunjie Pan, Jianjie Lin, Markus Rickert, | (参考訳) 自動車業界では、プラットフォーム構成とソフトウェア統合は、開発段階で実行される手作業であり、様々な安全性と非安全要件を考慮している。
この手動のプロセスは、しばしば開発サイクルを長くし、柔軟性を制限します。
本稿では、ソフトウェア定義車両(SDV)のプラットフォーム構成とソフトウェア統合を自動化する新しいアプローチを紹介し、これらのアクティビティを開発段階から実行段階へシフトさせる。
当社のアプローチでは,モデルベースのメソッドと仮想化技術を組み合わせて,デプロイメント計画の生成と実行を行う統合マネージャを備えています。
モデルベースシステム工学(MBSE)を活用することで,プラットフォーム構成とソフトウェア統合計画を自動的に生成し,コード生成技術を用いてデプロイ可能なフォーマットに変換する。
仮想化とコンテナオーケストレーション技術を利用することで、安全要件の遵守を確保しながら、動的かつ柔軟なリソース割り当てが可能になる。
開発プラットフォームとランタイムプラットフォーム間の通信は、REST APIを通じて容易になる。
概念実証は、Intel Whiskey Lake BoardでシミュレーションされたSDVプラットフォーム上で実装された。
このデモでは、中央コンピュータでSDV上の統合マネージャを展示し、開発サイクルを短縮し、多様な車両構成に適応する可能性を強調している。
In the automotive industry, platform configuration and software integration are mostly manual tasks performed during the development phase, requiring consideration of various safety and non-safety requirements. This manual process often leads to prolonged development cycles and provides limited flexibility. This paper introduces a novel approach to automate platform configuration and software integration for software-defined vehicles (SDVs), shifting these activities from the development phase to runtime. Our approach features an integration manager that combines model-based methods and virtualization technologies to generate and execute deployment plans. By leveraging model-based systems engineering (MBSE), our method automatically generates platform configuration and software integration plans, which are then converted into deployment-ready formats using code generation techniques. Utilizing virtualization and container orchestration technologies, the proposed system enables dynamic and flexible resource allocation while ensuring compliance with safety requirements. Communication between the development and runtime platforms is facilitated via a REST API. A proof of concept was implemented on a simulated SDV platform with the Intel Whiskey Lake Board. This demonstration showcases the integration manager on an SDV with a central computer, highlighting the potential to shorten development cycles and adapt to diverse vehicle configurations. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# テキスト属性を計算するためのテーブル変換器
Table Transformers for Imputing Textual Attributes ( http://arxiv.org/abs/2408.02128v1 ) ライセンス: Link先を確認 | Ting-Ruen Wei, Yuan Wang, Yoshitaka Inoue, Hsin-Tai Wu, Yi Fang, | (参考訳) ダウンストリームタスクのパフォーマンスは通常、トレーニングデータセットの完全性に依存するため、表形式のデータセットでのデータの欠落は一般的な問題である。
従来のデータ計算手法では、数値列と分類列に重点を置いていたが、変換器をベースとしたテーブル変換器(TTITA)と呼ばれる新しいエンドツーエンドの手法を提案し、テーブル内の他の列を用いて非構造化テキスト列をインプットする。
2つのAmazon Reviewsデータセットに対して広範な実験を行い、我々のアプローチは、リカレントニューラルネットワークやLlama2のようなベースラインモデルよりも優れたパフォーマンスを示す。
ターゲットシーケンスの長さが長い場合には、パフォーマンスの改善がより重要である。
さらに、多タスク学習を組み込んで、不均一な列を同時にインプットし、テキストインプットの性能を向上した。
また、現実的なアプリケーションではChatGPTと定性的に比較する。
Missing data in tabular dataset is a common issue as the performance of downstream tasks usually depends on the completeness of the training dataset. Previous missing data imputation methods focus on numeric and categorical columns, but we propose a novel end-to-end approach called Table Transformers for Imputing Textual Attributes (TTITA) based on the transformer to impute unstructured textual columns using other columns in the table. We conduct extensive experiments on two Amazon Reviews datasets, and our approach shows competitive performance outperforming baseline models such as recurrent neural networks and Llama2. The performance improvement is more significant when the target sequence has a longer length. Additionally, we incorporated multi-task learning to simultaneously impute for heterogeneous columns, boosting the performance for text imputation. We also qualitatively compare with ChatGPT for realistic applications. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# OntoForms: ドメインオントロジーからのユーザインターフェース構造
OntoForms: User interface structure from a domain ontology ( http://arxiv.org/abs/2408.02130v1 ) ライセンス: Link先を確認 | Bruno Szilagyi, Edelweis Rohrer, Regina Motz, | (参考訳) 本稿では,ドメインオントロジーをポップアップするユーザインタフェース構造を生成するソフトウェアコンポーネントを提案する。
この作業の中核は、オントロジーを取り、ユーザーインターフェイスを記述する構造を返すアルゴリズムである。
このコンポーネントは、オントロジーをポップアップし、既存の個人を編集する機能も提供する。
従来のアプローチとは異なり、このメソッドは設定なしで実装できる。
さらに、無関係なクラスを隠蔽し、自動的に集約できるようにする、使いやすく設定できるメカニズムも提供する。
この研究を際立たせるのは、構文的手法やクエリを使ってオントロジーを探索する代わりに、我々のアルゴリズムは記述論理推論機構を実装するサービスを採用している点である。
この研究は、よく知られたワインオントロジーを用いて提案されたアプローチを例証する。
This paper presents a software component that generates a user interface structure for populating a domain ontology. The core of this work is an algorithm that takes an ontology and returns a structure describing the user interface. The component also provides functions for populating the ontology and editing existing individuals. Unlike previous approaches, this method can be implemented without any configuration. Additionally, it offers an easy-to-use configuration mechanism that allows irrelevant classes to be hidden and automatically populated. What distinguishes this work is that, instead of exploring the ontology using syntactic methods or queries, our algorithm employs services that implement description logic inference mechanisms. This work illustrates the proposed approach using the well-known wine ontology. | 翻訳日:2024-08-06 15:05:52 公開日:2024-08-04 |
# フェデレーション学習におけるモデルハイジャック攻撃
Model Hijacking Attack in Federated Learning ( http://arxiv.org/abs/2408.02131v1 ) ライセンス: Link先を確認 | Zheng Li, Siyuan Wu, Ruichuan Chen, Paarijaat Aditya, Istemi Ekin Akkus, Manohar Vanga, Min Zhang, Hao Li, Yang Zhang, | (参考訳) 機械学習(ML)は、自律運転から顔認識まで、さまざまな重要な応用において大きな進歩を遂げている。
しかし、その顕著な成功には様々な攻撃が伴っている。
近年、モデルハイジャック攻撃により、MLモデルが元のタスクとは異なるタスクを実行するためにハイジャック可能であることが示され、説明責任と寄生的な計算リスクが増大している。
しかし、これまでのところ、この攻撃は集中学習にのみ焦点をあてている。
本研究では,この攻撃の範囲を,複数のクライアントがデータを共有することなく協調的にグローバルモデルをトレーニングするフェデレーション学習領域に広げる。
具体的には,フェデレートラーニングにおける世界モデルに対する初となるハイジャック攻撃であるHijackFLを紹介する。
相手は、サーバや良心的なクライアントの通知なしに、グローバルモデルに元のタスクとは異なるタスク(ハイジャックタスクと呼ばれる)を実行するように強制することを目指している。
これを実現するために、ターゲットモデルのパラメータを変更するためにデータ中毒を使用する既存の方法とは異なり、HijackFLは、ローカルモデル(修正なし)に基づいてピクセルレベルの摂動を探索し、特徴空間内の元のモデルとハイジャックサンプルを整列させる。
ハイジャックタスクを実行する際、敵はこれらのクロークをハイジャックサンプルに適用し、グローバルモデルにそれらを元のサンプルとして識別し、それに応じて予測するように促す。
4つのベンチマークデータセットと3つの人気のあるモデルについて広範な実験を行う。
実証的な結果は、攻撃性能がベースラインを上回っていることを示している。
さらに、その性能に影響を与える要因について検討し、その影響を軽減するための防御の可能性について議論する。
Machine learning (ML), driven by prominent paradigms such as centralized and federated learning, has made significant progress in various critical applications ranging from autonomous driving to face recognition. However, its remarkable success has been accompanied by various attacks. Recently, the model hijacking attack has shown that ML models can be hijacked to execute tasks different from their original tasks, which increases both accountability and parasitic computational risks. Nevertheless, thus far, this attack has only focused on centralized learning. In this work, we broaden the scope of this attack to the federated learning domain, where multiple clients collaboratively train a global model without sharing their data. Specifically, we present HijackFL, the first-of-its-kind hijacking attack against the global model in federated learning. The adversary aims to force the global model to perform a different task (called hijacking task) from its original task without the server or benign client noticing. To accomplish this, unlike existing methods that use data poisoning to modify the target model's parameters, HijackFL searches for pixel-level perturbations based on their local model (without modifications) to align hijacking samples with the original ones in the feature space. When performing the hijacking task, the adversary applies these cloaks to the hijacking samples, compelling the global model to identify them as original samples and predict them accordingly. We conduct extensive experiments on four benchmark datasets and three popular models. Empirical results demonstrate that its attack performance outperforms baselines. We further investigate the factors that affect its performance and discuss possible defenses to mitigate its impact. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# Decide: ディープラーニングスタックにおける知識ベースのバージョン非互換性検出
Decide: Knowledge-Based Version Incompatibility Detection in Deep Learning Stacks ( http://arxiv.org/abs/2408.02133v1 ) ライセンス: Link先を確認 | Zihan Zhou, Zhongkai Zhao, Bonan Kou, Tianyi Zhang, | (参考訳) 深層学習(DL)モデルやアプリケーションを再利用または再生する場合、バージョン非互換性の問題が頻発する。
Stack Overflow(SO)の議論は、しばしば不完全あるいは時代遅れである公式APIドキュメントと比較すると、以前のアプローチでは検討されていない多くのバージョン知識を持っている。
このギャップを埋めるために,SO議論から抽出した2,376バージョン知識を含む知識グラフをWeb上で視覚化するDedeideを提案する。
対話的なツールとして、Dedeideは、2つのライブラリが互換性があるかどうかを簡単にチェックし、特定のDLスタックコンポーネントの互換性知識を特定のバージョンで調べることを可能にする。
Decideの使用例を示すビデオはhttps://youtu.be/wqPxF2ZaZo0.comで公開されている。
Version incompatibility issues are prevalent when reusing or reproducing deep learning (DL) models and applications. Compared with official API documentation, which is often incomplete or out-of-date, Stack Overflow (SO) discussions possess a wealth of version knowledge that has not been explored by previous approaches. To bridge this gap, we present Decide, a web-based visualization of a knowledge graph that contains 2,376 version knowledge extracted from SO discussions. As an interactive tool, Decide allows users to easily check whether two libraries are compatible and explore compatibility knowledge of certain DL stack components with or without the version specified. A video demonstrating the usage of Decide is available at https://youtu.be/wqPxF2ZaZo0. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# トリロビテ分子の内部回折ダイナミクス
Internal diffraction dynamics of trilobite molecules ( http://arxiv.org/abs/2408.02134v1 ) ライセンス: Link先を確認 | Rohan Srikumar, Seth T. Rittenhouse, Peter Schmelcher, | (参考訳) トリロビテ分子(英: Trilobite molecules)は、高角運動量リドベリ電子が基底状態原子から散乱する際に形成される超長距離リドベリ分子である。
彼らの独特な電子構造と非常に振動的なポテンシャルエネルギー曲線は、まだ探索されていない様々な力学効果を支えている。
本研究では, これらの分子の振動運動を, 断熱波束伝播ダイナミクスの枠組みを用いて解析し, 適切な初期状態において, トリロビットポテンシャルが分子回折格子として働くことを観察する。
観測された量子力学効果は、散乱電位と関連する散乱波束のフーリエ解析を用いて説明される。
さらに、低角運動量超長距離リドベルグ分子の振動基底状態は、関連するウェーブパケットを作るのに特に適していることが判明した。
そこで本研究では,問題となる効果を実現するための時間分解型ポンププローブ方式を提案し,超過量子力学現象の研究のためのテストベッドとして1つの二原子Rydberg分子の利用を宣伝する。
Trilobite molecules are ultralong-range Rydberg molecules formed when a high angular momentum Rydberg electron scatters off of a ground-state atom. Their unique electronic structure and highly oscillatory potential energy curves support a rich variety of dynamical effects yet to be explored. We analyze the vibrational motion of these molecules using a framework of adiabatic wavepacket propagation dynamics and observe that for appropriate initial states, the trilobite potential acts as molecular diffraction grating. The quantum dynamic effects observed are explained using a Fourier analysis of the scattering potential and the associated scattered wavepacket. Furthermore, vibrational ground-states of the low angular momentum ultralong-range Rydberg molecules are found to be particularly suitable to prepare the relevant wavepackets. Hence, we propose a time resolved pump-probe scheme designed for the realization of the effect in question, and advertise the utilization of a single diatomic Rydberg molecule as a testbed for the study of exaggerated quantum dynamical phenomena. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# デジタルインクのChebyshev-Sobolevシリーズ
A First Look at Chebyshev-Sobolev Series for Digital Ink ( http://arxiv.org/abs/2408.02135v1 ) ライセンス: Link先を確認 | Deepak Singh Kalhan, Stephen M. Watt, | (参考訳) デジタルインクを平面曲線として考えることは、署名検証、メモ取り、数学的手書き認識など、様々なアプリケーションに有用なフレームワークを提供する。
これらの平面曲線は、サンプリングされた点によって決定されるtruncated series (x(s, y(s)) のパラメータ化された対として得ることができる。
初期の研究は、ルジャンドルやルジャンドル・ソボレフの基準で、これらの切り離された級数(ポリノミアル)を表現することが、いくつかの望ましい性質を持つことを発見した。
これにはコンパクトなデータ表現、多項式係数のベクトル空間における記号の有意義なクラスタリング、この空間におけるクラスの線形分離性、曲線間の変動の高精度な計算が含まれる。
本研究では,記号認識におけるチェビシェフ・ソボレフ級数の利用について検討する。
この表現は、いくつかの目的のためにルジャンドル・ソボレフ表現よりも優れている可能性があるという初期の兆候である。
Considering digital ink as plane curves provides a valuable framework for various applications, including signature verification, note-taking, and mathematical handwriting recognition. These plane curves can be obtained as parameterized pairs of approximating truncated series (x(s), y(s)) determined by sampled points. Earlier work has found that representing these truncated series (polynomials) in a Legendre or Legendre-Sobolev basis has a number of desirable properties. These include compact data representation, meaningful clustering of like symbols in the vector space of polynomial coefficients, linear separability of classes in this space, and highly efficient calculation of variation between curves. In this work, we take a first step at examining the use of Chebyshev-Sobolev series for symbol recognition. The early indication is that this representation may be superior to Legendre-Sobolev representation for some purposes. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# RICA^2: ルブリックインフォームド, 校正による行動評価
RICA^2: Rubric-Informed, Calibrated Assessment of Actions ( http://arxiv.org/abs/2408.02138v1 ) ライセンス: Link先を確認 | Abrar Majeedi, Viswanatha Reddy Gajjala, Satya Sai Srinath Namburi GNVV, Yin Li, | (参考訳) アクション・クオリティ・アセスメント(AQA: Action Quality Assessment)としても知られる、アクションがどれだけうまく実行されるかを定量化する能力は、近年、ビジョン・コミュニティにおいて関心を集めている。
残念なことに、事前の手法は、人間の専門家が使用する楽譜を無視することが多く、モデル予測の不確実性を定量化できない。
このギャップを埋めるために,スコアルーブリックとAQAの予測不確実性を考慮した深い確率モデル RICA^2 を提案する。
我々の手法の中心は、スコアルーリックを符号化するグラフ構造上に定義されたアクションステップの確率的な埋め込みにある。
埋め込みは潜在空間に確率密度を拡大し,モデルの不確実性を表現する。
グラフは、どの品質スコアを復号化できるかに基づいてスコア基準を符号化する。
本手法はFineDiving, MTL-AQA, JIGSAWSなどの公開ベンチマークにおいて, スコア予測と不確実性校正において優れた性能を示す。
私たちのコードはhttps://abrarmajeedi.github.io/rica2_aqa/で利用可能です。
The ability to quantify how well an action is carried out, also known as action quality assessment (AQA), has attracted recent interest in the vision community. Unfortunately, prior methods often ignore the score rubric used by human experts and fall short of quantifying the uncertainty of the model prediction. To bridge the gap, we present RICA^2 - a deep probabilistic model that integrates score rubric and accounts for prediction uncertainty for AQA. Central to our method lies in stochastic embeddings of action steps, defined on a graph structure that encodes the score rubric. The embeddings spread probabilistic density in the latent space and allow our method to represent model uncertainty. The graph encodes the scoring criteria, based on which the quality scores can be decoded. We demonstrate that our method establishes new state of the art on public benchmarks, including FineDiving, MTL-AQA, and JIGSAWS, with superior performance in score prediction and uncertainty calibration. Our code is available at https://abrarmajeedi.github.io/rica2_aqa/ | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# VidModEx:高次元空間のための解釈可能かつ効率的なブラックボックスモデル抽出
VidModEx: Interpretable and Efficient Black Box Model Extraction for High-Dimensional Spaces ( http://arxiv.org/abs/2408.02140v1 ) ライセンス: Link先を確認 | Somnath Sendhil Kumar, Yuvaraj Govindarajulu, Pavan Kulkarni, Manojkumar Parmar, | (参考訳) ブラックボックスモデル抽出の分野では、ソフトラベルやサロゲートデータセットに依存する従来の手法は、高次元の入力空間へのスケーリングと、幅広い相互関連クラスの複雑さの管理に苦慮している。
本研究では,SHAP(SHapley Additive exPlanations)を用いた合成データ生成手法を提案する。
SHAPは、被害者モデルの出力に対する各入力機能の個々のコントリビューションを定量化し、エネルギーベースのGANの望ましい出力への最適化を容易にする。
この手法は性能を大幅に向上させ、画像分類モデルの精度が16.45%向上し、平均26.11%向上し、UCF11、UCF101、Kineetics 400、Kineetics 600、Something V2などの挑戦的なデータセットで最大33.36%向上した。
さらに,トップk予測確率,トップk予測ラベル,トップ1ラベルなど,様々なシナリオにおいて提案手法の有効性と実用性を示す。
In the domain of black-box model extraction, conventional methods reliant on soft labels or surrogate datasets struggle with scaling to high-dimensional input spaces and managing the complexity of an extensive array of interrelated classes. In this work, we present a novel approach that utilizes SHAP (SHapley Additive exPlanations) to enhance synthetic data generation. SHAP quantifies the individual contributions of each input feature towards the victim model's output, facilitating the optimization of an energy-based GAN towards a desirable output. This method significantly boosts performance, achieving a 16.45% increase in the accuracy of image classification models and extending to video classification models with an average improvement of 26.11% and a maximum of 33.36% on challenging datasets such as UCF11, UCF101, Kinetics 400, Kinetics 600, and Something-Something V2. We further demonstrate the effectiveness and practical utility of our method under various scenarios, including the availability of top-k prediction probabilities, top-k prediction labels, and top-1 labels. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# 混合感情調査によるLDMにおける感情の文化的表現の分析
Analyzing Cultural Representations of Emotions in LLMs through Mixed Emotion Survey ( http://arxiv.org/abs/2408.02143v1 ) ライセンス: Link先を確認 | Shiran Dudy, Ibrahim Said Ahmad, Ryoko Kitajima, Agata Lapedriza, | (参考訳) 大規模言語モデル(LLM)は広く普及しており、複数の言語にまたがる高度な言語機能を示している。
これらのモデルを使って人間の行動をシミュレートし研究する学問への関心が高まっている。
しかし、特定の言語におけるLLMの習熟度が、その文化に関連する規範や価値を完全にカプセル化していないことを認識することが重要である。
欧米と米国のトレーニングデータの優位性から、アングロ中心の文化や価値観に対する潜在的なバイアスに関する懸念が浮上している。
本研究では, LLMにおける感情の文化的表現の分析に焦点をあてる。
本手法は,日本人とアメリカ人の反応に特徴的な感情指標を同定した宮本らの研究(2010年)に基づいている。
まず,5つの異なるLDMに対して混合感情調査を行い,その出力を分析した。
第2に,言語起源と話者起源の両方を考慮した応答の変動を探るため,文脈変数を用いて実験を行った。
第3に、調査を拡大して、東アジアおよび西ヨーロッパ原言語を包含し、それぞれの文化との整合性を測り、より緊密な適合を期待する。
その結果,(1)文語は参加者の出所情報よりもLLMの反応に強く影響し,(3)東アジア語では西欧語よりLLMの反応が類似していることが判明した。
Large Language Models (LLMs) have gained widespread global adoption, showcasing advanced linguistic capabilities across multiple of languages. There is a growing interest in academia to use these models to simulate and study human behaviors. However, it is crucial to acknowledge that an LLM's proficiency in a specific language might not fully encapsulate the norms and values associated with its culture. Concerns have emerged regarding potential biases towards Anglo-centric cultures and values due to the predominance of Western and US-based training data. This study focuses on analyzing the cultural representations of emotions in LLMs, in the specific case of mixed-emotion situations. Our methodology is based on the studies of Miyamoto et al. (2010), which identified distinctive emotional indicators in Japanese and American human responses. We first administer their mixed emotion survey to five different LLMs and analyze their outputs. Second, we experiment with contextual variables to explore variations in responses considering both language and speaker origin. Thirdly, we expand our investigation to encompass additional East Asian and Western European origin languages to gauge their alignment with their respective cultures, anticipating a closer fit. We find that (1) models have limited alignment with the evidence in the literature; (2) written language has greater effect on LLMs' response than information on participants origin; and (3) LLMs responses were found more similar for East Asian languages than Western European languages. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# サッカーにおけるビデオベース歩行者・車両交通分析
Video-based Pedestrian and Vehicle Traffic Analysis During Football Games ( http://arxiv.org/abs/2408.02146v1 ) ライセンス: Link先を確認 | Jacques P. Fleischer, Ryan Pallack, Ahan Mishra, Gustavo Riente de Andrade, Subhadipto Poddar, Emmanuel Posadas, Robert Schenck, Tania Banerjee, Anand Rangarajan, Sanjay Ranka, | (参考訳) 本稿では,フットボールの日中における交通パターンの分析に焦点をあて,歩行者および車両の交通行動の映像解析に活用する。
フロリダ大学(University of Florida, UF)は、大学フットボールシーズンの土曜日に6から7回のホームフットボールの試合を開催し、重要な歩行者活動を行っている。
ビデオ分析を通じて,これらの事象が交差点における交通量や安全に与える影響について,貴重な知見を提供する。
ゲームデーと非ゲームデーの歩行者と車両のアクティビティを比較すると、異なるパターンが明らかになる。
例えば、ゲームデーの間、歩行者の体積は大幅に増加し、これは遠方のチームの勝利の確率と正の相関がある。
この相関は、ホームチームのファンが難しい試合を楽しんでいるためだろう。
交差点での歩行者量の早期予測者としての確率は、交通専門家が交通管理のニーズを予想するのに役立つツールとなる。
P2V (Pedestrian-to-vehicle) は、特にゲーム開始の数時間前に、ゲームデーに特に増加する。
これに対応するため、交差点内の「バーンズダンス」運動段階が推奨されている。
高活性ゲームデーにおける法執行機関の存在は、歩行者のコンプライアンスを確実にし、安全性を高めるのに役立つ。
対照的に、車両間衝突(V2V)は、通常、ゲームデーに増加せず、運転注意の高まりにより減少する可能性がある。
This paper utilizes video analytics to study pedestrian and vehicle traffic behavior, focusing on analyzing traffic patterns during football gamedays. The University of Florida (UF) hosts six to seven home football games on Saturdays during the college football season, attracting significant pedestrian activity. Through video analytics, this study provides valuable insights into the impact of these events on traffic volumes and safety at intersections. Comparing pedestrian and vehicle activities on gamedays versus non-gamedays reveals differing patterns. For example, pedestrian volume substantially increases during gamedays, which is positively correlated with the probability of the away team winning. This correlation is likely because fans of the home team enjoy watching difficult games. Win probabilities as an early predictor of pedestrian volumes at intersections can be a tool to help traffic professionals anticipate traffic management needs. Pedestrian-to-vehicle (P2V) conflicts notably increase on gamedays, particularly a few hours before games start. Addressing this, a "Barnes Dance" movement phase within the intersection is recommended. Law enforcement presence during high-activity gamedays can help ensure pedestrian compliance and enhance safety. In contrast, we identified that vehicle-to-vehicle (V2V) conflicts generally do not increase on gamedays and may even decrease due to heightened driver caution. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# 逐次社会的ジレンマにおける環境複雑性とナッシュ均衡
Environment Complexity and Nash Equilibria in a Sequential Social Dilemma ( http://arxiv.org/abs/2408.02148v1 ) ライセンス: Link先を確認 | Mustafa Yasir, Andrew Howes, Vasilios Mavroudis, Chris Hicks, | (参考訳) マルチエージェント強化学習(MARL)法は、ゼロサムゲームや正サムゲームでは有効であるが、大域的に最適な結果を達成するために協力が不可欠である一般サムゲームでは、しばしば準最適結果が得られる。
マトリックスゲーム社会ジレンマ(英: Matrix game social dilemmas)は、協調、リスク、信頼などの一般の相互作用の主要な側面を抽象化し、現実世界のシナリオの特徴である時間的・空間的ダイナミクスをモデル化することができない。
本研究は,行列ゲーム社会ジレンマを,より複雑で高次元のMARL環境に拡張する。
本研究では,一発マトリクスゲームにおける決定空間とより密に一致し,変動環境の複雑さももたらしたStag Huntジレンマのグリッドワールド実装を適用する。
以上の結果から,これらの環境下で訓練されたMARLエージェントは,複雑性が増大するにつれて,マトリックスゲームにおけるリスク支配的ナッシュ均衡戦略と整合して,最適以下の戦略に収束することが示唆された。
我々の研究は、高次元ゲーム理論MARL環境における最適な結果を達成するための環境複雑さの影響を強調した。
Multi-agent reinforcement learning (MARL) methods, while effective in zero-sum or positive-sum games, often yield suboptimal outcomes in general-sum games where cooperation is essential for achieving globally optimal outcomes. Matrix game social dilemmas, which abstract key aspects of general-sum interactions, such as cooperation, risk, and trust, fail to model the temporal and spatial dynamics characteristic of real-world scenarios. In response, our study extends matrix game social dilemmas into more complex, higher-dimensional MARL environments. We adapt a gridworld implementation of the Stag Hunt dilemma to more closely match the decision-space of a one-shot matrix game while also introducing variable environment complexity. Our findings indicate that as complexity increases, MARL agents trained in these environments converge to suboptimal strategies, consistent with the risk-dominant Nash equilibria strategies found in matrix games. Our work highlights the impact of environment complexity on achieving optimal outcomes in higher-dimensional game-theoretic MARL environments. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# Few-shot Indexing を用いた生成検索
Generative Retrieval with Few-shot Indexing ( http://arxiv.org/abs/2408.02152v1 ) ライセンス: Link先を確認 | Arian Askari, Chuan Meng, Mohammad Aliannejadi, Zhaochun Ren, Evangelos Kanoulas, Suzan Verberne, | (参考訳) 既存の生成検索(GR)アプローチは、トレーニングベースの索引付け、すなわち、クエリと関連するドキュメントのドキュメント識別子(ドシデント)との関係を記憶するモデルを微調整することに依存する。
トレーニングベースの索引付けには、高いトレーニングオーバーヘッド、大規模言語モデル(LLM)のトレーニング済み知識の未使用、動的ドキュメントコーパスへの適応に関する課題の3つの制限がある。
上記の問題に対処するため、我々は新規な数ショットインデックスに基づくGRフレームワーク(Few-Shot GR)を提案する。
LLMにコーパス内のすべてのドキュメントに対してドシドを生成し、最終的にコーパス全体のドシドバンクを生成するように促します。
検索中、同じLCMに問い合わせを送信し、インデックス作成時に生成されたドシドバンク内でドシドを生成し、生成されたドシドを対応するドキュメントにマッピングする。
Few-Shot GR は訓練を必要とせず LLM の推進にのみ依存しており、より効率的である。
さらに,Few-Shot GRをさらに強化するために,一対多マッピングによる少数ショットインデックス作成を提案する。
実験により、Few-Shot GRは、重い訓練を必要とする最先端のGR法よりも優れた性能を発揮することが示された。
Existing generative retrieval (GR) approaches rely on training-based indexing, i.e., fine-tuning a model to memorise the associations between a query and the document identifier (docid) of a relevant document. Training-based indexing has three limitations: high training overhead, under-utilization of the pre-trained knowledge of large language models (LLMs), and challenges in adapting to a dynamic document corpus. To address the above issues, we propose a novel few-shot indexing-based GR framework (Few-Shot GR). It has a novel few-shot indexing process, where we prompt an LLM to generate docids for all documents in a corpus, ultimately creating a docid bank for the entire corpus. During retrieval, we feed a query to the same LLM and constrain it to generate a docid within the docid bank created during indexing, and then map the generated docid back to its corresponding document. Few-Shot GR relies solely on prompting an LLM without requiring any training, making it more efficient. Moreover, we devise few-shot indexing with one-to-many mapping to further enhance Few-Shot GR. Experiments show that Few-Shot GR achieves superior performance to state-of-the-art GR methods that require heavy training. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# ARVO: オープンソースソフトウェアの再現可能な脆弱性のアトラス
ARVO: Atlas of Reproducible Vulnerabilities for Open Source Software ( http://arxiv.org/abs/2408.02153v1 ) ライセンス: Link先を確認 | Xiang Mei, Pulkit Singh Singaria, Jordi Del Castillo, Haoran Xi, Abdelouahab, Benchikh, Tiffany Bao, Ruoyu Wang, Yan Shoshitaishvili, Adam Doupé, Hammond Pearce, Brendan Dolan-Gavitt, | (参考訳) 現実世界の脆弱性の高品質なデータセットは、ソフトウェアセキュリティの下流研究には極めて価値がありますが、既存のデータセットは通常、小さく、更新に広範囲な手作業が必要で、そのような研究が必要な重要な機能が欠落しています。
本稿では,オープンソースソフトウェアにおけるARVO:Atlas of Reproducible Vulnerabilitiesを紹介する。
C/C++プロジェクトの脆弱性をGoogleのOSS-Fuzzが発見し、信頼性の高い再コンパイルシステムを実装することで、250以上のプロジェクトにわたって5,000以上のメモリ脆弱性を再現することに成功しました。
さらに、OSS-Fuzzが新たな脆弱性を見つけると、データセットは自動的に更新され、時間とともに成長します。
まず、実世界のLSMベースの脆弱性修復を評価し、次に、OSS-Fuzzが不適切にラベル付けしたプロジェクトから、300以上の誤ったパッチ(まだアクティブな)ゼロデイ脆弱性を特定します。
High-quality datasets of real-world vulnerabilities are enormously valuable for downstream research in software security, but existing datasets are typically small, require extensive manual effort to update, and are missing crucial features that such research needs. In this paper, we introduce ARVO: an Atlas of Reproducible Vulnerabilities in Open-source software. By sourcing vulnerabilities from C/C++ projects that Google's OSS-Fuzz discovered and implementing a reliable re-compilation system, we successfully reproduce more than 5,000 memory vulnerabilities across over 250 projects, each with a triggering input, the canonical developer-written patch for fixing the vulnerability, and the ability to automatically rebuild the project from source and run it at its vulnerable and patched revisions. Moreover, our dataset can be automatically updated as OSS-Fuzz finds new vulnerabilities, allowing it to grow over time. We provide a thorough characterization of the ARVO dataset, show that it can locate fixes more accurately than Google's own OSV reproduction effort, and demonstrate its value for future research through two case studies: firstly evaluating real-world LLM-based vulnerability repair, and secondly identifying over 300 falsely patched (still-active) zero-day vulnerabilities from projects improperly labeled by OSS-Fuzz. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# Calibration-Disentangled Learning and Relevance-Prioritized Re rank for Calibrated Sequential Recommendation
Calibration-Disentangled Learning and Relevance-Prioritized Reranking for Calibrated Sequential Recommendation ( http://arxiv.org/abs/2408.02156v1 ) ライセンス: Link先を確認 | Hyunsik Jeon, Se-eun Yoon, Julian McAuley, | (参考訳) パーソナライズされたカテゴリの比率を維持することを目的としたキャリブレーションレコメンデーションは,多様な関心を反映してユーザの満足度を高めるため,実践的なシナリオにおいて重要である。
しかし、ユーザの進化する好みに適応する必要があるため、シーケンシャルな設定(すなわち、キャリブレーションされたシーケンシャルなレコメンデーション)でキャリブレーションを達成することは困難である。
従来の方法では、リグレードアルゴリズムを利用して、キャリブレーションの効果を考慮せずにモデルのトレーニング後のレコメンデーションをキャリブレーションし、リグレードプロセスにおける妥当性とキャリブレーションの競合に効果的に対処しない。
本稿では,これらの課題に対処するシーケンシャルレコメンデーションを校正するための新しいアプローチであるLeapRec(Calibration-Disentangled Learning and Relevance-Prioritized Re rank)を提案する。
LeapRecは2つのフェーズで構成されている。
トレーニングフェーズでは、キャリブレーションを考慮した学習とランクの損失を最適化し、キャリブレーションを考慮したバックボーンモデルを訓練する。
更新段階では、関連する項目がリストの一番上に優先順位付けされ、その後にキャリブレーションを行うために必要な項目は、関連性とキャリブレーションの間の潜在的な衝突に対処する。
実世界の4つのデータセットに関する広範な実験を通して、LeapRecはキャリブレーションされたシーケンシャルレコメンデーションにおいて、従来手法よりも一貫して優れていたことを示す。
私たちのコードはhttps://github.com/jeon185/LeapRec.orgから入手可能です。
Calibrated recommendation, which aims to maintain personalized proportions of categories within recommendations, is crucial in practical scenarios since it enhances user satisfaction by reflecting diverse interests. However, achieving calibration in a sequential setting (i.e., calibrated sequential recommendation) is challenging due to the need to adapt to users' evolving preferences. Previous methods typically leverage reranking algorithms to calibrate recommendations after training a model without considering the effect of calibration and do not effectively tackle the conflict between relevance and calibration during the reranking process. In this work, we propose LeapRec (Calibration-Disentangled Learning and Relevance-Prioritized Reranking), a novel approach for the calibrated sequential recommendation that addresses these challenges. LeapRec consists of two phases, model training phase and reranking phase. In the training phase, a backbone model is trained using our proposed calibration-disentangled learning-to-rank loss, which optimizes personalized rankings while integrating calibration considerations. In the reranking phase, relevant items are prioritized at the top of the list, with items needed for calibration following later to address potential conflicts between relevance and calibration. Through extensive experiments on four real-world datasets, we show that LeapRec consistently outperforms previous methods in the calibrated sequential recommendation. Our code is available at https://github.com/jeon185/LeapRec. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# PanoFree: クロスビューセルフガイドによるチューニング不要なホロスティックな多視点画像生成
PanoFree: Tuning-Free Holistic Multi-view Image Generation with Cross-view Self-Guidance ( http://arxiv.org/abs/2408.02157v1 ) ライセンス: Link先を確認 | Aoming Liu, Zhong Li, Zhang Chen, Nannan Li, Yi Xu, Bryan A. Plummer, | (参考訳) 没入型シーン生成、特にパノラマ生成は、多視点画像生成のための大規模な事前訓練されたテキスト・ツー・イメージ(T2I)モデルの適応から大きな恩恵を受ける。
マルチビュー画像を取得するコストが高いため、チューニング不要な生成が好まれる。
しかし、既存の手法は単純な対応に限られるか、複雑なものを捉えるために広範囲の微調整を必要とする。
パノフリー(PanoFree)は、広範囲な対応をサポートするチューニング不要なマルチビュー画像生成手法である。
PanoFreeは逐次、反復ワープとインペインティングを使用してマルチビュー画像を生成し、微調整を必要とせずにエラーの蓄積から不整合とアーティファクトの鍵となる問題に対処する。
クロスビュー認識を強化し、クロスビューガイダンス、リスクエリア推定および消去によるワーピング・インペインティングプロセス、ループクロージャのための対称双方向誘導生成、シーン構造保存のためのガイダンスベースセマンティクスと密度制御によるエラー蓄積を改善する。
Planar、360{\deg}、Full Spherical Panoramasの実験では、PanoFreeは大幅なエラー低減、グローバルな一貫性の向上、さらに微調整をせずに画質の向上を実現している。
既存の方法と比較して、PanoFreeはGPUメモリ使用時の最大5倍効率が向上し、3倍効率が向上しています。
PanoFreeは、コストのかかる微調整や、追加のトレーニング済みモデルの使用に代わる、実行可能な代替手段を提供する。
Project website at https://panofree.github.io/.com
Immersive scene generation, notably panorama creation, benefits significantly from the adaptation of large pre-trained text-to-image (T2I) models for multi-view image generation. Due to the high cost of acquiring multi-view images, tuning-free generation is preferred. However, existing methods are either limited to simple correspondences or require extensive fine-tuning to capture complex ones. We present PanoFree, a novel method for tuning-free multi-view image generation that supports an extensive array of correspondences. PanoFree sequentially generates multi-view images using iterative warping and inpainting, addressing the key issues of inconsistency and artifacts from error accumulation without the need for fine-tuning. It improves error accumulation by enhancing cross-view awareness and refines the warping and inpainting processes via cross-view guidance, risky area estimation and erasing, and symmetric bidirectional guided generation for loop closure, alongside guidance-based semantic and density control for scene structure preservation. In experiments on Planar, 360{\deg}, and Full Spherical Panoramas, PanoFree demonstrates significant error reduction, improves global consistency, and boosts image quality without extra fine-tuning. Compared to existing methods, PanoFree is up to 5x more efficient in time and 3x more efficient in GPU memory usage, and maintains superior diversity of results (2x better in our user study). PanoFree offers a viable alternative to costly fine-tuning or the use of additional pre-trained models. Project website at https://panofree.github.io/. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# SPINEX-TimeSeries:時系列および予測問題に対する説明可能な近傍探索と類似性に基づく予測
SPINEX-TimeSeries: Similarity-based Predictions with Explainable Neighbors Exploration for Time Series and Forecasting Problems ( http://arxiv.org/abs/2408.02159v1 ) ライセンス: Link先を確認 | Ahmed Z Naser, MZ Naser, | (参考訳) 本稿では,SPINEX(Similarity-based Predictions with Explainable Neighbors Exploration)ファミリーへの新たな追加について紹介する。
このアルゴリズムは、複数の時間スケールにわたる類似性と高次時間的相互作用の概念を活用し、予測精度と予測可能性を高める。
SPINEXの有効性を評価するため、18のアルゴリズムと49の合成データセットと実データセットを比較した総合的なベンチマーク実験を行った。
性能評価は,予測精度と計算効率に着目した。
以上の結果から,SPINEXは精度の予測において常に上位5人のパフォーマーにランクインし,一般に採用されているアルゴリズムと比較して複雑な時間的ダイナミクスを扱う能力に優れていた。
さらに,アルゴリズムの説明可能性,パレート効率,中間複雑性(O(log n)の順)を詳細に視覚化し,予測と意思決定のプロセスを強化する。
類似性に基づく概念の統合は、予測分析研究の新しい道を開き、より正確で透明な意思決定を約束する。
This paper introduces a new addition to the SPINEX (Similarity-based Predictions with Explainable Neighbors Exploration) family, tailored specifically for time series and forecasting analysis. This new algorithm leverages the concept of similarity and higher-order temporal interactions across multiple time scales to enhance predictive accuracy and interpretability in forecasting. To evaluate the effectiveness of SPINEX, we present comprehensive benchmarking experiments comparing it against 18 algorithms and across 49 synthetic and real datasets characterized by varying trends, seasonality, and noise levels. Our performance assessment focused on forecasting accuracy and computational efficiency. Our findings reveal that SPINEX consistently ranks among the top 5 performers in forecasting precision and has a superior ability to handle complex temporal dynamics compared to commonly adopted algorithms. Moreover, the algorithm's explainability features, Pareto efficiency, and medium complexity (on the order of O(log n)) are demonstrated through detailed visualizations to enhance the prediction and decision-making process. We note that integrating similarity-based concepts opens new avenues for research in predictive analytics, promising more accurate and transparent decision making. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# 機械学習の付加価値を蒸留する - 大気アプリケーションにおけるParetoフロントエンド
Distilling Machine Learning's Added Value: Pareto Fronts in Atmospheric Applications ( http://arxiv.org/abs/2408.02161v1 ) ライセンス: Link先を確認 | Tom Beucler, Arthur Grundner, Sara Shamekh, Peter Ukkonen, Matthew Chantry, Ryan Lagerquist, | (参考訳) 天気や気候のアプリケーションに機械学習(ML)を追加する価値は測定可能であるが、特に大規模なディープラーニングモデルでは、依然として困難である。
気候モデル階層に着想を得て,適切に決定された誤差・複雑度平面内で定義されたパレート最適モデルの完全な階層構造が,モデル開発をガイドし,モデルの付加価値を理解するのに役立つことを提案する。
大気物理におけるParetoフロントの利用を3つのサンプルアプリケーションを用いて実証し、最小のチューナブルパラメータを持つ半経験的モデル(単純)からディープラーニングアルゴリズム(最も複雑)まで様々に階層化を行った。
まず、雲被覆パラメータ化において、ニューラルネットワークが雲被覆と熱力学環境の間の非線形関係を識別し、雲被覆の表現を改善する相対湿度の垂直勾配のような従来無視されていた特徴を同化することを発見した。
この付加値は、ディープラーニングモデルの性能に匹敵する10パラメータの方程式に凝縮される。
第2に、短波放射伝達をエミュレートするMLモデル階層を構築し、特に複数の雲層において、吸収と散乱を正確に表現するための双方向垂直接続の重要性を蒸留する。
第3に,熱帯降雨と周辺環境の関係をモデル化する上で,対流組織情報の重要性を強調した。
本研究では,高分解能空間情報が利用できない場合の時間記憶の付加値について考察する。
そこで,Paretoの最適性を用いて,データ駆動モデルと既存のスキームを直接比較することにより,階層的にシステム複雑性を明らかにするプロセス理解を促進し,大気アプリケーションにおけるMLモデルの信頼性向上を期待する。
While the added value of machine learning (ML) for weather and climate applications is measurable, explaining it remains challenging, especially for large deep learning models. Inspired by climate model hierarchies, we propose that a full hierarchy of Pareto-optimal models, defined within an appropriately determined error-complexity plane, can guide model development and help understand the models' added value. We demonstrate the use of Pareto fronts in atmospheric physics through three sample applications, with hierarchies ranging from semi-empirical models with minimal tunable parameters (simplest) to deep learning algorithms (most complex). First, in cloud cover parameterization, we find that neural networks identify nonlinear relationships between cloud cover and its thermodynamic environment, and assimilate previously neglected features such as vertical gradients in relative humidity that improve the representation of low cloud cover. This added value is condensed into a ten-parameter equation that rivals the performance of deep learning models. Second, we establish a ML model hierarchy for emulating shortwave radiative transfer, distilling the importance of bidirectional vertical connectivity for accurately representing absorption and scattering, especially for multiple cloud layers. Third, we emphasize the importance of convective organization information when modeling the relationship between tropical precipitation and its surrounding environment. We discuss the added value of temporal memory when high-resolution spatial information is unavailable, with implications for precipitation parameterization. Therefore, by comparing data-driven models directly with existing schemes using Pareto optimality, we promote process understanding by hierarchically unveiling system complexity, with the hope of improving the trustworthiness of ML models in atmospheric applications. | 翻訳日:2024-08-06 14:56:07 公開日:2024-08-04 |
# 影響分析の再考:公正性と一貫性を確保するためのプロトコル
Rethinking Affect Analysis: A Protocol for Ensuring Fairness and Consistency ( http://arxiv.org/abs/2408.02164v1 ) ライセンス: Link先を確認 | Guanyu Hu, Dimitrios Kollias, Eleni Papadopoulou, Paraskevi Tzouveli, Jie Wei, Xinyu Yang, | (参考訳) 影響分析手法の評価は、データベース分割と評価プロトコルの不整合による課題を示し、不公平で偏りのある結果をもたらす。
これまでの研究では、継続的なパフォーマンス改善が主張されていたが、我々の研究はこのような主張に異議を唱えた。
これらの知見を用いて、公平性と互換性を確保するために、データベース分割のための統一的なプロトコルを提案する。
本稿では,(人種,性別,年齢の面で)詳細な統計アノテーション,評価指標,表現認識,行動単位検出,原子価-覚醒推定のための共通フレームワークを提供する。
また、新しいプロトコルでメソッドを再実行し、より公平な比較で影響認識の今後の研究を促進するための新しいリーダーボードを導入します。
私たちのアノテーション、コード、事前トレーニングされたモデルは、 \hyperlink{https://github.com/dkollias/Fair-Consistent-Affect-Analysis}{Github}で利用可能です。
Evaluating affect analysis methods presents challenges due to inconsistencies in database partitioning and evaluation protocols, leading to unfair and biased results. Previous studies claim continuous performance improvements, but our findings challenge such assertions. Using these insights, we propose a unified protocol for database partitioning that ensures fairness and comparability. We provide detailed demographic annotations (in terms of race, gender and age), evaluation metrics, and a common framework for expression recognition, action unit detection and valence-arousal estimation. We also rerun the methods with the new protocol and introduce a new leaderboards to encourage future research in affect recognition with a fairer comparison. Our annotations, code, and pre-trained models are available on \hyperlink{https://github.com/dkollias/Fair-Consistent-Affect-Analysis}{Github}. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-04 |
# SelfBC:オフライン強化学習のための自己行動クローン
SelfBC: Self Behavior Cloning for Offline Reinforcement Learning ( http://arxiv.org/abs/2408.02165v1 ) ライセンス: Link先を確認 | Shirong Liu, Chenjia Bai, Zixian Guo, Hao Zhang, Gaurav Sharma, Yang Liu, | (参考訳) オフライン強化学習におけるポリシー制約手法は、学習されたポリシーとオフラインデータセットの相違を抑えるために追加の規則化手法を用いる。
しかし、これらの手法は行動方針に類似した過度に保守的な政策をもたらす傾向にあり、それによってパフォーマンスが制限される。
この制限について検討し、従来の制約の静的な性質に関連づける。
本稿では,以前に学習したポリシーの指数的移動平均によって生成されたサンプルに対する学習ポリシーを制約する,新しい動的ポリシー制約を提案する。
この自己拘束機構を非政治的手法に統合することにより、オフライン環境での政策崩壊を回避しつつ、非保守的な政策の学習を容易にする。
理論的には, ほぼ単調に改善された参照ポリシーが得られた。
D4RL MuJoCo ドメインの大規模実験により,提案手法が政策制約手法の最先端性能を実現することを示す。
Policy constraint methods in offline reinforcement learning employ additional regularization techniques to constrain the discrepancy between the learned policy and the offline dataset. However, these methods tend to result in overly conservative policies that resemble the behavior policy, thus limiting their performance. We investigate this limitation and attribute it to the static nature of traditional constraints. In this paper, we propose a novel dynamic policy constraint that restricts the learned policy on the samples generated by the exponential moving average of previously learned policies. By integrating this self-constraint mechanism into off-policy methods, our method facilitates the learning of non-conservative policies while avoiding policy collapse in the offline setting. Theoretical results show that our approach results in a nearly monotonically improved reference policy. Extensive experiments on the D4RL MuJoCo domain demonstrate that our proposed method achieves state-of-the-art performance among the policy constraint methods. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-04 |
# 学習力学における一般化の埋め込み:サンプルパスの大偏差理論に基づくアプローチ
Embedding generalization within the learning dynamics: An approach based-on sample path large deviation theory ( http://arxiv.org/abs/2408.02167v1 ) ライセンス: Link先を確認 | Getachew K. Befekadu, | (参考訳) 非線形関数や力学系のモデリングにおける点推定の典型的な学習問題として、与えられた学習モデルの検証を学習過程や力学の不可欠な部分として組み込むことができる。
特に、トレーニングデータセットの損失によって導かれる、小さな乱摂動を伴う連続的な視点から勾配法を利用する経験的リスク最小化に基づく学習問題を考察する。
ここでは、ランダムに摂動する勾配の力学系に対応するランダムプロセスのサンプルパスが特定のターゲットセット、すなわち、テストデータセット損失ランドスケープによって後者が特定された場合に、大きな偏差のフレイドリン・ウェンツェル理論に基づく小さな雑音限界の漸近確率推定を行う。
興味深いことに、提案したフレームワークは、学習問題の一般化と堅牢性を改善する一つの方法として、データ損失のトレーニングによって導かれる最適な点推定に導く新たな洞察を提供する一方で、学習ダイナミクスは、将来達成可能な、あるいは期待される目標の形で、テストデータセットの損失状況にアクセスすることができる。
さらに, 副産物として, 目標セット, 希少事象を, ある最適制御問題に対する望ましい結果あるいは達成可能な目標とみなす最適制御問題との関連性を確立し, 提案フレームワークの理論的根拠を裏付ける検証結果も提供する。
最後に、最適点推定に繋がる変分問題を解く計算アルゴリズムを提案し、この研究の一環として、非線形回帰問題の典型的な場合の数値結果も提示する。
We consider a typical learning problem of point estimations for modeling of nonlinear functions or dynamical systems in which generalization, i.e., verifying a given learned model, can be embedded as an integral part of the learning process or dynamics. In particular, we consider an empirical risk minimization based learning problem that exploits gradient methods from continuous-time perspective with small random perturbations, which is guided by the training dataset loss. Here, we provide an asymptotic probability estimate in the small noise limit based-on the Freidlin-Wentzell theory of large deviations, when the sample path of the random process corresponding to the randomly perturbed gradient dynamical system hits a certain target set, i.e., a rare event, when the latter is specified by the testing dataset loss landscape. Interestingly, the proposed framework can be viewed as one way of improving generalization and robustness in learning problems that provides new insights leading to optimal point estimates which is guided by training data loss, while, at the same time, the learning dynamics has an access to the testing dataset loss landscape in some form of future achievable or anticipated target goal. Moreover, as a by-product, we establish a connection with optimal control problem, where the target set, i.e., the rare event, is considered as the desired outcome or achievable target goal for a certain optimal control problem, for which we also provide a verification result reinforcing the rationale behind the proposed framework. Finally, we present a computational algorithm that solves the corresponding variational problem leading to an optimal point estimates and, as part of this work, we also present some numerical results for a typical case of nonlinear regression problem. | 翻訳日:2024-08-06 14:45:49 公開日:2024-08-04 |
# ShieldGemma: Gemmaに基づいた生成AIコンテンツモデレーション
ShieldGemma: Generative AI Content Moderation Based on Gemma ( http://arxiv.org/abs/2407.21772v2 ) ライセンス: Link先を確認 | Wenjun Zeng, Yuchi Liu, Ryan Mullins, Ludovic Peran, Joe Fernandez, Hamza Harkous, Karthik Narasimhan, Drew Proud, Piyush Kumar, Bhaktipriya Radharapu, Olivia Sturman, Oscar Wahltinez, | (参考訳) Gemma2 上に構築された LLM ベースの安全コンテンツモデレーションモデルの包括的スイートである ShieldGemma を紹介する。
これらのモデルは、ユーザ入力とLCM生成出力の両方において、主要な害タイプ(性的に明示的で危険なコンテンツ、ハラスメント、ヘイトスピーチ)にわたる安全リスクの、堅牢で最先端の予測を提供する。
Llama Guard (+10.8\% AU-PRC on public benchmarks) やWildCard (+4.3\%) など,既存のモデルと比較して優れたパフォーマンスを示す。
さらに,LLMに基づく新たなデータキュレーションパイプラインを提案する。
我々は、主に合成データに基づいて訓練されたモデルに対して、強力な一般化性能を示した。
ShieldGemmaをリリースすることによって、研究コミュニティに貴重なリソースを提供し、LLMの安全性を向上し、開発者にとってより効果的なコンテンツモデレーションソリューションの作成を可能にします。
We present ShieldGemma, a comprehensive suite of LLM-based safety content moderation models built upon Gemma2. These models provide robust, state-of-the-art predictions of safety risks across key harm types (sexually explicit, dangerous content, harassment, hate speech) in both user input and LLM-generated output. By evaluating on both public and internal benchmarks, we demonstrate superior performance compared to existing models, such as Llama Guard (+10.8\% AU-PRC on public benchmarks) and WildCard (+4.3\%). Additionally, we present a novel LLM-based data curation pipeline, adaptable to a variety of safety-related tasks and beyond. We have shown strong generalization performance for model trained mainly on synthetic data. By releasing ShieldGemma, we provide a valuable resource to the research community, advancing LLM safety and enabling the creation of more effective content moderation solutions for developers. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-04 |
# 非畳み込みグラフニューラルネットワーク
Non-convolutional Graph Neural Networks ( http://arxiv.org/abs/2408.00165v2 ) ライセンス: Link先を確認 | Yuanqing Wang, Kyunghyun Cho, | (参考訳) 畳み込みベースのグラフニューラルネットワーク(GNN)を再考する -- 表現力の制限、過度なスムース化、過剰なスキャッシングが特徴であり、効率的な計算には特別なスパースカーネルが必要である。
本稿では、畳み込み演算子を完全に含まない単純なグラフ学習モジュールを設計し、ランダムウォークと統一メモリ(RUM)ニューラルネットワークを合成し、RNNが各ノードで終了するランダムウォークに沿ってトポロジとセマンティックグラフの特徴をマージする。
RNNの挙動とグラフトポロジーに関する豊富な文献に関連して,RUMが上記の症状を緩和し,Weisfeiler-Lehman(WL)同型性試験よりも表現力が高いことを理論的に証明し,実験的に検証した。
様々なノードレベルの分類と回帰タスクにおいて、RUMは競争性能を達成するだけでなく、最も単純な畳み込みGNNよりも堅牢で、メモリ効率が良く、スケーラブルで、高速である。
Rethink convolution-based graph neural networks (GNN) -- they characteristically suffer from limited expressiveness, over-smoothing, and over-squashing, and require specialized sparse kernels for efficient computation. Here, we design a simple graph learning module entirely free of convolution operators, coined random walk with unifying memory (RUM) neural network, where an RNN merges the topological and semantic graph features along the random walks terminating at each node. Relating the rich literature on RNN behavior and graph topology, we theoretically show and experimentally verify that RUM attenuates the aforementioned symptoms and is more expressive than the Weisfeiler-Lehman (WL) isomorphism test. On a variety of node- and graph-level classification and regression tasks, RUM not only achieves competitive performance, but is also robust, memory-efficient, scalable, and faster than the simplest convolutional GNNs. | 翻訳日:2024-08-06 12:36:51 公開日:2024-08-04 |