このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240608となっている論文です。

PDF登録状況(公開日: 20240608)

TitleAuthorsAbstract論文公表日・翻訳日
# ロボット応用のためのオントロジーと機械学習の結合

Coupling Machine Learning with Ontology for Robotics Applications ( http://arxiv.org/abs/2407.02500v1 )

ライセンス: Link先を確認
Osama F. Zaki, (参考訳) 本稿では,機械学習(ML)アルゴリズムと知識ベース(KB)オントロジー形式を結合する実践的アプローチを提案する。 動的シナリオにおける事前知識の可用性の欠如は、間違いなくスケーラブルなマシンインテリジェンスにとって大きな障壁である。 2つの階層のインテリジェンス間の相互作用に関する私の見解は、知識が知識ベース層で容易に利用できない場合、機械学習アルゴリズムからトレーニングされたモデルにアクセス可能な他の層からより多くの知識を抽出できるという考えに基づいている。 この仮説を分析するために、異なる機械学習アルゴリズム(多層フィードフォワードバックプロパゲーション、ネイブベイズ、J48決定木)によって分析された、自律システムのリスク認識に直接関係する異なるデータセットに基づく2つの実験を作成します。 私の分析では、MLとKBを結合する2層インテリジェンスアプローチは計算に有効であり、ロボットミッション中のアルゴリズムの時間複雑性は、データと知識のサイズと線形である。

In this paper I present a practical approach for coupling machine learning (ML) algorithms with knowledge bases (KB) ontology formalism. The lack of availability of prior knowledge in dynamic scenarios is without doubt a major barrier for scalable machine intelligence. My view of the interaction between the two tiers intelligence is based on the idea that when knowledge is not readily available at the knowledge base tier, more knowledge can be extracted from the other tier, which has access to trained models from machine learning algorithms. To analyse this hypothesis, I create two experiments based on different datasets, which are related directly to risk-awareness of autonomous systems, analysed by different machine learning algorithms (namely; multi-layer feedforward backpropagation, Naive Bayes, and J48 decision tree). My analysis shows that the two-tiers intelligence approach for coupling ML and KB is computationally valid and the time complexity of the algorithms during the robot mission is linear with the size of the data and knowledge.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-08
# 単一画像からのニューラルな外観モデリング

Neural Appearance Modeling From Single Images ( http://arxiv.org/abs/2406.18593v1 )

ライセンス: Link先を確認
Jay Idema, Pieter Peers, (参考訳) そこで本稿では,光と光の多様な条件下で,可視で空間的に変化する物質を視覚的に可視化するための材料外見モデリングニューラルネットワークを提案する。 我々のニューラルアーキテクチャは、2つのネットワークステージで構成されている: 単一の入力写真から材料の1ピクセルあたりのニューラルパラメータを推論するネットワークと、BRDFに似たこれらのニューラルパラメータを利用して物質をレンダリングするネットワークである。 我々は312,165個の合成空間変化例でモデルを訓練する。 本手法は,解析的BRDFパラメータよりも学習されたニューラルネットワークパラメータを推定するため,異方性および大域照明情報(画素間相互作用)を個々の画素パラメータに符号化することができる。 我々は,従来の作業と比較して,モデルの性能を実証し,それを三葉3レンダリングエンジンに実装することで,BRDFとしてのレンダリングネットワークの実現可能性を示す。 最後に,グローバル照明情報を符号化するニューラルパラメータの能力について概説する。

We propose a material appearance modeling neural network for visualizing plausible, spatially-varying materials under diverse view and lighting conditions, utilizing only a single photograph of a material under co-located light and view as input for appearance estimation. Our neural architecture is composed of two network stages: a network that infers learned per-pixel neural parameters of a material from a single input photograph, and a network that renders the material utilizing these neural parameters, similar to a BRDF. We train our model on a set of 312,165 synthetic spatially-varying exemplars. Since our method infers learned neural parameters rather than analytical BRDF parameters, our method is capable of encoding anisotropic and global illumination (inter-pixel interaction) information into individual pixel parameters. We demonstrate our model's performance compared to prior work and demonstrate the feasibility of the render network as a BRDF by implementing it into the Mitsuba3 rendering engine. Finally, we briefly discuss the capability of neural parameters to encode global illumination information.
翻訳日:2024-07-01 05:40:31 公開日:2024-06-08
# QCQA: 品質とキャパシティを意識したグループクエリアテンション

QCQA: Quality and Capacity-aware grouped Query Attention ( http://arxiv.org/abs/2406.10247v1 )

ライセンス: Link先を確認
Vinay Joshi, Prashant Laddha, Shambhavi Sinha, Om Ji Omer, Sreenivas Subramoney, (参考訳) キーと値の特徴(KV-cache)の過剰なメモリ要件は、大きな言語モデル(LLM)の自動回帰推論において大きな課題をもたらし、テキスト生成の速度と長さを制限している。 Multi-Query Attention(MQA)やGrouped Query Attention(GQA)といったアプローチは、クエリヘッドをグループ化することでこれらの課題を軽減する。 しかし、MQAとGQAは、LLMの精度(テキスト生成の品質)を犠牲にして、KVキャッシュサイズ要件を小さくする。 これらの手法は、クエリーヘッドの品質を意識しないグループ化がないため、KVキャッシュサイズとテキスト生成品質の最適なトレードオフを保証しない。 この問題に対処するため,我々はQCQA(Quality and Capacity-Aware Grouped Query Attention)を提案する。 我々は,QCQAが,GQAと比較して,KVキャッシュ容量とLLM精度のトレードオフを著しく向上できることを実証した。 Llama2 7\,$B モデルの場合、QCQA は GQA よりも$\mathbf{20}$\% 高い精度を達成する。 QCQA と GQA の両方を微調整した後、同様の KV-cache サイズで、QCQA は GQA よりも高い精度で $\mathbf{10.55}\,$\% を提供する。 さらに、QCQAは、類似の精度を得るために、GQAよりもKVキャッシュサイズを40,$\%少なくする必要がある。 提案するクエリヘッドの品質とキャパシティを考慮したグループ化は,自己回帰型LLM推論におけるKV-cache最適化の新たなパラダイムとして機能する。

Excessive memory requirements of key and value features (KV-cache) present significant challenges in the autoregressive inference of large language models (LLMs), restricting both the speed and length of text generation. Approaches such as Multi-Query Attention (MQA) and Grouped Query Attention (GQA) mitigate these challenges by grouping query heads and consequently reducing the number of corresponding key and value heads. However, MQA and GQA decrease the KV-cache size requirements at the expense of LLM accuracy (quality of text generation). These methods do not ensure an optimal tradeoff between KV-cache size and text generation quality due to the absence of quality-aware grouping of query heads. To address this issue, we propose Quality and Capacity-Aware Grouped Query Attention (QCQA), which identifies optimal query head groupings using an evolutionary algorithm with a computationally efficient and inexpensive fitness function. We demonstrate that QCQA achieves a significantly better tradeoff between KV-cache capacity and LLM accuracy compared to GQA. For the Llama2 $7\,$B model, QCQA achieves $\mathbf{20}$\% higher accuracy than GQA with similar KV-cache size requirements in the absence of fine-tuning. After fine-tuning both QCQA and GQA, for a similar KV-cache size, QCQA provides $\mathbf{10.55}\,$\% higher accuracy than GQA. Furthermore, QCQA requires $40\,$\% less KV-cache size than GQA to attain similar accuracy. The proposed quality and capacity-aware grouping of query heads can serve as a new paradigm for KV-cache optimization in autoregressive LLM inference.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-08
# 大規模言語モデルの最悪のプロンプト性能について

On the Worst Prompt Performance of Large Language Models ( http://arxiv.org/abs/2406.10248v1 )

ライセンス: Link先を確認
Bowen Cao, Deng Cai, Zhisong Zhang, Yuexian Zou, Wai Lam, (参考訳) 大規模言語モデル(LLM)の性能はプロンプトの表現に非常に敏感であり、現実のシナリオにおける信頼性に対する大きな懸念を生じさせる。 既存の研究では、しばしばプロンプトをタスクレベルの命令とケースレベルのインプットに分割し、主にタスクレベルの命令のバリエーションに対する堅牢性を評価し改善することに焦点を当てている。 しかし、このセットアップは現実世界のユーザクエリの多様性を完全に解決することができず、タスク固有のデータセットの存在を前提としている。 これは意味論的に等価なケースレベルのクエリで構成される新しいベンチマークで、モデルパフォーマンスの低いバウンダリを測定するために、最悪のプロンプトパフォーマンスを使用することの重要性を強調します。 ChatGPTのRobostAlpacaEvalと、Llama、Mistral、Gemmaファミリーの6つのオープンソースLCMによる大規模な実験により、モデル性能のかなりの変動が明らかになった。 さらに、モデルに依存しない視点とモデルに依存しない視点の両方から最悪のプロンプトを特定することの難しさを説明し、最悪のプロンプトを特徴づけるショートカットがないことを強調する。 既存のプロンプトエンジニアリングとプロンプト一貫性メソッドを使用して、最悪のプロンプトパフォーマンスを向上しようともしていますが、その影響は限られています。 これらの知見は、多様なプロンプトにまたがって高い性能を維持できる、より回復力のあるLCMを作成する必要性を浮き彫りにしている。

The performance of large language models (LLMs) is acutely sensitive to the phrasing of prompts, which raises significant concerns about their reliability in real-world scenarios. Existing studies often divide prompts into task-level instructions and case-level inputs and primarily focus on evaluating and improving robustness against variations in tasks-level instructions. However, this setup fails to fully address the diversity of real-world user queries and assumes the existence of task-specific datasets. To address these limitations, we introduce RobustAlpacaEval, a new benchmark that consists of semantically equivalent case-level queries and emphasizes the importance of using the worst prompt performance to gauge the lower bound of model performance. Extensive experiments on RobustAlpacaEval with ChatGPT and six open-source LLMs from the Llama, Mistral, and Gemma families uncover substantial variability in model performance; for instance, a difference of 45.48% between the worst and best performance for the Llama-2-70B-chat model, with its worst performance dipping as low as 9.38%. We further illustrate the difficulty in identifying the worst prompt from both model-agnostic and model-dependent perspectives, emphasizing the absence of a shortcut to characterize the worst prompt. We also attempt to enhance the worst prompt performance using existing prompt engineering and prompt consistency methods, but find that their impact is limited. These findings underscore the need to create more resilient LLMs that can maintain high performance across diverse prompts.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-08
# ネパールの異なる地域での衛星データによる太陽エネルギー予測

Solar Power Prediction Using Satellite Data in Different Parts of Nepal ( http://arxiv.org/abs/2406.11877v1 )

ライセンス: Link先を確認
Raj Krishna Nepal, Bibek Khanal, Vibek Ghimire, Kismat Neupane, Atul Pokharel, Kshitij Niraula, Baburam Tiwari, Nawaraj Bhattarai, Khem N. Poudyal, Nawaraj Karki, Mohan B Dangi, John Biden, (参考訳) ネパールの多くの潜在的な地域において、太陽放射データが利用できないため、代替気象パラメータに基づいた太陽放射の予測が提案されている。 この研究はネパールの5つの異なる地域に焦点を当て、CERES Syn1degとMERRA-2から得られた約10年間のデータセットを利用している。 Random Forest、XGBoost、K-Nearest Neighborsといった機械学習モデル、LSTMやANN-MLPといったディープラーニングモデルが採用され、そのパフォーマンスを評価する。 その結果、R-squared(R2)スコアは、列車と試験の両方のデータセットのユニティに近く、太陽の照度を予測する精度が高いことが示唆された。 パラメータ統合がモデル性能に与える影響を解析し、予測精度を高める上での様々なパラメータの重要性を明らかにする。 各モデルは全てのパラメータに対して強い性能を示し、連続してMAE値が6以下、RMSE値が10以下、MBEが|2|、R2値がほぼ一様である。 データセットから「Solar_Irradiance_Clear_Sky」「UVA」などの様々な太陽パラメータを除去すると、モデルの性能に大きな影響を及ぼす。 この排除により、MAEは82まで、RMSEは135まで、MBEは7|まで上昇する。 モデルの中で、KNNは最も弱い性能を示し、R2は0.7582546である。 逆に、ANNはR2の0.9245877を誇った最強のパフォーマンスを誇っている。 したがって、この研究は、ANN(Artificial Neural Network)が極めてよく機能し、スパースなデータパラメータ条件下であっても、その汎用性を示すと結論付けている。

Due to the unavailability of solar irradiance data for many potential sites of Nepal, the paper proposes predicting solar irradiance based on alternative meteorological parameters. The study focuses on five distinct regions in Nepal and utilizes a dataset spanning almost ten years, obtained from CERES SYN1deg and MERRA-2. Machine learning models such as Random Forest, XGBoost, K-Nearest Neighbors, and deep learning models like LSTM and ANN-MLP are employed and evaluated for their performance. The results indicate high accuracy in predicting solar irradiance, with R-squared(R2) scores close to unity for both train and test datasets. The impact of parameter integration on model performance is analyzed, revealing the significance of various parameters in enhancing predictive accuracy. Each model demonstrates strong performance across all parameters, consistently achieving MAE values below 6, RMSE values under 10, MBE within |2|, and nearly unity R2 values. Upon removal of various solar parameters such as "Solar_Irradiance_Clear_Sky", "UVA", etc. from the datasets, the model's performance is significantly affected. This exclusion leads to considerable increases in MAE, reaching up to 82, RMSE up to 135, and MBE up to |7|. Among the models, KNN displays the weakest performance, with an R2 of 0.7582546. Conversely, ANN exhibits the strongest performance, boasting an R2 value of 0.9245877. Hence, the study concludes that Artificial Neural Network (ANN) performs exceptionally well, showcasing its versatility even under sparse data parameter conditions.
翻訳日:2024-06-23 13:24:48 公開日:2024-06-08
# キャロリメータショーアシミュレーションにおける生成モデルの包括的評価

A Comprehensive Evaluation of Generative Models in Calorimeter Shower Simulation ( http://arxiv.org/abs/2406.12898v1 )

ライセンス: Link先を確認
Farzana Yasmin Ahmad, Vanamala Venkataswamy, Geoffrey Fox, (参考訳) 素粒子相互作用の理解の追求は、非平行な精度レベルに達した。 粒子物理学検出器は衝突物理を符号化する低レベル物体シグネチャを生成する上で重要な役割を果たしている。 しかし、これらの粒子衝突をシミュレートすることは、大きなデータ量、より複雑な検出器、高輝度LHCにおけるより高い積み上げ環境など、メモリと計算の面で要求されるタスクである。 ファストシミュレーション」の導入は、計算ボトルネックを克服する上で重要な役割を担っている。 深部生成モデルの使用により、検出器シミュレーションの代理モデルへの関心が高まり、観測データによく似た粒子シャワーが生み出された。 それでも、標準化されたメトリクスセットを使用してパフォーマンスを総合的に評価する必要がある。 本研究では,標準データセットと物理,コンピュータビジョン,統計学から派生した多種多様な指標を用いた3つの生成モデルの厳密な評価を行った。 さらに,推論において,全精度モードと混合精度モードを用いることによる影響について検討した。 評価の結果,CaloDiffusionおよびCaloScore生成モデルが最も正確な粒子シャワーシミュレーションを行った。 その結果,Geant4データを正確に再現するには,評価モデルが不足する領域が見つかった。

The pursuit of understanding fundamental particle interactions has reached unparalleled precision levels. Particle physics detectors play a crucial role in generating low-level object signatures that encode collision physics. However, simulating these particle collisions is a demanding task in terms of memory and computation which will be exasperated with larger data volumes, more complex detectors, and a higher pileup environment in the High-Luminosity LHC. The introduction of "Fast Simulation" has been pivotal in overcoming computational bottlenecks. The use of deep-generative models has sparked a surge of interest in surrogate modeling for detector simulations, generating particle showers that closely resemble the observed data. Nonetheless, there is a pressing need for a comprehensive evaluation of their performance using a standardized set of metrics. In this study, we conducted a rigorous evaluation of three generative models using standard datasets and a diverse set of metrics derived from physics, computer vision, and statistics. Furthermore, we explored the impact of using full versus mixed precision modes during inference. Our evaluation revealed that the CaloDiffusion and CaloScore generative models demonstrate the most accurate simulation of particle showers, yet there remains substantial room for improvement. Our findings identified areas where the evaluated models fell short in accurately replicating Geant4 data.
翻訳日:2024-06-23 13:24:48 公開日:2024-06-08
# MiniMax Entropy Network: ドメイン適応のためのカテゴリ不変の特徴を学習する

MiniMax Entropy Network: Learning Category-Invariant Features for Domain Adaptation ( http://arxiv.org/abs/1904.09601v4 )

ライセンス: Link先を確認
Chaofan Tao, Fengmao Lv, Lixin Duan, Min Wu, (参考訳) 対象のドメインからラベル付けされていないデータから効果的に学習する方法は、ドメインシフトや分散変更による大きなパフォーマンスギャップを減らすのに役立つため、ドメイン適応に不可欠である。 本稿では,逆学習に基づくMMEN(MiniMax Entropy Networks)と呼ばれる実装が容易な手法を提案する。 ドメイン差に対処するためにジェネレータを使用する既存のアプローチとは異なり、MMENはラベル付けされたソースサンプルの助けを借りてラベル付けされていないターゲットサンプルからカテゴリ情報を学習することに重点を置いている。 具体的には、ソースサンプルを正確に分類するが、ターゲットサンプルのカテゴリについて混同される、カテゴリ識別器という不公平なマルチクラス分類器を設定した。 ジェネレータは、対象の擬似ラベルに基づいて未ラベルのサンプルを整列する共通部分空間を学習する。 MMENでは,特徴整合の学習がカテゴリレベルでのドメインミスマッチを減少させることを示す理論的説明も提供する。 種々のベンチマークデータセットによる実験結果から,既存の最先端ベースラインに対する提案手法の有効性が示された。

How to effectively learn from unlabeled data from the target domain is crucial for domain adaptation, as it helps reduce the large performance gap due to domain shift or distribution change. In this paper, we propose an easy-to-implement method dubbed MiniMax Entropy Networks (MMEN) based on adversarial learning. Unlike most existing approaches which employ a generator to deal with domain difference, MMEN focuses on learning the categorical information from unlabeled target samples with the help of labeled source samples. Specifically, we set an unfair multi-class classifier named categorical discriminator, which classifies source samples accurately but be confused about the categories of target samples. The generator learns a common subspace that aligns the unlabeled samples based on the target pseudo-labels. For MMEN, we also provide theoretical explanations to show that the learning of feature alignment reduces domain mismatch at the category level. Experimental results on various benchmark datasets demonstrate the effectiveness of our method over existing state-of-the-art baselines.
翻訳日:2024-06-17 00:11:14 公開日:2024-06-08
# ドメイン適応のための確率論的コントラスト学習

Probabilistic Contrastive Learning for Domain Adaptation ( http://arxiv.org/abs/2111.06021v6 )

ライセンス: Link先を確認
Junjie Li, Yixin Zhang, Zilei Wang, Saihui Hou, Keyu Tu, Man Zhang, (参考訳) コントラスト学習は、様々な視覚的タスクに対する特徴識別性を自己指導的に向上させることに成功したが、標準的なコントラストパラダイム(Features+$\ell_{2}$ normalization)は、ドメイン適応に適用した場合のメリットが限られている。 これは主に、クラス重み(最終完全連結層の重み)がドメイン適応最適化プロセスで無視されるため、対応するクラス重みの周りに特徴が集まるのが難しくなるためである。 この問題を解決するために, 標準パラダイムを超えて, $$\ell_{2}$正規化を除去し, 特徴を確率で置き換える「emph{simple but powerful} Probabilistic Contrastive Learning (PCL)」を提案する。 PCLは、確率分布を1ホット構成に導くことができ、特徴とクラス重みの差を最小限に抑えることができる。 我々は,PCLの有効性を検証し,Unsupervised/Semi-Supervised Domain Adaptation (UDA/SSDA), Semi-Supervised Learning (SSL), UDA Detection and Semantic Segmentation の5つのタスクにおいて,一貫した性能向上を観察する広範囲な実験を行った。 特に、SynTHIA上のUDAセマンティックセグメンテーションでは、PCLは洗練されたCPSL-Dを$>\! 2\%(PCL:1*3090,5日対CPSL-D:4*V100,11日)である。 コードはhttps://github.com/ljjcoder/Probabilistic-Contrastive-Learningで入手できる。

Contrastive learning has shown impressive success in enhancing feature discriminability for various visual tasks in a self-supervised manner, but the standard contrastive paradigm (features+$\ell_{2}$ normalization) has limited benefits when applied in domain adaptation. We find that this is mainly because the class weights (weights of the final fully connected layer) are ignored in the domain adaptation optimization process, which makes it difficult for features to cluster around the corresponding class weights. To solve this problem, we propose the \emph{simple but powerful} Probabilistic Contrastive Learning (PCL), which moves beyond the standard paradigm by removing $\ell_{2}$ normalization and replacing the features with probabilities. PCL can guide the probability distribution towards a one-hot configuration, thus minimizing the discrepancy between features and class weights. We conduct extensive experiments to validate the effectiveness of PCL and observe consistent performance gains on five tasks, i.e., Unsupervised/Semi-Supervised Domain Adaptation (UDA/SSDA), Semi-Supervised Learning (SSL), UDA Detection and Semantic Segmentation. Notably, for UDA Semantic Segmentation on SYNTHIA, PCL surpasses the sophisticated CPSL-D by $>\!2\%$ in terms of mean IoU with a much lower training cost (PCL: 1*3090, 5 days v.s. CPSL-D: 4*V100, 11 days). Code is available at https://github.com/ljjcoder/Probabilistic-Contrastive-Learning.
翻訳日:2024-06-13 01:45:51 公開日:2024-06-08
# CDKT-FL:フェデレーション学習におけるプロキシデータセットを用いたデバイス間知識伝達

CDKT-FL: Cross-Device Knowledge Transfer using Proxy Dataset in Federated Learning ( http://arxiv.org/abs/2204.01542v2 )

ライセンス: Link先を確認
Huy Q. Le, Minh N. H. Nguyen, Shashi Raj Pandey, Chaoning Zhang, Choong Seon Hong, (参考訳) 実践的な環境では、一般化とパーソナライズ能力の両方の観点から、堅牢なフェデレーションラーニング(FL)システムを有効にする方法が重要な研究課題である。 これは、しばしば統計的異質性と呼ばれるクライアントデータと、様々なデータ分布からの小さなローカルデータサンプルの結果によって、難しい問題である。 したがって,グローバルモデルやパーソナライズドモデルを開発するためには,従来のFL手法では,偏りのある局所モデルから知識アグリゲーションを再設計する必要がある。 本研究では,これらの目的を達成するための知識伝達機構を実証し,グローバルモデルとローカルモデル間の知識伝達の程度を研究するための新しい知識蒸留に基づくアプローチを開発する。 そこで本手法は,異種FLの小さなプロキシデータセットを用いて,デバイス間知識転送時にトレーニングされたモデルから結果分布の転送と(あるいは)表現の埋め込みベクトルに適合性を検討する。 代わりに、一般的な定式化に従ってデバイス間知識伝達を行う。 1)グローバル・ナレッジ・トランスファーと 2)オンデバイス・ナレッジ・トランスファー。 3つのフェデレーションデータセットのシミュレーションにより,提案手法は局所モデルの大幅な高速化と高いパーソナライズ性能を実現する。 さらに、提案手法は、トレーニング中の他のベースラインよりも安定したアルゴリズムを提供し、トレーニングされたモデルの結果と表現を交換する際の通信データの負荷を最小限に抑える。

In a practical setting, how to enable robust Federated Learning (FL) systems, both in terms of generalization and personalization abilities, is one important research question. It is a challenging issue due to the consequences of non-i.i.d. properties of client's data, often referred to as statistical heterogeneity, and small local data samples from the various data distributions. Therefore, to develop robust generalized global and personalized models, conventional FL methods need to redesign the knowledge aggregation from biased local models while considering huge divergence of learning parameters due to skewed client data. In this work, we demonstrate that the knowledge transfer mechanism achieves these objectives and develop a novel knowledge distillation-based approach to study the extent of knowledge transfer between the global model and local models. Henceforth, our method considers the suitability of transferring the outcome distribution and (or) the embedding vector of representation from trained models during cross-device knowledge transfer using a small proxy dataset in heterogeneous FL. In doing so, we alternatively perform cross-device knowledge transfer following general formulations as 1) global knowledge transfer and 2) on-device knowledge transfer. Through simulations on three federated datasets, we show the proposed method achieves significant speedups and high personalized performance of local models. Furthermore, the proposed approach offers a more stable algorithm than other baselines during the training, with minimal communication data load when exchanging the trained model's outcomes and representation.
翻訳日:2024-06-13 01:45:51 公開日:2024-06-08
# Llamasは英語で働くか?多言語トランスフォーマーの潜在言語について

Do Llamas Work in English? On the Latent Language of Multilingual Transformers ( http://arxiv.org/abs/2402.10588v4 )

ライセンス: Link先を確認
Chris Wendler, Veniamin Veselovsky, Giovanni Monea, Robert West, (参考訳) 我々は、言語モデルがどのように機能するか、言語バイアスの起源を理解する上で重要な問題である、英語を内部的なピボット言語として使用する、バランスの取れない英語支配のコーパスで訓練された多言語言語モデルかどうかを問う。 変換器モデルのLlama-2ファミリに着目し,一意に正しい単発連続性を持つ英語でないプロンプトを慎重に構築する。 層から層へ変換器は、最終プロンプトトークンの入力埋め込みを次の確率が計算される出力埋め込みに徐々にマッピングする。 中間埋め込みを高次元空間で追跡すると、(1)中間埋め込みは出力トークンの埋め込みから遠く離れたところから始まり、(2)既に中間層で意味論的に正しい次のトークンを復号できるが、そのバージョンが英語で入力言語よりも高い確率を与える。 これらの結果を「入力空間」と「概念空間」と「出力空間」の3つの相がそれぞれ動作する概念モデルにキャストした。 重要な証拠としては、抽象的な「概念空間」は他の言語よりも英語に近いことが示唆されており、多言語言語モデルが持つバイアスに関して重要な結果をもたらす可能性がある。

We ask whether multilingual language models trained on unbalanced, English-dominated corpora use English as an internal pivot language -- a question of key importance for understanding how language models function and the origins of linguistic bias. Focusing on the Llama-2 family of transformer models, our study uses carefully constructed non-English prompts with a unique correct single-token continuation. From layer to layer, transformers gradually map an input embedding of the final prompt token to an output embedding from which next-token probabilities are computed. Tracking intermediate embeddings through their high-dimensional space reveals three distinct phases, whereby intermediate embeddings (1) start far away from output token embeddings; (2) already allow for decoding a semantically correct next token in the middle layers, but give higher probability to its version in English than in the input language; (3) finally move into an input-language-specific region of the embedding space. We cast these results into a conceptual model where the three phases operate in "input space", "concept space", and "output space", respectively. Crucially, our evidence suggests that the abstract "concept space" lies closer to English than to other languages, which may have important consequences regarding the biases held by multilingual language models.
翻訳日:2024-06-12 22:32:43 公開日:2024-06-08
# 拡張オンエッジiBCIアプリケーションに向けたニューラルネットワークデコードバックボーンのベンチマーク

Benchmarking Neural Decoding Backbones towards Enhanced On-edge iBCI Applications ( http://arxiv.org/abs/2406.06626v1 )

ライセンス: Link先を確認
Zhou Zhou, Guohang He, Zheng Zhang, Luziwei Leng, Qinghai Guo, Jianxing Liao, Xuan Song, Ran Cheng, (参考訳) 従来の侵入型脳-コンピュータインタフェース(iBCI)は、通常、実験室内のワークステーションで実行される神経デコードプロセスに依存しており、日常的な使用を妨げている。 ウェアラブルのようなエッジデバイスにこれらのデコーディングプロセスを実装すると、計算要求、処理速度、精度の維持に関する大きな課題が生じる。 本研究は、エッジ展開に適した堅牢な性能と迅速な推論能力を有する最適な神経復号バックボーンを特定することを目的とする。 我々は、ランダムな到達タスクに従事する非ヒト霊長類を含む一連の神経復号実験を行い、新しいセッション微調整、推論速度、キャリブレーション速度、スケーラビリティの4つの予測モデル、トランスフォーマー、Receptance Weighted Key Value(RWKV)、Selective State Space Model(Mamba)を評価した。 これらの結果から, GRUモデルでは十分な精度が得られたが, RWKVモデルとMambaモデルの方が推論速度とキャリブレーション速度が優れていることが示唆された。 さらに、RWKVとMambaはスケール法に従い、より大きなデータセットとモデルサイズの増加によるパフォーマンスの向上を示す一方、GRUはスケーラビリティの低下を示し、Transformerモデルは違法にスケールする計算資源を必要とする。 本稿では,各シナリオにおける4つのモデルの比較分析について述べる。 結果は、データボリュームの増加に対処し、エッジ実装で実行可能な最適なバックボーンをピンポイントする上で重要なものだ。 この分析は、この分野における継続的な研究と実践的な応用に不可欠な洞察を与える。

Traditional invasive Brain-Computer Interfaces (iBCIs) typically depend on neural decoding processes conducted on workstations within laboratory settings, which prevents their everyday usage. Implementing these decoding processes on edge devices, such as the wearables, introduces considerable challenges related to computational demands, processing speed, and maintaining accuracy. This study seeks to identify an optimal neural decoding backbone that boasts robust performance and swift inference capabilities suitable for edge deployment. We executed a series of neural decoding experiments involving nonhuman primates engaged in random reaching tasks, evaluating four prospective models, Gated Recurrent Unit (GRU), Transformer, Receptance Weighted Key Value (RWKV), and Selective State Space model (Mamba), across several metrics: single-session decoding, multi-session decoding, new session fine-tuning, inference speed, calibration speed, and scalability. The findings indicate that although the GRU model delivers sufficient accuracy, the RWKV and Mamba models are preferable due to their superior inference and calibration speeds. Additionally, RWKV and Mamba comply with the scaling law, demonstrating improved performance with larger data sets and increased model sizes, whereas GRU shows less pronounced scalability, and the Transformer model requires computational resources that scale prohibitively. This paper presents a thorough comparative analysis of the four models in various scenarios. The results are pivotal in pinpointing an optimal backbone that can handle increasing data volumes and is viable for edge implementation. This analysis provides essential insights for ongoing research and practical applications in the field.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-08
# スマートメディカルアプリケーションにおける生成AIの迅速レビュー

Rapid Review of Generative AI in Smart Medical Applications ( http://arxiv.org/abs/2406.06627v1 )

ライセンス: Link先を確認
Yuan Sun, Jorge Ortiz, (参考訳) テクノロジーの継続的な進歩により、人工知能は様々な分野、特に医療に大きな影響を与えた。 生成モデルは、重要なAI技術であり、医療画像生成、データ分析、診断に革命をもたらした。 本稿では、インテリジェント医療機器への応用について検討する。 生成モデルは診断のスピードと精度を高め、医療サービスの品質と効率を改善し、設備コストを削減します。 これらのモデルは、医用画像生成、データ分析、診断において非常に有望である。 さらに、生成モデルをIoTテクノロジに統合することで、リアルタイムのデータ分析と予測が容易になり、よりスマートなヘルスケアサービスを提供し、遠隔医療を支援する。 課題には、計算要求、倫理的懸念、シナリオ固有の制限が含まれる。

With the continuous advancement of technology, artificial intelligence has significantly impacted various fields, particularly healthcare. Generative models, a key AI technology, have revolutionized medical image generation, data analysis, and diagnosis. This article explores their application in intelligent medical devices. Generative models enhance diagnostic speed and accuracy, improving medical service quality and efficiency while reducing equipment costs. These models show great promise in medical image generation, data analysis, and diagnosis. Additionally, integrating generative models with IoT technology facilitates real-time data analysis and predictions, offering smarter healthcare services and aiding in telemedicine. Challenges include computational demands, ethical concerns, and scenario-specific limitations.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-08
# ブラックボックス単目的連続最適化アルゴリズムの自動選択に用いるメタ機能の検討

A Survey of Meta-features Used for Automated Selection of Algorithms for Black-box Single-objective Continuous Optimization ( http://arxiv.org/abs/2406.06629v1 )

ライセンス: Link先を確認
Gjorgjina Cenikj, Ana Nikolikj, Gašper Petelin, Niki van Stein, Carola Doerr, Tome Eftimov, (参考訳) 与えられた問題インスタンスを解くのに最適なアルゴリズムの選択は、アルゴリズムの選択として知られるもので、問題インスタンスの集合間で異なるアルゴリズムの相補的なパフォーマンスに乗じることができる。 しかし、目に見えない問題に対する最適なアルゴリズムを決定することは難しい課題であり、近年は研究者から大きな注目を集めている。 本研究では,単目的連続ブラックボックス最適化の分野におけるアルゴリズム選択への重要な貢献について概説する。 本稿では,問題インスタンス,アルゴリズムインスタンス,およびそれらの相互作用を最適化するためのメタ機能表現学習の取り組みについて述べる。 また、自動アルゴリズム選択、構成、性能予測のための機械学習モデルについても検討する。 この分析を通じて,メタ機能表現のさらなる発展に向けたアイデアを提示する,最先端技術におけるギャップを識別する。

The selection of the most appropriate algorithm to solve a given problem instance, known as algorithm selection, is driven by the potential to capitalize on the complementary performance of different algorithms across sets of problem instances. However, determining the optimal algorithm for an unseen problem instance has been shown to be a challenging task, which has garnered significant attention from researchers in recent years. In this survey, we conduct an overview of the key contributions to algorithm selection in the field of single-objective continuous black-box optimization. We present ongoing work in representation learning of meta-features for optimization problem instances, algorithm instances, and their interactions. We also study machine learning models for automated algorithm selection, configuration, and performance prediction. Through this analysis, we identify gaps in the state of the art, based on which we present ideas for further development of meta-feature representations.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-08
# Hinge-FM2I:一様時系列における欠測データの補間に画像インペインティングを用いるアプローチ

Hinge-FM2I: An Approach using Image Inpainting for Interpolating Missing Data in Univariate Time Series ( http://arxiv.org/abs/2406.06631v1 )

ライセンス: Link先を確認
Noufel Saad, Maaroufi Nadir, Najib Mehdi, Bakhouya Mohamed, (参考訳) 正確な時系列予測は、交通管理、電力消費、医療など様々な用途に欠かせない。 しかし、モデルとデータ品質の制限は予測精度に大きな影響を及ぼす可能性がある。 データ品質に関する一般的な問題のひとつは、欠落データと呼ばれるデータポイントの欠如である。 しばしば、センサーの故障、機器の故障、ヒューマンエラーによって引き起こされる。 本稿では,一変量時系列データの欠落データを扱う新しい手法であるHinge-FM2Iを提案する。 Hinge-FM2I は Image Inpainting (FM2I) による予測手法の強みに基づいている。 FM2Iは有効であることが証明されているが、最も正確な予測を選択することは依然として困難である。 この問題を克服するため,我々は選択アルゴリズムを提案した。 ドアヒンジにインスパイアされたHinge-FM2Iは、ギャップ(左/右ヒンジ)の前後にデータポイントをドロップし、インプットにFM2Iを使用し、ドロップしたデータポイントの最も低いエラーに基づいてインプットされたギャップを選択する。 Hinge-FM2Iは、M3競合ベンチマークデータセットから抽出された1356の時系列からなる総合的なサンプルで評価され、値の欠落は3.57\%から28.57\%であった。 実験結果から,Hinge-FM2Iは線形/スプライン補間,K-Nearest Neighbors(K-NN),ARIMAといった確立された手法よりも優れていた。 特に、Hinge-FM2Iは、SMAPE(Symmetric Mean Absolute Percentage Error)スコアが5.6\%、大きいものは10\%に達する。 これらの結果から,単変量時系列データの欠落に対処する新しい手法として,Hinge-FM2Iの有効性が示唆された。

Accurate time series forecasts are crucial for various applications, such as traffic management, electricity consumption, and healthcare. However, limitations in models and data quality can significantly impact forecasts accuracy. One common issue with data quality is the absence of data points, referred to as missing data. It is often caused by sensor malfunctions, equipment failures, or human errors. This paper proposes Hinge-FM2I, a novel method for handling missing data values in univariate time series data. Hinge-FM2I builds upon the strengths of the Forecasting Method by Image Inpainting (FM2I). FM2I has proven effective, but selecting the most accurate forecasts remain a challenge. To overcome this issue, we proposed a selection algorithm. Inspired by door hinges, Hinge-FM2I drops a data point either before or after the gap (left/right-hinge), then use FM2I for imputation, and then select the imputed gap based on the lowest error of the dropped data point. Hinge-FM2I was evaluated on a comprehensive sample composed of 1356 time series, extracted from the M3 competition benchmark dataset, with missing value rates ranging from 3.57\% to 28.57\%. Experimental results demonstrate that Hinge-FM2I significantly outperforms established methods such as, linear/spline interpolation, K-Nearest Neighbors (K-NN), and ARIMA. Notably, Hinge-FM2I achieves an average Symmetric Mean Absolute Percentage Error (sMAPE) score of 5.6\% for small gaps, and up to 10\% for larger ones. These findings highlight the effectiveness of Hinge-FM2I as a promising new method for addressing missing values in univariate time series data.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-08
# グラフ畳み込みニューラルネットワークにおける転送エントロピー

Transfer Entropy in Graph Convolutional Neural Networks ( http://arxiv.org/abs/2406.06632v1 )

ライセンス: Link先を確認
Adrian Moldovan, Angel Caţaron, Răzvan Andonie, (参考訳) グラフ畳み込みネットワーク(Graph Convolutional Networks、GCN)は、グラフ上に畳み込みを適用するグラフニューラルネットワークである。 畳み込みニューラルネットワークとは対照的に、GCNはノード数が異なるグラフ上で推論を行うように設計されており、ノードの順序は変更されていない。 本稿では,GCNに関する2つの重要な課題に対処する。 i)過度にスムースすること、及び 二 ノード関係性(ヘテロフィリー及びホモフィリー)の利用 オーバースムーシング(Oversmoothing)とは、繰り返しの集約の結果、ノードの識別能力が低下することである。 ヘテロフィリーは異なるクラスのノードが接続する傾向にあり、ホモフィリーは類似したノードが接続する傾向にある。 本稿では,2つの時間変化ノード間の情報転送量を測定するTransfer Entropy (TE) に基づくGCNにおけるこれらの課題に対処するための新しい戦略を提案する。 この結果から,ノード選択機構としてノード不均一度と次数情報を用いることで,様々なGCNモデルの精度が向上することが示唆された。 このモデルはGCNモデルの分類精度を向上させるために容易に修正できる。 トレードオフとして、このパフォーマンス向上には、多くのグラフノードに対してTEが計算されるときに、大きな計算オーバーヘッドが伴う。

Graph Convolutional Networks (GCN) are Graph Neural Networks where the convolutions are applied over a graph. In contrast to Convolutional Neural Networks, GCN's are designed to perform inference on graphs, where the number of nodes can vary, and the nodes are unordered. In this study, we address two important challenges related to GCNs: i) oversmoothing; and ii) the utilization of node relational properties (i.e., heterophily and homophily). Oversmoothing is the degradation of the discriminative capacity of nodes as a result of repeated aggregations. Heterophily is the tendency for nodes of different classes to connect, whereas homophily is the tendency of similar nodes to connect. We propose a new strategy for addressing these challenges in GCNs based on Transfer Entropy (TE), which measures of the amount of directed transfer of information between two time varying nodes. Our findings indicate that using node heterophily and degree information as a node selection mechanism, along with feature-based TE calculations, enhances accuracy across various GCN models. Our model can be easily modified to improve classification accuracy of a GCN model. As a trade off, this performance boost comes with a significant computational overhead when the TE is computed for many graph nodes.
翻訳日:2024-06-12 20:54:41 公開日:2024-06-08
# ベイズ学習規則

The Bayesian Learning Rule ( http://arxiv.org/abs/2107.04562v4 )

ライセンス: Link先を確認
Mohammad Emtiyaz Khan, Håvard Rue, (参考訳) 機械学習アルゴリズムの多くは,emph{Bayesian learning rule}と呼ばれる単一アルゴリズムの特定の例であることを示す。 この規則はベイズ原理から派生したもので、最適化、ディープラーニング、グラフィカルモデルといった分野から幅広いアルゴリズムが得られる。 これには、リッジ回帰、ニュートン法、カルマンフィルタのような古典的なアルゴリズムや、確率勾配勾配、RMSprop、Dropoutのような現代のディープラーニングアルゴリズムが含まれる。 このようなアルゴリズムを導出する鍵となるアイデアは、自然勾配を用いて推定された候補分布を用いて後部を近似することである。 異なる候補分布は異なるアルゴリズムとなり、さらに自然勾配に近似するとそれらのアルゴリズムの変種が生じる。 私たちの仕事は、既存のアルゴリズムを統一、一般化、改善するだけでなく、新しいアルゴリズムの設計にも役立ちます。

We show that many machine-learning algorithms are specific instances of a single algorithm called the \emph{Bayesian learning rule}. The rule, derived from Bayesian principles, yields a wide-range of algorithms from fields such as optimization, deep learning, and graphical models. This includes classical algorithms such as ridge regression, Newton's method, and Kalman filter, as well as modern deep-learning algorithms such as stochastic-gradient descent, RMSprop, and Dropout. The key idea in deriving such algorithms is to approximate the posterior using candidate distributions estimated by using natural gradients. Different candidate distributions result in different algorithms and further approximations to natural gradients give rise to variants of those algorithms. Our work not only unifies, generalizes, and improves existing algorithms, but also helps us design new ones.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-08
# 双曲幾何学による事象時間関係の抽出

Extracting Event Temporal Relations via Hyperbolic Geometry ( http://arxiv.org/abs/2109.05527v2 )

ライセンス: Link先を確認
Xingwei Tan, Gabriele Pergola, Yulan He, (参考訳) イベントの検出と時間的進化は、自然言語理解において重要な課題である。 事象の時間的関係抽出に対する最近のニューラルネットワークは、通常、イベントをユークリッド空間の埋め込みにマッピングし、イベントペア間の時間的関係を検出するために分類器を訓練する。 しかし、ユークリッド空間への埋め込みは、事象の時間的関係のようなよりリッチな非対称関係を捉えることはできない。 そこで本研究では,階層構造をモデル化することを目的として,イベントを双曲空間に埋め込むことを提案する。 双曲空間における事象とその時間的関係をエンコードする2つのアプローチを導入する。 あるアプローチでは、双曲的埋め込みを利用して、単純な幾何学的操作を通じて事象関係を直接推論する。 第2に、時間的関係抽出作業に適した双曲型ニューラルネットワークユニットからなるエンドツーエンドアーキテクチャを考案する。 広く使われているデータセットに対する十分な実験的評価は、異なる幾何学的空間におけるタスクを再考する利点を示しており、その結果、いくつかの標準メトリクスにおける最先端のパフォーマンスが得られた。 最後に、アブレーション研究といくつかの定性的分析により、暗黙的に双曲空間に符号化されたリッチな事象の意味が強調された。

Detecting events and their evolution through time is a crucial task in natural language understanding. Recent neural approaches to event temporal relation extraction typically map events to embeddings in the Euclidean space and train a classifier to detect temporal relations between event pairs. However, embeddings in the Euclidean space cannot capture richer asymmetric relations such as event temporal relations. We thus propose to embed events into hyperbolic spaces, which are intrinsically oriented at modeling hierarchical structures. We introduce two approaches to encode events and their temporal relations in hyperbolic spaces. One approach leverages hyperbolic embeddings to directly infer event relations through simple geometrical operations. In the second one, we devise an end-to-end architecture composed of hyperbolic neural units tailored for the temporal relation extraction task. Thorough experimental assessments on widely used datasets have shown the benefits of revisiting the tasks on a different geometrical space, resulting in state-of-the-art performance on several standard metrics. Finally, the ablation study and several qualitative analyses highlighted the rich event semantics implicitly encoded into hyperbolic spaces.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-08
# 対称性に保護された位相位相の長距離エンタングルメント

Long-range entanglement from measuring symmetry-protected topological phases ( http://arxiv.org/abs/2112.01519v3 )

ライセンス: Link先を確認
Nathanan Tantivasadakarn, Ryan Thorngren, Ashvin Vishwanath, Ruben Verresen, (参考訳) 多体量子状態の基本的な区別は、短距離と長距離の絡み合いを持つもの(SREとLRE)である。 後者は有限深度回路では生成できず、シュリンガー・キャット状態、位相秩序、量子臨界性の非局所性を記述する。 注目すべきは、2Dクラスタ状態のサブラティティクスの測定からトーリックコードなどのSREの単一サイト計測を行うことで、LREが得られた例が知られていることである。 しかし、SREの測定がLREにどのような影響を及ぼすかという体系的な理解はいまだに欠如している。 ここでは, クラスター状態が一例である対称性保護トポロジカル位相(SPT)の測定を行う際に, LREが現れることを確かめる。 例えば、クラスタSPTを入力状態に追加し、次に測定することで、Kramers-Wannier変換の実装方法を示す。 この変換は自然に状態とSREとLREを関連付ける。 応用は、入力状態が$\mathbb Z_2$ Levin-Gu SPT であるときの倍数順序の実現である。 同様に、フェルミオンSPTの追加と測定は、一般状態のヨルダン・ウィグナー変換の実装につながる。 より一般的には、$G \times H$ 対称性によって保護されるSPT相の大規模なクラスは、$G$-チャージの測定によって異常なLREを生じさせ、ある条件下でのSPT相の一般点に対して持続することが証明される。 本稿では,SPT位相を資源としてLREを作成するための新しい実用的なツールを導入し,Abelianグループを逐次ゲージングしたり,Jordan-Wigner変換によって関連するすべての状態が同一同値クラスであることを示す。 特に、可解有限ゲージ群を持つ位相的あるいはフラクトン次数は、この方法で積状態から得ることができる。

A fundamental distinction between many-body quantum states are those with short- and long-range entanglement (SRE and LRE). The latter cannot be created by finite-depth circuits, underscoring the nonlocal nature of Schr\"odinger cat states, topological order, and quantum criticality. Remarkably, examples are known where LRE is obtained by performing single-site measurements on SRE, such as the toric code from measuring a sublattice of a 2D cluster state. However, a systematic understanding of when and how measurements of SRE give rise to LRE is still lacking. Here, we establish that LRE appears upon performing measurements on symmetry-protected topological (SPT) phases -- of which the cluster state is one example. For instance, we show how to implement the Kramers-Wannier transformation by adding a cluster SPT to an input state followed by measurement. This transformation naturally relates states with SRE and LRE. An application is the realization of double-semion order when the input state is the $\mathbb Z_2$ Levin-Gu SPT. Similarly, the addition of fermionic SPTs and measurement leads to an implementation of the Jordan-Wigner transformation of a general state. More generally, we argue that a large class of SPT phases protected by $G \times H$ symmetry gives rise to anomalous LRE upon measuring $G$-charges, and we prove that this persists for generic points in the SPT phase under certain conditions. Our work introduces a new practical tool for using SPT phases as resources for creating LRE, and uncovers the classification result that all states related by sequentially gauging Abelian groups or by Jordan-Wigner transformation are in the same equivalence class, once we augment finite-depth circuits with single-site measurements. In particular, any topological or fracton order with a solvable finite gauge group can be obtained from a product state in this way.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-08
# XAIのインスタンス中心対実アルゴリズムのベンチマーク:ホワイトボックスからブラックボへ

Benchmarking Instance-Centric Counterfactual Algorithms for XAI: From White Box to Black Bo ( http://arxiv.org/abs/2203.02399v3 )

ライセンス: Link先を確認
Catarina Moreira, Yu-Liang Chou, Chihcheng Hsieh, Chun Ouyang, Joaquim Jorge, João Madeiras Pereira, (参考訳) 本研究では、決定木(完全に透明で、解釈可能な、ホワイトボックスモデル)、ランダム森林(半解釈可能な、グレーボックスモデル)、ニューラルネットワーク(完全に不透明な、ブラックボックスモデル)の3種類のモデルに対してベンチマーク評価を行い、機械学習モデルが対物説明の生成に与える影響について検討する。 文献中の4つのアルゴリズム(DiCE,WatcherCF,プロトタイプ,GrowingSpheresCF)を25種類のデータセットで検証した。 その結果,(1) 機械学習モデルの違いは, 対物的説明の生成にはほとんど影響を与えず, (2) 近接損失関数を一意に用いた対物的アルゴリズムは動作不可能であり, 有意義な説明を与えない,(3) 対物的生成の妥当性を保証せずに有意義な評価結果を得ることはできない,という結果が得られた。 内部メカニズムの妥当性を考慮しないアルゴリズムは、現在の最先端の指標で評価した場合、バイアスや信頼性の低い結論につながる。

This study investigates the impact of machine learning models on the generation of counterfactual explanations by conducting a benchmark evaluation over three different types of models: a decision tree (fully transparent, interpretable, white-box model), a random forest (semi-interpretable, grey-box model), and a neural network (fully opaque, black-box model). We tested the counterfactual generation process using four algorithms (DiCE, WatcherCF, prototype, and GrowingSpheresCF) in the literature in 25 different datasets. Our findings indicate that: (1) Different machine learning models have little impact on the generation of counterfactual explanations; (2) Counterfactual algorithms based uniquely on proximity loss functions are not actionable and will not provide meaningful explanations; (3) One cannot have meaningful evaluation results without guaranteeing plausibility in the counterfactual generation. Algorithms that do not consider plausibility in their internal mechanisms will lead to biased and unreliable conclusions if evaluated with the current state-of-the-art metrics; (4) A counterfactual inspection analysis is strongly recommended to ensure a robust examination of counterfactual explanations and the potential identification of biases.
翻訳日:2024-06-12 06:17:55 公開日:2024-06-08
# TabSynDex: 合成語彙データのロバスト評価のためのユニバーサルメトリック

TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data ( http://arxiv.org/abs/2207.05295v2 )

ライセンス: Link先を確認
Vikram S Chundawat, Ayush K Tarun, Murari Mandal, Mukund Lahoti, Pratik Narang, (参考訳) 合成表データ生成は、実際のデータが制限されている場合や、収集する費用がかかる場合、あるいはプライバシー上の懸念により単純に使用できない場合、重要になる。 しかし、高品質な合成データを作ることは困難である。 いくつかの確率的,統計的,生成的敵ネットワーク(GAN)と変分自動エンコーダ(VAE)に基づくアプローチが,合成表データ生成のために提案されている。 一度生成すると、合成データの質を評価するのは非常に難しい。 伝統的なメトリクスのいくつかは文献で使われてきたが、共通の、堅牢で単一のメトリクスが欠如している。 これにより、異なる合成表データ生成手法の有効性を適切に比較することは困難である。 本稿では,合成データのロバストな評価のための新しい普遍計量TabSynDexを提案する。 提案手法は, 合成データと実データとの類似性を, 「高品質」の合成データに望ましい特性を評価するために, 異なる成分スコアを用いて評価する。 単一のスコアメトリックであり、暗黙のバウンドを持つTabSynDexは、ニューラルネットワークベースのアプローチのトレーニングを観察および評価するためにも使用できる。 これは、これまで不可能だった洞察を得るのに役立ちます。 提案手法を既存の生成モデルと比較するためのベースラインモデルをいくつか提示する。 また,TabSynDexと既存の合成表データ評価指標の比較分析を行った。 これは、既存のメトリクスに対するメトリックの有効性と普遍性を示しています。 ソースコード: \url{https://github.com/vikram2000b/tabsyndex}

Synthetic tabular data generation becomes crucial when real data is limited, expensive to collect, or simply cannot be used due to privacy concerns. However, producing good quality synthetic data is challenging. Several probabilistic, statistical, generative adversarial networks (GANs), and variational auto-encoder (VAEs) based approaches have been presented for synthetic tabular data generation. Once generated, evaluating the quality of the synthetic data is quite challenging. Some of the traditional metrics have been used in the literature but there is lack of a common, robust, and single metric. This makes it difficult to properly compare the effectiveness of different synthetic tabular data generation methods. In this paper we propose a new universal metric, TabSynDex, for robust evaluation of synthetic data. The proposed metric assesses the similarity of synthetic data with real data through different component scores which evaluate the characteristics that are desirable for ``high quality'' synthetic data. Being a single score metric and having an implicit bound, TabSynDex can also be used to observe and evaluate the training of neural network based approaches. This would help in obtaining insights that was not possible earlier. We present several baseline models for comparative analysis of the proposed evaluation metric with existing generative models. We also give a comparative analysis between TabSynDex and existing synthetic tabular data evaluation metrics. This shows the effectiveness and universality of our metric over the existing metrics. Source Code: \url{https://github.com/vikram2000b/tabsyndex}
翻訳日:2024-06-12 06:17:55 公開日:2024-06-08
# 樹木のトラバーサル再考

Rethink Tree Traversal ( http://arxiv.org/abs/2209.04825v4 )

ライセンス: Link先を確認
Jinxiong Zhang, (参考訳) 本稿では,行列計算の言語における二分決定木トラバーサルの実装方法について述べる。 我々の主な貢献は、決定木の階層構造の新しい行列表現に基づく二分木トラバーサルの等価アルゴリズムを提案することである。 私たちのキーとなるアイデアは、内部積探索の最大化によるバイナリ決定ツリーの移動です。 我々は、再帰的トラバースのない決定木メソッドを実装するだけでなく、木ベースのメソッドのパーティショニングの性質を掘り下げる。

We will show how to implement binary decision tree traversal in the language of matrix computation. Our main contribution is to propose some equivalent algorithms of binary tree traversal based on a novel matrix representation of the hierarchical structure of the decision tree. Our key idea is to travel the binary decision tree by maximum inner product search. We not only implement decision tree methods without the recursive traverse but also delve into the partitioning nature of tree-based methods.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-08
# 天気予報のための時空間予測手法の一事例

A case study of spatiotemporal forecasting techniques for weather forecasting ( http://arxiv.org/abs/2209.14782v2 )

ライセンス: Link先を確認
Shakir Showkat Sofi, Ivan Oseledets, (参考訳) 現実世界のプロセスの大部分は時空間的であり、それらによって生成されたデータは空間的および時間的進化の両方を示す。 気象はこの領域で最も重要なプロセスの1つであり、天気予報は私たちの日常の重要な部分となっている。 気象データ分析は最も複雑で困難な課題と考えられている。 数値的な天気予報モデルは現在最先端のものであるが、それらは資源集約的で時間を要する。 多くの研究が、数値予測の代替として時系列モデルを提案した。 時系列分析の領域における最近の研究は、特に状態空間ベースのモデル(ホワイトボックス)の使用や、最近では機械学習とディープニューラルネットワークベースのモデル(ブラックボックス)の統合に関して、大きな進歩を示している。 そのようなモデルの最も有名な例は、RNNとトランスフォーマーである。 これらのモデルは時系列解析の分野で顕著な結果を示し、時間的相関をモデル化する上で有効であることを示した。 時空間と時空間の相関は, 時空間と時空間の時間的相関が, 特定の時点における時空間の時間的相関に影響を及ぼすので, 時間的相関を捉えることが重要である。 この自己完結した論文は、様々な地域データによる天気予報手法、すなわち、時空間相関を捉えるために、複数の緯度-経度点(マトリクス型空間格子)にわたって予測する方法を探索する。 その結果,時空間予測モデルにより計算コストが低減され,精度が向上した。 特に、提案したテンソルトレインの動的モード分解に基づく予測モデルは、トレーニングを必要とせず、最先端モデルに匹敵する精度を有する。 提案手法が実用的であることを示すための説得力のある数値実験を行う。

The majority of real-world processes are spatiotemporal, and the data generated by them exhibits both spatial and temporal evolution. Weather is one of the most essential processes in this domain, and weather forecasting has become a crucial part of our daily routine. Weather data analysis is considered the most complex and challenging task. Although numerical weather prediction models are currently state-of-the-art, they are resource-intensive and time-consuming. Numerous studies have proposed time series-based models as a viable alternative to numerical forecasts. Recent research in the area of time series analysis indicates significant advancements, particularly regarding the use of state-space-based models (white box) and, more recently, the integration of machine learning and deep neural network-based models (black box). The most famous examples of such models are RNNs and transformers. These models have demonstrated remarkable results in the field of time-series analysis and have demonstrated effectiveness in modelling temporal correlations. It is crucial to capture both temporal and spatial correlations for a spatiotemporal process, as the values at nearby locations and time affect the values of a spatiotemporal process at a specific point. This self-contained paper explores various regional data-driven weather forecasting methods, i.e., forecasting over multiple latitude-longitude points (matrix-shaped spatial grid) to capture spatiotemporal correlations. The results showed that spatiotemporal prediction models reduced computational costs while improving accuracy. In particular, the proposed tensor train dynamic mode decomposition-based forecasting model has comparable accuracy to the state-of-the-art models without the need for training. We provide convincing numerical experiments to show that the proposed approach is practical.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-08
# 情報理論レンズによるSDEの2面:訓練軌道と終端状態によるSGDの一般化

Two Facets of SDE Under an Information-Theoretic Lens: Generalization of SGD via Training Trajectories and via Terminal States ( http://arxiv.org/abs/2211.10691v2 )

ライセンス: Link先を確認
Ziqiao Wang, Yongyi Mao, (参考訳) 確率微分方程式(SDE)は、SGDを用いた機械学習モデルのトレーニングのダイナミクスをうまく特徴付けるために最近示されている。 SDE近似の一般化誤差が期待値のSGDと密接に一致するとき、SDE近似によるSGDの一般化挙動をよりよく理解する2つの機会を提供する。 第一に、SGDをガウス勾配雑音によるフルバッチ勾配下降と見なすと、Xu と Raginsky [2017] からの情報理論境界を用いて軌道に基づく一般化が得られる。 第二に、穏やかな条件を仮定すると、SDE の定常重み分布を推定し、Xu および Raginsky [2017] および Negrea et al [2019] からの情報理論境界を用いて、終状態に基づく一般化境界を確立する。 提案した境界にはいくつかの利点があり、特に Wang と Mao [2022] の軌道に基づく有界出力は、安定性に基づく有界に匹敵する高速な減衰速度を示す。

Stochastic differential equations (SDEs) have been shown recently to characterize well the dynamics of training machine learning models with SGD. When the generalization error of the SDE approximation closely aligns with that of SGD in expectation, it provides two opportunities for understanding better the generalization behaviour of SGD through its SDE approximation. Firstly, viewing SGD as full-batch gradient descent with Gaussian gradient noise allows us to obtain trajectory-based generalization bound using the information-theoretic bound from Xu and Raginsky [2017]. Secondly, assuming mild conditions, we estimate the steady-state weight distribution of SDE and use information-theoretic bounds from Xu and Raginsky [2017] and Negrea et al. [2019] to establish terminal-state-based generalization bounds. Our proposed bounds have some advantages, notably the trajectory-based bound outperforms results in Wang and Mao [2022], and the terminal-state-based bound exhibits a fast decay rate comparable to stability-based bounds.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-08
# 複雑な背景を持つ透明物体グラフプのための視覚触覚融合

Visual-tactile Fusion for Transparent Object Grasping in Complex Backgrounds ( http://arxiv.org/abs/2211.16693v2 )

ライセンス: Link先を確認
Shoujie Li, Haixin Yu, Wenbo Ding, Houde Liu, Linqi Ye, Chongkun Xia, Xueqian Wang, Xiao-Ping Zhang, (参考訳) 透明物体の正確な検出と把握は難しいが、ロボットにとって重要である。 ここでは、複雑な背景と異なる光条件下での透明物体の把握のための視覚触覚融合フレームワークを提案し、把握位置検出、触覚キャリブレーション、視覚触覚融合に基づく分類を行った。 まず,ガウス分布に基づくデータアノテーションを用いたマルチシーン合成把握データセット生成手法を提案する。 さらに,TGCNNという新たな把握ネットワークを提案し,合成シーンと実シーンの両方で良好な結果が得られた。 人間のつかみにインスパイアされた触覚キャリブレーションにおいて、完全な畳み込みネットワークに基づく触覚特徴抽出法と中央位置に基づく適応的把握戦略を設計し、直接つかみよりも成功率を36.7%向上させる。 さらに,透明物体分類のための視覚触覚融合法を提案し,その精度を34%向上させた。 提案フレームワークは,視覚と触覚の利点を相乗化し,透明物体の把握効率を大幅に向上させる。

The accurate detection and grasping of transparent objects are challenging but of significance to robots. Here, a visual-tactile fusion framework for transparent object grasping under complex backgrounds and variant light conditions is proposed, including the grasping position detection, tactile calibration, and visual-tactile fusion based classification. First, a multi-scene synthetic grasping dataset generation method with a Gaussian distribution based data annotation is proposed. Besides, a novel grasping network named TGCNN is proposed for grasping position detection, showing good results in both synthetic and real scenes. In tactile calibration, inspired by human grasping, a fully convolutional network based tactile feature extraction method and a central location based adaptive grasping strategy are designed, improving the success rate by 36.7% compared to direct grasping. Furthermore, a visual-tactile fusion method is proposed for transparent objects classification, which improves the classification accuracy by 34%. The proposed framework synergizes the advantages of vision and touch, and greatly improves the grasping efficiency of transparent objects.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-08
# AI駆動のモバイルアプリ: 調査研究

AI-driven Mobile Apps: an Explorative Study ( http://arxiv.org/abs/2212.01635v2 )

ライセンス: Link先を確認
Yinghua Li, Xueqi Dang, Haoye Tian, Tiezhu Sun, Zhijie Wang, Lei Ma, Jacques Klein, Tegawendé F. Bissyandé, (参考訳) モバイルアプリケーションへの人工知能(AI)の統合は、さまざまなドメインを大きく変え、ユーザエクスペリエンスを高め、高度な機械学習(ML)とディープラーニング(DL)技術を通じてパーソナライズされたサービスを提供する。 AI駆動のモバイルアプリは通常、ML/DL技術を活用して画像認識や自然言語処理などの重要なタスクを実行するアプリケーションを指す。 本稿では、デバイス上でのMLアプリ、デバイス上でのDLアプリ、AIサービスをサポートする(クラウドベースの)アプリなど、AIアプリケーションに関する最も広範な実証的研究を行った。 私たちの研究は、56,682の現実世界のAIアプリケーションを含み、3つの重要な視点に焦点を当てている。 1)AIアプリの人気を分析し、AIアプリの更新状況を調査するアプリケーション分析。 2)AIフレームワークの使用状況とAIモデル保護を分析するフレームワークとモデル分析。 3)ユーザプライバシ保護とユーザレビューの態度を検討するユーザ分析を行った。 私たちの研究は、AIアプリ開発者、ユーザ、AI R\&Dに強く影響しています。 ひとつは、モバイルアプリケーションにおけるAI統合の増加傾向に注目し、さまざまなAIフレームワークやモデルが広く採用されていることを示しています。 一方,アプリセキュリティを強化するために,堅牢なモデル保護の必要性が指摘されている。 さらに、ユーザプライバシの重要性を強調し、現在のAIアプリで使用されているAIテクノロジに対するユーザの態度を示す。 私たちは、モバイルアプリケーションで使用されるAIテクノロジに関する将来の研究のためのオープンソースリソースとして、AIアプリデータセット(現在、最も広範なAIアプリデータセット)を提供しています。

The integration of artificial intelligence (AI) into mobile applications has significantly transformed various domains, enhancing user experiences and providing personalized services through advanced machine learning (ML) and deep learning (DL) technologies. AI-driven mobile apps typically refer to applications that leverage ML/DL technologies to perform key tasks such as image recognition and natural language processing. In this paper, we conducted the most extensive empirical study on AI applications, exploring on-device ML apps, on-device DL apps, and AI service-supported (cloud-based) apps. Our study encompasses 56,682 real-world AI applications, focusing on three crucial perspectives: 1) Application analysis, where we analyze the popularity of AI apps and investigate the update states of AI apps; 2) Framework and model analysis, where we analyze AI framework usage and AI model protection; 3) User analysis, where we examine user privacy protection and user review attitudes. Our study has strong implications for AI app developers, users, and AI R\&D. On one hand, our findings highlight the growing trend of AI integration in mobile applications, demonstrating the widespread adoption of various AI frameworks and models. On the other hand, our findings emphasize the need for robust model protection to enhance app security. Additionally, our study highlights the importance of user privacy and presents user attitudes towards the AI technologies utilized in current AI apps. We provide our AI app dataset (currently the most extensive AI app dataset) as an open-source resource for future research on AI technologies utilized in mobile applications.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-08
# 眼底画像による糖尿病網膜症の重症度検出 : Transformer Network による検討

Detecting Severity of Diabetic Retinopathy from Fundus Images: A Transformer Network-based Review ( http://arxiv.org/abs/2301.00973v2 )

ライセンス: Link先を確認
Tejas Karkera, Chandranath Adak, Soumi Chattopadhyay, Muhammad Saqib, (参考訳) 糖尿病網膜症(DR: Diabetic Retinopathy)は、主に糖尿病患者の視力喪失に影響を及ぼす原因の一つと考えられている。 DRの重症度は通常、眼科医によって眼底写真に基づく網膜画像から手動で解釈される。 本稿では、DRの重大度ステージの自動理解を扱う。文献では、従来の機械学習ベースのアルゴリズムと畳み込みアーキテクチャを用いて、この自動化に焦点を当てている。 しかし、過去の研究は、モデル性能を改善するために網膜画像の本質的な部分にはほとんど焦点を当てていなかった。 本研究では, 網膜画像の重要な特徴を捉えるために, 直交変換器を用いた学習モデルを導入し, DR重大性のより微妙な理解を目的とした。 さらに,基礎写真からDR重大度を推定するための画像トランスフォーマーの有効性について検討した。 実験では,APTOS-2019ブラインドネス検出データセットを用いて,トランスフォーマーモデルの性能を高く評価した。

Diabetic Retinopathy (DR) is considered one of the significant concerns worldwide, primarily due to its impact on causing vision loss among most people with diabetes. The severity of DR is typically comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this study, we adopt and fine-tune transformer-based learning models to capture the crucial features of retinal images for a more nuanced understanding of DR severity. Additionally, we explore the effectiveness of image transformers to infer the degree of DR severity from fundus photographs. For experiments, we utilized the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
翻訳日:2024-06-12 06:08:09 公開日:2024-06-08
# 可逆回路の漸近最適合成

Asymptotically optimal synthesis of reversible circuits ( http://arxiv.org/abs/2302.06074v2 )

ライセンス: Link先を確認
Xian Wu Lvzhou Li, (参考訳) 可逆回路は広範かつ集中的に研究され、デジタル信号処理、暗号、特に量子コンピューティングなど、様々な分野で多くの応用がなされている。 2003年、$n$-ワイヤ可逆回路の合成のための下界$\Omega(2^n n/\log n)$が証明された。 この下限が一致した上限を持つか否かは、調査(M)における今後の課題の一つとして挙げられた。 Saeedi and I. L Markov, ACM Computing Surveys, 45(2):1-34, 2013)。 本稿では,O(2^n n/\log n)$小ゲートを含まない任意の$n$ワイヤ可逆回路を実装するアルゴリズムを提案する。

Reversible circuits have been studied extensively and intensively, and have plenty of applications in various areas, such as digital signal processing, cryptography, and especially quantum computing. In 2003, the lower bound $\Omega(2^n n/\log n)$ for the synthesis of $n$-wire reversible circuits was proved. Whether this lower bound has a matching upper bound was listed as one of the future challenging open problems in the survey (M. Saeedi and I. L Markov, ACM Computing Surveys, 45(2):1-34, 2013). In this paper we propose an algorithm to implement an arbitrary $n$-wire reversible circuit with no more than $O(2^n n/\log n)$ elementary gates, and thus close the open problem.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-08
# EquiPocket: リガンド結合サイト予測のためのE(3)-等変幾何グラフニューラルネットワーク

EquiPocket: an E(3)-Equivariant Geometric Graph Neural Network for Ligand Binding Site Prediction ( http://arxiv.org/abs/2302.12177v2 )

ライセンス: Link先を確認
Yang Zhang, Zhewei Wei, Ye Yuan, Chongxuan Li, Wenbing Huang, (参考訳) 標的タンパク質の結合部位の予測は、薬物発見の基本的な役割を担っている。 既存のディープラーニング手法の多くは、タンパク質を3D画像として、原子をボクセルに空間的にクラスタリングし、そのタンパク質を3D CNNに供給して予測する。 しかし、CNNベースのメソッドにはいくつかの重大な問題がある。 1)不規則なタンパク質構造を表現するのに欠陥がある。 2) 回転に敏感である。 3) タンパク質表面を特徴づけるには不十分である。 4) タンパク質の大きさが変化していることに気付いていなかった。 上記の問題に対処するため、EquiPocketは、結合部位予測のためのE(3)-equivariant Graph Neural Network(GNN)であり、各表面原子の局所幾何学情報を抽出する第1モジュールと、タンパク質の化学構造と空間構造の両方をモデル化する第2モジュールと、表面原子を渡る同変メッセージを通して表面の幾何学を捉える第2モジュールの3つのモジュールからなる。 さらに,タンパク質サイズの変化による影響を軽減するために,高密度注意出力層を提案する。 いくつかの代表的なベンチマークに関する大規模な実験は、我々のフレームワークが最先端の手法よりも優れていることを実証している。

Predicting the binding sites of target proteins plays a fundamental role in drug discovery. Most existing deep-learning methods consider a protein as a 3D image by spatially clustering its atoms into voxels and then feed the voxelized protein into a 3D CNN for prediction. However, the CNN-based methods encounter several critical issues: 1) defective in representing irregular protein structures; 2) sensitive to rotations; 3) insufficient to characterize the protein surface; 4) unaware of protein size shift. To address the above issues, this work proposes EquiPocket, an E(3)-equivariant Graph Neural Network (GNN) for binding site prediction, which comprises three modules: the first one to extract local geometric information for each surface atom, the second one to model both the chemical and spatial structure of protein and the last one to capture the geometry of the surface via equivariant message passing over the surface atoms. We further propose a dense attention output layer to alleviate the effect incurred by variable protein size. Extensive experiments on several representative benchmarks demonstrate the superiority of our framework to the state-of-the-art methods.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-08
# 重みフィルタリングによる画像分類のためのマルチクラスアンラーニング

Multi-Class Unlearning for Image Classification via Weight Filtering ( http://arxiv.org/abs/2304.02049v2 )

ライセンス: Link先を確認
Samuele Poppi, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, (参考訳) Machine Unlearningは、ネットワークからトレーニングデータポイントの影響を選択的に除去するための新興パラダイムである。 限定されたサブセットや単一のクラスをターゲットにしている既存のメソッドとは異なり、私たちのフレームワークは、すべてのクラスを単一のラウンドで解放します。 メモリ行列を用いてネットワークのコンポーネントを調整し、トレーニング後の任意のクラスに対して選択的な未学習動作を示す。 それぞれのクラスに固有の重みを見つけることで、設計によって説明可能なクラスの表現を復元する。 コンボリューションベースとトランスフォーマーベースの両方のバックボーンを用いた,小規模・中規模の画像分類データセット上で提案手法を検証し,アンラーニングによる説明可能なソリューションの可能性を示した。

Machine Unlearning is an emerging paradigm for selectively removing the impact of training datapoints from a network. Unlike existing methods that target a limited subset or a single class, our framework unlearns all classes in a single round. We achieve this by modulating the network's components using memory matrices, enabling the network to demonstrate selective unlearning behavior for any class after training. By discovering weights that are specific to each class, our approach also recovers a representation of the classes which is explainable by design. We test the proposed framework on small- and medium-scale image classification datasets, with both convolution- and Transformer-based backbones, showcasing the potential for explainable solutions through unlearning.
翻訳日:2024-06-12 05:58:24 公開日:2024-06-08
# 見た目が似ていて、音が違う:視覚的表現学習のための対物的クロスモーダルペアの活用

Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning ( http://arxiv.org/abs/2304.05600v2 )

ライセンス: Link先を確認
Nikhil Singh, Chih-Wei Wu, Iroro Orife, Mahdi Kalayeh, (参考訳) 視覚表現学習は一般的に視覚と音の対応に依存する。 しかし、視覚的なシーンに対応可能な複数のオーディオトラックがしばしば存在する。 例えば、同じ混雑した通りで異なる会話を考えてみましょう。 このような対物対が視聴覚表現学習に与える影響については,これまで検討されていない。 これを調べるために,映画やテレビ番組の呼び名を用いて,異種間のコントラスト学習を増強した。 提案手法では, 音声のみが異なる音声トラックの表現を学習する。 本研究は, 様々な学習戦略を総合的に検討した結果, ダウンストリーム・オーディエンス・タスクや音声視覚タスクの性能向上に寄与せず, 言語的タスクの全般的パフォーマンスに大きく影響を及ぼすことなく, 総合的に評価できることを示すものである。 これらの知見は、シーンレベルの音声視覚対応を学習する際の音声変化を考慮することの重要性を強調し、様々な下流タスクにおけるより堅牢なパフォーマンスに向けてオーディオ視覚モデルを訓練するのに有用な拡張手法である、と示唆する。

Audiovisual representation learning typically relies on the correspondence between sight and sound. However, there are often multiple audio tracks that can correspond with a visual scene. Consider, for example, different conversations on the same crowded street. The effect of such counterfactual pairs on audiovisual representation learning has not been previously explored. To investigate this, we use dubbed versions of movies and television shows to augment cross-modal contrastive learning. Our approach learns to represent alternate audio tracks, differing only in speech, similarly to the same video. Our results, from a comprehensive set of experiments investigating different training strategies, show this general approach improves performance on a range of downstream auditory and audiovisual tasks, without majorly affecting linguistic task performance overall. These findings highlight the importance of considering speech variation when learning scene-level audiovisual correspondences and suggest that dubbed audio can be a useful augmentation technique for training audiovisual models toward more robust performance on diverse downstream tasks.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-08
# IAMモデリングと深層強化学習を用いたクラウドアクセス制御のためのインタラクティブなGreybox浸透試験

Interactive Greybox Penetration Testing for Cloud Access Control using IAM Modeling and Deep Reinforcement Learning ( http://arxiv.org/abs/2304.14540v5 )

ライセンス: Link先を確認
Yang Hu, Wenxi Wang, Sarfraz Khurshid, Mohit Tiwari, (参考訳) IAM(Identity and Access Management)は、クラウドプラットフォームのアクセス管理サービスである。 クラウドリソースをセキュアに管理するには、クラウド組織に対するアクセス制御ルールを指定するためにIAMを設定する必要がある。 しかし、不正に設定されたIAMは、特権エスカレーション(PE)のようなセキュリティ攻撃を引き起こすために利用することができ、深刻な経済損失をもたらす。 IAM設定ミスによるそのようなPEを検出するために、サードパーティのクラウドセキュリティサービスが一般的に使用されている。 最先端のサービスは、完全なIAM構成へのアクセスを必要とするホワイトボックス浸透テスト技術を適用している。 しかし、構成には機密情報が含まれる。 このような情報の開示を防止するため、顧客は手動で構成を匿名化する必要がある。 本稿では,IDA PE を検出するためのサードパーティサービスに対して,TAC と呼ばれる正確なグレーボックス浸透試験手法を提案する。 労働集約的な匿名化と潜在的に敏感な情報開示の二重課題を軽減するため、TACは必要不可欠な情報のみを選択的にクエリすることで顧客と対話する。 我々の重要な洞察は、IAM PE検出に関係があるのは、IAM設定のわずかな情報のみであるということです。 我々はまず,クエリから収集した部分情報に基づいて,TACが広範囲のIAM PEを検出可能なIAMモデリングを提案する。 TACの効率性と適用性を向上させるため,グラフニューラルネットワーク(GNN)に強化学習(RL)を適用することにより,顧客とのインタラクションを最小限に抑えることを目的としている。 合成タスクと実世界のタスクの両方の実験結果は、最先端のホワイトボックスアプローチと比較して、TACは競合的に偽陰性率の低いIAM PEを検出し、限られた数のクエリを使用することを示した。

Identity and Access Management (IAM) is an access control service in cloud platforms. To securely manage cloud resources, customers need to configure IAM to specify the access control rules for their cloud organizations. However, incorrectly configured IAM can be exploited to cause a security attack such as privilege escalation (PE), leading to severe economic loss. To detect such PEs due to IAM misconfigurations, third-party cloud security services are commonly used. The state-of-the-art services apply whitebox penetration testing techniques, which require access to complete IAM configurations. However, the configurations can contain sensitive information. To prevent the disclosure of such information, customers need to manually anonymize the configuration. In this paper, we propose a precise greybox penetration testing approach called TAC for third-party services to detect IAM PEs. To mitigate the dual challenges of labor-intensive anonymization and potentially sensitive information disclosures, TAC interacts with customers by selectively querying only the essential information needed. Our key insight is that only a small fraction of information in the IAM configuration is relevant to the IAM PE detection. We first propose IAM modeling, enabling TAC to detect a broad class of IAM PEs based on the partial information collected from queries. To improve the efficiency and applicability of TAC, we aim to minimize interactions with customers by applying Reinforcement Learning (RL) with Graph Neural Networks (GNNs), allowing TAC to learn to make as few queries as possible. Experimental results on both synthetic and real-world tasks show that, compared to state-of-the-art whitebox approaches, TAC detects IAM PEs with competitively low false negative rates, employing a limited number of queries.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-08
# 動的システムの安全な学習

Safely Learning Dynamical Systems ( http://arxiv.org/abs/2305.12284v2 )

ライセンス: Link先を確認
Amir Ali Ahmadi, Abraar Chaudhry, Vikas Sindhwani, Stephen Tu, (参考訳) 未知の力学系を学ぶ上での根本的な課題は、安全を維持しながら測定を行うことによってモデルの不確実性を減少させることである。 我々は、軌道の初期化の場所を逐次決定することで、力学系を安全に学習することの意味の数学的定義を定式化する。 システムの状態は、すべての動的システムの動作の下で、T$タイムステップの地平線の間、安全領域内に留まらなければならない。 i)所定の初期不確実性集合に属し、 (ii) これまでに収集された情報と一致している。 まず、$n$状態を含む線形力学系を安全に学習することを検討する。 例えば、$T=1$の場合、LPベースのアルゴリズムは、少なくとも$n$の軌道から真の力学を安全に回復するか、安全な学習が不可能であることを示す。 T=2$ の場合、安全初期条件の集合の SDP 表現を与え、$\lceil n/2 \rceil$ trajectories が安全学習に十分であることを示す。 T = \infty$ に対して、安全な初期条件の集合の SDP 表現可能な内部近似を提供し、安全な学習のために1つの軌道が総称的に十分であることを示す。 我々は,初期不確実性集合がスパース,ローランク,置換行列を含む場合,あるいはシステムが制御入力を持つ場合に,これらの結果を拡張する。 第二に、非線形力学系の一般的なクラスを安全に学習することを考える。 例えば、$T=1$ の場合、安全初期条件の集合の SOCP ベースの表現を与える。 T=\infty$ に対して、安全な初期条件の集合に対して半定値表現可能な内部近似を与える。 我々は、軌道を安全に収集し、最初の不確実性集合と一致し、観測に最もよく一致する非線形力学の多項式モデルに適合する方法を示す。 また,測定値がうるさい場合や,動的システムに障害が伴う場合にも,いくつかの拡張を提示する。

A fundamental challenge in learning an unknown dynamical system is to reduce model uncertainty by making measurements while maintaining safety. We formulate a mathematical definition of what it means to safely learn a dynamical system by sequentially deciding where to initialize trajectories. The state of the system must stay within a safety region for a horizon of $T$ time steps under the action of all dynamical systems that (i) belong to a given initial uncertainty set, and (ii) are consistent with information gathered so far. First, we consider safely learning a linear dynamical system involving $n$ states. For the case $T=1$, we present an LP-based algorithm that either safely recovers the true dynamics from at most $n$ trajectories, or certifies that safe learning is impossible. For $T=2$, we give an SDP representation of the set of safe initial conditions and show that $\lceil n/2 \rceil$ trajectories generically suffice for safe learning. For $T = \infty$, we provide SDP-representable inner approximations of the set of safe initial conditions and show that one trajectory generically suffices for safe learning. We extend a number of our results to the cases where the initial uncertainty set contains sparse, low-rank, or permutation matrices, or when the system has a control input. Second, we consider safely learning a general class of nonlinear dynamical systems. For the case $T=1$, we give an SOCP-based representation of the set of safe initial conditions. For $T=\infty$, we provide semidefinite representable inner approximations to the set of safe initial conditions. We show how one can safely collect trajectories and fit a polynomial model of the nonlinear dynamics that is consistent with the initial uncertainty set and best agrees with the observations. We also present some extensions to cases where the measurements are noisy or the dynamical system involves disturbances.
翻訳日:2024-06-12 05:48:34 公開日:2024-06-08
# ReadMe++: マルチドメイン可読性評価のための多言語言語モデルのベンチマーク

ReadMe++: Benchmarking Multilingual Language Models for Multi-Domain Readability Assessment ( http://arxiv.org/abs/2305.14463v3 )

ライセンス: Link先を確認
Tarek Naous, Michael J. Ryan, Anton Lavrouk, Mohit Chandra, Wei Xu, (参考訳) 本稿では,多言語可読性評価のための大規模言語モデルの包括的評価を行う。 既存の評価リソースにはドメインと言語の多様性がなく、クロスドメインとクロスランガル分析の能力に制限がある。 本稿では、アラビア語、英語、フランス語、ヒンディー語、ロシア語で9757文の人間のアノテーションを付加した多言語マルチドメインデータセットであるReadMe++について紹介する。 このベンチマークは、堅牢な多言語可読性評価手法の開発を奨励する。 ReadMe++を使って、教師付き、教師なし、および少数ショットプロンプト設定において、多言語および単言語言語モデルをベンチマークする。 ReadMe++のドメインと言語の多様性は、より効果的な数ショットプロンプトのテストを可能にし、最先端の教師なしメソッドの欠点を特定します。 また,ReadMe++で学習したモデルによる優れたドメイン一般化と言語間転送機能の拡張によるエキサイティングな結果も明らかにした。 トレーニングされたモデルを使用して、データの公開と、多言語文の可読性予測のためのpythonパッケージツールをリリースします。

We present a comprehensive evaluation of large language models for multilingual readability assessment. Existing evaluation resources lack domain and language diversity, limiting the ability for cross-domain and cross-lingual analyses. This paper introduces ReadMe++, a multilingual multi-domain dataset with human annotations of 9757 sentences in Arabic, English, French, Hindi, and Russian, collected from 112 different data sources. This benchmark will encourage research on developing robust multilingual readability assessment methods. Using ReadMe++, we benchmark multilingual and monolingual language models in the supervised, unsupervised, and few-shot prompting settings. The domain and language diversity in ReadMe++ enable us to test more effective few-shot prompting, and identify shortcomings in state-of-the-art unsupervised methods. Our experiments also reveal exciting results of superior domain generalization and enhanced cross-lingual transfer capabilities by models trained on ReadMe++. We will make our data publicly available and release a python package tool for multilingual sentence readability prediction using our trained models at: https://github.com/tareknaous/readme
翻訳日:2024-06-12 05:38:48 公開日:2024-06-08
# ゲームにおける学習のための適応的摂動ミラーダイス

Adaptively Perturbed Mirror Descent for Learning in Games ( http://arxiv.org/abs/2305.16610v4 )

ライセンス: Link先を確認
Kenshi Abe, Kaito Ariu, Mitsuki Sakamoto, Atsushi Iwasaki, (参考訳) 本稿では,ゲームにおけるミラー・ディフレクション(MD)アルゴリズムに対するペイオフ摂動手法を提案する。 楽観的なMDによって実証された楽観的な学習アルゴリズムの族は、雑音のないシナリオにおける最終段階の収束を成功させ、力学をナッシュ均衡へと導く。 最近の再帰的傾向は、アンカーからの距離、すなわち {\it slingshot} の戦略に基づいて、ペイオフ関数が摂動される、摂動アプローチの可能性を浮き彫りにしている。 そこで本研究では,スリングショット戦略を予め定義された間隔で繰り返し更新することにより,摂動の大きさを調整できる適応的摂動MD(APMD)を提案する。 このイノベーションによって、保証されたレートで、基礎となるゲームのナッシュ均衡を見つけることができます。 実証実験により, アルゴリズムの収束が著しく加速していることが確認された。

This paper proposes a payoff perturbation technique for the Mirror Descent (MD) algorithm in games where the gradient of the payoff functions is monotone in the strategy profile space, potentially containing additive noise. The optimistic family of learning algorithms, exemplified by optimistic MD, successfully achieves {\it last-iterate} convergence in scenarios devoid of noise, leading the dynamics to a Nash equilibrium. A recent re-emerging trend underscores the promise of the perturbation approach, where payoff functions are perturbed based on the distance from an anchoring, or {\it slingshot}, strategy. In response, we propose {\it Adaptively Perturbed MD} (APMD), which adjusts the magnitude of the perturbation by repeatedly updating the slingshot strategy at a predefined interval. This innovation empowers us to find a Nash equilibrium of the underlying game with guaranteed rates. Empirical demonstrations affirm that our algorithm exhibits significantly accelerated convergence.
翻訳日:2024-06-12 05:38:48 公開日:2024-06-08
# FedSelect: 個人化フェデレーション学習におけるファインチューニングパラメータの選択

FedSelect: Customized Selection of Parameters for Fine-Tuning during Personalized Federated Learning ( http://arxiv.org/abs/2306.13264v4 )

ライセンス: Link先を確認
Rishub Tamirisa, John Won, Chengjun Lu, Ron Arel, Andy Zhou, (参考訳) 近年のFL(Federated Learning)は,ローカルデータに対するクライアントパラメータの微調整や,ローカルタスクのパーソナライズアーキテクチャによって,クライアントレベルのパフォーマンスの向上を目指している。 このようなパーソナライズのための既存の方法は、グローバルモデルを作成するか、ローカルクライアントディストリビューション上でグローバルモデルを微調整するかのいずれかである。 しかし、これらの既存手法は、重要なグローバル知識を犠牲にしてパーソナライズするか、あるいは微調整のためのネットワーク層を事前に決定し、クライアントモデル内でグローバル知識を最適に保存する。 抽選券仮説に注目され、まず、パラメータの残りを凍結しながら、局所的な微調整を行う最適なクライアントサブネットワークを見つける仮説を導入する。 次に,クライアントのサブネットワーク構造とパラメータを直接パーソナライズする新たなFLフレームワークであるFedSelectを提案する。 本手法はCIFAR-10において有望な結果が得られることを示す。

Recent advancements in federated learning (FL) seek to increase client-level performance by fine-tuning client parameters on local data or personalizing architectures for the local task. Existing methods for such personalization either prune a global model or fine-tune a global model on a local client distribution. However, these existing methods either personalize at the expense of retaining important global knowledge, or predetermine network layers for fine-tuning, resulting in suboptimal storage of global knowledge within client models. Enlightened by the lottery ticket hypothesis, we first introduce a hypothesis for finding optimal client subnetworks to locally fine-tune while leaving the rest of the parameters frozen. We then propose a novel FL framework, FedSelect, using this procedure that directly personalizes both client subnetwork structure and parameters, via the simultaneous discovery of optimal parameters for personalization and the rest of parameters for global aggregation during training. We show that this method achieves promising results on CIFAR-10.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-08
# データセットシフトの一般形に基づく効率的かつ多元的ロバストリスク推定

Efficient and Multiply Robust Risk Estimation under General Forms of Dataset Shift ( http://arxiv.org/abs/2306.16406v4 )

ライセンス: Link先を確認
Hongxiang Qiu, Eric Tchetgen Tchetgen, Edgar Dobriban, (参考訳) 統計的機械学習の手法は、興味のある人々から利用可能な限られたデータの難しさに直面することが多い。 1つの治療法は、いくつかの条件分布を共有したり、ターゲットドメインと他の方法でリンクされた補助源集団のデータを活用することである。 このようなemph{dataset shift}条件を活用する技術は、emph{domain adapt} または \emph{transfer learning} として知られている。 データセットのシフトに関する広範な文献にもかかわらず、限定的な研究は、対象人口における与えられた機械学習タスクのリスク評価の正確性を改善するために補助人口を効率的に利用する方法に言及している。 本稿では, 半パラメトリック効率理論を応用して, 種々のデータセットシフト条件下でのターゲット集団リスクを効率的に推定する一般的な問題について検討する。 我々は,共変量,ラベル,概念シフトの3つの一般的な条件を含む,データセットシフト条件の一般的なクラスを特別なケースとして検討する。 我々は、ソースとターゲットの人口の間に部分的にはオーバーラップしないサポートを許す。 我々はこれらのデータセットシフト条件の簡単な仕様テストとともに、効率的でマルチプライスなロバストな推定器を開発する。 また、他の2つのデータセットシフト条件、後方ドリフトと位置スケールシフトの効率バウンダリを導出する。 シミュレーション研究は、妥当なデータセットシフト条件の活用による効率向上を支援する。

Statistical machine learning methods often face the challenge of limited data available from the population of interest. One remedy is to leverage data from auxiliary source populations, which share some conditional distributions or are linked in other ways with the target domain. Techniques leveraging such \emph{dataset shift} conditions are known as \emph{domain adaptation} or \emph{transfer learning}. Despite extensive literature on dataset shift, limited works address how to efficiently use the auxiliary populations to improve the accuracy of risk evaluation for a given machine learning task in the target population. In this paper, we study the general problem of efficiently estimating target population risk under various dataset shift conditions, leveraging semiparametric efficiency theory. We consider a general class of dataset shift conditions, which includes three popular conditions -- covariate, label and concept shift -- as special cases. We allow for partially non-overlapping support between the source and target populations. We develop efficient and multiply robust estimators along with a straightforward specification test of these dataset shift conditions. We also derive efficiency bounds for two other dataset shift conditions, posterior drift and location-scale shift. Simulation studies support the efficiency gains due to leveraging plausible dataset shift conditions.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-08
# 近接量子デバイスを用いた量子機械学習:実世界応用のための監視・非監督技術の現状

Quantum Machine Learning on Near-Term Quantum Devices: Current State of Supervised and Unsupervised Techniques for Real-World Applications ( http://arxiv.org/abs/2307.00908v3 )

ライセンス: Link先を確認
Yaswitha Gujju, Atsushi Matsuo, Rudy Raymond, (参考訳) 過去10年間、量子ハードウェアの大幅な進歩が見られ、速度、量子ビット量、量子ボリュームが改善され、量子回路の最大サイズを定義する計量が近未来の量子デバイスで効果的に実装された。 この進歩により、量子機械学習(QML)の実際のハードウェアへの応用が急増し、古典的なアプローチに対する量子優位性の実現を目指している。 この調査は、量子ハードウェア上で実行される教師なしおよび教師なしの学習アプリケーション、特に現実世界のシナリオに適したものに焦点を当てている。 この調査では、量子ハードウェア上での現在のQML実装制限を徹底的に分析し、エンコーディング、アンサッツ構造、エラー軽減、これらの課題に対処するための勾配メソッドなどのテクニックをカバーしている。 さらに,従来のQML実装と比較して,QML実装の性能を評価する。 結論として、実量子デバイスにQMLを適用する際の既存のボトルネックについて議論し、将来これらの課題を克服するための潜在的な解決策を提案する。

The past decade has witnessed significant advancements in quantum hardware, encompassing improvements in speed, qubit quantity, and quantum volume-a metric defining the maximum size of a quantum circuit effectively implementable on near-term quantum devices. This progress has led to a surge in Quantum Machine Learning (QML) applications on real hardware, aiming to achieve quantum advantage over classical approaches. This survey focuses on selected supervised and unsupervised learning applications executed on quantum hardware, specifically tailored for real-world scenarios. The exploration includes a thorough analysis of current QML implementation limitations on quantum hardware, covering techniques like encoding, ansatz structure, error mitigation, and gradient methods to address these challenges. Furthermore, the survey evaluates the performance of QML implementations in comparison to classical counterparts. In conclusion, we discuss existing bottlenecks related to applying QML on real quantum devices and propose potential solutions to overcome these challenges in the future.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-08
# 医療におけるメタラーニング

Meta-learning in healthcare: A survey ( http://arxiv.org/abs/2308.02877v2 )

ライセンス: Link先を確認
Alireza Rafiei, Ronald Moore, Sina Jahromi, Farshid Hajati, Rishikesan Kamaleswaran, (参考訳) 機械学習のサブセットとして、メタ学習(メタラーニング、メタラーニング)は、事前の知識と経験を利用することで、モデルの能力を改善することを目的としている。 メタラーニングパラダイムは、サンプルの不足、ドメインシフト、一般化といった従来の学習アプローチの課題に適切に対処することができる。 これらのユニークな特徴は、利用可能なデータが不十分であり、データ収集方法が異なる様々な医療状況において、影響力のあるソリューションを開発するのに適した選択肢としてメタラーニングを位置づけている。 この調査では、医療領域におけるメタラーニングの幅広い応用について論じ、それが重要な医療課題にどのように対処できるか、そしてどのように対処できるかについての洞察を提供する。 まず,メタラーニングの理論的基礎と重要な方法について述べる。 次に、医療分野で採用されているメタラーニングのアプローチを、マルチ/シングルタスク学習と多/複数ショット学習の2つの主要なカテゴリに分け、研究を調査した。 最後に、メタラーニング研究における現在の課題を強調し、潜在的な解決策について議論し、医療におけるメタラーニングの将来的な展望を提供する。

As a subset of machine learning, meta-learning, or learning to learn, aims at improving the model's capabilities by employing prior knowledge and experience. A meta-learning paradigm can appropriately tackle the conventional challenges of traditional learning approaches, such as insufficient number of samples, domain shifts, and generalization. These unique characteristics position meta-learning as a suitable choice for developing influential solutions in various healthcare contexts, where the available data is often insufficient, and the data collection methodologies are different. This survey discusses meta-learning broad applications in the healthcare domain to provide insight into how and where it can address critical healthcare challenges. We first describe the theoretical foundations and pivotal methods of meta-learning. We then divide the employed meta-learning approaches in the healthcare domain into two main categories of multi/single-task learning and many/few-shot learning and survey the studies. Finally, we highlight the current challenges in meta-learning research, discuss the potential solutions, and provide future perspectives on meta-learning in healthcare.
翻訳日:2024-06-12 05:29:05 公開日:2024-06-08
# ランダム点場における波動散乱の共振分布に対する有効-メジウムアプローチ

Effective-medium approach to the resonance distribution of wave scattering in a random point field ( http://arxiv.org/abs/2309.00542v3 )

ライセンス: Link先を確認
David Gaspard, Jean-Marc Sparenberg, (参考訳) 前報(Phys. Rev. A 105, 042205 (2022))では、乱点場における量子粒子の多重散乱に関連する波数$k$の複素平面における共振極の分布が数値的に発見された。 この分布は2つの特徴的な構造を示しており、波長が散乱器間距離よりも大きい場合のピークのセットは小さい$k$で、バンドはより大きい$k$で実軸にほぼ平行である。 本稿では、波動輸送理論に基づく理論的研究を行い、これらの構造の起源を説明し、それらの分布を複雑な$k$平面で予測する。 まず、この障害に対する平均波動関数に対する有効波動方程式を用いて、小さい$k$のピークが理解できることが示される。 すると、大きな$kの帯域は、波動関数の正方率に対するベーテ・サルペター方程式によって記述できる。 本研究は数値シミュレーションとの比較により裏付けられる。

In a previous paper [Phys. Rev. A 105, 042205 (2022)], the distribution of resonance poles in the complex plane of the wavenumber $k$ associated to the multiple scattering of a quantum particle in a random point field was numerically discovered. This distribution presented two distinctive structures: a set of peaks at small $k$ when the wavelength is larger than the interscatterer distance, and a band almost parallel to the real axis at larger $k$. In this paper, a theoretical study based on wave transport theory is proposed to explain the origin of these structures and to predict their distribution in the complex $k$ plane. First, it is shown that the peaks at small $k$ can be understood using the effective wave equation for the average wavefunction over the disorder. Then, that the band at large $k$ can be described by the Bethe-Salpeter equation for the square modulus of the wavefunction. This study is supported by careful comparisons with numerical simulations.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-08
# Prompting4Debugging:問題プロンプトの発見によるテキストと画像の拡散モデルの再結合

Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts ( http://arxiv.org/abs/2309.06135v2 )

ライセンス: Link先を確認
Zhi-Yi Chin, Chieh-Ming Jiang, Ching-Chun Huang, Pin-Yu Chen, Wei-Chen Chiu, (参考訳) テキストから画像への拡散モデル、例えば安定拡散(SD)は、近年、高品質なコンテンツ生成において顕著な能力を示し、近年の変革的AIの波の代表者の一人となっている。 にもかかわらず、このような進歩は、この生成技術の誤用、特に著作権付きまたはNSFW(つまり職場では安全ではない)画像の制作に対する懸念が強まっている。 不適切なイメージやプロンプトをフィルタリングしたり、モデルファインチューニングによって望ましくない概念やスタイルを除去する努力が続けられてきたが、これらの安全メカニズムの信頼性は未解明のままである。 本研究では,デプロイされた安全機構の信頼性をテストするために拡散モデルに問題のあるプロンプトを自動的に検出するデバッグツールとして,Prompting4Debugging (P4D)を提案する。 安全機構を持つSDモデルの新たな脆弱性を明らかにする上で,我々のP4Dツールの有効性を実証する。 特に,従来の安全プロンプトベンチマークの約半数は,概念除去,否定的プロンプト,安全ガイダンスなど,多数のデプロイされた安全メカニズムを回避して,実際に操作可能であることを示す。 以上の結果から, 包括的テストがなければ, 限られた安全なプロンプトベンチマークの評価は, テキスト・ツー・イメージ・モデルに誤った安全性をもたらす可能性が示唆された。

Text-to-image diffusion models, e.g. Stable Diffusion (SD), lately have shown remarkable ability in high-quality content generation, and become one of the representatives for the recent wave of transformative AI. Nevertheless, such advance comes with an intensifying concern about the misuse of this generative technology, especially for producing copyrighted or NSFW (i.e. not safe for work) images. Although efforts have been made to filter inappropriate images/prompts or remove undesirable concepts/styles via model fine-tuning, the reliability of these safety mechanisms against diversified problematic prompts remains largely unexplored. In this work, we propose Prompting4Debugging (P4D) as a debugging and red-teaming tool that automatically finds problematic prompts for diffusion models to test the reliability of a deployed safety mechanism. We demonstrate the efficacy of our P4D tool in uncovering new vulnerabilities of SD models with safety mechanisms. Particularly, our result shows that around half of prompts in existing safe prompting benchmarks which were originally considered "safe" can actually be manipulated to bypass many deployed safety mechanisms, including concept removal, negative prompt, and safety guidance. Our findings suggest that, without comprehensive testing, the evaluations on limited safe prompting benchmarks can lead to a false sense of safety for text-to-image models.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-08
# 因子化ニューラルトランスデューサにおける名前付きエンティティ認識のためのクラスベース言語モデルの導入

Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer ( http://arxiv.org/abs/2309.07648v2 )

ライセンス: Link先を確認
Peng Wang, Yifan Yang, Zheng Liang, Tian Tan, Shiliang Zhang, Xie Chen, (参考訳) 音声認識におけるエンド・ツー・エンド(E2E)モデルの進歩にもかかわらず、名前付きエンティティ認識(NER)は依然として難しいが意味理解には不可欠である。 これまでの研究は主に、ルールに基づく、あるいは注意に基づくコンテキストバイアスアルゴリズムに焦点をあててきた。 しかし、その性能は偏りの重みに敏感な場合や、名前のエンティティリストへの過度な注意による劣化や、誤ったトリガーのリスクに敏感である。 従来のハイブリッドシステムにおけるNERにおけるクラスベース言語モデル(LM)の成功と、分解型ニューラルトランスデューサ(FNT)における音響情報と言語情報の効果的な分離に着想を得て、クラスベースLMをFNTに組み込んだ新しいE2EモデルであるC-FNTを提案する。 C-FNTでは、名前付きエンティティのLMスコアは、その表面形式の代わりに名前クラスに関連付けることができる。 実験の結果,提案したC-FNTは,単語認識の性能を損なうことなく,名前付きエンティティの誤りを著しく低減することがわかった。

Despite advancements of end-to-end (E2E) models in speech recognition, named entity recognition (NER) is still challenging but critical for semantic understanding. Previous studies mainly focus on various rule-based or attention-based contextual biasing algorithms. However, their performance might be sensitive to the biasing weight or degraded by excessive attention to the named entity list, along with a risk of false triggering. Inspired by the success of the class-based language model (LM) in NER in conventional hybrid systems and the effective decoupling of acoustic and linguistic information in the factorized neural Transducer (FNT), we propose C-FNT, a novel E2E model that incorporates class-based LMs into FNT. In C-FNT, the LM score of named entities can be associated with the name class instead of its surface form. The experimental results show that our proposed C-FNT significantly reduces error in named entities without hurting performance in general word recognition.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-08
# 自己回帰手話生成:離散表現を用いたグロスフリーアプローチ

Autoregressive Sign Language Production: A Gloss-Free Approach with Discrete Representations ( http://arxiv.org/abs/2309.12179v2 )

ライセンス: Link先を確認
Eui Jun Hwang, Huije Lee, Jong C. Park, (参考訳) Gloss-free Sign Language Production (SLP)は、音声言語文の手話への直接翻訳を提供する。 本稿では手話ベクトル量子化ネットワーク(Sign Language Vector Quantization Network)を提案する。 本手法は手動と非手動の両方に根ざし,高度な復号法をサポートし,言語コヒーレンスを高めるために潜在レベルアライメントを統合する。 総合評価を通じて,従来のSLP法よりも優れた性能を示し,Back-TranslationとFr'echet Gesture Distanceの信頼性を評価指標として強調する。

Gloss-free Sign Language Production (SLP) offers a direct translation of spoken language sentences into sign language, bypassing the need for gloss intermediaries. This paper presents the Sign language Vector Quantization Network, a novel approach to SLP that leverages Vector Quantization to derive discrete representations from sign pose sequences. Our method, rooted in both manual and non-manual elements of signing, supports advanced decoding methods and integrates latent-level alignment for enhanced linguistic coherence. Through comprehensive evaluations, we demonstrate superior performance of our method over prior SLP methods and highlight the reliability of Back-Translation and Fr\'echet Gesture Distance as evaluation metrics.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-08
# マスキングは、ConvNetsのコントラスト的自己監督学習を改善し、Saliencyはどこにいるかを教えてくれる

Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where ( http://arxiv.org/abs/2309.12757v2 )

ライセンス: Link先を確認
Zhi-Yi Chin, Chieh-Ming Jiang, Ching-Chun Huang, Pin-Yu Chen, Wei-Chen Chiu, (参考訳) 画像データは、トークン化手順とビジョントランスフォーマーバックボーンの導入により、マスクと自己再構成の目的に基づいて構築された単純だが効果的な自己教師あり学習スキームを享受し始める一方で、畳み込みニューラルネットワークは、自己教師あり学習を駆動する対照的な学習技術を持つ一方で、そのような単純で一般的なマスキング操作を活用することによる学習プロセスのメリットを大いに享受する難しさに直面している。 本研究では,畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことによる負担を軽減することを目的としている。 従来の研究で議論されてきたConvNetsのマスキング操作による他の有害な影響に加えて、無作為なサンプルペアにおいて、ランダムにサンプリングされたマスキング領域が重要/塩分な対象に過度に集中し、他の視点と誤解を招く可能性についても検討した。 そこで本稿では,マスキングによる拡張を実現するために,マスキング領域が前景と背景に均等に分散されていることを考慮して,サリエンシ制約を明示的に考慮することを提案する。 さらに,入力画像中の有意なパッチの広い領域をマスキングすることで,強い負のサンプルを導入する。 各種データセット,コントラスト学習機構,下流タスクで実施した広範囲な実験により,提案手法の有効性と,いくつかの最先端ベースラインに対する優れた性能が検証された。

While image data starts to enjoy the simple-but-effective self-supervised learning scheme built upon masking and self-reconstruction objective thanks to the introduction of tokenization procedure and vision transformer backbone, convolutional neural networks as another important and widely-adopted architecture for image data, though having contrastive-learning techniques to drive the self-supervised learning, still face the difficulty of leveraging such straightforward and general masking operation to benefit their learning process significantly. In this work, we aim to alleviate the burden of including masking operation into the contrastive-learning framework for convolutional neural networks as an extra augmentation method. In addition to the additive but unwanted edges (between masked and unmasked regions) as well as other adverse effects caused by the masking operations for ConvNets, which have been discussed by prior works, we particularly identify the potential problem where for one view in a contrastive sample-pair the randomly-sampled masking regions could be overly concentrated on important/salient objects thus resulting in misleading contrastiveness to the other view. To this end, we propose to explicitly take the saliency constraint into consideration in which the masked regions are more evenly distributed among the foreground and background for realizing the masking-based augmentation. Moreover, we introduce hard negative samples by masking larger regions of salient patches in an input image. Extensive experiments conducted on various datasets, contrastive learning mechanisms, and downstream tasks well verify the efficacy as well as the superior performance of our proposed method with respect to several state-of-the-art baselines.
翻訳日:2024-06-12 05:19:21 公開日:2024-06-08
# RL-I2IT:深層強化学習による画像間翻訳

RL-I2IT: Image-to-Image Translation with Deep Reinforcement Learning ( http://arxiv.org/abs/2309.13672v5 )

ライセンス: Link先を確認
Xin Wang, Ziwei Luo, Jing Hu, Chengming Feng, Shu Hu, Bin Zhu, Xi Wu, Hongtu Zhu, Xin Li, Siwei Lyu, (参考訳) 既存の画像から画像への変換(I2IT)手法は、ディープラーニング(DL)モデルの単一実行で画像を生成する。 しかし、そのような単一ステップモデルの設計は常に困難であり、大量のパラメータが必要であり、すぐに悪いグローバルな最小値に陥り、過度に適合する。 本稿では,深部強化学習(DRL)による段階的意思決定問題としてI2ITを再構成し,RLに基づくI2IT(RL-I2IT)を実現する新しいフレームワークを提案する。 RL-I2ITフレームワークのキーとなる特徴は、モノリシックな学習プロセスを軽量なモデルで小さなステップに分解して、ソースイメージをターゲットイメージに順次変換することである。 従来のRLフレームワークでは,高次元連続状態やアクション空間の扱いが困難なことを考えると,従来のイメージよりも低次元で,かつ,引き込み可能な高次元アクションを生成することができる標準的なアクター・クライブモデルに対して,新しい概念プランによるメタポリシーを導入する。 RL-I2ITフレームワークでは、トレーニングプロセスを安定させ、対応するタスクの性能を向上させるために、タスク固有の補助学習戦略も採用している。 いくつかのI2ITタスクの実験は、高次元連続行動空間問題に直面する際の提案手法の有効性とロバスト性を示している。 RL-I2ITフレームワークの実装はhttps://github.com/Algolzw/SPAC-Deformable-Registrationで公開しています。

Most existing Image-to-Image Translation (I2IT) methods generate images in a single run of a deep learning (DL) model. However, designing such a single-step model is always challenging, requiring a huge number of parameters and easily falling into bad global minimums and overfitting. In this work, we reformulate I2IT as a step-wise decision-making problem via deep reinforcement learning (DRL) and propose a novel framework that performs RL-based I2IT (RL-I2IT). The key feature in the RL-I2IT framework is to decompose a monolithic learning process into small steps with a lightweight model to progressively transform a source image successively to a target image. Considering that it is challenging to handle high dimensional continuous state and action spaces in the conventional RL framework, we introduce meta policy with a new concept Plan to the standard Actor-Critic model, which is of a lower dimension than the original image and can facilitate the actor to generate a tractable high dimensional action. In the RL-I2IT framework, we also employ a task-specific auxiliary learning strategy to stabilize the training process and improve the performance of the corresponding task. Experiments on several I2IT tasks demonstrate the effectiveness and robustness of the proposed method when facing high-dimensional continuous action space problems. Our implementation of the RL-I2IT framework is available at https://github.com/Algolzw/SPAC-Deformable-Registration.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-08
# 短距離ギャップ系から出現するハミルトニアンエンタングルメントの関連長距離相互作用

Relevant long-range interaction of the entanglement Hamiltonian emerges from a short-range gapped system ( http://arxiv.org/abs/2309.16089v3 )

ライセンス: Link先を確認
Chuhao Li, Rui-Zhen Huang, Yi-Ming Ding, Zi Yang Meng, Yan-Cheng Wang, Zheng Yan, (参考訳) Li-Haldane-Poilblanc予想の他に、ハミルトニアン(EH)の絡み合いは、実際には仮想エッジ上の元のハミルトニアンとあまり似ていない。 必然的に、EHは物理学に大きな影響を与えるいくつかの関連する長距離相互作用項を持つ。 一般性を失うことなく、スピン-1/2ハイゼンベルク複層を研究し、大規模EHをシミュレートできる新しい量子モンテカルロ法により、2つの層間の絡み合い情報を得る。 ゴールドストーンモードを持つ絡み合いスペクトルは、Li-Haldane-Poilblanc予想と一致する単一層上のハイゼンベルクモデルのように思われるが、実際にはEHの有限温度相転移が存在することを実証する。 結果はメルミン=ワグナーの定理に反し、EHには関連する長距離項が存在するはずである。 これは、Li-Haldane-Poilblanc予想が、完全に異なる物理を導く可能性があるEHに必要な補正を無視していることを明らかにする。

Beyond the Li-Haldane-Poilblanc conjecture, we find the entanglement Hamiltonian (EH) is actually not closely similar to the original Hamiltonian on the virtual edge. Unexpectedly, the EH has some relevant long-range interacting terms which hugely affect the physics. Without loss of generality, we study a spin-1/2 Heisenberg bilayer to obtain the entanglement information between the two layers through our newly developed quantum Monte Carlo scheme, which can simulate large-scale EH. Although the entanglement spectrum carrying the Goldstone mode seems like a Heisenberg model on a single layer, which is consistent with Li-Haldane-Poilblanc conjecture, we demonstrate that there actually exists a finite-temperature phase transition of the EH. The results violate the Mermin-Wagner theorem, which means there should be relevant long-range terms in the EH. It reveals that the Li-Haldane-Poilblanc conjecture ignores necessary corrections for the EH which may lead totally different physics.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-08
# Distill to Delete: 知識蒸留によるグラフネットワークの非学習

Distill to Delete: Unlearning in Graph Networks with Knowledge Distillation ( http://arxiv.org/abs/2309.16173v2 )

ライセンス: Link先を確認
Yash Sinha, Murari Mandal, Mohan Kankanhalli, (参考訳) グラフアンラーニングは、事前訓練されたグラフニューラルネットワーク(GNN)から情報を削除するための重要な方法として登場した。 ノード、ノードのクラス、エッジ、エッジのクラスを削除できる。 アンラーニング方式により、GNNモデルはデータ保護規則(すなわち、忘れられる権利)に準拠し、進化するデータ分布に適応し、繰り返しのリトレーニングを避けることにより、GPU時間炭素フットプリントを削減することができる。 既存のパーティショニングとアグリゲーションベースのメソッドには、ローカルグラフ依存の扱いが貧弱であることと、オーバーヘッドコストの増大による制限がある。 最近では、GNNDeleteはこれらの問題を緩和するモデルに依存しないアプローチを提供している。 我々の研究は、GNN(D2DGN)において、知識蒸留によるグラフアンラーニングにおけるこれらの課題に対処するために、新しいアプローチを採っている。 完全なグラフ知識が分割され、保持と削除のためにマークされる、モデルに依存しない蒸留フレームワークである。 KL分散を最小化しつつ、応答ベースのソフトターゲットと特徴ベースのノード埋め込みで蒸留を行う。 未学習モデルは、保持されたグラフ要素に関する知識を保持しながら、削除されたグラフ要素の影響を効果的に除去する。 D2DGNは、エッジおよびノードアンラーニングタスクにおいて、様々な実世界のグラフデータセットで最大43.1\%(AUC)の評価を行う際に、既存のメソッドのパフォーマンスを上回る。 その他の注目すべきメリットは、効率の向上、ターゲット要素の削除におけるパフォーマンスの向上、保持された要素のパフォーマンスの維持、オーバーヘッドコストのゼロである。 D2DGN は AUC の最先端 GNNDelete を 2.4 %$ で上回り、メンバーシップ推論比を+1.3$ で改善し、転送パスあたり 10.2\times10^6$ で FLOP を減らし、最大$\mathbf{3.2}\times$ で高速化します。

Graph unlearning has emerged as a pivotal method to delete information from a pre-trained graph neural network (GNN). One may delete nodes, a class of nodes, edges, or a class of edges. An unlearning method enables the GNN model to comply with data protection regulations (i.e., the right to be forgotten), adapt to evolving data distributions, and reduce the GPU-hours carbon footprint by avoiding repetitive retraining. Existing partitioning and aggregation-based methods have limitations due to their poor handling of local graph dependencies and additional overhead costs. More recently, GNNDelete offered a model-agnostic approach that alleviates some of these issues. Our work takes a novel approach to address these challenges in graph unlearning through knowledge distillation, as it distills to delete in GNN (D2DGN). It is a model-agnostic distillation framework where the complete graph knowledge is divided and marked for retention and deletion. It performs distillation with response-based soft targets and feature-based node embedding while minimizing KL divergence. The unlearned model effectively removes the influence of deleted graph elements while preserving knowledge about the retained graph elements. D2DGN surpasses the performance of existing methods when evaluated on various real-world graph datasets by up to $43.1\%$ (AUC) in edge and node unlearning tasks. Other notable advantages include better efficiency, better performance in removing target elements, preservation of performance for the retained elements, and zero overhead costs. Notably, our D2DGN surpasses the state-of-the-art GNNDelete in AUC by $2.4\%$, improves membership inference ratio by $+1.3$, requires $10.2\times10^6$ fewer FLOPs per forward pass and up to $\mathbf{3.2}\times$ faster.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-08
# グラフの表現的位置符号化の安定性について

On the Stability of Expressive Positional Encodings for Graphs ( http://arxiv.org/abs/2310.02579v3 )

ライセンス: Link先を確認
Yinan Huang, William Lu, Joshua Robinson, Yu Yang, Muhan Zhang, Stefanie Jegelka, Pan Li, (参考訳) グラフのための効果的な位置エンコーディングを設計することは、強力なグラフトランスフォーマーを構築し、メッセージパッシンググラフニューラルネットワークを強化する上で鍵となる。 広く使われているが、位置符号化としてラプラシアン固有ベクトルを使用するには、(1) \emph{Non-uniqueness}:同じラプラシアンの多くの異なる固有分解が存在し、(2) \emph{Instability}: ラプラシアンへの小さな摂動は、完全に異なる固有空間をもたらす可能性があり、位置符号化の予測不可能な変化をもたらす。 非特異性に対処しようとする多くの試みにもかかわらず、ほとんどの手法は安定性を見落とし、目に見えないグラフ構造への一般化が不十分になる。 不安定性の原因は固有空間の ` `hard partition'' である。 そこで本研究では,固有ベクトルを 'softly partition''' 固有空間に変換するアーキテクチャであるSPE(Stable and Expressive Positional Encodings)を導入する。 SPEは(1)確率的に安定であり、(2)固有ベクトルのすべての対称性を尊重しながら基底不変関数に対して普遍的に表現される最初のアーキテクチャである。 保証された安定性に加えて、SPEは既存の手法と同じくらい表現力があり、グラフ構造を数えることができることを証明している。 最後に,本手法が分子特性予測および分布外一般化タスクに与える影響を評価し,既存の位置符号化法と比較して一般化性の向上が認められた。 私たちのコードは \url{https://github.com/Graph-COM/SPE} で利用可能です。

Designing effective positional encodings for graphs is key to building powerful graph transformers and enhancing message-passing graph neural networks. Although widespread, using Laplacian eigenvectors as positional encodings faces two fundamental challenges: (1) \emph{Non-uniqueness}: there are many different eigendecompositions of the same Laplacian, and (2) \emph{Instability}: small perturbations to the Laplacian could result in completely different eigenspaces, leading to unpredictable changes in positional encoding. Despite many attempts to address non-uniqueness, most methods overlook stability, leading to poor generalization on unseen graph structures. We identify the cause of instability to be a ``hard partition'' of eigenspaces. Hence, we introduce Stable and Expressive Positional Encodings (SPE), an architecture for processing eigenvectors that uses eigenvalues to ``softly partition'' eigenspaces. SPE is the first architecture that is (1) provably stable, and (2) universally expressive for basis invariant functions whilst respecting all symmetries of eigenvectors. Besides guaranteed stability, we prove that SPE is at least as expressive as existing methods, and highly capable of counting graph structures. Finally, we evaluate the effectiveness of our method on molecular property prediction, and out-of-distribution generalization tasks, finding improved generalization compared to existing positional encoding methods. Our code is available at \url{https://github.com/Graph-COM/SPE}.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-08
# Memoria: ヒューマンインスパイアされたメモリアーキテクチャによるFateful Forgetting問題の解決

Memoria: Resolving Fateful Forgetting Problem through Human-Inspired Memory Architecture ( http://arxiv.org/abs/2310.03052v3 )

ライセンス: Link先を確認
Sangjun Park, JinYeong Bak, (参考訳) ニューラルネットワークを長期にわたって記憶させるというのは、長年にわたる問題だった。 外部メモリ技術はいくつか導入されているが、近年の情報保存に焦点が当てられている。 その重要性に拘わらず、情報は時とともに忘れ去られる傾向にある。 本稿では,人工ニューラルネットワークのメモリシステムであるMemoriaについて紹介する。 実験により,従来の手法を超越したソート,言語モデリング,分類といった多種多様なタスクにおける記憶の有効性が実証された。 エングラム分析により、記憶は人間の記憶の特徴である優位性、傾向、時間的連続効果を示すことが明らかとなった。

Making neural networks remember over the long term has been a longstanding issue. Although several external memory techniques have been introduced, most focus on retaining recent information in the short term. Regardless of its importance, information tends to be fatefully forgotten over time. We present Memoria, a memory system for artificial neural networks, drawing inspiration from humans and applying various neuroscientific and psychological theories. The experimental results prove the effectiveness of Memoria in the diverse tasks of sorting, language modeling, and classification, surpassing conventional techniques. Engram analysis reveals that Memoria exhibits the primacy, recency, and temporal contiguity effects which are characteristics of human memory.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-08
# ZSC-Eval:マルチエージェントゼロショットコーディネーションのための評価ツールキットとベンチマーク

ZSC-Eval: An Evaluation Toolkit and Benchmark for Multi-agent Zero-shot Coordination ( http://arxiv.org/abs/2310.05208v2 )

ライセンス: Link先を確認
Xihuai Wang, Shao Zhang, Wenhao Zhang, Wentao Dong, Jingxiao Chen, Ying Wen, Weinan Zhang, (参考訳) ゼロショットコーディネート(ZSC)は、エゴエージェントが展開中に、多様な、目に見えないパートナーと連携するように訓練することを目的とした、新しい協調型マルチエージェント強化学習(MARL)チャレンジである。 トレーニングアルゴリズムによって決定される、デプロイメント時パートナーの配布とトレーニングパートナの配布との大きな違いは、ZSCを独自のアウト・オブ・ディストリビューション(OOD)一般化の課題にしている。 評価とデプロイメントタイムのパートナ間の潜在的な分散ギャップは、適切な評価指標の欠如によって悪化する不適切な評価につながる。 本稿では,ZSCアルゴリズムの最初の評価ツールキットおよびベンチマークであるZSC-Evalを提案する。 ZSC-Eval は以下の通りである。 1【配置時パートナーの分布を近似する行動優先報酬による評価パートナー候補の生成】 2)Best-Response Diversity(BR-Div)による評価パートナーの選択 3)Best-Response Proximity(BR-Prox)測定により,各種評価パートナーを用いた一般化性能の測定を行った。 我々は、ZSC-Evalを用いて、オーバークッキングおよびGoogle Research Football環境でZSCアルゴリズムをベンチマークし、新しい経験的発見を得る。 また,人間の評価とZSC-Evalの整合性を検証するため,現行のZSCアルゴリズムの人間実験を行った。 ZSC-Evalは現在https://github.com/sjtu-marl/ZSC-Evalで利用可能である。

Zero-shot coordination (ZSC) is a new cooperative multi-agent reinforcement learning (MARL) challenge that aims to train an ego agent to work with diverse, unseen partners during deployment. The significant difference between the deployment-time partners' distribution and the training partners' distribution determined by the training algorithm makes ZSC a unique out-of-distribution (OOD) generalization challenge. The potential distribution gap between evaluation and deployment-time partners leads to inadequate evaluation, which is exacerbated by the lack of appropriate evaluation metrics. In this paper, we present ZSC-Eval, the first evaluation toolkit and benchmark for ZSC algorithms. ZSC-Eval consists of: 1) Generation of evaluation partner candidates through behavior-preferring rewards to approximate deployment-time partners' distribution; 2) Selection of evaluation partners by Best-Response Diversity (BR-Div); 3) Measurement of generalization performance with various evaluation partners via the Best-Response Proximity (BR-Prox) metric. We use ZSC-Eval to benchmark ZSC algorithms in Overcooked and Google Research Football environments and get novel empirical findings. We also conduct a human experiment of current ZSC algorithms to verify the ZSC-Eval's consistency with human evaluation. ZSC-Eval is now available at https://github.com/sjtu-marl/ZSC-Eval.
翻訳日:2024-06-12 05:07:26 公開日:2024-06-08
# ソフトウェアサプライチェーンメタデータ管理のための実証的基準アーキテクチャ

An Empirically Grounded Reference Architecture for Software Supply Chain Metadata Management ( http://arxiv.org/abs/2310.06300v2 )

ライセンス: Link先を確認
Nguyen Khoi Tran, Samodha Pallewatta, M. Ali Babar, (参考訳) ソフトウェアサプライチェーン(SSC)攻撃の急激な増加に伴い、ソフトウェアインベントリのSSC全体に対して、リスクを早期に検出し、SSC攻撃の際の妥協資産を迅速に特定するために、組織は、徹底して信頼性の高い可視性が必要です。 このような可視性を実現する方法の1つは、SSCメタデータ、マシン可読性、認証された文書を通じて、アーティファクトのライフサイクルを記述することである。 SSCメタデータを採用するには、組織が作成、署名、配布、消費などのSSCメタデータドキュメントのライフサイクルアクティビティを実行するための一連のソフトウェアツールであるSoftware Supply Chain Metadata Management System (SCM2)を調達または開発する必要がある。 SCM2の選択や開発は、SSCメタデータの用語、フレームワーク、ソリューションの広大なデザイン空間をナビゲートする実践者を支援する包括的なドメインモデルとアーキテクチャの青写真がないため、難しい。 本稿では、ドメインモデルとSCM2システムのためのアーキテクチャ青写真からなる経験的基盤化された参照アーキテクチャ(RA)を提示することで、上記の課題に対処する。 提案するRAは,産業主導型およびピアレビューされたSSCセキュリティフレームワークを基盤として構築された経験的基盤に基づいて,体系的に構築されている。 提案手法は,既存のSCM2ソリューションを解析し,新たなSCM2システムを構築する上で有効なフレームワークとして,その妥当性と適用性を保証する。

With the rapid rise in Software Supply Chain (SSC) attacks, organisations need thorough and trustworthy visibility over the entire SSC of their software inventory to detect risks early and identify compromised assets rapidly in the event of an SSC attack. One way to achieve such visibility is through SSC metadata, machine-readable and authenticated documents describing an artefact's lifecycle. Adopting SSC metadata requires organisations to procure or develop a Software Supply Chain Metadata Management system (SCM2), a suite of software tools for performing life cycle activities of SSC metadata documents such as creation, signing, distribution, and consumption. Selecting or developing an SCM2 is challenging due to the lack of a comprehensive domain model and architectural blueprint to aid practitioners in navigating the vast design space of SSC metadata terminologies, frameworks, and solutions. This paper addresses the above-mentioned challenge by presenting an empirically grounded Reference Architecture (RA) comprising of a domain model and an architectural blueprint for SCM2 systems. Our proposed RA is constructed systematically on an empirical foundation built with industry-driven and peer-reviewed SSC security frameworks. Our theoretical evaluation, which consists of an architectural mapping of five prominent SSC security tools on the RA, ensures its validity and applicability, thus affirming the proposed RA as an effective framework for analysing existing SCM2 solutions and guiding the engineering of new SCM2 systems.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-08
# 線形量子ネットワークのグラフ画像による有界光絡み合わせ生成

Heralded Optical Entanglement Generation via the Graph Picture of Linear Quantum Networks ( http://arxiv.org/abs/2310.10291v2 )

ライセンス: Link先を確認
Seungbeom Chin, Marcin Karczewski, Yong-Su Kim, (参考訳) 非破壊的な光子との絡み合いは、量子情報処理の貴重な資源である。 しかし、それらは一般に、回路の複雑度を増幅する補助粒子とモードを包含する。 この課題に対処するため、最近の研究 (npj Quantum Information (accepted), arXiv:2211.04042) では、ボソン減算による多重粒子の絡み合いを生成するグラフアプローチが導入された。 それでも、これは実際的な階層化スキームへの必須の中間段階であり、ボソニック線形量子ネットワークにおける階層化部分トラクション作用素の提案である。 本研究は、サブトラクション演算子から線形光学演算子への包括的翻訳規則を確立し、単一の光子で有理化されたスキームを設計するためのシームレスな経路を提供する。 提案手法は,2N+1$光子と2N+1$光子を持つ2N$GHZ状態と9光子を持つW状態に対する2N$GHZおよび2N=3$GHZ状態に対する2N$GHZ状態の強化あるいは未報告のスキームをbegetする。 我々の合理化アプローチは、演算子を彫刻的複写の指針に従って組み立てることにより、多部交絡状態のシェラルドスキームを簡単に設計することができ、量子回路設計プロセスを大幅に単純化することができる。

Non-destructive heralded entanglement with photons is a valuable resource for quantum information processing. However, they generally entail ancillary particles and modes that amplify the circuit intricacy. To address this challenge, a recent work (npj Quantum Information (accepted), arXiv:2211.04042) introduced a graph approach for creating multipartite entanglements with boson subtractions. Nonetheless, it remains an essential intermediate step toward practical heralded schemes: the proposition of heralded subtraction operators in bosonic linear quantum networks. This research establishes comprehensive translation rules from subtraction operators to linear optical operators, which provides a seamless path to design heralded schemes with single photons. Our method begets enhanced or previously unreported schemes for the $N$-partite GHZ state with $2N$ photons, $N$-partite W state with $2N+1$ photons and superposition of $N=3$ GHZ and W states with 9 photons. Our streamlined approach can straightforwardly design heralded schemes for multipartite entangled states by assembling the operators according to the guidence of sculpting bigraphs, hence significantly simplifies the quantum circuit design process.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-08
# 量子決定論の基礎について

On the foundation of quantum decision theory ( http://arxiv.org/abs/2310.12762v3 )

ライセンス: Link先を確認
Inge S. Helland, (参考訳) ここでは量子決定論が紹介され、この理論の新たな基礎が提案されている。 これはまず、量子論におけるヒルベルト空間形式論の著者の一般的な議論に基づいており、次に、量子確率を計算する基礎となるボルン則の議論に基づいている。 量子論の基礎の背後にある基本的な概念は、理論変数はアクセス不能で到達不能な変数に分けられる。 これは、決定変数に特化しています。 各可アクセス変数は、特定の到達不能変数の関数と見なせると仮定される。 もう1つの仮定は、与えられた状況に最大アクセス可能な決定プロセスが2つ存在するということである。 ボルンルールの背後にある2つの基本的な仮定は 1) 可能性原理 2) 被疑者は, 仮説的に完全に合理的な存在によってモデル化できる動機を有する。 その理論は医学的な例によって説明されている。 最後に、意思決定プロセスに関する広範な議論がなされる。

Quantum decision theory is introduced here, and a new basis for this theory is proposed. It is first based upon the author's general arguments for the Hilbert space formalism in quantum theory, and next on arguments for the Born rule, which is the basis for calculating quantum probabilities. A basic notion behind the quantum theory foundation is that of theoretical variables, that are divided into accessible and inaccessible ones. This is here specialized to decision variables. It is assumed that each accessible variable can be seen as a function of a specific inaccessible variable. Another assumption is that there exist two maximal accessible decision processes in the given situation. Two basic assumptions behind the Born rule are 1) the likelihood principle, 2) the actor in question has motivations that can be modeled by a hypothetical perfectly rational higher being. The theory is illustrated by a medical example. Finally, a broad discussion of decision processes is given.
翻訳日:2024-06-12 04:57:42 公開日:2024-06-08
# セキュリティコンテキストのためのAI生成コードの正確性評価を自動化する

Automating the Correctness Assessment of AI-generated Code for Security Contexts ( http://arxiv.org/abs/2310.18834v2 )

ライセンス: Link先を確認
Domenico Cotroneo, Alessio Foggia, Cristina Improta, Pietro Liguori, Roberto Natella, (参考訳) AIが生成するコードの正確性を評価することは、難しいオープンな問題です。 本稿では,セキュリティのためのAI生成コードの正当性を評価するために,ACCAという完全自動化手法を提案する。 この方法はシンボリック実行を使用して、AI生成コードが参照実装として振る舞うかどうかを評価する。 我々はACCAを用いて、セキュリティ指向のアセンブリコードを生成するために訓練された4つの最先端モデルを評価し、その評価結果を、現場で広く使われている出力類似度指標や、OpenAIが開発したAI駆動言語モデルChatGPTなど、さまざまなベースラインソリューションと比較する。 実験の結果,本手法は基本解よりも優れ,人間による評価と類似したAI生成符号の正しさを評価できることがわかった。 さらに、ACCAは人間の評価と非常に強い相関関係を持つ(ピアソンの相関係数 r=0.84 の平均)。 最後に、人間の介入を必要としない完全に自動化されたソリューションであるため、提案手法は平均0.17秒毎のコードスニペットの評価を行う。

Evaluating the correctness of code generated by AI is a challenging open problem. In this paper, we propose a fully automated method, named ACCA, to evaluate the correctness of AI-generated code for security purposes. The method uses symbolic execution to assess whether the AI-generated code behaves as a reference implementation. We use ACCA to assess four state-of-the-art models trained to generate security-oriented assembly code and compare the results of the evaluation with different baseline solutions, including output similarity metrics, widely used in the field, and the well-known ChatGPT, the AI-powered language model developed by OpenAI. Our experiments show that our method outperforms the baseline solutions and assesses the correctness of the AI-generated code similar to the human-based evaluation, which is considered the ground truth for the assessment in the field. Moreover, ACCA has a very strong correlation with the human evaluation (Pearson's correlation coefficient r=0.84 on average). Finally, since it is a fully automated solution that does not require any human intervention, the proposed method performs the assessment of every code snippet in ~0.17s on average, which is definitely lower than the average time required by human analysts to manually inspect the code, based on our experience.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-08
# MISO:RGB-D技術を用いた在宅高齢者の非活動モニタリング

MISO: Monitoring Inactivity of Single Older Adults at Home using RGB-D Technology ( http://arxiv.org/abs/2311.02249v2 )

ライセンス: Link先を確認
Chen Long-fei, Robert B. Fisher, (参考訳) 高齢者ホームにおける移動の欠如をリアルタイムにモニタリングするための新しいアプリケーションを提案する。 RGB-Dカメラと小型コンピュータプロセッサをベースとした軽量カメラ監視システムを開発した。 身体不活性の事例は, 日常のシナリオにおいて, 匿名で, 控えめに検出された。 これらの事象は、意識の喪失や生理的劣化など、より高いレベルで説明できる。 不活性モニタリングシステムの精度を評価し、高齢者の日常生活行動に関連する不活性事象の統計情報を提供する。 提案手法は,様々な環境およびカメラビューにおける不活性検出において,高精度に行うことができることを示す。 これは、薄暗い部屋の照明やテレビの点滅といった、既存の最先端のビジョンベースのモデルよりも優れています。 しかし,提案手法は効率よく機能するために環境光を必要とする。

A new application for real-time monitoring of the lack of movement in older adults' own homes is proposed, aiming to support people's lives and independence in their later years. A lightweight camera monitoring system, based on an RGB-D camera and a compact computer processor, was developed and piloted in community homes to observe the daily behavior of older adults. Instances of body inactivity were detected in everyday scenarios anonymously and unobtrusively. These events can be explained at a higher level, such as a loss of consciousness or physiological deterioration. The accuracy of the inactivity monitoring system is assessed, and statistics of inactivity events related to the daily behavior of older adults are provided. The results demonstrate that our method achieves high accuracy in inactivity detection across various environments and camera views. It outperforms existing state-of-the-art vision-based models in challenging conditions like dim room lighting and TV flickering. However, the proposed method does require some ambient light to function effectively.
翻訳日:2024-06-12 04:47:59 公開日:2024-06-08
# スコアベースプログレッシブエディタによるブラックボックス言語モデルのテキスト生成

Controlled Text Generation for Black-box Language Models via Score-based Progressive Editor ( http://arxiv.org/abs/2311.07430v2 )

ライセンス: Link先を確認
Sangwon Yu, Changmin Lee, Hojin Lee, Sungroh Yoon, (参考訳) 制御されたテキスト生成は、特定のドメインやデータセットから所望の属性のみを含むことを保証するため、言語モデルの実用的な利用にとって非常に重要である。 しかし、既存の手法はブラックボックスモデルには適用できないか、生成されたテキストの制御と流用率の維持との間に大きなトレードオフがある。 本稿では,これらの問題を克服するための新しいアプローチであるScore-based Progressive Editor(ScoPE)を紹介する。 ScoPEは、バックボーン言語モデルの生成プロセス中にトークンレベルでコンテキストを変更する。 この修正は、後続のテキストが対象属性を自然に含めるようにガイドする。 このプロセスを容易にするために、ScoPEは目標スコアを最大化するトレーニング目標を採用し、テキストのガイド機能と流布率の両方を徹底的に考慮する。 多様な制御された生成タスクの実験結果から、ScoPEは、バックボーン大言語モデルの能力を十分に活用しながら、生成したテキストの属性を効果的に制御できることが示されている。 我々のコードは \url{https://github.com/ysw1021/ScoPE} で入手できる。

Controlled text generation is very important for the practical use of language models because it ensures that the produced text includes only the desired attributes from a specific domain or dataset. Existing methods, however, are inapplicable to black-box models or suffer a significant trade-off between controlling the generated text and maintaining its fluency. This paper introduces the Score-based Progressive Editor (ScoPE), a novel approach designed to overcome these issues. ScoPE modifies the context at the token level during the generation process of a backbone language model. This modification guides the subsequent text to naturally include the target attributes. To facilitate this process, ScoPE employs a training objective that maximizes a target score, thoroughly considering both the ability to guide the text and its fluency. Experimental results on diverse controlled generation tasks demonstrate that ScoPE can effectively regulate the attributes of the generated text while fully utilizing the capability of the backbone large language models. Our codes are available at \url{https://github.com/ysw1021/ScoPE}.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-08
# 決定論的画像復元における知覚・ロバスト性トレードオフ

The Perception-Robustness Tradeoff in Deterministic Image Restoration ( http://arxiv.org/abs/2311.09253v4 )

ライセンス: Link先を確認
Guy Ohayon, Tomer Michaeli, Michael Elad, (参考訳) 本研究では,画像の逆問題に対する決定論的手法の挙動について検討する。 これらの手法は,(1)高い知覚品質を達成すること,(2)測定値に整合した再構成を生成すること,の2つの目標を達成するために設計されている。 我々は、予測器がこれらの2つの要件を満たすほど、そのリプシッツ定数が大きくなるほど、関連する分解の性質に関係なく、より厳密な証明を与える。 特に、完全な知覚品質と完全整合性にアプローチするには、モデルのリプシッツ定数は無限大に成長しなければならない。 このことは、このような手法が敵の攻撃の影響を受けやすいことを暗示している。 我々は単一画像の超解像アルゴリズムについて,ノイズと雑音の両方に対処する理論を実証する。 また、この望ましくない振る舞いを利用して後続分布を探索し、決定論的モデルが確率的手法を模倣できることを示す。

We study the behavior of deterministic methods for solving inverse problems in imaging. These methods are commonly designed to achieve two goals: (1) attaining high perceptual quality, and (2) generating reconstructions that are consistent with the measurements. We provide a rigorous proof that the better a predictor satisfies these two requirements, the larger its Lipschitz constant must be, regardless of the nature of the degradation involved. In particular, to approach perfect perceptual quality and perfect consistency, the Lipschitz constant of the model must grow to infinity. This implies that such methods are necessarily more susceptible to adversarial attacks. We demonstrate our theory on single image super-resolution algorithms, addressing both noisy and noiseless settings. We also show how this undesired behavior can be leveraged to explore the posterior distribution, thereby allowing the deterministic model to imitate stochastic methods.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-08
# 黒潮:3300億ドル(約3兆3300億円)を水面下に設置した, 急速洪水マッピングのためのグローバル多時衛星データセット

Kuro Siwo: 33 billion $m^2$ under the water. A global multi-temporal satellite dataset for rapid flood mapping ( http://arxiv.org/abs/2311.12056v2 )

ライセンス: Link先を確認
Nikolaos Ioannis Bountos, Maria Sdraka, Angelos Zavras, Ilektra Karasante, Andreas Karavias, Themistocles Herekakis, Angeliki Thanasou, Dimitrios Michail, Ioannis Papoutsis, (参考訳) 地球規模の洪水は気候変動によって悪化し、人命、インフラ、環境に深刻な脅威をもたらす。 最近のパキスタンとニュージーランドの破滅的な出来事は、修復作業のガイド、脆弱性の理解、将来の発生に備えるための正確な洪水マッピングの緊急の必要性を浮き彫りにしている。 Synthetic Aperture Radar(SAR)リモートセンシングは、日夜全天候撮影機能を提供するが、深層学習における洪水分断への応用は、大規模な注釈付きデータセットの欠如によって制限される。 これを解決するために,世界中の43の洪水イベントにまたがる,手動で注釈付きマルチ時間データセットであるKuro Siwoを紹介した。 我々のデータセットは338億ドル以上の土地をマッピングしており、33億は浸水地域か永久水域に指定されている。 Kuro Siwoは、SAR Ground Range Detectedに基づく洪水マッピングに最適化された高度処理製品と、位相情報と振幅情報の両方の活用を奨励し、下流タスク前処理に最大限の柔軟性を提供するために設計された、最小限の事前処理を備えた予備的なSARシングルルックコンプレックス製品を含んでいる。 リモートセンシングデータのための大規模自己教師付き事前学習手法の進歩を活用するため,大容量のSARサンプルを用いて,黒潮を増強した。 最後に、ヨーロッパ、アメリカ、アフリカ、アジア、オーストラリアからの多様な洪水イベントの強力なベースラインを提供するブラックベンチという広範なベンチマークを提供する。

Global floods, exacerbated by climate change, pose severe threats to human life, infrastructure, and the environment. Recent catastrophic events in Pakistan and New Zealand underscore the urgent need for precise flood mapping to guide restoration efforts, understand vulnerabilities, and prepare for future occurrences. While Synthetic Aperture Radar (SAR) remote sensing offers day-and-night, all-weather imaging capabilities, its application in deep learning for flood segmentation is limited by the lack of large annotated datasets. To address this, we introduce Kuro Siwo, a manually annotated multi-temporal dataset, spanning 43 flood events globally. Our dataset maps more than 338 billion $m^2$ of land, with 33 billion designated as either flooded areas or permanent water bodies. Kuro Siwo includes a highly processed product optimized for flood mapping based on SAR Ground Range Detected, and a primal SAR Single Look Complex product with minimal preprocessing, designed to promote research on the exploitation of both the phase and amplitude information and to offer maximum flexibility for downstream task preprocessing. To leverage advances in large scale self-supervised pretraining methods for remote sensing data, we augment Kuro Siwo with a large unlabeled set of SAR samples. Finally, we provide an extensive benchmark, namely BlackBench, offering strong baselines for a diverse set of flood events from Europe, America, Africa, Asia and Australia.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-08
# 拡散モデルトレーニングのためのサンプル複雑度境界の改善

Improved Sample Complexity Bounds for Diffusion Model Training ( http://arxiv.org/abs/2311.13745v2 )

ライセンス: Link先を確認
Shivam Gupta, Aditya Parulekar, Eric Price, Zhiyang Xun, (参考訳) 拡散モデルは、その経験的性能と信頼性から、画像の深部生成モデリングにおいて最も一般的なアプローチとなっている。 理論的な観点から、最近の多くの研究―\cite{chen2022,chen2022improved,benton2023linear} は、正確な拡散モデルへのアクセスを想定してサンプリングの反復複雑性を研究している。 十分に表現力のあるニューラルネットワークを用いて正確な拡散モデルを学ぶのに、どれくらいのサンプルが必要か? 前処理~\cite{BMR20} は次元の有界多項式、所望のトータル変分誤差、ワッサーシュタイン誤差を示した。 We show an \emph{exponential improvement} in the dependency on Wasserstein error and depth, with improve dependencies on other relevant parameters。

Diffusion models have become the most popular approach to deep generative modeling of images, largely due to their empirical performance and reliability. From a theoretical standpoint, a number of recent works~\cite{chen2022,chen2022improved,benton2023linear} have studied the iteration complexity of sampling, assuming access to an accurate diffusion model. In this work, we focus on understanding the \emph{sample complexity} of training such a model; how many samples are needed to learn an accurate diffusion model using a sufficiently expressive neural network? Prior work~\cite{BMR20} showed bounds polynomial in the dimension, desired Total Variation error, and Wasserstein error. We show an \emph{exponential improvement} in the dependence on Wasserstein error and depth, along with improved dependencies on other relevant parameters.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-08
# 赤道安定度測定を用いた資源効率の高いシャドウトモグラフィ

Resource-efficient shadow tomography using equatorial stabilizer measurements ( http://arxiv.org/abs/2311.14622v3 )

ライセンス: Link先を確認
Guedong Park, Yong Siah Teo, Hyunseok Jeong, (参考訳) クリフォード単位の部分集合から生成される赤道安定化器の測定値を用いた資源効率の高いシャドウトモグラフィー手法を提案する。 n$-qubitシステムの場合、赤道安定化器ベースのシャドウトモグラフィースキームは$M$observables (加法エラー$\varepsilon$) を$\mathcal{O}(\log(M),\mathrm{poly}(n),1/\varepsilon^2) で推定することができる。 任意の量子状態オブザーバブルの場合、サンプリング複雑性は$n$非依存となる。 提案手法では, サンプリングコピーあたり$n$-depth 制御-$Z$ (CZ) 回路 [$\mathcal{O}(n^2)$ CZ gates] と Pauli 測定しか必要としない。 実装面では、最大回路深さは、制御NOT(CNOT)ゲートを持つ$\frac{n}{2}+\mathcal{O}(\log(n))$に縮小される。 あるいは、O(n^2)$近くのCNOTゲートを含む2n$depth回路で実現でき、さらにゲート数の改善が期待できる。 我々は、ランダムな純状態とマルチキュービットグラフ状態を持つ理論的に派生したシャドウ・トモグラフィー・サンプリングの複雑さを数値的に検証する。 最後に, 赤道安定化器を用いたシャドウトモグラフィは, グリーンバーガー-ホルン-ザイリンガー状態とW状態の平均ゲート忠実度および忠実度の推定において, ランダム化クリフォード方式よりも耐雑音性が高いことを示した。

We propose a resource-efficient shadow-tomography scheme using equatorial-stabilizer measurements generated from subsets of Clifford unitaries. For $n$-qubit systems, equatorial-stabilizer-based shadow-tomography schemes can estimate $M$ observables (up to an additive error $\varepsilon$) using $\mathcal{O}(\log(M),\mathrm{poly}(n),1/\varepsilon^2)$ sampling copies for a large class of observables, including those with traceless parts possessing polynomially-bounded Frobenius norms. For arbitrary quantum-state observables, sampling complexity becomes $n$-independent. Our scheme only requires an $n$-depth controlled-$Z$ (CZ) circuit [$\mathcal{O}(n^2)$ CZ gates] and Pauli measurements per sampling copy, exhibiting a smaller maximal gate count relative to previously-known randomized-Clifford-based proposals. Implementation-wise, the maximal circuit depth is reduced to $\frac{n}{2}+\mathcal{O}(\log(n))$ with controlled-NOT (CNOT) gates. Alternatively, our scheme is realizable with $2n$-depth circuits comprising $O(n^2)$ nearest-neighboring CNOT gates, with possible further gate-count improvements. We numerically confirm our theoretically-derived shadow-tomographic sampling complexities with random pure states and multiqubit graph states. Finally, we demonstrate that equatorial-stabilizer-based shadow tomography is more noise-tolerant than randomized-Clifford-based schemes in terms of average gate fidelity and fidelity estimation for Greenberger--Horne--Zeilinger (GHZ) state and W state.
翻訳日:2024-06-12 04:38:15 公開日:2024-06-08
# MM-SafetyBench:マルチモーダル大言語モデルの安全性評価ベンチマーク

MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models ( http://arxiv.org/abs/2311.17600v3 )

ライセンス: Link先を確認
Xin Liu, Yichen Zhu, Jindong Gu, Yunshi Lan, Chao Yang, Yu Qiao, (参考訳) LLM(Large Language Models)を取り巻くセキュリティの懸念が広く検討されているが、MLLM(Multimodal Large Language Models)の安全性はいまだ検討されていない。 本稿では,Multimodal Large Language Models (MLLMs) が,テキストクエリ自体が悪意のあるものであるかのように,クエリ関連画像によって容易に損なわれることを観察する。 そこで本稿では,MLLMの安全性評価を行うための総合的なフレームワークであるMM-SafetyBenchを紹介する。 13のシナリオからなるデータセットをコンパイルした結果,合計5,040のテキストイメージペアが得られた。 12種類の最先端モデルから分析したところ、MLLMは、装備されたLCMが安全に整合している場合でも、我々のアプローチによる侵害の影響を受けやすいことが判明した。 そこで本研究では,これらの攻撃に対するMLLMのレジリエンスを高めるための,単純かつ効果的なプロンプト戦略を提案する。 我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。 リソースは \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench} で入手できる。

The security concerns surrounding Large Language Models (LLMs) have been extensively explored, yet the safety of Multimodal Large Language Models (MLLMs) remains understudied. In this paper, we observe that Multimodal Large Language Models (MLLMs) can be easily compromised by query-relevant images, as if the text query itself were malicious. To address this, we introduce MM-SafetyBench, a comprehensive framework designed for conducting safety-critical evaluations of MLLMs against such image-based manipulations. We have compiled a dataset comprising 13 scenarios, resulting in a total of 5,040 text-image pairs. Our analysis across 12 state-of-the-art models reveals that MLLMs are susceptible to breaches instigated by our approach, even when the equipped LLMs have been safety-aligned. In response, we propose a straightforward yet effective prompting strategy to enhance the resilience of MLLMs against these types of attacks. Our work underscores the need for a concerted effort to strengthen and enhance the safety measures of open-source MLLMs against potential malicious exploits. The resource is available at \href{this https URL}{https://github.com/isXinLiu/MM-SafetyBench}.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-08
# エンド・ツー・エンド音声・テキスト翻訳に関する調査

End-to-End Speech-to-Text Translation: A Survey ( http://arxiv.org/abs/2312.01053v2 )

ライセンス: Link先を確認
Nivedita Sethiya, Chandresh Kumar Maurya, (参考訳) 音声からテキストへの翻訳(英: Speech-to-text translation)とは、ある言語の音声信号を他の言語のテキストに変換するタスクである。 ハンズフリーコミュニケーション、ディクテーション、ビデオ講義の書き起こし、翻訳など、さまざまな分野で応用されている。 自動音声認識(ASR)および機械翻訳(MT)モデルは、従来のST翻訳において重要な役割を担い、音声言語を原文に変換し、シームレスな言語間通信を容易にする。 ASRは話し言葉を認識し、MTは転写されたテキストを対象言語に翻訳する。 このような分解されたモデルは、カスケードされたエラー伝播と高いリソースと訓練コストに悩まされる。 その結果、研究者はST翻訳のためのエンドツーエンド(E2E)モデルを模索している。 しかし、我々の知る限り、E2E STに関する既存の研究の総合的なレビューは行われていない。 我々の試みは、STタスクに使用されるモデル、メトリクス、データセットの包括的なレビューを提供し、新しい洞察で課題と今後の研究方向性を提供することであった。 このレビューは、STモデルの様々な応用に取り組んでいる研究者にとって役立つだろう。

Speech-to-text translation pertains to the task of converting speech signals in a language to text in another language. It finds its application in various domains, such as hands-free communication, dictation, video lecture transcription, and translation, to name a few. Automatic Speech Recognition (ASR), as well as Machine Translation(MT) models, play crucial roles in traditional ST translation, enabling the conversion of spoken language in its original form to written text and facilitating seamless cross-lingual communication. ASR recognizes spoken words, while MT translates the transcribed text into the target language. Such disintegrated models suffer from cascaded error propagation and high resource and training costs. As a result, researchers have been exploring end-to-end (E2E) models for ST translation. However, to our knowledge, there is no comprehensive review of existing works on E2E ST. The present survey, therefore, discusses the work in this direction. Our attempt has been to provide a comprehensive review of models employed, metrics, and datasets used for ST tasks, providing challenges and future research direction with new insights. We believe this review will be helpful to researchers working on various applications of ST models.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-08
# 脳領域の高次関係を学習する

Learning High-Order Relationships of Brain Regions ( http://arxiv.org/abs/2312.02203v3 )

ライセンス: Link先を確認
Weikang Qiu, Huangrui Chu, Selena Wang, Haolan Zuo, Xiaoxiao Li, Yize Zhao, Rex Ying, (参考訳) 機能的磁気共鳴画像(fMRI)信号から脳領域間の信頼性と情報的関係を明らかにすることは、表現型予測に不可欠である。 現在の手法のほとんどは、ペアの接続のみに焦点を当て、脳領域の高次関係を見落としているため、これらの相互作用を正確に特徴づけることができない。 これらの高次関係は、最大情報的かつ最小冗長(MIMR)であるべきである。 しかし,指数探索空間と難解な目的の欠如により,このような高次関係の同定は困難であり,未探索である。 このギャップに対応するために、fMRIデータからMIMR高次関係を抽出することを目的としたHYBRIDという新しい手法を提案する。 HYBRIDは、ハイパーエッジ構造を特定するためのコンストラクタと、指数空間での探索を避けるために各ハイパーエッジの重量を計算するWEIGHTERを使用している。 HYBRIDは、理論的保証付きマルチヘッドドロップブートネックという革新的な情報ボトルネックフレームワークを通じて、MIMRの目的を達成する。 我々の総合的な実験は、我々のモデルの有効性を実証している。 我々のモデルは、脳の接続を研究するための標準プロトコルであるCPMによって測定されるハイパーエッジの品質に関して、平均11.2%の最先端予測モデルよりも優れています。

Discovering reliable and informative relationships among brain regions from functional magnetic resonance imaging (fMRI) signals is essential in phenotypic predictions. Most of the current methods fail to accurately characterize those interactions because they only focus on pairwise connections and overlook the high-order relationships of brain regions. We propose that these high-order relationships should be maximally informative and minimally redundant (MIMR). However, identifying such high-order relationships is challenging and under-explored due to the exponential search space and the absence of a tractable objective. In response to this gap, we propose a novel method named HYBRID which aims to extract MIMR high-order relationships from fMRI data. HYBRID employs a CONSTRUCTOR to identify hyperedge structures, and a WEIGHTER to compute a weight for each hyperedge, which avoids searching in exponential space. HYBRID achieves the MIMR objective through an innovative information bottleneck framework named multi-head drop-bottleneck with theoretical guarantees. Our comprehensive experiments demonstrate the effectiveness of our model. Our model outperforms the state-of-the-art predictive model by an average of 11.2%, regarding the quality of hyperedges measured by CPM, a standard protocol for studying brain connections.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-08
# ハミルトン格子場理論の時間発展シミュレーションのための戦略

Strategies for simulating time evolution of Hamiltonian lattice field theories ( http://arxiv.org/abs/2312.11637v2 )

ライセンス: Link先を確認
Siddharth Hariprakash, Neel S. Modi, Michael Kreshchuk, Christopher F. Kane, Christian W Bauer, (参考訳) あるハミルトニアン$H$が与えられた量子場理論の時間発展をシミュレートするには、ユニタリ作用素 e^{-iHt} を実装するためのアルゴリズムを開発する必要がある。 この課題を達成するための様々な技術が存在し、最も一般的なテクニックはトロッター化であり、これは製品公式の適用の特別なケースである。 しかし、シミュレートされている理論の特定のパラメータにおいて、より優れた漸近スケーリングを約束する他の技術が存在し、最も効率的なものはブロック符号化の概念に基づいている。 本研究では格子場理論のシミュレーションにおけるそのようなアルゴリズムの性能について検討する。 我々は、ハミルトニアン格子場理論に適用するために、よく用いられるいくつかのシミュレーション技法の漸近ゲート複雑性を導出し、比較する。 また,スカラー \phi^4 理論を試験として用い,時間発展をシミュレートするため,積数式と信号処理に基づく手法のゲートコストを比較した。 後者では、量子フーリエ変換回路を付加した線形ユニタリ構成を用いて、フィールドと運動量固有基底を切り替え、ブロック符号化のコストの即時順序改善を実現する。 この論文は、特に製品フォーミュラ、LCU、量子化、QSP、および発明者の名前に基づいてHHKLと呼ぶ手法の教育学的レビューも含んでいる。

Simulating the time evolution of quantum field theories given some Hamiltonian $H$ requires developing algorithms for implementing the unitary operator e^{-iHt}. A variety of techniques exist that accomplish this task, with the most common technique used so far being Trotterization, which is a special case of the application of a product formula. However, other techniques exist that promise better asymptotic scaling in certain parameters of the theory being simulated, the most efficient of which are based on the concept of block encoding. In this work we study the performance of such algorithms in simulating lattice field theories. We derive and compare the asymptotic gate complexities of several commonly used simulation techniques in application to Hamiltonian Lattice Field Theories. Using the scalar \phi^4 theory as a test, we also perform numerical studies and compare the gate costs required by Product Formulas and Signal Processing based techniques to simulate time evolution. For the latter, we use the the Linear Combination of Unitaries construction augmented with the Quantum Fourier Transform circuit to switch between the field and momentum eigenbases, which leads to immediate order-of-magnitude improvement in the cost of preparing the block encoding. The paper also includes a pedagogical review of utilized techniques, in particular Product Formulas, LCU, Qubitization, QSP, as well as a technique we call HHKL based on its inventors' names.
翻訳日:2024-06-12 04:28:28 公開日:2024-06-08
# Sparseは、微調整された事前訓練された大規模言語モデルで十分である

Sparse is Enough in Fine-tuning Pre-trained Large Language Models ( http://arxiv.org/abs/2312.11875v3 )

ライセンス: Link先を確認
Weixi Song, Zuchao Li, Lefei Zhang, Hai Zhao, Bo Du, (参考訳) トレーニング済みの微調整パラダイムが普及するにつれて、トレーニング済みモデルを下流タスクに効率的に適応する方法が興味深い問題となっている。 パラメータ効率の良いファインチューニング法 (PEFT) が低コストな適応法として提案されている。 PEFTは有効性を示し、広く応用されているが、根本原理はまだ不明である。 本稿では、事前学習を事前分布のシフトと見なして、PAC-ベイジアン一般化誤差を一般化誤差のより厳密な境界に導く。 我々はこの変化を、損失景観における振動と勾配分布における準スパーシティーの観点から検証する。 そこで本研究では,Sparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。 コードはhttps://github.com/song-wx/SIFT/でアクセスできる。

With the prevalence of pre-training-fine-tuning paradigm, how to efficiently adapt the pre-trained model to the downstream tasks has been an intriguing issue. Parameter-Efficient Fine-Tuning (PEFT) methods have been proposed for low-cost adaptation. Although PEFT has demonstrated effectiveness and been widely applied, the underlying principles are still unclear. In this paper, we adopt the PAC-Bayesian generalization error bound, viewing pre-training as a shift of prior distribution which leads to a tighter bound for generalization error. We validate this shift from the perspectives of oscillations in the loss landscape and the quasi-sparsity in gradient distribution. Based on this, we propose a gradient-based sparse fine-tuning algorithm, named Sparse Increment Fine-Tuning (SIFT), and validate its effectiveness on a range of tasks including the GLUE Benchmark and Instruction-tuning. The code is accessible at https://github.com/song-wx/SIFT/.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-08
# 無限幅に向けての2次最適化のパラメータ化について

On the Parameterization of Second-Order Optimization Effective Towards the Infinite Width ( http://arxiv.org/abs/2312.12226v2 )

ライセンス: Link先を確認
Satoki Ishikawa, Ryo Karakida, (参考訳) ディープニューラルネットワークのトレーニングを加速するために2次最適化が開発されており、より大規模なモデルにも適用されている。 本研究では, ネットワーク幅が大幅に増大しても, 特徴学習を安定的に促進する2次最適化のパラメータ化について検討する。 最大更新パラメータ化に着想を得て、勾配の一段階の更新を検討し、ランダム初期化、学習率、減衰項を含むハイパーパラメータの適切なスケールを明らかにする。 提案手法では,K-FAC と Shampoo の2次最適化アルゴリズムについて検討し,パラメータ化が特徴学習における高次一般化性能を実現することを示す。 特に、異なる幅のモデル間でハイパーパラメータを転送することができる。

Second-order optimization has been developed to accelerate the training of deep neural networks and it is being applied to increasingly larger-scale models. In this study, towards training on further larger scales, we identify a specific parameterization for second-order optimization that promotes feature learning in a stable manner even if the network width increases significantly. Inspired by a maximal update parameterization, we consider a one-step update of the gradient and reveal the appropriate scales of hyperparameters including random initialization, learning rates, and damping terms. Our approach covers two major second-order optimization algorithms, K-FAC and Shampoo, and we demonstrate that our parameterization achieves higher generalization performance in feature learning. In particular, it enables us to transfer the hyperparameters across models with different widths.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-08
# In2SET:Dual-Camera Compressive Hyperspectral ImagingのためのInter-Inter similarity Exploiting Transformer

In2SET: Intra-Inter Similarity Exploiting Transformer for Dual-Camera Compressive Hyperspectral Imaging ( http://arxiv.org/abs/2312.13319v2 )

ライセンス: Link先を確認
Xin Wang, Lizhi Wang, Xiangtian Ma, Maoqing Zhang, Lin Zhu, Hua Huang, (参考訳) Dual-Camera Compressed Hyperspectral Imaging (DCCHI)は、3Dハイパースペクトル画像(HSI)を圧縮およびパンクロマティック(PAN)画像に融合させて再構成する機能を提供する。 本稿では,新しいDCCHI再構成ネットワークであるIntra-Inter similarity Exploiting Transformer(In2SET)を紹介する。 私たちの重要な洞察は、PANイメージをフル活用して再建を支援することです。 そこで本研究では, PAN画像内の類似度を, 元のHSIの類似度を近似するプロキシとして利用し, より正確なHSI再構成に先立って, 拡張コンテンツを提供することを提案する。 さらに,基礎となるHSIとPAN画像の特徴を一致させ,意味的整合性を維持し,再構築プロセスに新たなコンテキスト情報を導入することを目的とする。 In2SETを Pan-Guided Unrolling フレームワークに統合することにより,再構成画像の空間スペクトルの忠実度と詳細性を大幅に向上し,より包括的で正確なシーン描写を実現する。 実データとシミュレーションデータの両方で行った大規模な実験により、我々のアプローチは再構築品質と計算複雑性の観点から既存の最先端手法を一貫して上回っていることが示された。 コードはリリースされる。

Dual-Camera Compressed Hyperspectral Imaging (DCCHI) offers the capability to reconstruct 3D Hyperspectral Image (HSI) by fusing compressive and Panchromatic (PAN) image, which has shown great potential for snapshot hyperspectral imaging in practice. In this paper, we introduce a novel DCCHI reconstruction network, the Intra-Inter Similarity Exploiting Transformer (In2SET). Our key insight is to make full use of the PAN image to assist the reconstruction. To this end, we propose using the intra-similarity within the PAN image as a proxy for approximating the intra-similarity in the original HSI, thereby offering an enhanced content prior for more accurate HSI reconstruction. Furthermore, we aim to align the features from the underlying HSI with those of the PAN image, maintaining semantic consistency and introducing new contextual information for the reconstruction process. By integrating In2SET into a PAN-guided unrolling framework, our method substantially enhances the spatial-spectral fidelity and detail of the reconstructed images, providing a more comprehensive and accurate depiction of the scene. Extensive experiments conducted on both real and simulated datasets demonstrate that our approach consistently outperforms existing state-of-the-art methods in terms of reconstruction quality and computational complexity. Code will be released.
翻訳日:2024-06-12 04:18:44 公開日:2024-06-08
# Androidは電気シープだけを夢見てる?

Do Androids Know They're Only Dreaming of Electric Sheep? ( http://arxiv.org/abs/2312.17249v2 )

ライセンス: Link先を確認
Sky CH-Wang, Benjamin Van Durme, Jason Eisner, Chris Kedzie, (参考訳) 本研究では,トランスフォーマー言語モデルの内部表現を訓練したプローブを設計し,その幻覚行動を予測する。 プローブをトレーニングするために,サンプル(有機)および手作業で編集した(合成)参照出力に対して,スパンレベルの幻覚を注釈する。 我々の探査機は訓練が狭く、訓練領域に敏感で、あるタスクから別のタスクへ、あるいは合成から有機への幻覚まで、あまり一般化していないことが分かりました。 しかし、ドメイン内のデータでは、多くのトランスフォーマー層における幻覚を確実に検出でき、そのピーク性能の95%を4層として達成できる。 ここでは、幻覚を評価するのに正確であることを証明し、複数の現代のベースラインを上回り、応答レベル検出F1において、専門家のアノテータを超えている。 同様に、スパンレベルのラベリングでは、プローブは3世代のうち2つのタスクで専門家アノテータと同等かそれ以上である。 全体として、モデル状態が利用可能である場合、探索は言語モデル幻覚評価に代わる実現可能かつ効率的な代替手段であることが判明した。

We design probes trained on the internal representations of a transformer language model to predict its hallucinatory behavior on three grounded generation tasks. To train the probes, we annotate for span-level hallucination on both sampled (organic) and manually edited (synthetic) reference outputs. Our probes are narrowly trained and we find that they are sensitive to their training domain: they generalize poorly from one task to another or from synthetic to organic hallucinations. However, on in-domain data, they can reliably detect hallucinations at many transformer layers, achieving 95% of their peak performance as early as layer 4. Here, probing proves accurate for evaluating hallucination, outperforming several contemporary baselines and even surpassing an expert human annotator in response-level detection F1. Similarly, on span-level labeling, probes are on par or better than the expert annotator on two out of three generation tasks. Overall, we find that probing is a feasible and efficient alternative to language model hallucination evaluation when model states are available.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-08
# 病理組織学における画像検索エンジンの解析と検証

Analysis and Validation of Image Search Engines in Histopathology ( http://arxiv.org/abs/2401.03271v2 )

ライセンス: Link先を確認
Isaiah Lahr, Saghir Alfasly, Peyman Nejat, Jibran Khan, Luke Kottom, Vaishnavi Kumbhar, Areej Alsaafin, Abubakr Shafique, Sobhan Hemati, Ghazal Alabtah, Nneka Comfere, Dennis Murphee, Aaron Mangold, Saba Yasir, Chady Meroueh, Lisa Boardman, Vijay H. Shah, Joaquin J. Garcia, H. R. Tizhoosh, (参考訳) 病理組織像と病理組織像のアーカイブで類似の画像を探すことは, トライエイジや診断, 予後, 予測など, 様々な目的で患者のマッチングを支援する重要な課題である。 全スライド画像(WSI)は、ガラススライドに装着された組織標本の詳細なデジタル表現である。 WSI と WSI のマッチングは、患者マッチングのクリティカルな方法として機能する。 本稿では,4種類の検索手法(BoVW, Yottixel, SISH, RetCCL, およびそれらの潜在的な変種)を広範囲に分析し,検証する。 アルゴリズムと構造を分析し,その性能を評価する。 この評価には、4つの内部データセット(1269ドル患者)と3つの公開データセット(127ドル患者)を使用し、5つの主要サイトにわたる380ドルのクラス/サブタイプから合計20万ドル以上をパッチした。 例えば、BoVWのような特定の検索エンジンは、顕著な効率と速度を示すが、精度は低い。 逆に、Yottixelのような検索エンジンは効率とスピードを示し、適度に正確な結果を提供する。 SISHを含む最近の提案では、非効率性を示し、一貫性のない結果をもたらす一方、RetCCLのような代替案は精度と効率の両方において不十分である。 病理画像検索における精度と保存要件の2つの側面に対処するためには,さらなる研究が不可欠である。

Searching for similar images in archives of histology and histopathology images is a crucial task that may aid in patient matching for various purposes, ranging from triaging and diagnosis to prognosis and prediction. Whole slide images (WSIs) are highly detailed digital representations of tissue specimens mounted on glass slides. Matching WSI to WSI can serve as the critical method for patient matching. In this paper, we report extensive analysis and validation of four search methods bag of visual words (BoVW), Yottixel, SISH, RetCCL, and some of their potential variants. We analyze their algorithms and structures and assess their performance. For this evaluation, we utilized four internal datasets ($1269$ patients) and three public datasets ($1207$ patients), totaling more than $200,000$ patches from $38$ different classes/subtypes across five primary sites. Certain search engines, for example, BoVW, exhibit notable efficiency and speed but suffer from low accuracy. Conversely, search engines like Yottixel demonstrate efficiency and speed, providing moderately accurate results. Recent proposals, including SISH, display inefficiency and yield inconsistent outcomes, while alternatives like RetCCL prove inadequate in both accuracy and efficiency. Further research is imperative to address the dual aspects of accuracy and minimal storage requirements in histopathological image search.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-08
# 変圧器・周波数領域学習を用いた単一部位PSGからのカフレス動脈血圧波形合成

Cuff-less Arterial Blood Pressure Waveform Synthesis from Single-site PPG using Transformer & Frequency-domain Learning ( http://arxiv.org/abs/2401.05452v2 )

ライセンス: Link先を確認
Muhammad Wasim Nawaz, Muhammad Ahmad Tahir, Ahsan Mehmood, Muhammad Mahboob Ur Rahman, Kashif Riaz, Qammer H. Abbasi, (参考訳) 単サイト光胸腺造影 (PPG) 信号を用いて, 動脈圧 (ABP) 波形をカフレスで合成するための2つの新しい深層学習モデルの開発と評価を行った。 我々は,カフレス血圧推定(CLBP)に基づいて,公共UCIデータセットから209名の被験者のデータに基づいてDLモデルを訓練し,評価した。 我々のトランスモデルは、位置符号化、マルチヘッドアテンション、層正規化、APP波形合成のためのドロップアウト技術を含むエンコーダとデコーダのペアで構成されている。 第2に、周波数領域(FD)学習法において、まずPPGおよびAPP信号の離散コサイン変換(DCT)係数を取得し、その間の線形/非線形(L/NL)回帰を学習する。 トランスモデル(FD L/NLモデル)は、ABP波形を平均絶対誤差(MAE)3.01(4.23)で合成する。 さらに, ABP波形の合成により, 収縮血圧 (SBP) と拡張期血圧 (DBP) の値も推定できる。 この目的のために、トランスモデルはそれぞれSBPとDBPに対して3.77 mmHgと2.69 mmHgのMAEを報告している。 一方、FD L/NL法では、それぞれSBPおよびDBPに対して4.37 mmHgと3.91 mmHgのMAEを報告している。 どちらのメソッドもAAMIの基準を満たす。 BHS基準に関して、我々の変圧器モデル(FD L/NL回帰モデル)はグレードA(グレードB)を達成する。

We develop and evaluate two novel purpose-built deep learning (DL) models for synthesis of the arterial blood pressure (ABP) waveform in a cuff-less manner, using a single-site photoplethysmography (PPG) signal. We train and evaluate our DL models on the data of 209 subjects from the public UCI dataset on cuff-less blood pressure (CLBP) estimation. Our transformer model consists of an encoder-decoder pair that incorporates positional encoding, multi-head attention, layer normalization, and dropout techniques for ABP waveform synthesis. Secondly, under our frequency-domain (FD) learning approach, we first obtain the discrete cosine transform (DCT) coefficients of the PPG and ABP signals, and then learn a linear/non-linear (L/NL) regression between them. The transformer model (FD L/NL model) synthesizes the ABP waveform with a mean absolute error (MAE) of 3.01 (4.23). Further, the synthesis of ABP waveform also allows us to estimate the systolic blood pressure (SBP) and diastolic blood pressure (DBP) values. To this end, the transformer model reports an MAE of 3.77 mmHg and 2.69 mmHg, for SBP and DBP, respectively. On the other hand, the FD L/NL method reports an MAE of 4.37 mmHg and 3.91 mmHg, for SBP and DBP, respectively. Both methods fulfill the AAMI criterion. As for the BHS criterion, our transformer model (FD L/NL regression model) achieves grade A (grade B).
翻訳日:2024-06-12 04:08:57 公開日:2024-06-08
# 付加量子化による大規模言語モデルの極端圧縮

Extreme Compression of Large Language Models via Additive Quantization ( http://arxiv.org/abs/2401.06118v3 )

ライセンス: Link先を確認
Vage Egiazarian, Andrei Panferov, Denis Kuznedelev, Elias Frantar, Artem Babenko, Dan Alistarh, (参考訳) 正確なオープン大言語モデル(LLM)の出現は、エンドユーザーデバイス上での実行を可能にするパフォーマンス量子化技術への競争に繋がった。 本稿では,Multi-Codebook Quantization (MCQ) における古典的手法の観点から,<extreme''' LLM圧縮(パラメータあたり2~3ビットなど,極めて低ビット数を対象とする)の問題を再考する。 我々のアルゴリズムはAQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化し、LLM圧縮の最先端を推し進める。 1)入力適応方式による重量行列の学習的加算量化,及び 2) トランスブロック間でのコードブックパラメータの協調最適化。 広くいうと、AQLMはパラメータあたり3ビット未満に圧縮する場合の精度-vs-モデルサイズでパレートが最適となる最初のスキームであり、極端な圧縮(2ビット)方式では既知のすべてのスキームを大幅に改善する。 さらに、AQLMは、トークン生成のために高速なGPUとCPU実装を提供するので、最適化されたFP16実装を高速にマッチングまたは性能良くし、メモリフットプリントをはるかに小さくして実行できます。

The emergence of accurate open large language models (LLMs) has led to a race towards performant quantization techniques which can enable their execution on end-user devices. In this paper, we revisit the problem of ``extreme'' LLM compression -- defined as targeting extremely low bit counts, such as 2 to 3 bits per parameter -- from the point of view of classic methods in Multi-Codebook Quantization (MCQ). Our algorithm, called AQLM, generalizes the classic Additive Quantization (AQ) approach for information retrieval to advance the state-of-the-art in LLM compression, via two innovations: 1) learned additive quantization of weight matrices in input-adaptive fashion, and 2) joint optimization of codebook parameters across each transformer blocks. Broadly, AQLM is the first scheme that is Pareto optimal in terms of accuracy-vs-model-size when compressing to less than 3 bits per parameter, and significantly improves upon all known schemes in the extreme compression (2bit) regime. In addition, AQLM is practical: we provide fast GPU and CPU implementations of AQLM for token generation, which enable us to match or outperform optimized FP16 implementations for speed, while executing in a much smaller memory footprint.
翻訳日:2024-06-12 04:08:57 公開日:2024-06-08
# 最大カオスを超える大きさの巻線機構

Size Winding Mechanism beyond Maximal Chaos ( http://arxiv.org/abs/2401.09524v2 )

ライセンス: Link先を確認
Tian-Gang Zhou, Yingfei Gu, Pengfei Zhang, (参考訳) 情報スクランブルの概念は、量子多体系における局所情報の分散を解明し、ワームホールテレポーテーションのような様々な物理現象に関する洞察を提供する。 この現象は広範な理論的、実験的研究を引き起こした。 これらのうち、信号検出を最適化するための貴重な診断ツールとしてサイズウィンディング機構が出現する。 本研究では,スクランブルン有効理論を用いて,全対一の相互作用を持つ大容量N$量子系の巻線サイズ分布を決定するための計算枠組みを確立する。 時間領域全体にわたる大額SYKモデルの巻線サイズ分布を求める。 特に,スクランブルンプロパゲータの普遍的な位相因子からサイズワイディングの出現が明らかとなり,リャプノフ指数の重要性が浮き彫りになった。 これらの知見は, 演算子力学とワームホール遠隔操作現象の鋭く正確な関係に寄与する。

The concept of information scrambling elucidates the dispersion of local information in quantum many-body systems, offering insights into various physical phenomena such as wormhole teleportation. This phenomenon has spurred extensive theoretical and experimental investigations. Among these, the size-winding mechanism emerges as a valuable diagnostic tool for optimizing signal detection. In this work, we establish a computational framework for determining the winding size distribution in large-$N$ quantum systems with all-to-all interactions, utilizing the scramblon effective theory. We obtain the winding size distribution for the large-$q$ SYK model across the entire time domain. Notably, we unveil that the manifestation of size winding results from a universal phase factor in the scramblon propagator, highlighting the significance of the Lyapunov exponent. These findings contribute to a sharp and precise connection between operator dynamics and the phenomenon of wormhole teleportation.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-08
# DeepEdit: 制約付きデコードとしての知識編集

DeepEdit: Knowledge Editing as Decoding with Constraints ( http://arxiv.org/abs/2401.10471v3 )

ライセンス: Link先を確認
Yiwei Wang, Muhao Chen, Nanyun Peng, Kai-Wei Chang, (参考訳) 大規模言語モデル (LLM) 知識編集 (KE) 手法を評価する上で, 新たな知識を含むマルチホップ質問への回答は難しい課題である。 LLMの新たな知識に対する幻覚がLLMのマルチホップ推論の論理的一貫性を損なうため、これはかなり難しい。 この問題に対処するため,LLMの推論を"規制"するデコード制約を設計し,新たな知識を取り入れた論理的一貫性を向上する。 DeEPEDIT(Deepth First Search-based Constrained Decoding for Knowledge Editing)は,LLMを改良し,深度優先探索によって新しい知識を持つ一貫性のある推論チェーンを生成する。 我々の探索は、推論深度を効率的に向上するための推論ステップとして、我々の制約を満たす最も重要な知識を選択する。 DEEPEDITに加えて, MQUAKE-2002 と MQUAKE-HARD という2つの新しい KE ベンチマークを提案する。 定性的には、DEEPEDITはLLMが新しい知識を含む簡潔でコヒーレントな推論連鎖を生成することを可能にする。 定量的には、複数のKEベンチマークで大幅に改善されている。

Answering multi-hop questions involving new knowledge is a challenging task in evaluating large language models' (LLMs) knowledge editing (KE) methods. This task is rather difficult because the LLMs' hallucinations on new knowledge would harm the logical coherence of LLMs' multi-hop reasoning and lead to incorrect answers. To address this issue, we design decoding constraints to "regulate" LLMs' reasoning, enhancing logical coherence when incorporating new knowledge. We incorporate the constraints into a new KE framework: DEEPEDIT (Depth-first Search-based Constrained Decoding for Knowledge Editing), which enhances LLMs to generate coherent reasoning chains with new knowledge through a depth-first search. Our search selects the most important knowledge that satisfies our constraints as the reasoning step to efficiently increase the reasoning depth. In addition to DEEPEDIT, we propose two new KE benchmarks: MQUAKE-2002 and MQUAKE-HARD, which provide more precise and challenging assessments of KE approaches. Qualitatively, DEEPEDIT enables LLMs to produce succinct and coherent reasoning chains involving new knowledge. Quantitatively, it yields significant improvements on multiple KE benchmarks.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-08
# 自己同一性変化量を用いた顔面年齢の多変量変換合成

Diverse and Lifespan Facial Age Transformation Synthesis with Identity Variation Rationality Metric ( http://arxiv.org/abs/2401.14036v2 )

ライセンス: Link先を確認
Jiu-Cheng Xie, Jun Yang, Wenqing Wang, Feng Xu, Jiang Xiong, Hao Gao, (参考訳) 過去20年間、顔の老化は継続的な研究の注目を集めてきた。 この話題に関する以前の研究は目覚ましい成功を収めたものの、2つの長年の問題は未解決のままである。 1) 対象年齢における多様で多彩な顔の老化パターンの生成 2) 年齢の進行や回帰に伴う原像とその合成との同一性の変化の合理性を測定すること。 本稿では,顔のテクスチャや形状の変換に多様性が伴うような,人間の顔のディバース・ライフスパン・エイジ・トランスフォーメーションを実現するために,${\rm{DLAT}}^{\boldsymbol{+}}$を紹介した。 モデルに埋め込まれた多様性のメカニズムとは別に、複数の一貫性の制限が活用され、反ファクト的な老化合成を防ぐことができる。 さらに,入力面と年齢変換世代間のIDAG(Identity Deviation under Age Gaps)の合理性を評価するための新しい指標を提案する。 全生涯にわたって多様で知覚的に合理的な顔の合成において,本手法の特異性と有効性を示した。

Face aging has received continuous research attention over the past two decades. Although previous works on this topic have achieved impressive success, two longstanding problems remain unsettled: 1) generating diverse and plausible facial aging patterns at the target age stage; 2) measuring the rationality of identity variation between the original portrait and its syntheses with age progression or regression. In this paper, we introduce ${\rm{DLAT}}^{\boldsymbol{+}}$ to realize Diverse and Lifespan Age Transformation on human faces, where the diversity jointly manifests in the transformation of facial textures and shapes. Apart from the diversity mechanism embedded in the model, multiple consistency restrictions are leveraged to keep it away from counterfactual aging syntheses. Moreover, we propose a new metric to assess the rationality of Identity Deviation under Age Gaps (IDAG) between the input face and its series of age-transformed generations, which is based on statistical laws summarized from plenty of genuine face-aging data. Extensive experimental results demonstrate the uniqueness and effectiveness of our method in synthesizing diverse and perceptually reasonable faces across the whole lifetime.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-08
# 特許データを用いた抗体の人間性予測の改善

Improving Antibody Humanness Prediction using Patent Data ( http://arxiv.org/abs/2401.14442v3 )

ライセンス: Link先を確認
Talip Ucar, Aubin Ramon, Dino Oglic, Rebecca Croasdale-Wood, Tom Diethe, Pietro Sormanni, (参考訳) マルチステージ・マルチロス・トレーニングプロセスを用いて,抗体の人間性予測を改善するための特許データの可能性を検討する。 人間性は、抗体治療に対する免疫原性反応のプロキシとして機能し、薬物発見の主要な原因の1つであり、臨床現場での使用には困難である。 初期学習段階を弱教師付きコントラスト学習問題として、各抗体配列が機能識別子と関連付けられており、その目的は、それらの特性に応じてそれらをグループ化するエンコーダを学習することである。 次に、コントラストエンコーダの一部を凍結し、クロスエントロピー損失を用いて特許データに基づいてトレーニングし、与えられた抗体配列の人間性スコアを予測する。 トレーニング中に見つからない3つの異なる免疫原性データセットの推測を行うことにより,特許データの有用性とアプローチについて解説する。 実験結果から,学習モデルは,6つの推論タスクのうち5つにおいて,代替のベースラインを一貫して上回り,新しい最先端を確立できることが示唆された。

We investigate the potential of patent data for improving the antibody humanness prediction using a multi-stage, multi-loss training process. Humanness serves as a proxy for the immunogenic response to antibody therapeutics, one of the major causes of attrition in drug discovery and a challenging obstacle for their use in clinical settings. We pose the initial learning stage as a weakly-supervised contrastive-learning problem, where each antibody sequence is associated with possibly multiple identifiers of function and the objective is to learn an encoder that groups them according to their patented properties. We then freeze a part of the contrastive encoder and continue training it on the patent data using the cross-entropy loss to predict the humanness score of a given antibody sequence. We illustrate the utility of the patent data and our approach by performing inference on three different immunogenicity datasets, unseen during training. Our empirical results demonstrate that the learned model consistently outperforms the alternative baselines and establishes new state-of-the-art on five out of six inference tasks, irrespective of the used metric.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-08
# BPDec:BERT事前学習におけるマスク言語モデリングデコーダの可能性を明らかにする

BPDec: Unveiling the Potential of Masked Language Modeling Decoder in BERT pretraining ( http://arxiv.org/abs/2401.15861v3 )

ライセンス: Link先を確認
Wen Liang, Youzhi Liang, (参考訳) BERT(Bidirectional Encoder Representations from Transformers)は、自然言語処理の分野に革命をもたらした。 しかし、ほとんどの研究者は、相対的な位置埋め込みやより効率的な注意機構など、モデル構造に関連する拡張に集中してきた。 Masked Language Modelingに関連する事前トレーニングのトリックには、全体的な単語マスキングも含まれる。 DeBERTaは、BERTのエンコーダモデルに適応した拡張デコーダを導入した。 マスク付き言語モデリングデコーダの設計と研究は不十分である。 本稿では,拡張デコーダの設計とBPDec(BERT Pretraining Decoder)の導入について述べる。 通常、事前訓練されたBERTモデルは、特定の自然言語理解(NLU)タスクのために微調整される。 提案手法では,元のBERTモデルをエンコーダとして使用し,エンコーダを変更することなくデコーダを変更する。 このアプローチはエンコーダアーキテクチャに広範な変更を加える必要はなく、既存の微調整パイプラインやサービスにシームレスに統合され、効率的かつ効果的な拡張戦略を提供する。 他の方法と比較して、プレトレーニングプロセス中にデコーダの適度なトレーニングコストを発生させるのに対し、本手法は微調整フェーズ中に追加のトレーニングコストを導入しない。 我々は,GLUEタスクとSQuADタスクの事前学習後,複数の拡張デコーダ構造をテストし,その性能を評価する。 以上の結果から,BPDecは事前訓練中にモデル構造に微妙な改良を施しただけで,微調整コスト,推論時間,サービス予算を増大させることなく,モデル性能を著しく向上させることがわかった。

BERT (Bidirectional Encoder Representations from Transformers) has revolutionized the field of natural language processing through its exceptional performance on numerous tasks. Yet, the majority of researchers have mainly concentrated on enhancements related to the model structure, such as relative position embedding and more efficient attention mechanisms. Others have delved into pretraining tricks associated with Masked Language Modeling, including whole word masking. DeBERTa introduced an enhanced decoder adapted for BERT's encoder model for pretraining, proving to be highly effective. We argue that the design and research around enhanced masked language modeling decoders have been underappreciated. In this paper, we propose several designs of enhanced decoders and introduce BPDec (BERT Pretraining Decoder), a novel method for modeling training. Typically, a pretrained BERT model is fine-tuned for specific Natural Language Understanding (NLU) tasks. In our approach, we utilize the original BERT model as the encoder, making only changes to the decoder without altering the encoder. This approach does not necessitate extensive modifications to the encoder architecture and can be seamlessly integrated into existing fine-tuning pipelines and services, offering an efficient and effective enhancement strategy. Compared to other methods, while we also incur a moderate training cost for the decoder during the pretraining process, our approach does not introduce additional training costs during the fine-tuning phase. We test multiple enhanced decoder structures after pretraining and evaluate their performance on the GLUE tasks and SQuAD tasks. Our results demonstrate that BPDec, having only undergone subtle refinements to the model structure during pretraining, significantly enhances model performance without escalating the finetuning cost, inference time and serving budget.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-08
# 大規模言語モデルによるセキュリティコードレビュー

Security Code Review by Large Language Models ( http://arxiv.org/abs/2401.16310v2 )

ライセンス: Link先を確認
Jiaxin Yu, Peng Liang, Yujia Fu, Amjed Tahir, Mojtaba Shahin, Chong Wang, Yangxiao Cai, (参考訳) セキュリティコードレビューは、時間を要する労働集約的なプロセスであり、コードのセキュリティを確保するために、自動化されたセキュリティ欠陥検出ツールとの統合を必要とするのが一般的である。 多くのセキュリティ分析ツールが登場したにも拘わらず、それらのツールは、一般化の貧弱さ、偽陽性率の高さ、粗い検出粒度の観点から、課題に直面している。 最近のLLM(Large Language Models)による開発は、セキュリティコードレビューをサポートするための有望な候補となっている。 この目的のために,セキュリティコードレビューにおけるLLMの能力を理解するための実証的研究を行い,コードレビューにおけるセキュリティ欠陥を検出するためのLLMの性能,品質問題,および影響要因について検討した。 具体的には,6個のLDMの性能を5つのプロンプトで比較し,最新の静的解析ツールを用いてセキュリティ欠陥を検出し解析した。 本研究は,LLMの性能向上のための言語学的解析を行い,その性能に影響を及ぼす要因の回帰分析を行った。 1) 既存のトレーニング済みのLLMは,コードレビュー中にセキュリティ欠陥を検出する能力に制限があるが,最先端の静的解析ツールよりも大幅に優れている。 2) GPT-4は、参照用のCWEリストが提供される場合、すべてのLLMの中で最もよく機能する。 (3) GPT-4は事実エラーが少ないが、プロンプトで与えられたタスク要求に従わない不必要な内容や応答を頻繁に生成する。 (4) GPT-4は、より少ないトークン、機能ロジックを含むコードファイルのセキュリティ欠陥を識別し、プロジェクトへの関与の少ない開発者によって記述される。

Security code review, as a time-consuming and labour-intensive process, typically requires integration with automated security defect detection tools to ensure code security. Despite the emergence of numerous security analysis tools, those tools face challenges in terms of their poor generalization, high false positive rates, and coarse detection granularity. A recent development with Large Language Models (LLMs) has made them a promising candidate to support security code review. To this end, we conducted the first empirical study to understand the capabilities of LLMs in security code review, delving into the performance, quality problems, and influential factors of LLMs to detect security defects in code reviews. Specifically, we compared the performance of 6 LLMs under five different prompts with the state-of-the-art static analysis tools to detect and analyze security defects. For the best-performing LLM, we conducted a linguistic analysis to explore quality problems in its responses, as well as a regression analysis to investigate the factors influencing its performance. The results are that: (1) existing pre-trained LLMs have limited capability in detecting security defects during code review but significantly outperform the state-of-the-art static analysis tools. (2) GPT-4 performs best among all LLMs when provided with a CWE list for reference. (3) GPT-4 makes few factual errors but frequently generates unnecessary content or responses that are not compliant with the task requirements given in the prompts. (4) GPT-4 is more adept at identifying security defects in code files with fewer tokens, containing functional logic and written by developers with less involvement in the project.
翻訳日:2024-06-12 03:59:13 公開日:2024-06-08
# 強化学習を用いた量子スクイーズ状態の生成戦略

A Strategy for Preparing Quantum Squeezed States Using Reinforcement Learning ( http://arxiv.org/abs/2401.16320v3 )

ライセンス: Link先を確認
X. L. Zhao, Y. M. Zhao, M. Li, T. T. Li, Q. Liu, S. Guo, X. X. Yi, (参考訳) 非古典的状態を生成するために,強化学習を工学的制御分野に適用する手法を提案する。 線形制御場を動的に制御するように設計した開集合スピンモデルに対するスピンスクイーズ状態の準備を応用によって例示する。 本発明の強化学習剤は、散逸脱落を特徴とする環境において、コヒーレントスピン状態から生じる制御パルスの時間的シーケンスを決定する。 一定の制御シナリオと比較して、このアプローチは集合的なスピンスクイーズと絡み合いを維持する様々な制御シーケンスを提供する。 制御パルスの高密度適用により,結果の性能が向上することが観察された。 しかし、制御アクションを追加することでパフォーマンスが少し向上する。 提案手法は,大規模システムに対する有効性の向上を実証する。 貯水池の熱励起は制御結果に有害である。 他のものとの比較に基づいて、この制御提案を実装するための有望な実験が提案されている。 連続制御問題と他の量子系の拡張について論じる。 強化学習モジュールの置換性も強調されている。 この研究は、他の量子系を操作するための応用の道を開いた。

We propose a scheme leveraging reinforcement learning to engineer control fields for generating non-classical states. It is exemplified by the application to prepare spin-squeezed states for an open collective spin model where a linear control field is designed to govern the dynamics. The reinforcement learning agent determines the temporal sequence of control pulses, commencing from a coherent spin state in an environment characterized by dissipation and dephasing. Compared to the constant control scenario, this approach provides various control sequences maintaining collective spin squeezing and entanglement. It is observed that denser application of the control pulses enhances the performance of the outcomes. However, there is a minor enhancement in the performance by adding control actions. The proposed strategy demonstrates increased effectiveness for larger systems. Thermal excitations of the reservoir are detrimental to the control outcomes. Feasible experiments are suggested to implement this control proposal based on the comparison with the others. The extensions to continuous control problems and another quantum system are discussed. The replaceability of the reinforcement learning module is also emphasized. This research paves the way for its application in manipulating other quantum systems.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-08
# スパイクニューラルネットワークの効率的なトレーニングのための並列スパイクユニット

Parallel Spiking Unit for Efficient Training of Spiking Neural Networks ( http://arxiv.org/abs/2402.00449v3 )

ライセンス: Link先を確認
Yang Li, Yinqian Sun, Xiang He, Yiting Dong, Dongcheng Zhao, Yi Zeng, (参考訳) 効率的な並列コンピューティングは、人工知能の進歩において重要な要素となっている。 しかし、この領域におけるスパイキングニューラルネットワーク(SNN)の展開は、本質的に逐次的な計算依存によって妨げられている。 この制約は、前ステップの結果に依存する各ステップの処理の必要性から生じ、SNNモデルの大規模並列コンピューティング環境への適応性を著しく阻害する。 この課題に対処するために,本論文では,革新的なParallel Spiking Unit(PSU)とその2つの派生であるIPSU(IPSU)とRPSU(Reset-aware PSU)を紹介する。 これらの変種は、リセットプロセスを確率的に管理しながら、スパイキングニューロンの漏れた積分と発火機構を巧みに分離する。 スパイキングニューロンモデルの基本計算特性を保存することにより,SNN内の膜電位の同時計算が可能となり,並列スパイク出力の生成が容易になり,計算効率が大幅に向上する。 静的およびシーケンシャルな画像、ダイナミックビジョンセンサー(DVS)データ、および音声データセットを含む、さまざまなデータセットにわたる包括的なテストは、PSUとその変種がパフォーマンスとシミュレーション速度を著しく向上するだけでなく、神経活動の空間性を高めてSNNのエネルギー効率を向上することを示した。 これらの進歩は、高性能並列コンピューティングアプリケーションのためのSNNデプロイメントに革命をもたらす上で、我々の方法の可能性を浮き彫りにしている。

Efficient parallel computing has become a pivotal element in advancing artificial intelligence. Yet, the deployment of Spiking Neural Networks (SNNs) in this domain is hampered by their inherent sequential computational dependency. This constraint arises from the need for each time step's processing to rely on the preceding step's outcomes, significantly impeding the adaptability of SNN models to massively parallel computing environments. Addressing this challenge, our paper introduces the innovative Parallel Spiking Unit (PSU) and its two derivatives, the Input-aware PSU (IPSU) and Reset-aware PSU (RPSU). These variants skillfully decouple the leaky integration and firing mechanisms in spiking neurons while probabilistically managing the reset process. By preserving the fundamental computational attributes of the spiking neuron model, our approach enables the concurrent computation of all membrane potential instances within the SNN, facilitating parallel spike output generation and substantially enhancing computational efficiency. Comprehensive testing across various datasets, including static and sequential images, Dynamic Vision Sensor (DVS) data, and speech datasets, demonstrates that the PSU and its variants not only significantly boost performance and simulation speed but also augment the energy efficiency of SNNs through enhanced sparsity in neural activity. These advancements underscore the potential of our method in revolutionizing SNN deployment for high-performance parallel computing applications.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-08
# グラフの1つの畳み込み:効率的なグレイスケール画像分類

A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification ( http://arxiv.org/abs/2402.00564v3 )

ライセンス: Link先を確認
Jacob Fein-Ashley, Tian Ye, Sachini Wickramasinghe, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna, (参考訳) 画像分類器は、そのタスクに畳み込みニューラルネットワーク(CNN)を頼りにしており、これは本質的にマルチ層パーセプトロン(MLP)よりも重く、リアルタイムアプリケーションでは問題となる可能性がある。 さらに、多くの画像分類モデルはRGBとグレースケールの両方のデータセットで動作する。 グレースケールの画像のみを扱う分類器は、あまり一般的ではない。 グレースケール画像分類には様々な応用があり、医療画像分類や合成開口レーダ(SAR)自動目標認識(ATR)に限らない。 そこで本稿では,画像のベクトル化ビューを用いた新しいグレースケール(単一チャネル)画像分類手法を提案する。 我々は、画像をベクトルとして見ることで、MLPの軽量性を活用し、グレースケール画像分類設定に問題設定を還元する。 単一グラフ畳み込み層を用いることで精度が向上し,モデルの性能のばらつきが軽減されることがわかった。 さらに,FPGA モデルに最適化したアクセラレータを開発し,性能向上のための最適化を行った。 ベンチマークグレースケール画像データセットを用いた実験結果から,提案モデルの有効性を実証し,各領域固有のグレースケール画像分類データセットの他の最先端画像分類モデルと比較して,レイテンシが大幅に低く(最大16$\times以下),競合的,あるいは先行的な性能を実現した。

Image classifiers often rely on convolutional neural networks (CNN) for their tasks, which are inherently more heavyweight than multilayer perceptrons (MLPs), which can be problematic in real-time applications. Additionally, many image classification models work on both RGB and grayscale datasets. Classifiers that operate solely on grayscale images are much less common. Grayscale image classification has diverse applications, including but not limited to medical image classification and synthetic aperture radar (SAR) automatic target recognition (ATR). Thus, we present a novel grayscale (single channel) image classification approach using a vectorized view of images. We exploit the lightweightness of MLPs by viewing images as a vector and reducing our problem setting to the grayscale image classification setting. We find that using a single graph convolutional layer batch-wise increases accuracy and reduces variance in the performance of our model. Moreover, we develop a customized accelerator on FPGA for the proposed model with several optimizations to improve its performance. Our experimental results on benchmark grayscale image datasets demonstrate the effectiveness of the proposed model, achieving vastly lower latency (up to 16$\times$ less) and competitive or leading performance compared to other state-of-the-art image classification models on various domain-specific grayscale image classification datasets.
翻訳日:2024-06-12 03:49:29 公開日:2024-06-08
# 細胞性オートマタの自己再生と進化:Evoloopsの25年後

Self-Reproduction and Evolution in Cellular Automata: 25 Years after Evoloops ( http://arxiv.org/abs/2402.03961v2 )

ライセンス: Link先を確認
Hiroki Sayama, Chrystopher L. Nehaniv, (参考訳) 2024年は、クリス・ラングトンの自己再生ループの進化的変種であるエボループの出版25周年であり、決定論的セルオートマトンにおいて、変化と自然選択による自己再生生物のダーウィン的進化が可能であることを具体的に証明した。 この数十年間、人工生命の研究はいくつかの重要な発展を遂げてきた。 しばらくの間、活動は比較的休眠状態にあったが、近年のオープンエンド進化への関心の高まりと連続セルオートマトンモデルの成功は、空間的に分散された計算媒体の中で時空間パターンを自己複製し進化させる方法に研究者の注意を呼び戻した。 本稿は、過去25年間のこのトピックに関する関連文献のレビューを行い、これまでの主な成果、直面している課題、将来的な研究の方向性について紹介する。

The year of 2024 marks the 25th anniversary of the publication of evoloops, an evolutionary variant of Chris Langton's self-reproducing loops which proved constructively that Darwinian evolution of self-reproducing organisms by variation and natural selection is possible within deterministic cellular automata. Over the last few decades, this line of Artificial Life research has since undergone several important developments. Although it experienced a relative dormancy of activities for a while, the recent rise of interest in open-ended evolution and the success of continuous cellular automata models have brought researchers' attention back to how to make spatio-temporal patterns self-reproduce and evolve within spatially distributed computational media. This article provides a review of the relevant literature on this topic over the past 25 years and highlights the major accomplishments made so far, the challenges being faced, and promising future research directions.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-08
# コミュニケーション型医療コーチングにおける大規模言語モデルのベンチマーク:新しいシステムとデータセット

Benchmarking Large Language Models on Communicative Medical Coaching: a Novel System and Dataset ( http://arxiv.org/abs/2402.05547v2 )

ライセンス: Link先を確認
Hengguan Huang, Songtao Wang, Hongfu Liu, Hao Wang, Ye Wang, (参考訳) 医療における自然言語処理(NLP)の伝統的な応用は、主に患者中心のサービスに焦点を合わせており、医療対話システムのような患者の相互作用とケア提供の促進に力を入れている。 しかし、NLPが経験の浅い医師に利益をもたらす可能性、特にコミュニケーション・メディカル・コーチングなどの分野では、ほとんど解明されていない。 患者相談におけるコミュニケーションスキルの実践を支援するための,人間とAIの協調的枠組みであるChatCoachを紹介する。 https://github.com/zerowst/Chatcoach) 従来の対話システムとは違い、医療学習者が患者エージェントと対話できるシミュレーション環境を提供し、コーチエージェントは即時かつ構造化されたフィードバックを提供する。 これは、構造化されたフィードバックの生成を促進し、外部知識源の利用を促進させる一般化連鎖(GCoT)アプローチによって促進される。 さらに,ChatCoachフレームワーク内でのコミュニケーション型医療コーチングタスクにおいて,LLM(Large Language Models)を評価するためのデータセットも開発した。 実験によりChatCoachの有効性が検証された。

Traditional applications of natural language processing (NLP) in healthcare have predominantly focused on patient-centered services, enhancing patient interactions and care delivery, such as through medical dialogue systems. However, the potential of NLP to benefit inexperienced doctors, particularly in areas such as communicative medical coaching, remains largely unexplored. We introduce "ChatCoach", a human-AI cooperative framework designed to assist medical learners in practicing their communication skills during patient consultations. ChatCoach (Our data and code are available online: https://github.com/zerowst/Chatcoach)differentiates itself from conventional dialogue systems by offering a simulated environment where medical learners can practice dialogues with a patient agent, while a coach agent provides immediate, structured feedback. This is facilitated by our proposed Generalized Chain-of-Thought (GCoT) approach, which fosters the generation of structured feedback and enhances the utilization of external knowledge sources. Additionally, we have developed a dataset specifically for evaluating Large Language Models (LLMs) within the ChatCoach framework on communicative medical coaching tasks. Our empirical results validate the effectiveness of ChatCoach.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-08
# 対話型ソーシャルシーンシミュレーションによる大規模言語モデルの自己アライメント

Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation ( http://arxiv.org/abs/2402.05699v3 )

ライセンス: Link先を確認
Xianghe Pang, Shuo Tang, Rui Ye, Yuxin Xiong, Bolun Zhang, Yanfeng Wang, Siheng Chen, (参考訳) 人的価値を持つ大きな言語モデル(LLM)の調整は、その誤用による潜在的な副作用を軽減するために不可欠である。 本論文は,すべての当事者の関心を社会学的に理解することが,人的価値を形成する上で重要な要素である,という社会学的考察から,LLMを自分自身で整合させる新たな方向性である社会シーンシミュレーションを提案する。 そこで本稿では,ユーザの入力クエリを取り巻く現実的なシーンをエミュレートするソーシャルシーンシミュレータMATRIXを提案する。 MATRIXはMonopolylogueに似た仮想リハーサル空間として機能し、LCMはクエリと実践に関するさまざまな役割をそれ自体で実行する。 このアライメントを注入するために,MATRIXシミュレーションデータを用いてLLMを微調整し,推論速度を損なうことなく人間の値への付着を確保する。 理論的には、MATRIXを用いたLLMは、軽微な仮定の下で、コンスティチューショナルAIよりも優れていることを示す。 最後に、我々の手法が4つのベンチマークで10以上のベースラインより優れていることを検証する。 875人のユーザー評価によって証明されたように、調整された13BサイズのLCMは、人間の値に合わせるとGPT-4を上回っます。 プロジェクトページはhttps://shuotang123.github.io/MATRIX.com。

Aligning large language models (LLMs) with human values is imperative to mitigate potential adverse effects resulting from their misuse. Drawing from the sociological insight that acknowledging all parties' concerns is a key factor in shaping human values, this paper proposes a novel direction to align LLMs by themselves: social scene simulation. To achieve this, we present MATRIX, a novel social scene simulator that emulates realistic scenes around a user's input query, enabling the LLM to take social consequences into account before responding. MATRIX serves as a virtual rehearsal space, akin to a Monopolylogue, where the LLM performs diverse roles related to the query and practice by itself. To inject this alignment, we fine-tune the LLM with MATRIX-simulated data, ensuring adherence to human values without compromising inference speed. We theoretically show that the LLM with MATRIX outperforms Constitutional AI under mild assumptions. Finally, extensive experiments validate that our method outperforms over 10 baselines across 4 benchmarks. As evidenced by 875 user ratings, our tuned 13B-size LLM exceeds GPT-4 in aligning with human values. See our project page at https://shuotang123.github.io/MATRIX.
翻訳日:2024-06-12 03:39:46 公開日:2024-06-08
# グラフニューラルネットワークの分岐戦略における能力の再考

Rethinking the Capacity of Graph Neural Networks for Branching Strategy ( http://arxiv.org/abs/2402.07099v2 )

ライセンス: Link先を確認
Ziang Chen, Jialin Liu, Xiaohan Chen, Xinshang Wang, Wotao Yin, (参考訳) グラフニューラルネットワーク(GNN)は、混合整数線形プログラム(MILP)の特性とヒューリスティックを予測し、MILPソルバを加速するために広く用いられている。 本稿では, 分岐とバウンドのアルゴリズムにおいて最も効果的だが計算コストのかかるヒューリスティックである, 強い分岐(SB)を表すGNNの能力について検討する。 文献では、最も単純なGNN構造であるメッセージパッシングGNN(MP-GNN)がSBの高速近似として頻繁に使われており、全てのMILPのSBをMP-GNNで表すことはできない。 我々は、MP-GNNがSBスコアを正確に近似できる「MP-tractable」MILPのクラスを正確に定義する。 特に、我々は普遍近似定理を確立する:MP-tractable class上の任意のデータ分布に対して、常にMP-GNNが存在し、SBスコアを任意に高い精度と任意に高い確率で近似することができる。 MPトラクタビリティのないMILPでは、パラメータの数に関係なく、MP-GNNでは区別できない異なるSBスコアを持つ2つのMILPインスタンスで、同様の結果を示すことは不可能である。 これを認識し、この制限を克服する二階民話GNN (2-FGNN) と呼ばれる別のGNN構造を探索し、上記の普遍近似定理をMPトラクタビリティに関係なく2-FGNNを用いてMILP空間全体に拡張することができる。 理論的知見を直接的確証するために, 小型数値実験を行った。

Graph neural networks (GNNs) have been widely used to predict properties and heuristics of mixed-integer linear programs (MILPs) and hence accelerate MILP solvers. This paper investigates the capacity of GNNs to represent strong branching (SB), the most effective yet computationally expensive heuristic employed in the branch-and-bound algorithm. In the literature, message-passing GNN (MP-GNN), as the simplest GNN structure, is frequently used as a fast approximation of SB and we find that not all MILPs's SB can be represented with MP-GNN. We precisely define a class of "MP-tractable" MILPs for which MP-GNNs can accurately approximate SB scores. Particularly, we establish a universal approximation theorem: for any data distribution over the MP-tractable class, there always exists an MP-GNN that can approximate the SB score with arbitrarily high accuracy and arbitrarily high probability, which lays a theoretical foundation of the existing works on imitating SB with MP-GNN. For MILPs without the MP-tractability, unfortunately, a similar result is impossible, which can be illustrated by two MILP instances with different SB scores that cannot be distinguished by any MP-GNN, regardless of the number of parameters. Recognizing this, we explore another GNN structure called the second-order folklore GNN (2-FGNN) that overcomes this limitation, and the aforementioned universal approximation theorem can be extended to the entire MILP space using 2-FGNN, regardless of the MP-tractability. A small-scale numerical experiment is conducted to directly validate our theoretical findings.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-08
# 線形帯域に対する雑音適応信頼集合とベイズ最適化への応用

Noise-Adaptive Confidence Sets for Linear Bandits and Application to Bayesian Optimization ( http://arxiv.org/abs/2402.07341v2 )

ライセンス: Link先を確認
Kwang-Sung Jun, Jungtaek Kim, (参考訳) 事前の未知のノイズレベルに適応することは、シーケンシャルな意思決定において非常に重要であるが難しい問題であり、効率的な探索には、しばしば緩やかに特定されるノイズレベルに関する知識が必要である。 2つの点で線形バンディットの問題に対処する上で大きな進歩を報告した。 まず、未知の準ガウスパラメータ $\sigma_*^2$ に対して $d$ が次元であり $\sqrt{d\sigma_*^2 + \sigma_0^2}$ が $\sigma_*^2$ よりもはるかに大きい特定のサブガウスパラメータ (既知の) であるような、未知のサブガウスパラメータ $\sigma_*^2$ に 'semi-adaptive' な新しい信頼集合を提案する。 これは、Abbasi-Yadkori et al (2011)の標準信頼集合の$\sqrt{d\sigma_0^2}$よりも大幅に改善され、特に$d$が大きければ$\sigma_*^2=0$である。 このことは, 線形包帯における後悔の抑制につながることを示す。 第2に、有界報酬に対して、先行技術における数値性能を大幅に改善した新しい分散適応信頼セットを提案する。 次に、この信頼度セットを適用して、我々の新しい後悔分析手法によって実現された楽観的なアプローチによる、最初の実用的な分散適応線形帯域幅アルゴリズムを開発する。 いずれの信頼セットも、オンライン学習の‘regret equality’に批判的に依存しています。 ベイズ最適化タスクにおける経験的評価は,提案アルゴリズムが既存手法よりも優れているか同等の性能を示したことを示している。

Adapting to a priori unknown noise level is a very important but challenging problem in sequential decision-making as efficient exploration typically requires knowledge of the noise level, which is often loosely specified. We report significant progress in addressing this issue for linear bandits in two respects. First, we propose a novel confidence set that is `semi-adaptive' to the unknown sub-Gaussian parameter $\sigma_*^2$ in the sense that the (normalized) confidence width scales with $\sqrt{d\sigma_*^2 + \sigma_0^2}$ where $d$ is the dimension and $\sigma_0^2$ is the specified sub-Gaussian parameter (known) that can be much larger than $\sigma_*^2$. This is a significant improvement over $\sqrt{d\sigma_0^2}$ of the standard confidence set of Abbasi-Yadkori et al. (2011), especially when $d$ is large or $\sigma_*^2=0$. We show that this leads to an improved regret bound in linear bandits. Second, for bounded rewards, we propose a novel variance-adaptive confidence set that has much improved numerical performance upon prior art. We then apply this confidence set to develop, as we claim, the first practical variance-adaptive linear bandit algorithm via an optimistic approach, which is enabled by our novel regret analysis technique. Both of our confidence sets rely critically on `regret equality' from online learning. Our empirical evaluation in diverse Bayesian optimization tasks shows that our proposed algorithms demonstrate better or comparable performance compared to existing methods.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-08
# 計算効率の良いマルチクラス校正について

On Computationally Efficient Multi-Class Calibration ( http://arxiv.org/abs/2402.07821v2 )

ライセンス: Link先を確認
Parikshit Gopalan, Lunjia Hu, Guy N. Rothblum, (参考訳) ラベルが$[k]$で値を取ることができ、予測器がラベル上の分布を予測できるマルチクラスラベル問題を考える。 有意義な予測を強く保証し、時間内に達成できるマルチクラスキャリブレーションの概念と、$k$でのサンプル複雑度多項式は存在するか? 従来のキャリブレーションの概念は計算効率と表現率のトレードオフを示しており、$k$で指数関数的な複雑さを持つか、計算的に難解な問題を解く必要があるか、より弱い保証を与える必要がある。 我々の主な貢献は、これらのデシダラタを全て達成するキャリブレーションの概念である: 多クラス予測に対する射影滑らかなキャリブレーションの堅牢な概念を定式化し、この定義の下で、複雑性多項式を$k$で効率的にキャリブレーションするための新しい再校正アルゴリズムを与える。 プロジェクションされた滑らかなキャリブレーションは、フォームのバイナリ分類問題に予測子を使用したいすべての下流の意思決定者に対して強い保証を与える: ラベルはサブセットの$T \subseteq [k]$: e gは動物のイメージか? これは、ラベルに割り当てられた確率を$T$にまとめることによって予測される確率が、そのタスクのために完全に校正されたバイナリ予測器に近いことを保証します。 また、我々の定義の自然な強化は、情報理論の障壁や計算の難易度にぶつかる、計算的に達成が難しいことも示しています。 上境界と下境界の両方を下限にすると、マルチクラスの校正と、(標準)二項予測設定における不可知学習のよく研究された問題との密接な関係が証明される。

Consider a multi-class labelling problem, where the labels can take values in $[k]$, and a predictor predicts a distribution over the labels. In this work, we study the following foundational question: Are there notions of multi-class calibration that give strong guarantees of meaningful predictions and can be achieved in time and sample complexities polynomial in $k$? Prior notions of calibration exhibit a tradeoff between computational efficiency and expressivity: they either suffer from having sample complexity exponential in $k$, or needing to solve computationally intractable problems, or give rather weak guarantees. Our main contribution is a notion of calibration that achieves all these desiderata: we formulate a robust notion of projected smooth calibration for multi-class predictions, and give new recalibration algorithms for efficiently calibrating predictors under this definition with complexity polynomial in $k$. Projected smooth calibration gives strong guarantees for all downstream decision makers who want to use the predictor for binary classification problems of the form: does the label belong to a subset $T \subseteq [k]$: e.g. is this an image of an animal? It ensures that the probabilities predicted by summing the probabilities assigned to labels in $T$ are close to some perfectly calibrated binary predictor for that task. We also show that natural strengthenings of our definition are computationally hard to achieve: they run into information theoretic barriers or computational intractability. Underlying both our upper and lower bounds is a tight connection that we prove between multi-class calibration and the well-studied problem of agnostic learning in the (standard) binary prediction setting.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-08
# CaPS: 分散ソースからの協調的でプライベートな合成データ生成

CaPS: Collaborative and Private Synthetic Data Generation from Distributed Sources ( http://arxiv.org/abs/2402.08614v2 )

ライセンス: Link先を確認
Sikha Pentyala, Mayana Pereira, Martine De Cock, (参考訳) データは現代の世界の生命体であり、AI、意思決定、研究の進歩の基本的な部分を形成している。 データへの関心が高まり、政府は規制されたデータ世界に向けて重要な一歩を踏み出し、データの共有とデータのユーザビリティに大きな影響を与え、組織の壁の中に大量のデータが閉じ込められている。 合成データ生成(SDG)は、これらの壁を壊し、データ共有を可能にするための魅力的なソリューションであるが、既存のソリューションの主な欠点は、生成モデルトレーニングのための信頼できるアグリゲータの仮定である。 多くのデータ保持者が、その生データを中央のエンティティに委ねたり、法的に許可されたりすることを望まないことを前提として、分散データ保持者から合成表データの協調的かつプライベートな生成のためのフレームワークを提案する。 我々のソリューションは一般に,任意の限界ベースのSDGに適用可能であり,信頼されたアグリゲータをセキュアなマルチパーティ計算(MPC)プロトコルに置き換え,差分プライバシ(DP)を介してプライバシを出力することで,入力プライバシを提供する。 本稿では,最新の選択測度生成型SDGアルゴリズムMWEM+PGMとAIMに対するアプローチの適用性と拡張性を示す。

Data is the lifeblood of the modern world, forming a fundamental part of AI, decision-making, and research advances. With increase in interest in data, governments have taken important steps towards a regulated data world, drastically impacting data sharing and data usability and resulting in massive amounts of data confined within the walls of organizations. While synthetic data generation (SDG) is an appealing solution to break down these walls and enable data sharing, the main drawback of existing solutions is the assumption of a trusted aggregator for generative model training. Given that many data holders may not want to, or be legally allowed to, entrust a central entity with their raw data, we propose a framework for the collaborative and private generation of synthetic tabular data from distributed data holders. Our solution is general, applicable to any marginal-based SDG, and provides input privacy by replacing the trusted aggregator with secure multi-party computation (MPC) protocols and output privacy via differential privacy (DP). We demonstrate the applicability and scalability of our approach for the state-of-the-art select-measure-generate SDG algorithms MWEM+PGM and AIM.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-08
# ガウス入力による部分空間スパース多項式学習における平均場解析

Mean-Field Analysis for Learning Subspace-Sparse Polynomials with Gaussian Input ( http://arxiv.org/abs/2402.08948v2 )

ライセンス: Link先を確認
Ziang Chen, Rong Ge, (参考訳) 本研究では,確率勾配勾配と2層ニューラルネットワークを用いた部分空間スパース多項式の学習における平均場流について検討し,入力分布は標準ガウスであり,出力は低次元部分空間への入力の投影に依存する。 本稿では,Abe et al (2022) における統合階段特性の基底自由な一般化を提案し,SGD学習性に必要な条件を確立する。 さらに、必要条件よりもわずかに強い条件が、損失関数が 0 に指数関数的に減衰することを保証できるという意味で、この条件はほぼ十分であることを示す。

In this work, we study the mean-field flow for learning subspace-sparse polynomials using stochastic gradient descent and two-layer neural networks, where the input distribution is standard Gaussian and the output only depends on the projection of the input onto a low-dimensional subspace. We propose a basis-free generalization of the merged-staircase property in Abbe et al. (2022) and establish a necessary condition for the SGD-learnability. In addition, we prove that the condition is almost sufficient, in the sense that a condition slightly stronger than the necessary condition can guarantee the exponential decay of the loss functional to zero.
翻訳日:2024-06-12 01:43:22 公開日:2024-06-08
# 時空間ダウンサンプリングによる欠測データを用いたグラフベース予測

Graph-based Forecasting with Missing Data through Spatiotemporal Downsampling ( http://arxiv.org/abs/2402.10634v3 )

ライセンス: Link先を確認
Ivan Marisca, Cesare Alippi, Filippo Maria Bianchi, (参考訳) 空間におけるセンサポイントに関連付けられ、シリーズ間関係を特徴とする同期時系列の集合が与えられた場合、時空間予測の問題は各点の将来の観測を予測することからなる。 時空間グラフニューラルネットワークは、時系列間の関係をグラフとして表現することにより、顕著な結果を達成する。 それでも、既存のほとんどのメソッドは、入力が常に利用可能であり、データの一部が欠落しているときに隠された時空間的ダイナミクスを捕捉できないという、しばしば非現実的な仮定に依存している。 本研究では,階層的な時空間ダウンサンプリングによってこの問題に対処する。 入力時系列は時間と空間によって徐々に粗くなり、不均一な時間的・空間的ダイナミクスを捉える表現のプールが得られる。 観測と欠落したデータパターンに基づいて、このような表現を解釈可能な注意機構で組み合わせて予測を生成する。 提案手法は,異なるデータ分布,特に欠落した値の連続ブロックの存在下で,合成および実世界のベンチマークにおける最先端の手法よりも優れる。

Given a set of synchronous time series, each associated with a sensor-point in space and characterized by inter-series relationships, the problem of spatiotemporal forecasting consists of predicting future observations for each point. Spatiotemporal graph neural networks achieve striking results by representing the relationships across time series as a graph. Nonetheless, most existing methods rely on the often unrealistic assumption that inputs are always available and fail to capture hidden spatiotemporal dynamics when part of the data is missing. In this work, we tackle this problem through hierarchical spatiotemporal downsampling. The input time series are progressively coarsened over time and space, obtaining a pool of representations that capture heterogeneous temporal and spatial dynamics. Conditioned on observations and missing data patterns, such representations are combined by an interpretable attention mechanism to generate the forecasts. Our approach outperforms state-of-the-art methods on synthetic and real-world benchmarks under different missing data distributions, particularly in the presence of contiguous blocks of missing values.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-08
# メトリラーニングによる準最適オフラインデータからのゴール条件の学習

Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning ( http://arxiv.org/abs/2402.10820v2 )

ライセンス: Link先を確認
Alfredo Reichlin, Miguel Vasco, Hang Yin, Danica Kragic, (参考訳) 目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。 そこで本研究では, 目標条件付きオフラインRL問題に対して, スパース報酬, 可逆行動, 決定論的遷移の下での最適値関数を近似するために, 計量学習を用いることを提案する。 本稿では、最適性を回復するための表現特性である距離単調性を導入し、そのような特性をもたらす最適化目標を提案する。 提案した値関数を用いて,アクター・クリティカルな方法でポリシーの学習を誘導する。 実験により,本手法は分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な振舞いを推定できることを示した。 我々は、MetricRLが、最適化されたオフラインデータセットから最適なポリシーを学ぶ際に、最先端のゴール条件付きRLメソッドを一貫して上回っていることを実証した。

We address the problem of learning optimal behavior from sub-optimal datasets for goal-conditioned offline reinforcement learning. To do so, we propose the use of metric learning to approximate the optimal value function for goal-conditioned offline RL problems under sparse rewards, invertible actions and deterministic transitions. We introduce distance monotonicity, a property for representations to recover optimality and propose an optimization objective that leads to such property. We use the proposed value function to guide the learning of a policy in an actor-critic fashion, a method we name MetricRL. Experimentally, we show that our method estimates optimal behaviors from severely sub-optimal offline datasets without suffering from out-of-distribution estimation errors. We demonstrate that MetricRL consistently outperforms prior state-of-the-art goal-conditioned RL methods in learning optimal policies from sub-optimal offline datasets.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-08
# 効率的な低域行列推定、実験設計、アームセット依存低域帯域

Efficient Low-Rank Matrix Estimation, Experimental Design, and Arm-Set-Dependent Low-Rank Bandits ( http://arxiv.org/abs/2402.11156v2 )

ライセンス: Link先を確認
Kyoungseok Jang, Chicheng Zhang, Kwang-Sung Jun, (参考訳) 低ランク行列のトレースレグレッションとその関連問題について検討する。 共変量分布へのアクセスを仮定し、この分布の共分散行列であるQを特徴付けるB(Q)で表される新しい量に依存する新しい低ランク行列推定法であるLowPopArtを提案する。 提案手法は,いくつかの問題において,古典的核規範の最小二乗法(Koltchinskii et al , 2011)よりも厳密な回復保証を提供できることを示す。 任意に与えられた測定セットAから限られた数の測定値で効率的な推定を行うために,B(Q)を計算効率で最小化する新しい設計基準を提案する。 我々は新しい推定器と実験の設計を利用して、2つの低ランク線形バンディットアルゴリズムを一般のアームセットに導出し、改善された後悔の上界を楽しむ。 これは、アームセットが単位球である、あるいは効率的な探索分布が与えられるというやや制限的な仮定を下級バンディットに関する以前の研究よりも改善する。 我々の知る限り、我々の実験的な設計基準は、線形回帰への単純還元以上の低ランク行列推定に適した最初のものである。

We study low-rank matrix trace regression and the related problem of low-rank matrix bandits. Assuming access to the distribution of the covariates, we propose a novel low-rank matrix estimation method called LowPopArt and provide its recovery guarantee that depends on a novel quantity denoted by B(Q) that characterizes the hardness of the problem, where Q is the covariance matrix of the measurement distribution. We show that our method can provide tighter recovery guarantees than classical nuclear norm penalized least squares (Koltchinskii et al., 2011) in several problems. To perform efficient estimation with a limited number of measurements from an arbitrarily given measurement set A, we also propose a novel experimental design criterion that minimizes B(Q) with computational efficiency. We leverage our novel estimator and design of experiments to derive two low-rank linear bandit algorithms for general arm sets that enjoy improved regret upper bounds. This improves over previous works on low-rank bandits, which make somewhat restrictive assumptions that the arm set is the unit ball or that an efficient exploration distribution is given. To our knowledge, our experimental design criterion is the first one tailored to low-rank matrix estimation beyond the naive reduction to linear regression, which can be of independent interest.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-08
# k-SemStamp: 機械生成テキスト検出のためのクラスタリングに基づく意味的透かし

k-SemStamp: A Clustering-Based Semantic Watermark for Detection of Machine-Generated Text ( http://arxiv.org/abs/2402.11399v2 )

ライセンス: Link先を確認
Abe Bohan Hou, Jingyu Zhang, Yichen Wang, Daniel Khashabi, Tianxing He, (参考訳) 最近の透かし生成アルゴリズムは、言語生成中に検出可能なシグネチャを注入し、ポストホック検出を容易にする。 トークンレベルの透かしはパラフレーズ攻撃に弱いが、SemStamp (Hou et al , 2023) は文の意味表現に透かしを適用し、有望な堅牢性を示す。 SemStampは局所性に敏感なハッシュ(LSH)を用いて、意味空間を任意の超平面で分割する。 我々は,SemStampの簡易かつ効果的な拡張であるk-SemStampを提案し,k-meansクラスタリングをLSHの代替として利用して,埋め込み空間を固有の意味構造を意識して分割する。 実験結果から、k-SemStampは、生成品質を維持しながら、その堅牢性とサンプリング効率を良好に向上し、機械生成テキスト検出のためのより効率的なツールを進歩させることが示された。

Recent watermarked generation algorithms inject detectable signatures during language generation to facilitate post-hoc detection. While token-level watermarks are vulnerable to paraphrase attacks, SemStamp (Hou et al., 2023) applies watermark on the semantic representation of sentences and demonstrates promising robustness. SemStamp employs locality-sensitive hashing (LSH) to partition the semantic space with arbitrary hyperplanes, which results in a suboptimal tradeoff between robustness and speed. We propose k-SemStamp, a simple yet effective enhancement of SemStamp, utilizing k-means clustering as an alternative of LSH to partition the embedding space with awareness of inherent semantic structure. Experimental results indicate that k-SemStamp saliently improves its robustness and sampling efficiency while preserving the generation quality, advancing a more effective tool for machine-generated text detection.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-08
# MARS:ジェネレーティブLLMにおける不確実性推定のための意味認識応答スコア

MARS: Meaning-Aware Response Scoring for Uncertainty Estimation in Generative LLMs ( http://arxiv.org/abs/2402.11756v3 )

ライセンス: Link先を確認
Yavuz Faruk Bakman, Duygu Nur Yaldiz, Baturalp Buyukates, Chenyang Tao, Dimitrios Dimitriadis, Salman Avestimehr, (参考訳) 生成型大規模言語モデル(LLM)は、様々なタスクにおける卓越性のために広く利用されている。 しかし、不正確または誤ったアウトプットを生み出す傾向は、特に高い環境において潜在的なリスクを引き起こす。 したがって、生成LDM出力の正しさを推定することは信頼性を高める上で重要な課題である。 生成LDMにおける不確かさ推定(UE)は進化する領域であり、SOTA確率に基づく手法は一般に長さ正規化スコアを用いる。 本研究では,UE法における長さ正規化スコアリングの代替として,MARS(Meaning-Aware Response Scoring)を提案する。 MARSは、質問の文脈において生成されたシーケンスにおける各トークンのセマンティックコントリビューションを考慮に入れた、新しいスコアリング機能である。 UE手法にMARSを組み込むことにより,UE性能の普遍的かつ大幅な向上が期待できることを示す。 我々は,5つの学習済みLLMに対して,3つの異なるクローズドブック質問応答データセットを用いて実験を行った。 最後に,医療用QAデータセットにおけるMARSの有効性を検証する。 コードはhttps://github.com/Ybakman/LLM_Uncertainityにある。

Generative Large Language Models (LLMs) are widely utilized for their excellence in various tasks. However, their tendency to produce inaccurate or misleading outputs poses a potential risk, particularly in high-stakes environments. Therefore, estimating the correctness of generative LLM outputs is an important task for enhanced reliability. Uncertainty Estimation (UE) in generative LLMs is an evolving domain, where SOTA probability-based methods commonly employ length-normalized scoring. In this work, we propose Meaning-Aware Response Scoring (MARS) as an alternative to length-normalized scoring for UE methods. MARS is a novel scoring function that considers the semantic contribution of each token in the generated sequence in the context of the question. We demonstrate that integrating MARS into UE methods results in a universal and significant improvement in UE performance. We conduct experiments using three distinct closed-book question-answering datasets across five popular pre-trained LLMs. Lastly, we validate the efficacy of MARS on a Medical QA dataset. Code can be found https://github.com/Ybakman/LLM_Uncertainity.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-08
# LLM as Prompter: 任意知識グラフに基づく低リソースインダクティブ推論

LLM as Prompter: Low-resource Inductive Reasoning on Arbitrary Knowledge Graphs ( http://arxiv.org/abs/2402.11804v2 )

ライセンス: Link先を確認
Kai Wang, Yuwei Xu, Zhiyong Wu, Siqiang Luo, (参考訳) 知識グラフ(KG)帰納的推論は、トレーニング中に見えない新しいKGから行方不明の事実を推測することを目的としており、様々なアプリケーションで広く採用されている。 KG帰納的推論における重要な課題の1つは、テキストと構造の両方面で不足した低リソースシナリオを扱うことである。 本稿では,Large Language Models (LLM) を用いてこの問題に対処する。 特に、最先端のLCMを用いて、事前学習されたグラフニューラルネットワーク(GNN)を強化するグラフ構造的プロンプトを生成し、KG帰納的推論手法に対する新たな方法論的洞察と、実際に高い一般化性をもたらす。 提案手法では,任意のKGに対する低リソース帰納的推論のための事前学習・促進フレームワークProLINKを導入する。 実用面では、36個の低リソースKGデータセットに対する我々のアプローチを実験的に評価し、ProLINKが従来の手法を3ショット、ワンショット、ゼロショットの推論タスクで上回り、平均性能を20%、45%、147%向上させることを示した。 さらに、ProLINKは様々なLLMプロンプトとフルショットシナリオに対して強い堅牢性を示している。

Knowledge Graph (KG) inductive reasoning, which aims to infer missing facts from new KGs that are not seen during training, has been widely adopted in various applications. One critical challenge of KG inductive reasoning is handling low-resource scenarios with scarcity in both textual and structural aspects. In this paper, we attempt to address this challenge with Large Language Models (LLMs). Particularly, we utilize the state-of-the-art LLMs to generate a graph-structural prompt to enhance the pre-trained Graph Neural Networks (GNNs), which brings us new methodological insights into the KG inductive reasoning methods, as well as high generalizability in practice. On the methodological side, we introduce a novel pretraining and prompting framework ProLINK, designed for low-resource inductive reasoning across arbitrary KGs without requiring additional training. On the practical side, we experimentally evaluate our approach on 36 low-resource KG datasets and find that ProLINK outperforms previous methods in three-shot, one-shot, and zero-shot reasoning tasks, exhibiting average performance improvements by 20%, 45%, and 147%, respectively. Furthermore, ProLINK demonstrates strong robustness for various LLM promptings as well as full-shot scenarios.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-08
# 潜在拡散モデルに対するプライバシ保護低ランク適応

Privacy-Preserving Low-Rank Adaptation for Latent Diffusion Models ( http://arxiv.org/abs/2402.11989v2 )

ライセンス: Link先を確認
Zihao Luo, Xilie Xu, Feng Liu, Yun Sing Koh, Di Wang, Jingfeng Zhang, (参考訳) 低ランク適応(LoRA)は、適応損失を最小限に抑えて特定の画像を生成するために、プライベートデータセットに潜時拡散モデル(LDM)を適用するための効率的な戦略である。 しかし、LoRAに適応したLDMは、特定のデータポイントがプライベートデータセットに属するかどうかを判断できるメンバーシップ推論(MI)攻撃に弱いため、プライバシーの漏洩につながる。 まず,MI攻撃に対する防御策として,MP-LoRA(Commanship-Privacy-Reserving LoRA)を提案する。 MP-LoRAは、プロキシ攻撃モデルの適応損失とMIゲインの和を最小化してLDMを適応させながら、プロキシ攻撃モデルをMIゲインを最大化して訓練するmin-max最適化問題として定式化される。 しかし,MP-LoRAには不安定な最適化の問題があることを実証的に発見し,その潜在的な理由として,プライバシー保護の適応を阻害する局所的スムーズさが考えられる。 この問題を軽減するため,MIゲインに対する適応損失の比率を最小化し,LCMに適応する安定メンバーシップ・プライバシ保護ロラ(SMP-LoRA)を提案する。 さらに、SMP-LoRAの局所的滑らか性は勾配ノルムによって制約され、収束性の向上につながることを理論的に証明する。 実験の結果,SMP-LoRAはMI攻撃を防ぎ,高品質な画像を生成することができることがわかった。 私たちのコードはhttps://github.com/WilliamLUO0/StablePrivateLoRAで公開されています。

Low-rank adaptation (LoRA) is an efficient strategy for adapting latent diffusion models (LDMs) on a private dataset to generate specific images by minimizing the adaptation loss. However, the LoRA-adapted LDMs are vulnerable to membership inference (MI) attacks that can judge whether a particular data point belongs to the private dataset, thus leading to the privacy leakage. To defend against MI attacks, we first propose a straightforward solution: Membership-Privacy-preserving LoRA (MP-LoRA). MP-LoRA is formulated as a min-max optimization problem where a proxy attack model is trained by maximizing its MI gain while the LDM is adapted by minimizing the sum of the adaptation loss and the MI gain of the proxy attack model. However, we empirically find that MP-LoRA has the issue of unstable optimization, and theoretically analyze that the potential reason is the unconstrained local smoothness, which impedes the privacy-preserving adaptation. To mitigate this issue, we further propose a Stable Membership-Privacy-preserving LoRA (SMP-LoRA) that adapts the LDM by minimizing the ratio of the adaptation loss to the MI gain. Besides, we theoretically prove that the local smoothness of SMP-LoRA can be constrained by the gradient norm, leading to improved convergence. Our experimental results corroborate that SMP-LoRA can indeed defend against MI attacks and generate high-quality images. Our code is available at https://github.com/WilliamLUO0/StablePrivateLoRA.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-08
# Browse and Concentrate: 事前LLMコンテキスト融合によるマルチモーダルコンテンツの補完

Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion ( http://arxiv.org/abs/2402.12195v2 )

ライセンス: Link先を確認
Ziyue Wang, Chi Chen, Yiqi Zhu, Fuwen Luo, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Maosong Sun, Yang Liu, (参考訳) LLM(Large Language Models)の興隆に伴い、LLMと事前訓練されたビジョンモデルを組み合わせたマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを誇示している。 しかし、複数の画像を含む文脈を理解するには不十分である。 この欠点の主な理由は、各画像の視覚的特徴がLPMバックボーンに入力する前に凍結エンコーダによって個別に符号化され、他の画像やマルチモーダル命令の認識が欠如していることである。 我々はこの問題をLLM前のモダリティ分離と呼び、LLMに機能を供給する前に、より深いマルチモーダルコンテキストの融合を可能にするために、ブラウズ・アンド・集中型2相パラダイムを提案する。 このパラダイムは最初、本質的な洞察のためにインプットを通して"ブラウズ"され、その後、これらのインプットによって導かれる重要な詳細に"集中"するためにインプットを再考し、より包括的なマルチモーダルインプットの理解を達成する。 さらに,マルチイメージ入力の理解を高めるためのトレーニング戦略も開発している。 提案手法は, 3B と 11B LLM の強い MLLM ベースラインに対して, 平均精度 2.13% と 7.60% の増加に寄与する。

With the bloom of Large Language Models (LLMs), Multimodal Large Language Models (MLLMs) that incorporate LLMs with pre-trained vision models have recently demonstrated impressive performance across diverse vision-language tasks. However, they fall short to comprehend context involving multiple images. A primary reason for this shortcoming is that the visual features for each images are encoded individually by frozen encoders before feeding into the LLM backbone, lacking awareness of other images and the multimodal instructions. We term this issue as prior-LLM modality isolation and propose a two phase paradigm, browse-and-concentrate, to enable in-depth multimodal context fusion prior to feeding the features into LLMs. This paradigm initially "browses" through the inputs for essential insights, and then revisits the inputs to "concentrate" on crucial details, guided by these insights, to achieve a more comprehensive understanding of the multimodal inputs. Additionally, we develop training strategies specifically to enhance the understanding of multi-image inputs. Our method markedly boosts the performance on 7 multi-image scenarios, contributing to increments on average accuracy by 2.13% and 7.60% against strong MLLMs baselines with 3B and 11B LLMs, respectively.
翻訳日:2024-06-12 01:33:30 公開日:2024-06-08
# 教師なし環境設計のためのミニマックスレギュレータの精製

Refining Minimax Regret for Unsupervised Environment Design ( http://arxiv.org/abs/2402.12284v2 )

ライセンス: Link先を確認
Michael Beukman, Samuel Coward, Michael Matthews, Mattie Fellows, Minqi Jiang, Michael Dennis, Jakob Foerster, (参考訳) 教師なし環境設計において、強化学習エージェントは、ある目的を最大化する敵が生成する環境構成(レベル)に基づいて訓練される。 レグレトは理論上、望ましい堅牢性を保証するミニマックス後悔(MMR)ポリシーをもたらす、一般的に用いられる目的である。 しかし、エージェントが全てのレベルに制限されたこの後悔点に達すると、敵は後悔点を更に減らすことができないレベルだけをサンプリングする。 これらの後悔を最大化するレベル以外のパフォーマンス改善は可能だが、学習は停滞している。 本稿では,この制限を克服したミニマックス後悔目標の洗練であるベイズレベル完全MMR(BLP)を紹介する。 我々は,この目的の解決がMMR政策のサブセットとなり,BLP政策がすべてのレベルにおける完全ベイズ政策と一貫して作用することを示す。 さらに、収束時にBLPポリシーをもたらすアルゴリズムReMiDiを導入する。 我々は,ミニマックスの反抗から学習が早期に停滞する原因となることを実証的に実証するが,ReMiDiは学習を続ける。

In unsupervised environment design, reinforcement learning agents are trained on environment configurations (levels) generated by an adversary that maximises some objective. Regret is a commonly used objective that theoretically results in a minimax regret (MMR) policy with desirable robustness guarantees; in particular, the agent's maximum regret is bounded. However, once the agent reaches this regret bound on all levels, the adversary will only sample levels where regret cannot be further reduced. Although there are possible performance improvements to be made outside of these regret-maximising levels, learning stagnates. In this work, we introduce Bayesian level-perfect MMR (BLP), a refinement of the minimax regret objective that overcomes this limitation. We formally show that solving for this objective results in a subset of MMR policies, and that BLP policies act consistently with a Perfect Bayesian policy over all levels. We further introduce an algorithm, ReMiDi, that results in a BLP policy at convergence. We empirically demonstrate that training on levels from a minimax regret adversary causes learning to prematurely stagnate, but that ReMiDi continues learning.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-08
# アウト・オブ・ディストリビューション優先学習のためのリワードモデリングの一般化

Generalizing Reward Modeling for Out-of-Distribution Preference Learning ( http://arxiv.org/abs/2402.14760v2 )

ライセンス: Link先を確認
Chen Jia, (参考訳) 大規模言語モデル(LLM)を用いた優先度学習(PL)は、LLM世代を人間の好みに合わせることを目的としている。 人的フィードバック(RLHF)からの強化学習に関するこれまでの研究は、流通PLの有望な成果を示している。 しかし、人間のフィードバックを得るのが難しいため、遭遇した各分布に対する報酬モデルを個別に訓練することは困難である。 したがって, オフ・オブ・ディストリビューション (OOD) PL は, 限られた好みフィードバックで LLM の一般化能力を高めるために実用的に有用である。 本研究は,メタラーニングアプローチによる一般報酬モデルの最適化により,OOD PLに対処する。 メタトレーニング中、二段階最適化アルゴリズムを用いて、ポリシー学習を指導し、様々な分布における人間の好みに合わせることができる報酬モデルを学ぶ。 テスト分布に遭遇すると、メタテスト手順はPLの学習報酬モデルを用いて規則化されたポリシー最適化を行う。 理論的には、二段階最適化アルゴリズムの収束率を合理的な仮定で示す。 さらに、20の保持領域にまたがる2つのテキスト生成タスクの実験を行い、様々な評価指標において、様々な強力なベースラインを上回ります。

Preference learning (PL) with large language models (LLMs) aims to align the LLMs' generations with human preferences. Previous work on reinforcement learning from human feedback (RLHF) has demonstrated promising results in in-distribution PL. However, due to the difficulty of obtaining human feedback, discretely training reward models for every encountered distribution is challenging. Thus, out-of-distribution (OOD) PL is practically useful for enhancing the generalization ability of LLMs with limited preference feedback. This work addresses OOD PL by optimizing a general reward model through a meta-learning approach. During meta-training, a bilevel optimization algorithm is utilized to learn a reward model capable of guiding policy learning to align with human preferences across various distributions. When encountering a test distribution, the meta-test procedure conducts regularized policy optimization using the learned reward model for PL. We theoretically demonstrate the convergence rate of the bilevel optimization algorithm under reasonable assumptions. Additionally, we conduct experiments on two text generation tasks across 20 held-out domains and outperform a variety of strong baselines across various evaluation metrics.
翻訳日:2024-06-12 01:23:27 公開日:2024-06-08
# 飽和非線形性を用いた例外点の調整

Adjusting exceptional points using saturable nonlinearities ( http://arxiv.org/abs/2402.15792v2 )

ライセンス: Link先を確認
Qingxin Gu, Chunlei Qu, Yongping Zhang, (参考訳) 非エルミート二量体系における特異点の存在と位置に対する飽和非線形性の影響について検討する。 飽和非線形性を含めると、複数の固有値が出現し、線形に現れる典型的な2つを超える。 例外点を同定するために、定義された人口不均衡に対する多項式方程式と完全に数値的な方法の両方から非線形固有値を算出する。 この結果から,非等質な飽和非線形性を調整することで,例外点の正確な位置を推定できることが判明した。

We study the impact of saturable nonlinearity on the presence and location of exceptional points in a non-Hermitian dimer system. The inclusion of the saturable nonlinearity leads to the emergence of multiple eigenvalues, exceeding the typical two found in the linear counterpart. To identify the exceptional points, we calculate the nonlinear eigenvalues both from a polynomial equation for the defined population imbalance and through a fully numerical method. Our results reveal that exceptional points can be precisely located by adjusting the non-equal saturable nonlinearities in the detuning space.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-08
# 局所的な積分カーネルと微分カーネルを持つニューラル演算子

Neural Operators with Localized Integral and Differential Kernels ( http://arxiv.org/abs/2402.16845v2 )

ライセンス: Link先を確認
Miguel Liu-Schiaffini, Julius Berner, Boris Bonev, Thorsten Kurth, Kamyar Azizzadenesheli, Anima Anandkumar, (参考訳) ニューラル作用素は関数空間間の写像を学習し、これはPDEの解演算子と他の科学的モデリング応用の学習に有効である。 その中でも、フーリエニューラル演算子(FNO)は、フーリエ空間におけるグローバルな畳み込みを実行する一般的なアーキテクチャである。 しかし、このようなグローバルな操作は、しばしば過密になりがちで、局所的な詳細を捉えられない場合がある。 対照的に、畳み込みニューラルネットワーク(CNN)は局所的な特徴を捉えることができるが、単一の解像度でのトレーニングと推論に限られる。 本研究では,局所的にサポートされたカーネルを持つ微分演算子と積分演算子を学習することにより,局所的特徴を2つのフレームワークで捉えることができる演算子学習の原理的アプローチを提案する。 具体的には、ステンシル法に着想を得て、CNNのカーネル値の適切なスケーリングの下で微分演算子を得ることを示す。 局所積分演算子を得るには、離散連続的畳み込みに基づくカーネルの適切な基底表現を利用する。 これらのアプローチはどちらも演算子学習の特性を保ち、従って任意の解像度で予測できる。 FNOに層を追加することで、相対的なL2エラーが34~72%減少し、乱流2Dナビエ-ストークスや球状浅水方程式など、その性能が大幅に向上する。

Neural operators learn mappings between function spaces, which is practical for learning solution operators of PDEs and other scientific modeling applications. Among them, the Fourier neural operator (FNO) is a popular architecture that performs global convolutions in the Fourier space. However, such global operations are often prone to over-smoothing and may fail to capture local details. In contrast, convolutional neural networks (CNN) can capture local features but are limited to training and inference at a single resolution. In this work, we present a principled approach to operator learning that can capture local features under two frameworks by learning differential operators and integral operators with locally supported kernels. Specifically, inspired by stencil methods, we prove that we obtain differential operators under an appropriate scaling of the kernel values of CNNs. To obtain local integral operators, we utilize suitable basis representations for the kernels based on discrete-continuous convolutions. Both these approaches preserve the properties of operator learning and, hence, the ability to predict at any resolution. Adding our layers to FNOs significantly improves their performance, reducing the relative L2-error by 34-72% in our experiments, which include a turbulent 2D Navier-Stokes and the spherical shallow water equations.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-08
# AIがあなたを欺くとき:人間のフィードバックから強化学習における部分的可観測性の課題

When Your AIs Deceive You: Challenges of Partial Observability in Reinforcement Learning from Human Feedback ( http://arxiv.org/abs/2402.17747v3 )

ライセンス: Link先を確認
Leon Lang, Davis Foote, Stuart Russell, Anca Dragan, Erik Jenner, Scott Emmons, (参考訳) 人間のフィードバック(RLHF)からの強化学習の過去の分析は、人間の評価者が環境を完全に観察していると仮定している。 人間のフィードバックが部分的な観察にのみ依存するとどうなるのか? 正式に2つの障害ケースを定義します。 人間をボルツマン・レーショナル・w.r.t.としてモデル化し、RLHFが保証される条件を証明し、その条件は、その性能を欺くか、その振る舞いを過度に調整して印象を与えるか、あるいはその両方を与える。 人間の部分的可観測性が知られて説明されているという新たな仮定の下で、フィードバックプロセスが返却関数についてどれだけの情報を提供するかを分析する。 人間のフィードバックは加法定数まで一意的に戻り関数を決定することがあるが、他の現実的な場合、あいまいさは不可避である。 本稿では,これらの課題に対処するための探索研究の方向性と,部分的に観測可能な環境下でのRLHFの盲目的適用に対する警告を提案する。

Past analyses of reinforcement learning from human feedback (RLHF) assume that the human evaluators fully observe the environment. What happens when human feedback is based only on partial observations? We formally define two failure cases: deceptive inflation and overjustification. Modeling the human as Boltzmann-rational w.r.t. a belief over trajectories, we prove conditions under which RLHF is guaranteed to result in policies that deceptively inflate their performance, overjustify their behavior to make an impression, or both. Under the new assumption that the human's partial observability is known and accounted for, we then analyze how much information the feedback process provides about the return function. We show that sometimes, the human's feedback determines the return function uniquely up to an additive constant, but in other realistic cases, there is irreducible ambiguity. We propose exploratory research directions to help tackle these challenges and caution against blindly applying RLHF in partially observable settings.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-08
# VerifiNER:大規模言語モデルを用いた知識基底推論による検証強化NER

VerifiNER: Verification-augmented NER via Knowledge-grounded Reasoning with Large Language Models ( http://arxiv.org/abs/2402.18374v2 )

ライセンス: Link先を確認
Seoyeon Kim, Kwangwook Seo, Hyungjoo Chae, Jinyoung Yeo, Dongha Lee, (参考訳) 生物医学的NERのようなドメイン固有名前付きエンティティ認識(NER)の最近のアプローチは、顕著な進歩を見せている。 しかし、彼らはいまだに忠実さに欠けており、誤った予測を生み出している。 実体の知識は予測の正確性を検証するのに役立つと仮定する。 知識の有用性にもかかわらず、そのような誤りを知識で解決するのは簡単ではない。 この目的のために,知識を用いて既存のNERメソッドからの誤りを識別し,より忠実な予測に修正する,ポストホック検証フレームワークであるVerifiNERを提案する。 我々のフレームワークは,大規模言語モデルの推論能力を利用して,検証プロセスにおける知識と文脈情報を適切に基盤とする。 バイオメディカルデータセットの広範な実験によりVerifiNERの有効性を検証する。 この結果から,VerifiNERはモデルに依存しないアプローチとして既存のモデルからの誤りを検証できることが示唆された。 ドメイン外および低リソース設定に関するさらなる分析は、現実世界のアプリケーションにおけるVerifiNERの有用性を示している。

Recent approaches in domain-specific named entity recognition (NER), such as biomedical NER, have shown remarkable advances. However, they still lack of faithfulness, producing erroneous predictions. We assume that knowledge of entities can be useful in verifying the correctness of the predictions. Despite the usefulness of knowledge, resolving such errors with knowledge is nontrivial, since the knowledge itself does not directly indicate the ground-truth label. To this end, we propose VerifiNER, a post-hoc verification framework that identifies errors from existing NER methods using knowledge and revises them into more faithful predictions. Our framework leverages the reasoning abilities of large language models to adequately ground on knowledge and the contextual information in the verification process. We validate effectiveness of VerifiNER through extensive experiments on biomedical datasets. The results suggest that VerifiNER can successfully verify errors from existing models as a model-agnostic approach. Further analyses on out-of-domain and low-resource settings show the usefulness of VerifiNER on real-world applications.
翻訳日:2024-06-12 01:13:35 公開日:2024-06-08
# 実験・データ分析・健康評価を応用した第2世代電池の排気から有効利用

Taking Second-life Batteries from Exhausted to Empowered using Experiments, Data Analysis, and Health Estimation ( http://arxiv.org/abs/2402.18859v2 )

ライセンス: Link先を確認
Xiaofan Cui, Muhammad Aadil Khan, Gabriele Pozzato, Surinder Singh, Ratnesh Sharma, Simona Onori, (参考訳) 電力貯蔵における引退した電気自動車電池の再利用は、環境と経済的利益をもたらす。 本研究は、グリッドストレージに配備された電池の健康モニタリングアルゴリズムに焦点をあてる。 15ヶ月にわたるテストで、我々は第2世代のバッテリーのデータセットを収集し、分析し、公開し、3-4Vの電圧ウィンドウ内でグリッドエネルギーストレージの負荷プロファイルをシミュレートするサイクリングプロトコルを実装しました。 オンラインアクセス可能な特徴と初期能力に依存した4つの機械学習ベースの健康推定モデルを比較し、選択したモデルがテストデータの平均絶対誤差を2.3%以下とした。 さらに、クラスタリングに基づく手法を統合することで、オンラインデプロイメント中の推定誤差を制限することで、適応的なオンラインヘルス推定アルゴリズムを提案する。 これらの結果から, 二次寿命用電池の再購入の可能性が示された。 得られたデータと電力需要に基づいて、この第2世代電池は10年以上の電力貯蔵の可能性を秘めている。

The reuse of retired electric vehicle batteries in grid energy storage offers environmental and economic benefits. This study concentrates on health monitoring algorithms for retired batteries deployed in grid storage. Over 15 months of testing, we collect, analyze, and publicize a dataset of second-life batteries, implementing a cycling protocol simulating grid energy storage load profiles within a 3-4 V voltage window. Four machine-learning-based health estimation models, relying on online-accessible features and initial capacity, are compared, with the selected model achieving a mean absolute percentage error below 2.3% on test data. Additionally, an adaptive online health estimation algorithm is proposed by integrating a clustering-based method, thus limiting estimation errors during online deployment. These results showcase the feasibility of repurposing retired batteries for second-life applications. Based on obtained data and power demand, these second-life batteries exhibit potential for over a decade of grid energy storage use.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-08
# PRSA:大規模言語モデルに対する挑発的な攻撃

PRSA: PRompt Stealing Attacks against Large Language Models ( http://arxiv.org/abs/2402.19200v2 )

ライセンス: Link先を確認
Yong Yang, Changjiang Li, Yi Jiang, Xi Chen, Haoyu Wang, Xuhong Zhang, Zonghui Wang, Shouling Ji, (参考訳) 近年,大規模言語モデル(LLM)の実用性を大幅に向上し,様々な下流タスクを微調整なしで効率的に実行できるようになった。 これにより、プロンプトの商業的価値も高まった。 しかし、これらの商業化プロンプトの漏洩の潜在的なリスクは、まだ明らかにされていない。 本稿では,LSMに対する攻撃の迅速化を目的とした,新たな攻撃フレームワークであるPRSAを紹介する。 PRSAの主な考え方は、インプット出力の内容を分析してプロンプトの背後にある意図を推論し、元の機能を複製するサロゲートプロンプトを生成することである。 具体的には、PRSAは主に2つの重要な段階、即時突然変異と即時切断から構成される。 突然変異相では,出力差に基づく急激な注意アルゴリズムを提案する。 このアルゴリズムは、プロンプト意図の正確な推論に影響を与える重要な要因を学習することにより、効果的なサロゲートプロンプトの生成を促進する。 刈り取り段階では,2段階の単語識別戦略を用いて,入力に高い関連性を持つ単語を検出し,マスキングし,サロゲートプロンプトの一般化性を向上させる。 我々は,実環境設定,非対話型,対話型両方のプロンプトサービスの評価を通じて,PRSAの実際の脅威を検証する。 その結果,PRSAの有効性と一般化性が強く確認された。 我々は,これらの知見をサービス提供者に促し,積極的に協力し,防衛対策を実施するために報告した。

In recent years, "prompt as a service" has greatly enhanced the utility of large language models (LLMs) by enabling them to perform various downstream tasks efficiently without fine-tuning. This has also increased the commercial value of prompts. However, the potential risk of leakage in these commercialized prompts remains largely underexplored. In this paper, we introduce a novel attack framework, PRSA, designed for prompt stealing attacks against LLMs. The main idea of PRSA is to infer the intent behind a prompt by analyzing its input-output content, enabling the generation of a surrogate prompt that replicates the original's functionality. Specifically, PRSA mainly consists of two key phases: prompt mutation and prompt pruning. In the mutation phase, we propose a prompt attention algorithm based on output difference. The algorithm facilitates the generation of effective surrogate prompts by learning key factors that influence the accurate inference of prompt intent. During the pruning phase, we employ a two-step related word identification strategy to detect and mask words that are highly related to the input, thus improving the generalizability of the surrogate prompts. We verify the actual threat of PRSA through evaluation in both real-world settings, non-interactive and interactive prompt services. The results strongly confirm the PRSA's effectiveness and generalizability. We have reported these findings to prompt service providers and actively collaborate with them to implement defensive measures.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-08
# 自己整合性推論に基づくAspect-Sentiment Quad Prediction with Extract-Then-Assign Strategy

Self-Consistent Reasoning-based Aspect-Sentiment Quad Prediction with Extract-Then-Assign Strategy ( http://arxiv.org/abs/2403.00354v2 )

ライセンス: Link先を確認
Jieyong Kim, Ryang Heo, Yongsik Seo, SeongKu Kang, Jinyoung Yeo, Dongha Lee, (参考訳) アスペクト感情クワッド予測(ASQP)のタスクでは、感情クワッドを予測する生成手法が有望な結果を示している。 しかし、データ不足と四重項合成過程の不十分なモデリングにより、不正確な予測と限定的な解釈可能性に悩まされている。 本稿では,自己整合性推論に基づくAspect-Sentiment Quaruple Prediction (SCRAP)を提案する。 SCRAPは、人間の認知を忠実に模倣するExtract-Then-Assign推論戦略を採用している。 最終的に、SCRAPは、複雑な推論タスクを処理し、一貫性投票によって四重項を正確に予測する能力を大幅に改善し、ASQPの解釈可能性と精度が向上する。

In the task of aspect sentiment quad prediction (ASQP), generative methods for predicting sentiment quads have shown promising results. However, they still suffer from imprecise predictions and limited interpretability, caused by data scarcity and inadequate modeling of the quadruplet composition process. In this paper, we propose Self-Consistent Reasoning-based Aspect-sentiment quadruple Prediction (SCRAP), optimizing its model to generate reasonings and the corresponding sentiment quadruplets in sequence. SCRAP adopts the Extract-Then-Assign reasoning strategy, which closely mimics human cognition. In the end, SCRAP significantly improves the model's ability to handle complex reasoning tasks and correctly predict quadruplets through consistency voting, resulting in enhanced interpretability and accuracy in ASQP.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-08
# 拡散過程による逆エネルギーモデルの改善

Improving Adversarial Energy-Based Model via Diffusion Process ( http://arxiv.org/abs/2403.01666v2 )

ライセンス: Link先を確認
Cong Geng, Tian Han, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, Søren Hauberg, Bo Li, (参考訳) 生成モデルは強い生成能力を示し、効率的な確率推定は少ない。 エネルギーベースモデル~(EBM)は、非正規化密度を効率的にパラメータ化するための柔軟なエネルギー関数を定義するが、訓練が難しいことで悪名高い。 対戦型EMMは、従来のEMMで使用される高価なMCMCサンプリングを避けるためにミニマックストレーニングゲームを形成するジェネレータを導入するが、敵型EMMと他の強力な生成モデルとの間には顕著なギャップがある。 拡散モデルにインスパイアされた私たちは、長い過程をいくつかの小さなステップに分割するために、各デノナイジングステップにESMを組み込んだ。 さらに, 対称なジェフリー発散を採用し, 逆EBMにおける主な課題に対処するため, 発電機の訓練に後方分布のばらつきを導入する。 提案実験は, 既存の敵ESMと比較して, 発生率を著しく向上させるとともに, 効率的な密度推定に有用なエネルギー関数を提供する。

Generative models have shown strong generation ability while efficient likelihood estimation is less explored. Energy-based models~(EBMs) define a flexible energy function to parameterize unnormalized densities efficiently but are notorious for being difficult to train. Adversarial EBMs introduce a generator to form a minimax training game to avoid expensive MCMC sampling used in traditional EBMs, but a noticeable gap between adversarial EBMs and other strong generative models still exists. Inspired by diffusion-based models, we embedded EBMs into each denoising step to split a long-generated process into several smaller steps. Besides, we employ a symmetric Jeffrey divergence and introduce a variational posterior distribution for the generator's training to address the main challenges that exist in adversarial EBMs. Our experiments show significant improvement in generation compared to existing adversarial EBMs, while also providing a useful energy function for efficient density estimation.
翻訳日:2024-06-12 01:03:43 公開日:2024-06-08
# 3次元拡散政策: シンプルな3次元表現による一般化可能なビジュモータ政策学習

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations ( http://arxiv.org/abs/2403.03954v6 )

ライセンス: Link先を確認
Yanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu, (参考訳) 模倣学習は、ロボットに巧妙なスキルを教える効果的な方法を提供するが、複雑なスキルをしっかりと、一般化可能に学習することは、通常、大量の人間のデモンストレーションを消費する。 この課題に対処するため, 条件付き行動生成モデルである拡散ポリシーに3次元視覚表現のパワーを組み込んだ新しい視覚模倣学習手法である3次元拡散政策(DP3)を提案する。 DP3の中核設計は、効率的な点エンコーダを持つスパース点雲から抽出されたコンパクトな3次元視覚表現の利用である。 72のシミュレーションタスクを含む実験では、DP3は10のデモでほとんどのタスクをうまく処理し、24.2%の相対的な改善でベースラインを超えた。 4つの実ロボットタスクにおいて、DP3は、各タスクの40個のデモのみを考慮し、高い成功率85%の正確な制御を示し、空間、視点、外観、インスタンスなど様々な面で優れた一般化能力を示す。 興味深いことに、実際のロボット実験では、DP3は人間の介入を必要とするベースライン法とは対照的に、安全要件にほとんど違反しない。 実世界のロボット学習における3D表現の重要性を明らかにする。 ビデオ、コード、データはhttps://3d-diffusion-policy.github.ioで公開されている。

Imitation learning provides an efficient way to teach robots dexterous skills; however, learning complex skills robustly and generalizablely usually consumes large amounts of human demonstrations. To tackle this challenging problem, we present 3D Diffusion Policy (DP3), a novel visual imitation learning approach that incorporates the power of 3D visual representations into diffusion policies, a class of conditional action generative models. The core design of DP3 is the utilization of a compact 3D visual representation, extracted from sparse point clouds with an efficient point encoder. In our experiments involving 72 simulation tasks, DP3 successfully handles most tasks with just 10 demonstrations and surpasses baselines with a 24.2% relative improvement. In 4 real robot tasks, DP3 demonstrates precise control with a high success rate of 85%, given only 40 demonstrations of each task, and shows excellent generalization abilities in diverse aspects, including space, viewpoint, appearance, and instance. Interestingly, in real robot experiments, DP3 rarely violates safety requirements, in contrast to baseline methods which frequently do, necessitating human intervention. Our extensive evaluation highlights the critical importance of 3D representations in real-world robot learning. Videos, code, and data are available on https://3d-diffusion-policy.github.io .
翻訳日:2024-06-12 00:53:58 公開日:2024-06-08
# 非エルミタン系と$\mathbb{Z}_2$ポイントギャップトポロジーの二重対称性分類

Dual Symmetry Classification of Non-Hermitian Systems and $\mathbb{Z}_2$ Point-Gap Topology of a Non-Unitary Quantum Walk ( http://arxiv.org/abs/2403.04147v4 )

ライセンス: Link先を確認
Zhiyu Jiang, Ryo Okamoto, Hideaki Obuse, (参考訳) 非エルミート系は、エルミート系と比較してよりリッチな位相的性質を示す。 非エルミート系は、非エルミートハミルトニアンの対称性関係か、フロケ位相の文脈における非単位時間進化作用素の対称性関係のいずれかに基づいて分類されたことが知られている。 本研究では、非エルミート系をフロケ位相によらず、非エルミート系を非エルミートハミルトニアンあるいは時間進化作用素の対称性関係を用いて分類することができる。 これを二重対称性分類と呼ぶ。 これを実証するために, 2次元対称性の分類を適用した$\mathbb{Z}_2$点ギャップ位相を用いて点ギャップを示す新しい非ユニタリ量子ウォークを導入し,この量子ウォークの時間進化作用素を非エルミート・ハミルトニアンとして扱う。

Non-Hermitian systems exhibit richer topological properties compared to their Hermitian counterparts. It is well known that non-Hermitian systems have been classified based on either the symmetry relations for non-Hermitian Hamiltonians or the symmetry relations for non-unitary time-evolution operators in the context of Floquet topological phases. In this work, we propose that non-Hermitian systems can always be classified in two ways; a non-Hermitian system can be classified using the symmetry relations for non-Hermitian Hamiltonians or time-evolution operator regardless of the Floquet topological phases or not. We refer to this as dual symmetry classification. To demonstrate this, we successfully introduce a new non-unitary quantum walk that exhibits point gaps with a $\mathbb{Z}_2$ point-gap topological phase applying the dual symmetry classification and treating the time-evolution operator of this quantum walk as the non-Hermitian Hamiltonian.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-08
# Pearl: レビュー駆動のペルソナ知識基底会話推奨データセット

Pearl: A Review-driven Persona-Knowledge Grounded Conversational Recommendation Dataset ( http://arxiv.org/abs/2403.04460v4 )

ライセンス: Link先を確認
Minjin Kim, Minju Kim, Hana Kim, Beong-woo Kwak, Soyeon Chun, Hyunseo Kim, SeongKu Kang, Youngjae Yu, Jinyoung Yeo, Dongha Lee, (参考訳) 会話レコメンデータシステムは、特に会話入力に対する多様な推論を可能にする大規模言語モデル(LLM)の発展とともに、コミュニティへの関心が高まっている新興分野である。 進歩にもかかわらず、フィールドには探索する多くの側面があります。 現在利用可能な会話レコメンデーション用の公開データセットには、特定のユーザの好みやレコメンデーションの説明がなく、高品質なレコメンデーションを妨げている。 このような課題に対処するために,ペルソナと知識を付加したLLMシミュレータを用いて合成した,PEARLという対話型推薦データセットを提案する。 実世界のレビューから詳細なペルソナと知識を取得し,57k以上の対話を伴う大規模データセットを構築した。 実験の結果, PEARLにおける発話には, より具体的なユーザの嗜好が含まれ, 対象領域の専門知識を示し, 従来のデータセットよりも対話コンテキストに関連性のあるレコメンデーションを提供することがわかった。

Conversational recommender system is an emerging area that has garnered an increasing interest in the community, especially with the advancements in large language models (LLMs) that enable diverse reasoning over conversational input. Despite the progress, the field has many aspects left to explore. The currently available public datasets for conversational recommendation lack specific user preferences and explanations for recommendations, hindering high-quality recommendations. To address such challenges, we present a novel conversational recommendation dataset named PEARL, synthesized with persona- and knowledge-augmented LLM simulators. We obtain detailed persona and knowledge from real-world reviews and construct a large-scale dataset with over 57k dialogues. Our experimental results demonstrate that utterances in PEARL include more specific user preferences, show expertise in the target domain, and provide recommendations more relevant to the dialogue context than those in prior datasets.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-08
# 知識シードを用いた大規模言語モデルによる臨床推論の指導

Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds ( http://arxiv.org/abs/2403.06609v2 )

ライセンス: Link先を確認
Jiageng WU, Xian Wu, Jie Yang, (参考訳) 臨床推論(英: Clinical reasoning)とは、医師が患者の評価と管理に用いている認知過程のことである。 このプロセスは通常、必要な検査、患者の病気の診断、適切な治療法の決定などを提案する。 正確な臨床推論には広範な医学的知識と豊富な臨床経験が必要であり、医師にとって高い基準を設定できる。 これは、患者が圧倒的に多く、医師のリソースが限られているため、発展途上国では特に困難であり、世界的な健康上の不平等に大きく寄与し、自動的な臨床推論アプローチを必要としている。 近年,ChatGPT や GPT-4 などの大型言語モデル (LLM) の出現は臨床推論においてその可能性を示している。 しかし、これらのLSMは幻覚障害を起こしやすいため、LSMの推論過程は、医師の臨床的決定経路と一致しない可能性がある。 本研究では,医学的知識によるLCMの強化を目的とした新しい枠組みであるICP(In-Context Padding)を提案する。 具体的には、重要な臨床理由付け要素(知識種)を推測し、これらをアンカーとしてLLMの生成過程を導出する。 2つの臨床質問データセットの実験により、ICPはLSMの臨床的推論能力を大幅に改善することが示された。

Clinical reasoning refers to the cognitive process that physicians employ in evaluating and managing patients. This process typically involves suggesting necessary examinations, diagnosing patients' diseases, and deciding on appropriate therapies, etc. Accurate clinical reasoning requires extensive medical knowledge and rich clinical experience, setting a high bar for physicians. This is particularly challenging in developing countries due to the overwhelming number of patients and limited physician resources, contributing significantly to global health inequity and necessitating automated clinical reasoning approaches. Recently, the emergence of large language models (LLMs) such as ChatGPT and GPT-4 have demonstrated their potential in clinical reasoning. However, these LLMs are prone to hallucination problems, and the reasoning process of LLMs may not align with the clinical decision path of physicians. In this study, we introduce a novel framework, In-Context Padding (ICP), designed to enhance LLMs with medical knowledge. Specifically, we infer critical clinical reasoning elements (referred to as knowledge seeds) and use these as anchors to guide the generation process of LLMs. Experiments on two clinical question datasets demonstrate that ICP significantly improves the clinical reasoning ability of LLMs.
翻訳日:2024-06-12 00:53:58 公開日:2024-06-08
# 量子基礎への新しいアプローチといくつかの結果

A new approach towards quantum foundation and some consequences ( http://arxiv.org/abs/2403.09224v3 )

ライセンス: Link先を確認
Inge S. Helland, (参考訳) 6つの仮定に基づく一般的な理論が紹介される。 基本的な概念は、観測者または通信観測者のグループと関連付けられた理論変数である。 これらの変数はアクセス可能かアクセス不能である。 これらの仮定から、量子論の通常の形式主義が導かれる。 数学の導出はこの記事には書かれていないが、最近の記事[9, 10]を参照しよう。 一般理論の3つの可能な応用が与えられる。 1) 変数は,人又は人の集団の決定に関連する変数を判断することができる。 2) 変数は統計的パラメータや将来のデータかもしれない。 3)変数は、あるコンテキストにおける物理変数である。 この最後の応用は、量子力学の全く新しい基盤を与える。これは私の意見では、通常の形式論よりも理解しやすい基礎であり、他の応用もこのアプローチの興味深い結果をもたらすように思える。 Schr\"odinger's cat"のようないわゆるパラドックスは、この理論の下で解明することができる。 デービッド・ボームのEPR実験の結果とベル実験の結果について解説する。 最後に、相対論と場の量子論へのリンクへの参照が与えられる。

A general theory based upon 6 postulates is introduced. The basical notions are theoretical variables that are associated with an observer or with a group of communicating observers. These variables may be accessible or inaccessible. From these postulates, the ordinary formalism of quantum theory are derived. The mathematical derivations are not given in this article, but I refer to the recent articles [9, 10]. Three possible applications of the general theory can be given; 1) The variables may decision variables connected to the decisions of a person or of a group of persons. 2) The variables may be statistical parameters or future data, But most importantly here: 3) The variables are physical variables in some context. This last application gives a completely new foundation of quantum mechanics, a foundation which in my opinion is much more easy to understand than the ordinary formalism.The other applications seem also to give interesting consequences of the approach. Socalled paradoxes like that of Schr\"odinger's cat can be clarified under the theory. Explanations of the outcomes of David Bohm's version of the EPR experiment and of the Bell experiment are provided. Finally, references to links towards relativity theory and to quantum field theory are given.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-08
# 有限温度における行列積状態のサンプル複雑性

Sample complexity of matrix product states at finite temperature ( http://arxiv.org/abs/2403.10018v2 )

ライセンス: Link先を確認
Atsushi Iwaki, Chisa Hotta, (参考訳) 一次元の量子多体系の場合、計算複雑性理論は、基底状態エネルギーの評価が量子コンピュータ上でも解けることを明らかにし、システムサイズの逆対数よりも高い温度に対する古典的アルゴリズムの存在とは対照的である。 これは計算複雑性の観点から、低温状態と高温状態の質的な違いを浮き彫りにする。 ここでは行列積状態形式を用いて有限温度状態を記述する。 ランダムサンプリングの枠組み内では,必要なサンプル数の解析式が導出され,計算複雑性の定量的および定性的尺度が提供される。 高温と低温では、そのスケーリング挙動は、それぞれ線形かつ二次的であり、これらの数値的差の数値的に難しい状態の間に明確な交差を示す。

For quantum many-body systems in one dimension, computational complexity theory reveals that the evaluation of ground-state energy remains elusive on quantum computers, contrasting the existence of a classical algorithm for temperatures higher than the inverse logarithm of the system size. This highlights a qualitative difference between low- and high-temperature states in terms of computational complexity. Here, we describe finite-temperature states using the matrix product state formalism. Within the framework of random samplings, we derive an analytical formula for the required number of samples, which provides both quantitative and qualitative measures of computational complexity. At high and low temperatures, its scaling behavior with system size is linear and quadratic, respectively, demonstrating a distinct crossover between these numerically difficult regimes of quantitative difference.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-08
# CLIP-VIS: オープン語彙ビデオインスタンスセグメンテーションのためのCLIP適応

CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation ( http://arxiv.org/abs/2403.12455v2 )

ライセンス: Link先を確認
Wenqi Zhu, Jiale Cao, Jin Xie, Shuangming Yang, Yanwei Pang, (参考訳) Open-vocabularyビデオインスタンスのセグメンテーションは、ビデオ内のオープンなカテゴリに属するインスタンスをセグメンテーションし追跡する。 視覚言語モデルであるContrastive Language-Image Pre-training (CLIP)は、画像レベルのオープン語彙タスクにおいて、堅牢なゼロショット分類能力を示している。 本稿では,CLIP-VISと呼ばれる簡単なエンコーダデコーダネットワークを提案する。 私たちのCLIP-VISは凍結したCLIP画像エンコーダを採用し、クラス非依存マスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。 初期クエリのセットが与えられた場合、クラスに依存しないマスク生成では、クエリマスクと対応するオブジェクトスコアとマスクIoUスコアを予測するトランスフォーマーデコーダが使用される。 次に、時間的トップK強調マッチングは、主に一致したフレームを用いて、フレーム間のクエリマッチングを実行する。 最後に、重み付きオープン語彙分類は、まず、マスクプーリングを伴うクエリビジュアル特徴を生成し、次に、オブジェクトスコアとマスクIoUスコアを使用して重み付き分類を行う。 提案手法の有効性を実証するため,様々なビデオ・インスタンス・セグメンテーション・データセットを用いて実験を行った。 ConvNeXt-Bをバックボーンとして使用すると、私たちのCLIP-VISは、LV-VISデータセットの検証セットにおいて、APとAPnのスコアが32.2%、40.2%に達し、それぞれOV2Segを11.1%、23.9%上回る。 ソースコードとモデルはhttps://github.com/zwq456/CLIP-VIS.git.comで公開します。

Open-vocabulary video instance segmentation strives to segment and track instances belonging to an open set of categories in a video. The vision-language model Contrastive Language-Image Pre-training (CLIP) has shown robust zero-shot classification ability in image-level open-vocabulary task. In this paper, we propose a simple encoder-decoder network, called CLIP-VIS, to adapt CLIP for open-vocabulary video instance segmentation. Our CLIP-VIS adopts frozen CLIP image encoder and introduces three modules, including class-agnostic mask generation, temporal topK-enhanced matching, and weighted open-vocabulary classification. Given a set of initial queries, class-agnostic mask generation employs a transformer decoder to predict query masks and corresponding object scores and mask IoU scores. Then, temporal topK-enhanced matching performs query matching across frames by using K mostly matched frames. Finally, weighted open-vocabulary classification first generates query visual features with mask pooling, and second performs weighted classification using object scores and mask IoU scores.Our CLIP-VIS does not require the annotations of instance categories and identities. The experiments are performed on various video instance segmentation datasets, which demonstrate the effectiveness of our proposed method, especially on novel categories. When using ConvNeXt-B as backbone, our CLIP-VIS achieves the AP and APn scores of 32.2% and 40.2% on validation set of LV-VIS dataset, which outperforms OV2Seg by 11.1% and 23.9% respectively. We will release the source code and models at https://github.com/zwq456/CLIP-VIS.git.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-08
# 表現的ハームからサービス品質ハームへ:Llama 2の安全保護を事例として

From Representational Harms to Quality-of-Service Harms: A Case Study on Llama 2 Safety Safeguards ( http://arxiv.org/abs/2403.13213v3 )

ライセンス: Link先を確認
Khaoula Chehbouni, Megha Roshan, Emmanuel Ma, Futian Andrew Wei, Afaf Taik, Jackie CK Cheung, Golnoosh Farnadi, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々な領域で広く採用されている。 しかし、これらの進歩は安全性のリスクを増し、既に過疎化されている人口に対する有害な影響を懸念している。 安全指向の微調整の監督や、人間のフィードバックからの安全な強化学習の活用など、安全性の保護を開発するための緩和努力が増加しているが、これらのモデルにおける安全性と微妙なバイアスに関する複数の懸念が残っている。 さらに、安全のために最適化されたモデルは、予防措置として特定の要求に対する応答を控える傾向など、過大な安全行動を示すことが多いことを以前の研究は示している。 このように、これらのモデルの有用性と安全性の明確なトレードオフが文献に記録されている。 本稿では,すでに緩和されているバイアスに対するモデル評価による安全対策の有効性について検討する。 Llama 2 の例を用いて、LLM の安全応答が有害な仮定をエンコードする方法を説明している。 そのために、無害なプロンプトの集合を作り、それをLlamaモデルの評価に用いる。 利用者に対するLSMs応答の新たな分類法により、一部の人口集団では、安全と健康のトレードオフがより顕著になり、人口過疎化によるサービス品質の害につながることが観察された。

Recent progress in large language models (LLMs) has led to their widespread adoption in various domains. However, these advancements have also introduced additional safety risks and raised concerns regarding their detrimental impact on already marginalized populations. Despite growing mitigation efforts to develop safety safeguards, such as supervised safety-oriented fine-tuning and leveraging safe reinforcement learning from human feedback, multiple concerns regarding the safety and ingrained biases in these models remain. Furthermore, previous work has demonstrated that models optimized for safety often display exaggerated safety behaviors, such as a tendency to refrain from responding to certain requests as a precautionary measure. As such, a clear trade-off between the helpfulness and safety of these models has been documented in the literature. In this paper, we further investigate the effectiveness of safety measures by evaluating models on already mitigated biases. Using the case of Llama 2 as an example, we illustrate how LLMs' safety responses can still encode harmful assumptions. To do so, we create a set of non-toxic prompts, which we then use to evaluate Llama models. Through our new taxonomy of LLMs responses to users, we observe that the safety/helpfulness trade-offs are more pronounced for certain demographic groups which can lead to quality-of-service harms for marginalized populations.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-08
# RewardBench: 言語モデリングのためのRewardモデルの評価

RewardBench: Evaluating Reward Models for Language Modeling ( http://arxiv.org/abs/2403.13787v2 )

ライセンス: Link先を確認
Nathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi, (参考訳) リワードモデル(RM)は、事前訓練されたモデルを人間の嗜好に合わせるためにRLHFをうまく活用する段階にあるが、これらのモデルの評価に焦点を当てた研究は比較的少ない。 報酬モデルを評価することは、言語モデルのアライメントに使用される不透明な技術と、どの値が組み込まれているかを理解する機会を与える。 報酬モデルトレーニングと理解のためのリソースは、彼らを取り巻く新しいオープンソースコミュニティでは希少である。 報酬モデルの科学的理解を深めるために,評価のためのベンチマークデータセットとコードベースであるRewardBenchを提案する。 RewardBenchデータセットは、チャット、推論、安全性にまたがる、プロンプトチョーゼンで排除されたトリオのコレクションで、困難で構造化された、配布外のクエリに対して、報酬モデルがどのように機能するかをベンチマークする。 私たちは、微妙だが検証可能な理由(例えば、バグ、誤った事実)を持つRMの特定の比較データセットを作成します。 In the RewardBench leaderboard, we evaluate the reward model training with various method, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO)。 我々は,RLHFプロセスの理解を深めるために,様々な報酬モデルの欠点に続き,拒絶の正当性,推論の限界,指示に関する多くの知見を提示する。

Reward models (RMs) are at the crux of successfully using RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. Resources for reward model training and understanding are sparse in the nascent open-source community around them. To enhance scientific understanding of reward models, we present RewardBench, a benchmark dataset and code-base for evaluation. The RewardBench dataset is a collection of prompt-chosen-rejected trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We create specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO). We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-08
# RAGを用いた電子イオン衝突型加速器の要約

Towards a RAG-based Summarization Agent for the Electron-Ion Collider ( http://arxiv.org/abs/2403.15729v3 )

ライセンス: Link先を確認
Karthik Suresh, Neeltje Kackar, Luke Schleck, Cristiano Fanelli, (参考訳) 文書、論文、データ、その他大規模な実験から得られた資源を包含する複雑さと膨大な量の情報は、ナビゲートするためのかなりの時間と労力を必要としており、特に新しい協力者や初期の科学者にとって、これらの様々な情報へのアクセスと活用のタスクが要求される。 この問題に対処するため、Retrieval Augmented Generation(RAG)ベースのEIC用要約AI(RAGS4EIC)が開発中である。 このAIエージェントは情報を凝縮するだけでなく、関連する応答を効果的に参照する。 まず、関連するすべての実験情報を含む包括的ベクトルデータベースを問合せし、次に、Large Language Model(LLM)を用いて、ユーザクエリと検索データに基づく引用に富んだ簡潔な要約を生成する。 RAGアセスメント(RAGA)スコアリング機構を用いて応答の有効性を評価する評価手法について述べる。 さらに、要約の柔軟性と精度を提供するプロンプトテンプレートベースの命令チューニングについて述べる。 重要なのは、この実装がワークフロー全体の基盤となるLangChainに依存していることです。 この統合により効率性とスケーラビリティが保証され、Electron Ion Collider (EIC)コミュニティ内のさまざまなユーザグループに対して、スムーズなデプロイメントとアクセシビリティが実現される。 この革新的なAI駆動のフレームワークは、膨大なデータセットの理解を単純化するだけでなく、協力的な参加を促進し、研究者を力づける。 実演として、RAGエージェント開発の各段階を詳細に説明するために、Webアプリケーションが開発されている。

The complexity and sheer volume of information encompassing documents, papers, data, and other resources from large-scale experiments demand significant time and effort to navigate, making the task of accessing and utilizing these varied forms of information daunting, particularly for new collaborators and early-career scientists. To tackle this issue, a Retrieval Augmented Generation (RAG)--based Summarization AI for EIC (RAGS4EIC) is under development. This AI-Agent not only condenses information but also effectively references relevant responses, offering substantial advantages for collaborators. Our project involves a two-step approach: first, querying a comprehensive vector database containing all pertinent experiment information; second, utilizing a Large Language Model (LLM) to generate concise summaries enriched with citations based on user queries and retrieved data. We describe the evaluation methods that use RAG assessments (RAGAs) scoring mechanisms to assess the effectiveness of responses. Furthermore, we describe the concept of prompt template-based instruction-tuning which provides flexibility and accuracy in summarization. Importantly, the implementation relies on LangChain, which serves as the foundation of our entire workflow. This integration ensures efficiency and scalability, facilitating smooth deployment and accessibility for various user groups within the Electron Ion Collider (EIC) community. This innovative AI-driven framework not only simplifies the understanding of vast datasets but also encourages collaborative participation, thereby empowering researchers. As a demonstration, a web application has been developed to explain each stage of the RAG Agent development in detail.
翻訳日:2024-06-12 00:43:59 公開日:2024-06-08
# TrustSQL: ペナルティベースのスコーリングによるテキストとSQLの信頼性のベンチマーク

TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring ( http://arxiv.org/abs/2403.15879v3 )

ライセンス: Link先を確認
Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi, (参考訳) Text-to-SQLは、自然言語を使ってデータベースと対話し、情報の検索と合成を簡単にする。 自然言語の質問をSQLクエリに変換する上で,大きな言語モデル(LLM)が著しく成功したにも関わらず,2つの大きな課題があるため,広範なデプロイメントは限定的だ。 第一に、テキストからSQLへのモデルの効果的な利用は、モデルの能力に対するユーザの理解、すなわちモデルが正しく答えられる質問の範囲に依存する。 第二に、控えめなメカニズムがないことは、誤ったSQL生成を気づかないままにし、それによってモデルの出力に対する信頼を損なう可能性がある。 より広範なデプロイメントを実現するためには、モデル設計におけるこれらの課題に対処し、モデル評価を強化し、モデルのアウトプットに対する信頼を構築することが不可欠である。 この目的のために、TrustSQLを紹介した。これは、テキストからSQLまでの信頼性が定義された新しい総合的なベンチマークで、実行不可能な質問に対して正しいSQLクエリを生成し、実行不可能な質問(例えば、スキーマ不互換性やSQL以外の機能のため)を生成することによって、任意のタイプの入力質問を正しく処理する能力として設計されている。 我々は,(1)SQLジェネレータと非現実的質問検出器とSQLエラー検出器を組み合わせたパイプライン方式と,(2)タスク全体に対する単一モデルを用いた統一手法の2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。 我々の実験結果によると、厳しい罰則の下で高いスコアを達成するには多大な努力が必要であり、より安全なデプロイメントのためのテキスト-SQLモデルの開発に新たな視点を提供する。

Text-to-SQL enables users to interact with databases using natural language, simplifying the retrieval and synthesis of information. Despite the remarkable success of large language models (LLMs) in translating natural language questions into SQL queries, widespread deployment remains limited due to two primary challenges. First, the effective use of text-to-SQL models depends on users' understanding of the model's capabilities-the scope of questions the model can correctly answer. Second, the absence of abstention mechanisms can lead to incorrect SQL generation going unnoticed, thereby undermining trust in the model's output. To enable wider deployment, it is crucial to address these challenges in model design and enhance model evaluation to build trust in the model's output. To this end, we introduce TrustSQL, a novel comprehensive benchmark designed to evaluate text-to-SQL reliability-defined as a model's ability to correctly handle any type of input question by generating correct SQL queries for feasible questions and abstaining from generating infeasible ones (e.g., due to schema incompatibility or functionalities beyond SQL). We evaluate existing methods using a novel penalty-based scoring metric with two modeling approaches: (1) pipeline-based methods combining SQL generators with infeasible question detectors and SQL error detectors for abstention; and (2) unified methods using a single model for the entire task. Our experimental results reveal that achieving high scores under severe penalties requires significant effort and provide a new perspective on developing text-to-SQL models for safer deployment.
翻訳日:2024-06-12 00:34:15 公開日:2024-06-08
# 画像超解像のためのデータセット・プルーニングに関する研究

A Study in Dataset Pruning for Image Super-Resolution ( http://arxiv.org/abs/2403.17083v2 )

ライセンス: Link先を確認
Brian B. Moser, Federico Raue, Andreas Dengel, (参考訳) Image Super-Resolution (SR)では、トレーニング用の大きなデータセットに依存するのは、二重刃の剣である。 リッチなトレーニング資料を提供する一方で、相当量の計算とストレージのリソースも要求している。 本研究では,これらの課題を解決するために,データセットプルーニングを分析する。 簡単な事前学習SRモデルにより決定された損失値に基づいて選択されたトレーニングサンプルのコアセットにデータセットを還元する新しい手法を提案する。 トレーニングをオリジナルのデータセットのたった50%、特に最高の損失値によって特徴づけられるサンプルにフォーカスすることで、データセット全体のトレーニングから得られたものと同等かそれ以上の結果が得られる。 興味深いことに、最も損失率の高いサンプルの上位5倍がトレーニングプロセスに悪影響を及ぼすことがわかった。 これらのサンプルを除外し、より簡単なサンプルを好むように選択を調整することで、トレーニング結果をさらに強化する。 我々の研究は、イメージSRにおけるデータセットプルーニングの未解決の可能性に対する新たな視点を開く。 損失値のメトリクスに基づくトレーニングデータの慎重に選択することは、SRモデルの改善につながる可能性があることを示唆し、より多くのデータが必然的にパフォーマンス向上につながるという従来の知恵に挑戦する。

In image Super-Resolution (SR), relying on large datasets for training is a double-edged sword. While offering rich training material, they also demand substantial computational and storage resources. In this work, we analyze dataset pruning to solve these challenges. We introduce a novel approach that reduces a dataset to a core-set of training samples, selected based on their loss values as determined by a simple pre-trained SR model. By focusing the training on just 50\% of the original dataset, specifically on the samples characterized by the highest loss values, we achieve results comparable to or surpassing those obtained from training on the entire dataset. Interestingly, our analysis reveals that the top 5\% of samples with the highest loss values negatively affect the training process. Excluding these samples and adjusting the selection to favor easier samples further enhances training outcomes. Our work opens new perspectives to the untapped potential of dataset pruning in image SR. It suggests that careful selection of training data based on loss-value metrics can lead to better SR models, challenging the conventional wisdom that more data inevitably leads to better performance.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-08
# 正規化非負スケール不変低ランク近似モデルの効率的なアルゴリズム

Efficient Algorithms for Regularized Nonnegative Scale-invariant Low-rank Approximation Models ( http://arxiv.org/abs/2403.18517v3 )

ライセンス: Link先を確認
Jeremy E. Cohen, Valentin Leplat, (参考訳) スパース非負行列因子化やスパース非負タッカー分解のような正規化非負の低ランク近似は、解釈可能性を高めた次元還元モデルの重要な分岐である。 しかし、実際的な観点からは、正規化子と正規化係数の選択と効率的なアルゴリズムの設計は、これらのモデルの多因子の性質とこれらの選択を裏付ける理論の欠如のために困難である。 本稿ではこれらの課題を改善することを目的とする。 等質正規化スケール不変量(英語版)と呼ばれるより一般的なモデルを研究することにより、低ランク近似モデルに固有のスケール不変性が、予期せぬ有益効果と有害効果の両方で暗黙的な正則化を引き起こすことが証明される。 この観察により、低ランク近似モデルにおける正規化関数の効果をよりよく理解し、正規化ハイパーパラメータの選択をガイドし、専用最適化アルゴリズムの収束速度を高めるためのバランス戦略を設計することができる。 これらの結果のいくつかはすでに知られているが、正規化低ランク近似の特定の例に限定されている。 また、正規化された非負の低ランク近似の多くを、収束保証付きで処理する一般化行列化最小化アルゴリズムを導出する。 我々は,スパース非負行列因子分解,リッジ規則化カノニカルポリアディック分解,スパース非負タッカー分解への貢献を紹介する。

Regularized nonnegative low-rank approximations such as sparse Nonnegative Matrix Factorization or sparse Nonnegative Tucker Decomposition are an important branch of dimensionality reduction models with enhanced interpretability. However, from a practical perspective, the choice of regularizers and regularization coefficients, as well as the design of efficient algorithms, is challenging because of the multifactor nature of these models and the lack of theory to back these choices. This paper aims at improving upon these issues. By studying a more general model called the Homogeneous Regularized Scale-Invariant, we prove that the scale-invariance inherent to low-rank approximation models causes an implicit regularization with both unexpected beneficial and detrimental effects. This observation allows to better understand the effect of regularization functions in low-rank approximation models, to guide the choice of the regularization hyperparameters, and to design balancing strategies to enhance the convergence speed of dedicated optimization algorithms. Some of these results were already known but restricted to specific instances of regularized low-rank approximations. We also derive a generic Majorization Minimization algorithm that handles many regularized nonnegative low-rank approximations, with convergence guarantees. We showcase our contributions on sparse Nonnegative Matrix Factorization, ridge-regularized Canonical Polyadic decomposition and sparse Nonnegative Tucker Decomposition.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-08
# ITCMA:計算意識構造に基づく生成エージェント

ITCMA: A Generative Agent Based on a Computational Consciousness Structure ( http://arxiv.org/abs/2403.20097v2 )

ライセンス: Link先を確認
Hanzhong Zhang, Jibin Yin, Haoyang Wang, Ziwei Xiang, (参考訳) 大きな言語モデル(LLM)は、暗黙の命令を理解し、常識的な知識を適用することを必要とするタスクにおいて、依然として課題に直面している。 このようなシナリオでは、LLMは人間レベルのパフォーマンスを達成するために複数の試みを必要とする可能性がある。 本稿では、人間の意識の過程をシミュレートする計算的意識構造であるITCM(Internal Time-Consciousness Machine)を紹介する。 さらに、オープンワールド環境でのアクション生成と推論をサポートし、個別にタスクを完了できるITCMベースのエージェント(ITCMA)を提案する。 ITCMAは、エージェントのインタラクションや環境への推論を考慮し、暗黙の指示を理解する能力を高め、常識的な知識を適用する。 Alfworld環境での評価によると、トレーニングされたITCMAは、そのセットで最先端(SOTA)を9%上回っている。 トレーニングされていないITCMAでさえ、そのセット上で96%のタスク完了率が達成され、SOTAよりも5%高い。 四足歩行ロボットを用いた実世界のタスクでは、トレーニングされていないITCMAは85%のタスク完了率を達成する。

Large Language Models (LLMs) still face challenges in tasks requiring understanding implicit instructions and applying common-sense knowledge. In such scenarios, LLMs may require multiple attempts to achieve human-level performance, potentially leading to inaccurate responses or inferences in practical environments, affecting their long-term consistency and behavior. This paper introduces the Internal Time-Consciousness Machine (ITCM), a computational consciousness structure to simulate the process of human consciousness. We further propose the ITCM-based Agent (ITCMA), which supports action generation and reasoning in open-world settings, and can independently complete tasks. ITCMA enhances LLMs' ability to understand implicit instructions and apply common-sense knowledge by considering agents' interaction and reasoning with the environment. Evaluations in the Alfworld environment show that trained ITCMA outperforms the state-of-the-art (SOTA) by 9% on the seen set. Even untrained ITCMA achieves a 96% task completion rate on the seen set, 5% higher than SOTA, indicating its superiority over traditional intelligent agents in utility and generalization. In real-world tasks with quadruped robots, the untrained ITCMA achieves an 85% task completion rate, which is close to its performance in the unseen set, demonstrating its comparable utility and universality in real-world settings.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-08
# ソフトウェア開発チームのプライバシ認識、経験、行動を評価する

Evaluating Privacy Perceptions, Experience, and Behavior of Software Development Teams ( http://arxiv.org/abs/2404.01283v2 )

ライセンス: Link先を確認
Maxwell Prybylo, Sara Haghighi, Sai Teja Peddinti, Sepideh Ghanavati, (参考訳) プライバシ規制の増加に伴い、小さな開発チームは独自のプライバシ決定を強制される。 本稿では,SDLC(Software Development Life Cycle)の様々な段階に関わるメンバのプライバシ認識,実践,知識を評価するために,統計的および質的な分析を含む混合手法による調査を行う。 調査には23カ国から362人が参加し、プロダクトマネージャや開発者、テスタといった役割を担っています。 以上の結果から,SDLC の役割におけるプライバシ定義の多様性が示唆され,SDLC 全体にわたる総合的なプライバシアプローチの必要性が強調された。 ソフトウェアチームは、地域に関係なく、プライバシーの概念(匿名化など)に慣れておらず、自己教育やフォーラムに依存しています。 ほとんどの参加者は他の規制よりもGDPRやHIPAAに詳しい。 我々は,プライバシー問題に対処するための役割依存型ソリューションの必要性を提唱し,プライバシーに配慮したSDLCを改善するための研究の方向性と教育的取組みを強調した。

With the increase in the number of privacy regulations, small development teams are forced to make privacy decisions on their own. In this paper, we conduct a mixed-method survey study, including statistical and qualitative analysis, to evaluate the privacy perceptions, practices, and knowledge of members involved in various phases of the Software Development Life Cycle (SDLC). Our survey includes 362 participants from 23 countries, encompassing roles such as product managers, developers, and testers. Our results show diverse definitions of privacy across SDLC roles, emphasizing the need for a holistic privacy approach throughout SDLC. We find that software teams, regardless of their region, are less familiar with privacy concepts (such as anonymization), relying on self-teaching and forums. Most participants are more familiar with GDPR and HIPAA than other regulations, with multi-jurisdictional compliance being their primary concern. Our results advocate the need for role-dependent solutions to address the privacy challenges, and we highlight research directions and educational takeaways to help improve privacy-aware SDLC.
翻訳日:2024-06-12 00:34:14 公開日:2024-06-08
# SelfPose3d: 自己監督型マルチパーソン型マルチパーソン3次元ポーズ推定

SelfPose3d: Self-Supervised Multi-Person Multi-View 3d Pose Estimation ( http://arxiv.org/abs/2404.02041v2 )

ライセンス: Link先を確認
Vinkle Srivastav, Keqi Chen, Nicolas Padoy, (参考訳) 複数のカメラビューから複数の人の3dポーズを推定する自己教師型アプローチであるSelfPose3dを提案する。 現在の最先端のフル教師方式とは異なり、我々のアプローチでは2dまたは3dの地平線ポーズを一切必要とせず、キャリブレーションされたカメラ設定とオフ・ザ・シェルフ2d人間のポーズ推定器から生成された2d擬似ポーズから得られるマルチビュー入力画像のみを使用する。 本研究では,3次元空間における自己教師型人物位置推定と3次元ポーズ推定という2つの自己教師型学習目標を提案する。 我々は,合成した3d点のモデルを学習し,3d人物のルート位置,および全ての視点で投影されたルート・ヒートマップとして機能させることにより,自己監督型3d人物位置決めを実現する。 次に、ボトルネック表現を持つすべての局所的人物の3dポーズをモデル化し、それらを2dジョイントを得るすべてのビューにマッピングし、2dガウス熱マップをエンドツーエンドの微分可能な方法でレンダリングする。 その後、擬似2dポーズから対応する2d関節とヒートマップを学習に用いる。 擬似ラベルの内在的不正確性を軽減するため,自己監督を導くための適応型監視注意機構を提案する。 Panoptic、Shelf、Campusを含む3つの公開ベンチマークデータセットの実験と分析は、完全に教師された手法に匹敵するアプローチの有効性を示している。 コード:https://github.com/CAMMA-public/SelfPose3D。 ビデオデモ: https://youtu.be/GAqhmUIr2E8。

We present a new self-supervised approach, SelfPose3d, for estimating 3d poses of multiple persons from multiple camera views. Unlike current state-of-the-art fully-supervised methods, our approach does not require any 2d or 3d ground-truth poses and uses only the multi-view input images from a calibrated camera setup and 2d pseudo poses generated from an off-the-shelf 2d human pose estimator. We propose two self-supervised learning objectives: self-supervised person localization in 3d space and self-supervised 3d pose estimation. We achieve self-supervised 3d person localization by training the model on synthetically generated 3d points, serving as 3d person root positions, and on the projected root-heatmaps in all the views. We then model the 3d poses of all the localized persons with a bottleneck representation, map them onto all views obtaining 2d joints, and render them using 2d Gaussian heatmaps in an end-to-end differentiable manner. Afterwards, we use the corresponding 2d joints and heatmaps from the pseudo 2d poses for learning. To alleviate the intrinsic inaccuracy of the pseudo labels, we propose an adaptive supervision attention mechanism to guide the self-supervision. Our experiments and analysis on three public benchmark datasets, including Panoptic, Shelf, and Campus, show the effectiveness of our approach, which is comparable to fully-supervised methods. Code: https://github.com/CAMMA-public/SelfPose3D. Video demo: https://youtu.be/GAqhmUIr2E8.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-08
# MoE-FFD:一般化およびパラメータ効率の良い顔偽造検出の専門家の混在

MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection ( http://arxiv.org/abs/2404.08452v2 )

ライセンス: Link先を確認
Chenqi Kong, Anwei Luo, Peijun Bao, Yi Yu, Haoliang Li, Zengwei Zheng, Shiqi Wang, Alex C. Kot, (参考訳) ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。 CNNフェースフォージェリ検出器と比較して、VT法はトランスの表現性を生かし、優れた検出性能を実現している。 しかし、これらの手法は、(1)ImageNet重みによる完全な微調整ViTモデル、(2)ViTベースの手法は、局所的な偽造の手がかりを捉えるのに苦労し、モデルバイアスを引き起こす、(3)これらの手法は、顔の偽造の特徴のみに制限され、その結果、限定的な一般化性をもたらす。 これらの課題に対処するため、この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入している。 MoE-FFDは軽量のローランド適応(LoRA)層とアダプタ層のみを更新し、ViTバックボーンを凍結させ、パラメータ効率のトレーニングを実現する。 さらに、MoE-FFDはトランスフォーマーの表現性とCNNの局所的先行性を利用して、グローバルおよび局所的な偽の手がかりを同時に抽出する。 さらに、新しいMoEモジュールはモデルのキャパシティを拡大し、最適な偽造の専門家をスマートに選択するように設計されており、偽造検出性能をさらに高めている。 提案手法は,様々な変圧器のバックボーンにプラグイン・アンド・プレイでシームレスに適応できる。 実験結果から,提案手法はパラメータのオーバーヘッドを大幅に低減した,最先端の顔偽造検出性能を実現することを示した。 コードはhttps://github.com/LoveSiameseCat/MoE-FFD.comで公開されている。

Deepfakes have recently raised significant trust issues and security concerns among the public. Compared to CNN face forgery detectors, ViT-based methods take advantage of the expressivity of transformers, achieving superior detection performance. However, these approaches still exhibit the following limitations: (1) Fully fine-tuning ViT-based models from ImageNet weights demands substantial computational and storage resources; (2) ViT-based methods struggle to capture local forgery clues, leading to model bias; (3) These methods limit their scope on only one or few face forgery features, resulting in limited generalizability. To tackle these challenges, this work introduces Mixture-of-Experts modules for Face Forgery Detection (MoE-FFD), a generalized yet parameter-efficient ViT-based approach. MoE-FFD only updates lightweight Low-Rank Adaptation (LoRA) and Adapter layers while keeping the ViT backbone frozen, thereby achieving parameter-efficient training. Moreover, MoE-FFD leverages the expressivity of transformers and local priors of CNNs to simultaneously extract global and local forgery clues. Additionally, novel MoE modules are designed to scale the model's capacity and smartly select optimal forgery experts, further enhancing forgery detection performance. Our proposed learning scheme can be seamlessly adapted to various transformer backbones in a plug-and-play manner. Extensive experimental results demonstrate that the proposed method achieves state-of-the-art face forgery detection performance with significantly reduced parameter overhead. The code is released at: https://github.com/LoveSiameseCat/MoE-FFD.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-08
# 点数LLMランキングの改善のための逆基準のオンザフライ生成

Generating Diverse Criteria On-the-Fly to Improve Point-wise LLM Rankers ( http://arxiv.org/abs/2404.11960v2 )

ライセンス: Link先を確認
Fang Guo, Wenyu Li, Honglei Zhuang, Yun Luo, Yafu Li, Qi Zhu, Le Yan, Yue Zhang, (参考訳) 最新のポイントワイド大規模言語モデル(LLM)ランキングは、目覚ましいランキング結果を得た。 しかし,2つの大きな欠点は,(1)標準化された比較指導に従わないこと,(2)複雑な通路を扱う場合の包括的考察に苦慮すること,である。 これらの欠点に対処するために,様々な視点から基準のセットに基づいてランキングスコアを生成するランクラを構築することを提案する。 これらの基準は、異なるが相乗的評価を提供するために、それぞれの視点を指示することを目的としている。 BEIRベンチマークから8つのデータセットを解析した結果,この多視点基準アンサンブル手法を取り入れることで,点方向LLMロータの性能が著しく向上したことが示された。

The most recent pointwise Large Language Model (LLM) rankers have achieved remarkable ranking results. However, these rankers are hindered by two major drawbacks: (1) they fail to follow a standardized comparison guidance during the ranking process, and (2) they struggle with comprehensive considerations when dealing with complicated passages. To address these shortcomings, we propose to build a ranker that generates ranking scores based on a set of criteria from various perspectives. These criteria are intended to direct each perspective in providing a distinct yet synergistic evaluation. Our research, which examines eight datasets from the BEIR benchmark demonstrates that incorporating this multi-perspective criteria ensemble approach markedly enhanced the performance of pointwise LLM rankers.
翻訳日:2024-06-12 00:24:28 公開日:2024-06-08
# Amortizedパラメータ推論のためのニューラルネットワーク

Neural Methods for Amortised Parameter Inference ( http://arxiv.org/abs/2404.12484v2 )

ライセンス: Link先を確認
Andrew Zammit-Mangion, Matthew Sainsbury-Dale, Raphaël Huser, (参考訳) 統計的推論のためのシミュレーションベースの手法は、過去50年間で劇的に進化し、技術進歩のペースを維持している。 この分野は、データと推論ターゲットの間の複雑なマッピングを学習するためのニューラルネットワーク、最適化ライブラリ、グラフィック処理ユニットの表現能力を受け入れることで、新たな革命を経験している。 結果として得られるツールは、高速なフィードフォワード操作によって推論を迅速に行うことができるという意味で、償却される。 本稿では, 点推定, 近似ベイズ推定, 要約統計的構成, 確率近似の文脈における最近の進歩を概観する。 このレビューでは、利用可能なソフトウェアについても取り上げており、償却推論に利用可能なツールや、最先端のMarkovチェーンであるMonte Carloメソッドに対するメリットを示すための簡単なイラストも紹介されている。 この記事は、関連するトピックの概要と今後の研究方向性の展望で締めくくっている。

Simulation-based methods for making statistical inference have evolved dramatically over the past 50 years, keeping pace with technological advancements. The field is undergoing a new revolution as it embraces the representational capacity of neural networks, optimisation libraries and graphics processing units for learning complex mappings between data and inferential targets. The resulting tools are amortised, in the sense that they allow inference to be made quickly through fast feedforward operations. In this article we review recent progress made in the context of point estimation, approximate Bayesian inference, summary-statistic construction, and likelihood approximation. The review also covers available software, and includes a simple illustration to showcase the wide array of tools available for amortised inference and the benefits they offer over state-of-the-art Markov chain Monte Carlo methods. The article concludes with an overview of relevant topics and an outlook on future research directions.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-08
# 食事における連続的な学習--制限付き計算による疎ラベルストリームからの学習-

Continual Learning on a Diet: Learning from Sparsely Labeled Streams Under Constrained Computation ( http://arxiv.org/abs/2404.12766v2 )

ライセンス: Link先を確認
Wenxuan Zhang, Youssef Mohamed, Bernard Ghanem, Philip H. S. Torr, Adel Bibi, Mohamed Elhoseiny, (参考訳) そこで本研究では,学習アルゴリズムが学習段階ごとに制限された計算予算を付与する,現実的な連続学習(CL)環境を提案し,研究する。 この設定を,スパースラベル率の高い大規模半教師付き連続学習シナリオに適用する。 従来の有能なCL法は、この挑戦的な環境では非常に不十分に機能する。 粗末なラベル付きデータと不十分な計算予算に過度に適合することは、このようなパフォーマンスの悪い2つの主要な原因である。 我々の新しい設定は、トレーニング中にラベルのないデータを効果的に効果的に活用する学習方法を奨励する。 そこで本稿では,ラベル付きデータとラベル付きデータの両方を併用した,シンプルかつ高効率なベースラインであるDietCLを提案する。 DietCLは、両方のタイプのデータに対して、厳密に計算予算を割り当てる。 制約予算設定の下で, CLOC, ImageNet10K, CGLMなどいくつかのデータセット上でベースラインを大規模に検証する。 ダイエットCLは、既存のCLアルゴリズムや、より最近の連続的な半教師付き手法よりも優れています。 広範に分析と改善を行った結果,DietCLはラベル空間,計算予算,その他様々な改善の完全な範囲で安定していることがわかった。

We propose and study a realistic Continual Learning (CL) setting where learning algorithms are granted a restricted computational budget per time step while training. We apply this setting to large-scale semi-supervised Continual Learning scenarios with sparse label rates. Previous proficient CL methods perform very poorly in this challenging setting. Overfitting to the sparse labeled data and insufficient computational budget are the two main culprits for such a poor performance. Our new setting encourages learning methods to effectively and efficiently utilize the unlabeled data during training. To that end, we propose a simple but highly effective baseline, DietCL, which utilizes both unlabeled and labeled data jointly. DietCL meticulously allocates computational budget for both types of data. We validate our baseline, at scale, on several datasets, e.g., CLOC, ImageNet10K, and CGLM, under constraint budget setups. DietCL outperforms, by a large margin, all existing supervised CL algorithms as well as more recent continual semi-supervised methods. Our extensive analysis and ablations demonstrate that DietCL is stable under a full spectrum of label sparsity, computational budget, and various other ablations.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-08
# 大規模言語モデルの効率的な推論に関する一検討

A Survey on Efficient Inference for Large Language Models ( http://arxiv.org/abs/2404.14294v2 )

ライセンス: Link先を確認
Zixuan Zhou, Xuefei Ning, Ke Hong, Tianyu Fu, Jiaming Xu, Shiyao Li, Yuming Lou, Luning Wang, Zhihang Yuan, Xiuhong Li, Shengen Yan, Guohao Dai, Xiao-Ping Zhang, Yuhan Dong, Yu Wang, (参考訳) 大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。 しかし、LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。 この分野における取り組みは、LLM推論の効率向上を目的とした技術開発に向けられている。 本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。 まず、非効率なLLM推論の主な原因、すなわち、大モデルサイズ、二次複雑度注意操作、自動回帰復号法を解析することから始める。 そして、現在の文献をデータレベル、モデルレベル、システムレベルの最適化に整理する包括的な分類法を導入する。 さらに, 臨界サブフィールドにおける代表法の比較実験を行い, 定量的知見を得た。 最後に、いくつかの知識概要を提供し、今後の研究の方向性について論じる。

Large Language Models (LLMs) have attracted extensive attention due to their remarkable performance across various tasks. However, the substantial computational and memory requirements of LLM inference pose challenges for deployment in resource-constrained scenarios. Efforts within the field have been directed towards developing techniques aimed at enhancing the efficiency of LLM inference. This paper presents a comprehensive survey of the existing literature on efficient LLM inference. We start by analyzing the primary causes of the inefficient LLM inference, i.e., the large model size, the quadratic-complexity attention operation, and the auto-regressive decoding approach. Then, we introduce a comprehensive taxonomy that organizes the current literature into data-level, model-level, and system-level optimization. Moreover, the paper includes comparative experiments on representative methods within critical sub-fields to provide quantitative insights. Last but not least, we provide some knowledge summary and discuss future research directions.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-08
# シーケンスによる記述論理に対する構成的補間と概念に基づくベス定義可能性

Constructive Interpolation and Concept-Based Beth Definability for Description Logics via Sequents ( http://arxiv.org/abs/2404.15840v2 )

ライセンス: Link先を確認
Tim S. Lyon, Jonas Karge, (参考訳) 本稿では,多数の記述論理(DL)に適用可能なコンストラクティブな手法を導入し,一連のシステムに基づく概念に基づくBeth Definability Properties(CBP)を確立する。 高い表現力を持つDL RIQをケーススタディとして、RIQオントロジーのための新しいシークエント計算を導入し、暗黙的に定義可能な概念の明示的な定義の抽出を可能にするシークエント計算から、ある種の補間体をどのように計算できるかを示す。 我々の知る限りでは、これは補間子と定義をDLの文脈内で計算する最初のシーケントベースのアプローチであり、RIQがCBPを楽しむ最初の証明である。 さらに, 逐次システムのモジュラリティのため, RIQ の制限は認められず, 適切な修正により他の DL にも適用可能である。

We introduce a constructive method applicable to a large number of description logics (DLs) for establishing the concept-based Beth definability property (CBP) based on sequent systems. Using the highly expressive DL RIQ as a case study, we introduce novel sequent calculi for RIQ-ontologies and show how certain interpolants can be computed from sequent calculus proofs, which permit the extraction of explicit definitions of implicitly definable concepts. To the best of our knowledge, this is the first sequent-based approach to computing interpolants and definitions within the context of DLs, as well as the first proof that RIQ enjoys the CBP. Moreover, due to the modularity of our sequent systems, our results hold for any restriction of RIQ, and are applicable to other DLs by suitable modifications.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-08
# M3H:医療のためのマルチモーダルマルチタスク機械学習

M3H: Multimodal Multitask Machine Learning for Healthcare ( http://arxiv.org/abs/2404.18975v3 )

ライセンス: Link先を確認
Dimitris Bertsimas, Yu Ma, (参考訳) マルチモーダルデータを複数のタスクに活用した、多対多の統合フレームワークの開発は、診断から手術まで、医療アプリケーションを統合する上で極めて重要です。 リソース制約のある病院環境において、以前の予測性能を改善するスケーラブルで統一された機械学習フレームワークは、病院の運営を改善し、コストを削減できる。 M3Hはマルチモーダル・マルチタスク・機械学習・フォー・ヘルスケア・フレームワークで、表、時系列、言語、視覚データから学習を集約し、教師付きバイナリ/マルチクラス分類、回帰、教師なしクラスタリングを行う。 自己探索(学習ソースタスク)と横断探索(学習クロスタスク)のバランスをとる新しい注意機構を備え、提案されたTIMスコアを通じて説明可能性を提供し、タスク学習相互依存性のダイナミクスに光を当てる。 M3Hは前例のない医療タスクと機械学習の問題クラスを含み、16の医療部門から平均11.6%の病気診断、3つの病院手術予測、1つの患者表現タスクで従来のシングルタスクモデルを上回っている。 このフレームワークのモジュール設計は、データ処理、タスク定義、迅速なモデルプロトタイピングにおいて、その一般化性を保証する。

Developing an integrated many-to-many framework leveraging multimodal data for multiple tasks is crucial to unifying healthcare applications ranging from diagnoses to operations. In resource-constrained hospital environments, a scalable and unified machine learning framework that improves previous forecast performances could improve hospital operations and save costs. We introduce M3H, an explainable Multimodal Multitask Machine Learning for Healthcare framework that consolidates learning from tabular, time-series, language, and vision data for supervised binary/multiclass classification, regression, and unsupervised clustering. It features a novel attention mechanism balancing self-exploitation (learning source-task), and cross-exploration (learning cross-tasks), and offers explainability through a proposed TIM score, shedding light on the dynamics of task learning interdependencies. M3H encompasses an unprecedented range of medical tasks and machine learning problem classes and consistently outperforms traditional single-task models by on average 11.6% across 40 disease diagnoses from 16 medical departments, three hospital operation forecasts, and one patient phenotyping task. The modular design of the framework ensures its generalizability in data processing, task definition, and rapid model prototyping, making it production ready for both clinical and operational healthcare settings, especially those in constrained environments.
翻訳日:2024-06-12 00:14:44 公開日:2024-06-08
# Splat-MOVER: 編集可能なガウススプレイティングによる多段オープンボキャブラリロボットマニピュレーション

Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting ( http://arxiv.org/abs/2405.04378v3 )

ライセンス: Link先を確認
Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy III, Mac Schwager, (参考訳) オープン語彙ロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERについて述べる。 Splat-MOVER は以下の通りである。 (i)ASK-Splatは、3Dシーンに意味を蒸留し、手頃な特徴を把握できるGSplat表現である。 ASK-Splatは、多くのロボット作業において重要な3Dシーンの幾何学的、意味的、そして余分な理解を可能にする。 (II)SEE-Splatは3次元セマンティックマスクと埋め込んだリアルタイムシーン編集モジュールで、現実世界におけるロボットの相互作用によって生じる物体の動きを可視化する。 SEE-Splatは、操作タスク全体を通して進化する環境の「デジタルツイン」を生成します。 3)ASK-SplatとSEE-Splatを併用したグリップ生成モジュールであるGrasp-Splatは、オープンワールドオブジェクトに対して、アベイランス対応の候補グリップを提案する。 ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。 本研究では,Kinovaロボットのハードウェア実験におけるSplat-MOVERの性能を,既存のベースラインでは不可能な1段のオープン語彙操作タスクと4段のマルチステージ操作タスクの2つのベースラインと比較した。 プロジェクトのページはhttps://splatmover.github.ioで公開されている。

We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representations to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) ASK-Splat, a GSplat representation that distills semantic and grasp affordance features into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical in many robotics tasks; (ii) SEE-Splat, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) Grasp-Splat, a grasp generation module that uses ASK-Splat and SEE-Splat to propose affordance-aligned candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp-Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks and in four multi-stage manipulation tasks, using the edited scene to reflect changes due to prior manipulation stages, which is not possible with existing baselines. The project page is available at https://splatmover.github.io, and the code for the project will be made available after review.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-08
# 量子回路アンサッツ:量子アルゴリズム設計アルゴリズム設計の抽象化と再利用のパターン

Quantum Circuit Ansatz: Patterns of Abstraction and Reuse of Quantum Algorithm Designum Algorithm Design ( http://arxiv.org/abs/2405.05021v2 )

ライセンス: Link先を確認
Xiaoyu Guo, Takahiro Muta, Jianjun Zhao, (参考訳) 量子コンピューティングは、複雑な問題に効率的に対処することで、様々な分野に革命をもたらす可能性を秘めている。 中心となるのは量子回路であり、量子状態を操作する量子ゲートの列である。 初期回路構造を定義し,最適化手法の基礎となる右量子回路アンサッツの選択は,量子アルゴリズム設計において重要であり,量子アルゴリズムの設計と実装を支援するために,量子回路アンサゼの分類されたカタログを提示する。 各アンザッツは、意図、モチベーション、適用性、回路図、実装、例などの詳細とともに記述される。 このカタログは、異なるアンサーゼの強度と制限に関する洞察を提供することで、量子アルゴリズム設計者を支援することを目的としている。

Quantum computing holds the potential to revolutionize various fields by efficiently tackling complex problems. At its core are quantum circuits, sequences of quantum gates manipulating quantum states. The selection of the right quantum circuit ansatz, which defines initial circuit structures and serves as the basis for optimization techniques, is crucial in quantum algorithm design.This paper presents a categorized catalog of quantum circuit ansatzes aimed at supporting quantum algorithm design and implementation. Each ansatz is described with details such as intent, motivation, applicability, circuit diagram, implementation, example, and see also. Practical examples are provided to illustrate their application in quantum algorithm design.The catalog aims to assist quantum algorithm designers by offering insights into the strengths and limitations of different ansatzes, thereby facilitating decision-making for specific tasks.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-08
# 物理強化機械学習--動的システム研究のためのポジションペーパー

Physics-Enhanced Machine Learning: a position paper for dynamical systems investigations ( http://arxiv.org/abs/2405.05987v2 )

ライセンス: Link先を確認
Alice Cicirello, (参考訳) 本稿では、物理強化機械学習(PEML)(Scientific Machine Learningとしても知られる)を概観し、動的システムの課題に取り組むために開発されたPEML戦略に特に焦点をあてる。 機械学習(ML)戦略を超える必要性は次のとおりである。 (i)情報量の制限。 (二 正確な反りの予測を避けること。) 三 不確実性を扱うこと。 (iv)説明可能な解釈可能な推論を提供する。 PEMLの一般的な定義は、4つの物理とドメイン知識バイアスを考慮し、PEMLアプローチの3つの幅広いグループについて論じる: 物理誘導、物理符号化、物理インフォーム。 複雑な力学系を含む工学アプリケーションにおいて, PEML 戦略の利点と課題について述べる。

This position paper takes a broad look at Physics-Enhanced Machine Learning (PEML) -- also known as Scientific Machine Learning -- with particular focus to those PEML strategies developed to tackle dynamical systems' challenges. The need to go beyond Machine Learning (ML) strategies is driven by: (i) limited volume of informative data, (ii) avoiding accurate-but-wrong predictions; (iii) dealing with uncertainties; (iv) providing Explainable and Interpretable inferences. A general definition of PEML is provided by considering four physics and domain knowledge biases, and three broad groups of PEML approaches are discussed: physics-guided, physics-encoded and physics-informed. The advantages and challenges in developing PEML strategies for guiding high-consequence decision making in engineering applications involving complex dynamical systems, are presented.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-08
# DARA: 視覚的グラウンド化のためのパラメータ効率調整のためのドメインおよびリレーショナルアウェアアダプタ

DARA: Domain- and Relation-aware Adapters Make Parameter-efficient Tuning for Visual Grounding ( http://arxiv.org/abs/2405.06217v2 )

ライセンス: Link先を確認
Ting Liu, Xuyang Liu, Siteng Huang, Honggang Chen, Quanjun Yin, Long Qin, Donglin Wang, Yue Hu, (参考訳) ビジュアルグラウンドディング(VG)は、画像中のオブジェクトをテキスト記述に基づいてローカライズする難しいタスクである。 近年のVGモデルの大規模化により性能は大幅に向上したが、微調整時の計算コストに大きな負担がかかった。 本稿では,事前学習した視覚言語知識をVGに効率よく伝達するために,パラメータ効率変換学習(PETL)を適用することを検討する。 具体的には、VG 用 \underline{\textbf{D}}omain-aware \underline{\textbf{A}}dapters (DA Adapters) と \underline{\textbf{R}}elation-aware \underline{\textbf{A}}dapters (RA Adapters) からなる新しいPETL法である \textbf{DARA} を提案する。 DAアダプタは最初にモダリティ内表現を転送し、VGドメインをよりきめ細かいものにする。 次に、RAアダプタは2つのモード間の関係をブリッジするために重みを共有し、空間的推論を改善する。 広範に使用されているベンチマーク実験の結果、DARAは完全微調整や他のPETL法と比較して、多数の更新パラメータを節約しながら、最高の精度を達成していることが示された。 特に、変更可能なバックボーンパラメータのみにより、DARAはベースラインモデルと比較して3つのベンチマークで平均精度を向上させる。 私たちのコードは \url{https://github.com/liuting20/DARA} で利用可能です。

Visual grounding (VG) is a challenging task to localize an object in an image based on a textual description. Recent surge in the scale of VG models has substantially improved performance, but also introduced a significant burden on computational costs during fine-tuning. In this paper, we explore applying parameter-efficient transfer learning (PETL) to efficiently transfer the pre-trained vision-language knowledge to VG. Specifically, we propose \textbf{DARA}, a novel PETL method comprising \underline{\textbf{D}}omain-aware \underline{\textbf{A}}dapters (DA Adapters) and \underline{\textbf{R}}elation-aware \underline{\textbf{A}}dapters (RA Adapters) for VG. DA Adapters first transfer intra-modality representations to be more fine-grained for the VG domain. Then RA Adapters share weights to bridge the relation between two modalities, improving spatial reasoning. Empirical results on widely-used benchmarks demonstrate that DARA achieves the best accuracy while saving numerous updated parameters compared to the full fine-tuning and other PETL methods. Notably, with only \textbf{2.13\%} tunable backbone parameters, DARA improves average accuracy by \textbf{0.81\%} across the three benchmarks compared to the baseline model. Our code is available at \url{https://github.com/liuting20/DARA}.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-08
# 古典的作用を伴うシュレーディンガー方程式の解法について

On solving Schroedinger's equation with classical action ( http://arxiv.org/abs/2405.06328v2 )

ライセンス: Link先を確認
Winfried Lohmiller, Jean-Jacques Slotine, (参考訳) 量子物理学のシュレーディンガー方程式は古典的ハミルトン・ヤコビ作用力学を用いて解くことができ、ファインマンの重要な結果を二次ラグランジアンにのみ適用できることが示される。 これは2つの発展によって実現される。 1つ目は、古典的最小作用問題に直接幾何学的制約を組み込むことであり、この制約された問題の解の非一様性によって確率的設定を部分的に置き換えることである。 例えば、二重スリット実験や箱内の粒子の場合、空間的不等式制約によってディラックの制約力が生成され、複数の経路解が導かれる。 第2の展開は時計の空間的再スケーリングであり、特にシュレーディンガー表現とハミルトン・ヤコビ表現の一般同値性を達成するために設計された。 これらの発展は、関連するファインマン経路積分の結果をそのまま残すが、古典的作用のみを使用し、時間スライシングを完全に回避するため、計算を大幅に単純化することができる。 彼らはまた、スケールにわたる物理学間のスムーズな遷移を示唆している。

We show that the Schroedinger equation of quantum physics can be solved using the classical Hamilton-Jacobi action dynamics, extending a key result of Feynman applicable only to quadratic Lagrangians. This is made possible by two developments. The first is incorporating geometric constraints directly in the classical least action problem, in effect replacing in part the probabilistic setting by the non-uniqueness of solutions of the constrained problem. For instance, in the double slit experiment or for a particle in a box, spatial inequality constraints create Dirac constraint forces, which lead to multiple path solutions. The second development is a spatial rescaling of clocks, specifically designed to achieve a general equivalence between Schroedinger and Hamilton-Jacobi representations. These developments leave the results of associated Feynman path integrals unchanged, but the computation can be greatly simplified as only classical action is used and time-slicing is avoided altogether. They also suggest a smooth transition between physics across scales.
翻訳日:2024-06-12 00:04:39 公開日:2024-06-08
# CLASSP:適応抑制とスパーシティ推進による継続的学習への生物学的に着想を得たアプローチ

CLASSP: a Biologically-Inspired Approach to Continual Learning through Adjustment Suppression and Sparsity Promotion ( http://arxiv.org/abs/2405.09637v2 )

ライセンス: Link先を確認
Oswaldo Ludwig, (参考訳) 本稿では,適応抑制・スパシリティ促進(CLASSP)による継続的学習(Continuous Learning)という,生物学的に着想を得た新たなトレーニング手法を提案する。 CLASSPは神経科学、特にシナプス伝達とLong-Term Potentiation(LTP)の文脈で観察される2つの主要な原理に基づいている。 第1の原理は、AdaGrad最適化アルゴリズムの一般化として実装された重量調整の減衰率である。 つまり、多くのアップデートを受けたウェイトは、以前見たデータに関する重要な情報をエンコードしている可能性が高いため、学習率を下げるべきである。 しかし、この原則は、これまで更新されていない重みの更新を促進するため、モデル全体の更新の拡散分布をもたらす。 したがって、第二原理は損失勾配のしきい値を導入する。 これにより、その重量に対する損失勾配が一定の閾値を超えている場合、すなわち、現在の損失に大きな影響を及ぼす重量のみを更新する場合のみ、重量を更新することでスパース学習を促進する。 どちらの原理もLTPで観測された現象を反映しており、閾値効果と徐々に増強の飽和が観察されている。 CLASSPはPython/PyTorchクラスで実装されており、任意のモデルに適用できる。 Computer Visionと感情分析データセットを使用したElastic Weight Consolidation (EWC)と比較すると、CLASSPは精度とメモリフットプリントの点で優れたパフォーマンスを示している。

This paper introduces a new biologically-inspired training method named Continual Learning through Adjustment Suppression and Sparsity Promotion (CLASSP). CLASSP is based on two main principles observed in neuroscience, particularly in the context of synaptic transmission and Long-Term Potentiation (LTP). The first principle is a decay rate over the weight adjustment, which is implemented as a generalization of the AdaGrad optimization algorithm. This means that weights that have received many updates should have lower learning rates as they likely encode important information about previously seen data. However, this principle results in a diffuse distribution of updates throughout the model, as it promotes updates for weights that haven't been previously updated, while a sparse update distribution is preferred to leave weights unassigned for future tasks. Therefore, the second principle introduces a threshold on the loss gradient. This promotes sparse learning by updating a weight only if the loss gradient with respect to that weight is above a certain threshold, i.e. only updating weights with a significant impact on the current loss. Both principles reflect phenomena observed in LTP, where a threshold effect and a gradual saturation of potentiation have been observed. CLASSP is implemented in a Python/PyTorch class, making it applicable to any model. When compared with Elastic Weight Consolidation (EWC) using Computer Vision and sentiment analysis datasets, CLASSP demonstrates superior performance in terms of accuracy and memory footprint.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-08
# 雑音性Werner-Holevoチャネルの2パラメータファミリーの容量

Capacities of a two-parameter family of noisy Werner-Holevo channels ( http://arxiv.org/abs/2405.11216v2 )

ライセンス: Link先を確認
Shayan Roofeh, Vahid Karimipour, (参考訳) d=2j+1$次元において、ランダウ・サトラー量子チャネルは、$su(2)$代数のスピン$j$表現に基づいて定義される。 j=1$ に対してのみ、このチャネルはヴェルナー・ホレヴォチャネルと等価であり、群 $SU(3)$ に関して共分散性を楽しむ。 我々はこのチャネルのクラスを、リー代数 $so(d)$ と $su(d)$ に基づく方法で高次元に拡張する。 結果として、任意の次元のヴェルナー・ホレヴォチャネルと等価性を維持する。 結果として得られるチャネルは、ユニタリ群 $SU(d)$ に関して共変である。 次に、このチャンネルをquditsのノイズの多いチャネルとして機能するように修正します。 その結果、修正されたチャネルは恒等チャネルとヴェルナー・ホレヴォチャネルの間を補間し、その共分散は直交行列の部分群$SO(d)$に還元される。 次に,各チャネルのスペクトル,可分性の欠如領域,ホレボ量,絡み込み支援容量,補チャネルの閉形式,量子容量の低界化など,結果として生じる2パラメータ系の性質について検討する。

In $d=2j+1$ dimensions, the Landau-Streater quantum channel is defined on the basis of spin $j$ representation of the $su(2)$ algebra. Only for $j=1$, this channel is equivalent to the Werner-Holevo channel and enjoys covariance properties with respect to the group $SU(3)$. We extend this class of channels to higher dimensions in a way which is based on the Lie algebra $so(d)$ and $su(d)$. As a result it retains its equivalence to the Werner-Holevo channel in arbitrary dimensions. The resulting channel is covariant with respect to the unitary group $SU(d)$. We then modify this channel in a way which can act as a noisy channel on qudits. The resulting modified channel now interpolates between the identity channel and the Werner-Holevo channel and its covariance is reduced to the subgroup of orthogonal matrices $SO(d)$. We then investigate some of the propeties of the resulting two-parameter family of channels, including their spectrum, their regions of lack of indivisibility, their Holevo quantity, entanglement-assisted capacity and the closed form of their complement channel and a possible lower bound for their quantum capacity.
翻訳日:2024-06-11 23:54:54 公開日:2024-06-08
# 顔認識システムの脆弱性を再考する:実践的視点から

Rethinking the Vulnerabilities of Face Recognition Systems:From a Practical Perspective ( http://arxiv.org/abs/2405.12786v3 )

ライセンス: Link先を確認
Jiahao Chen, Zhiqiang Shen, Yuwen Pu, Chunyi Zhou, Changjiang Li, Jiliang Li, Ting Wang, Shouling Ji, (参考訳) 顔認識システム(FRS)は、監視やユーザ認証を含む重要なアプリケーションに統合され、現代のセキュリティシステムにおける彼らの重要な役割を強調している。 最近の研究では、FRSの脆弱性(例えば、敵パッチ攻撃)やバックドア攻撃(例えば、データ中毒の訓練など)が明らかにされており、信頼性と信頼性に関する重大な懸念が提起されている。 従来の研究は主に伝統的な敵対的攻撃やバックドア攻撃に焦点をあてており、そのような脅威の資源集約的あるいは特権的支配的な性質を見越して、その実践的な一般化、盗み、普遍性、堅牢さを制限していた。 本論文では,ユーザ研究と予備調査を通じて,FRSの固有の脆弱性を掘り下げる。 これらの脆弱性を悪用することで、FIBAと呼ばれる顔認証バックドア攻撃という新たな攻撃を特定できる。 FIBAは従来の攻撃の限界を回避し、攻撃者が特定のトリガーを寄付してシステムをバイパスすることで広範囲の破壊を可能にする。 これは、データベースに1つの有毒な例が挿入された後、対応するトリガーが攻撃者がFRSを偽造するための普遍的なキーとなることを意味する。 この戦略は基本的に、入学段階で開始することで従来の攻撃に挑戦し、トレーニングデータではなく、特徴データベースを汚染することで脅威の景観を劇的に変える。

Face Recognition Systems (FRS) have increasingly integrated into critical applications, including surveillance and user authentication, highlighting their pivotal role in modern security systems. Recent studies have revealed vulnerabilities in FRS to adversarial (e.g., adversarial patch attacks) and backdoor attacks (e.g., training data poisoning), raising significant concerns about their reliability and trustworthiness. Previous studies primarily focus on traditional adversarial or backdoor attacks, overlooking the resource-intensive or privileged-manipulation nature of such threats, thus limiting their practical generalization, stealthiness, universality and robustness. Correspondingly, in this paper, we delve into the inherent vulnerabilities in FRS through user studies and preliminary explorations. By exploiting these vulnerabilities, we identify a novel attack, facial identity backdoor attack dubbed FIBA, which unveils a potentially more devastating threat against FRS:an enrollment-stage backdoor attack. FIBA circumvents the limitations of traditional attacks, enabling broad-scale disruption by allowing any attacker donning a specific trigger to bypass these systems. This implies that after a single, poisoned example is inserted into the database, the corresponding trigger becomes a universal key for any attackers to spoof the FRS. This strategy essentially challenges the conventional attacks by initiating at the enrollment stage, dramatically transforming the threat landscape by poisoning the feature database rather than the training data.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-08
# 緊急応答器配置のための階層的コーディネーションを用いたマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Hierarchical Coordination for Emergency Responder Stationing ( http://arxiv.org/abs/2405.13205v2 )

ライセンス: Link先を確認
Amutheezan Sivagnanam, Ava Pettet, Hunter Lee, Ayan Mukhopadhyay, Abhishek Dubey, Aron Laszka, (参考訳) 救急隊員管理システム(ERM)は救急隊員などの救急隊員を医療援助の要請に応じて派遣する。 ERMシステムはまた、事前に指定された待機場所間で応答器を積極的に再配置することで、応答器の事前配布や、期待される要求の配布の大幅な変更によって生じるギャップをカバーできる。 最適な再配置は、ロケーション間で応答器を割り当てる指数関数的な数と、将来の要求の不確実性のため、計算的に困難である。 積極的再配置における最先端のアプローチは、空間分解とオンラインモンテカルロ木探索に基づく階層的なアプローチであり、秒が命を救うことができる領域における各決定に数分の計算を必要とする可能性がある。 同じ階層的な分解に基づく新しい強化学習(RL)アプローチを導入し、オンライン検索を学習に置き換えることで、長い意思決定時間の問題に対処する。 本研究では,(1)変圧器を組み込んだ可変次元状態と動作を扱うアクタ批判型エージェント,(2)複雑な状態を扱うための固定次元観測への投射,(3)連続的な動作を離散的な割り当てにマッピングするための組合せ的手法を提案する。 我々は、ナッシュビル、TN、シアトルの2つの都市から得られた実世界のデータを用いて、我々のアプローチを評価した。 提案手法は, 最先端技術と比較して, 決定毎の計算時間を3桁程度削減し, 平均救急応答時間を5秒程度短縮する。

An emergency responder management (ERM) system dispatches responders, such as ambulances, when it receives requests for medical aid. ERM systems can also proactively reposition responders between predesignated waiting locations to cover any gaps that arise due to the prior dispatch of responders or significant changes in the distribution of anticipated requests. Optimal repositioning is computationally challenging due to the exponential number of ways to allocate responders between locations and the uncertainty in future requests. The state-of-the-art approach in proactive repositioning is a hierarchical approach based on spatial decomposition and online Monte Carlo tree search, which may require minutes of computation for each decision in a domain where seconds can save lives. We address the issue of long decision times by introducing a novel reinforcement learning (RL) approach, based on the same hierarchical decomposition, but replacing online search with learning. To address the computational challenges posed by large, variable-dimensional, and discrete state and action spaces, we propose: (1) actor-critic based agents that incorporate transformers to handle variable-dimensional states and actions, (2) projections to fixed-dimensional observations to handle complex states, and (3) combinatorial techniques to map continuous actions to discrete allocations. We evaluate our approach using real-world data from two U.S. cities, Nashville, TN and Seattle, WA. Our experiments show that compared to the state of the art, our approach reduces computation time per decision by three orders of magnitude, while also slightly reducing average ambulance response time by 5 seconds.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-08
# JointRF: Dynamic Neural Radiance Field Representation and Compressionのためのエンドツーエンド共同最適化

JointRF: End-to-End Joint Optimization for Dynamic Neural Radiance Field Representation and Compression ( http://arxiv.org/abs/2405.14452v2 )

ライセンス: Link先を確認
Zihan Zheng, Houqiang Zhong, Qiang Hu, Xiaoyun Zhang, Li Song, Ya Zhang, Yanfeng Wang, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、フォトリアリスティックな静的なシーンに優れており、ボリュームビデオの促進に多くの取り組みを刺激している。 しかし、ボリュームビデオの表現に要する重要なデータのために、動的および長時間のレイディアンスフィールドのレンダリングは依然として困難である。 本論文では, 動的NeRF表現と圧縮を両立させる新しいエンドツーエンドのジョイント最適化手法であるJointRFを提案し, 従来手法と比較して, 品質と圧縮効率を著しく向上させる。 特に、JointRFは、動的NeRFを表すために、コンパクトな残留特徴格子と係数特徴格子を用いる。 この表現は、時間的冗長性を同時に減少させながら、品質を損なうことなく大きな動きを処理する。 また、空間的時間的冗長性をさらに低減するために、逐次的特徴圧縮サブネットワークを導入する。 最後に、表現と圧縮のサブネットは、JointRF内でエンドツーエンドにトレーニングされている。 大規模な実験により、JointRFは様々なデータセットにわたって優れた圧縮性能を達成できることが示された。

Neural Radiance Field (NeRF) excels in photo-realistically static scenes, inspiring numerous efforts to facilitate volumetric videos. However, rendering dynamic and long-sequence radiance fields remains challenging due to the significant data required to represent volumetric videos. In this paper, we propose a novel end-to-end joint optimization scheme of dynamic NeRF representation and compression, called JointRF, thus achieving significantly improved quality and compression efficiency against the previous methods. Specifically, JointRF employs a compact residual feature grid and a coefficient feature grid to represent the dynamic NeRF. This representation handles large motions without compromising quality while concurrently diminishing temporal redundancy. We also introduce a sequential feature compression subnetwork to further reduce spatial-temporal redundancy. Finally, the representation and compression subnetworks are end-to-end trained combined within the JointRF. Extensive experiments demonstrate that JointRF can achieve superior compression performance across various datasets.
翻訳日:2024-06-11 23:45:08 公開日:2024-06-08
# SMR:ロングシーケンスモデリングのためのステートメモリリプレイ

SMR: State Memory Replay for Long Sequence Modeling ( http://arxiv.org/abs/2405.17534v2 )

ライセンス: Link先を確認
Biqing Qi, Junqi Gao, Kaiyan Zhang, Dong Li, Jianxing Liu, Ligang Wu, Bowen Zhou, (参考訳) 長いシーケンスモデリングにおける状態空間モデル(SSM)の有望な性能にもかかわらず、制限は今も残っている。 S5やS6(Mamba)のような高度なSSMは、一様でないサンプリングに対処し、再帰的な構造は畳み込みによる効率的なSSM計算を妨げる。 本稿では,並列畳み込み計算における互換性の限界を克服するために,新しい非再帰的非一様サンプル処理戦略を提案する。 イベントトリガード制御(ETC)理論のレンズによるSSMの理論解析は、サンプリングポイント要求からの逸脱がエラーの伝達と蓄積を引き起こす非安定状態(NSS)問題を明らかにし、SSMの隠れ状態のばらつきを引き起こす。 さらに、初期記憶による入力シーケンスの調整により、サンプリングステップ適応(SSA)を達成し、NAS問題を緩和できることを明らかにした。 この知見に基づいて、学習可能な記憶を利用して、学習データとは異なるサンプリングポイントでの一般化のための多段階情報を用いて現在の状態を調整できる、シンプルで効果的なプラグアンドプレイ機構であるState Memory Replay(SMR)を導入する。 これにより、SSMは安定して様々なサンプリングポイントをモデル化できる。 自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。

Despite the promising performance of state space models (SSMs) in long sequence modeling, limitations still exist. Advanced SSMs like S5 and S6 (Mamba) in addressing non-uniform sampling, their recursive structures impede efficient SSM computation via convolution. To overcome compatibility limitations in parallel convolutional computation, this paper proposes a novel non-recursive non-uniform sample processing strategy. Theoretical analysis of SSMs through the lens of Event-Triggered Control (ETC) theory reveals the Non-Stable State (NSS) problem, where deviations from sampling point requirements lead to error transmission and accumulation, causing the divergence of the SSM's hidden state. Our analysis further reveals that adjustments of input sequences with early memories can mitigate the NSS problem, achieving Sampling Step Adaptation (SSA). Building on this insight, we introduce a simple yet effective plug-and-play mechanism, State Memory Replay (SMR), which utilizes learnable memories to adjust the current state with multi-step information for generalization at sampling points different from those in the training data. This enables SSMs to stably model varying sampling points. Experiments on long-range modeling tasks in autoregressive language modeling and Long Range Arena demonstrate the general effectiveness of the SMR mechanism for a series of SSM models.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-08
# 安定状態と量子設計のためのウィグナーの理論

Wigner's Theorem for stabilizer states and quantum designs ( http://arxiv.org/abs/2405.17565v2 )

ライセンス: Link先を確認
Valentin Obst, Arne Heimendahl, Tanmay Singal, David Gross, (参考訳) 系の任意の数$n$および任意の素局所次元$d$に対する安定化器ポリトープの対称性群を記述する。 クォービットの場合、対称性群は線型および反線型クリフォード作用素と一致する。 クォーディットの場合、構造はよりリッチである:$n=1$の場合、基底の置換と各基底内の要素の置換のリース積である。 n>1$の場合、対称性はアフィンシンプレクティックシンプレクティックシンジエントによって与えられる。 これらのアフィン写像は、下層の離散位相空間のシンプレクティック形式を 0 でない乗数まで保存する。 これらの結果は、Kadison symmetries(凸結合に相反する対象)、Wigner symmetries(内部積を保存する対象)、Hilbert空間上の作用によって実現された対称性など、いくつかの先行的な「対称性」の概念に関して表現する。 安定化状態を超えて、ハインリッヒとグロス(英語版)(Ref. [25])の観測を拡張し、エルミート作用素のかなり一般的な集合の対称性がある種のモーメントによって制約されていることを示す。 特に、三次元デザインのように振る舞う集合の対称性はヨルダン積を保存し、従ってユニタリや反ユニタリとの共役によって実現される。 (ジョルダン代数の構造定数は位数3のテンソルに符号化され、設計の第3モーメントに接続する)。 これにより、カジソンの古典的なウィグナー定理の量子力学対称性の定式化が一般化される。

We describe the symmetry group of the stabilizer polytope for any number $n$ of systems and any prime local dimension $d$. In the qubit case, the symmetry group coincides with the linear and anti-linear Clifford operations. In the case of qudits, the structure is somewhat richer: for $n=1$, it is a wreath product of permutations of bases and permutations of the elements within each basis. For $n>1$, the symmetries are given by affine symplectic similitudes. These are the affine maps that preserve the symplectic form of the underlying discrete phase space up to a non-zero multiplier. We phrase these results with respect to a number of a priori different notions of "symmetry'', including Kadison symmetries (bijections that are compatible with convex combinations), Wigner symmetries (bijections that preserve inner products), and symmetries realized by an action on Hilbert space. Going beyond stabilizer states, we extend an observation of Heinrich and Gross (Ref. [25]) and show that the symmetries of fairly general sets of Hermitian operators are constrained by certain moments. In particular: the symmetries of a set that behaves like a 3-design preserve Jordan products and are therefore realized by conjugation with unitaries or anti-unitaries. (The structure constants of the Jordan algebra are encoded in an order-three tensor, which we connect to the third moments of a design). This generalizes Kadison's formulation of the classic Wigner Theorem on quantum mechanical symmetries.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-08
# 予測駆動型ブートストラップに関する一考察

A Note on the Prediction-Powered Bootstrap ( http://arxiv.org/abs/2405.18379v2 )

ライセンス: Link先を確認
Tijana Zrnic, (参考訳) 本稿では,ブートストラップに基づく予測型推論手法PPBootを紹介する。 PPBootは任意の推定問題に適用可能で、実装は非常に簡単で、ブートストラップの1つのアプリケーションのみを必要とする。 一連の例を通して、PPBoot は漸近的正規性$\unicode{x2013}$ が適用可能な場合、漸近的特徴付けを必要とせずに、しばしば初期の PPI(++) メソッドとほぼ同じ(時としてより優れている)ことを実証する。 その汎用性を考えると、PPBootは中心極限定理の証明が難しい問題への予測による推論の適用範囲を単純化し、拡張することができる。

We introduce PPBoot: a bootstrap-based method for prediction-powered inference. PPBoot is applicable to arbitrary estimation problems and is very simple to implement, essentially only requiring one application of the bootstrap. Through a series of examples, we demonstrate that PPBoot often performs nearly identically to (and sometimes better than) the earlier PPI(++) method based on asymptotic normality$\unicode{x2013}$when the latter is applicable$\unicode{x2013}$without requiring any asymptotic characterizations. Given its versatility, PPBoot could simplify and expand the scope of application of prediction-powered inference to problems where central limit theorems are hard to prove.
翻訳日:2024-06-11 23:35:23 公開日:2024-06-08
# 検索可能な大規模言語モデルのためのスケーラブルでプラガブルな仮想トークンの学習

One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2405.19670v3 )

ライセンス: Link先を確認
Yutao Zhu, Zhaoheng Huang, Zhicheng Dou, Ji-Rong Wen, (参考訳) Retrieval-augmented Generation (RAG)は、より現実的で正確で最新のコンテンツを生成するために、大規模言語モデル(LLM)を改善するための有望な方法である。 既存の手法は、取得した情報を活用するためにLSMを誘導するプロンプトを最適化するか、RAGシナリオに適応するために直接調整されたLSMを適応させるかのいずれかである。 微調整により性能は向上するが、パラメータを変更することでLCMのジェネラルジェネレーション能力を損なうことがしばしばある。 この制限は、特に LLM が既にデプロイされている場合、パラメータ調整が元の機能に影響を与える可能性があるため、実用上の問題を引き起こす。 そこで本研究では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。 LLMの本来のパラメータを維持し、これらのプラグ可能なトークンの埋め込みのみを微調整することで、我々のアプローチはLLMの性能を向上するだけでなく、一般的な生成能力も維持する。 さらに,本手法のスケーラビリティ,柔軟性,一般化性を向上させるために,いくつかのトレーニング戦略を設計する。 9つの質問応答タスクの総合的な実験は、我々のアプローチの優位性を示している。

Retrieval-augmented generation (RAG) is a promising way to improve large language models (LLMs) for generating more factual, accurate, and up-to-date content. Existing methods either optimize prompts to guide LLMs in leveraging retrieved information or directly fine-tune LLMs to adapt to RAG scenarios. Although fine-tuning can yield better performance, it often compromises the LLMs' general generation capabilities by modifying their parameters. This limitation poses challenges in practical applications, especially when LLMs are already deployed, as parameter adjustments may affect their original functionality. To address this, we propose a novel method that involves learning scalable and pluggable virtual tokens for RAG. By maintaining the LLMs' original parameters and fine-tuning only the embeddings of these pluggable tokens, our approach not only enhances LLMs' performance but also preserves their general generation capabilities. Furthermore, we design several training strategies to improve the scalability, flexibility, and generalizability of our method. Comprehensive experiments across nine question-answering tasks demonstrate the superiority of our approach.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-08
# マルチストラテジーフュージョンを用いた動的多目的ライオン群最適化:6Rロボット軌道計画への応用

Dynamic Multi-Objective Lion Swarm Optimization with Multi-strategy Fusion: An application in 6R robot trajectory planning ( http://arxiv.org/abs/2406.00114v2 )

ライセンス: Link先を確認
Bao Liu, Tianbao Liu, Zhongshuo Hu, Fei Ye, Lei Gao, (参考訳) 工業化の進展により、革新的なSwarmインテリジェンスアルゴリズムの開発が加速し、Lion Swarm Optimization (LSO)はその堅牢性、並列性、単純性、効率性で注目されている。 LSOは単目的最適化に優れているが、その多目的変種は、初期化の貧弱、局所的最適包摂などの課題に直面している。 本研究では,MF-DMOLSO (MF-DMOLSO) を用いた動的多目的ライオン群最適化手法を提案する。 MF-DMOLSOは初期化、Swarm位置更新、外部アーカイブ更新の3つの重要なコンポーネントから構成される。 初期化単位は、一様人口分布にカオスマッピングを用いる。 位置更新部は、群集度ソート、パレート非支配ソート、レヴィ飛行を取り入れて、カブライオンの行動パターンとステップサイズ公式を強化し、収束速度とグローバル検索能力を向上させる。 参照ポイントは、高次元空間における収束を導き、人口の多様性を維持する。 適応型コールドホットスタート戦略は、環境変化に応答する人口を生成する。 外部アーカイブ更新部は、非支配と多様性に基づくソリューションを再評価し、新しい人口を形成する。 評価の結果,MF-DMOLSOは多目的粒子群最適化,非支配的ソートアルゴリズムII,多目的ライオン群最適化を上回り,二目的粒子群では90%,三目的粒子群では97%を超えた。 MF-DMOLSOは非支配的選別遺伝的アルゴリズムIIIと比較して60%改善した。 6Rロボット軌道計画に適用すると,MF-DMOLSOは走行時間と最大加速度を8.3s,0.3pi rad/s^2に最適化した。

The advancement of industrialization has spurred the development of innovative swarm intelligence algorithms, with Lion Swarm Optimization (LSO) notable for its robustness, parallelism, simplicity, and efficiency. While LSO excels in single-objective optimization, its multi-objective variants face challenges such as poor initialization, local optima entrapment, and so on. This study proposes Dynamic Multi-Objective Lion Swarm Optimization with Multi-strategy Fusion (MF-DMOLSO) to address these limitations. MF-DMOLSO comprises three key components: initialization, swarm position update, and external archive update. The initialization unit employs chaotic mapping for uniform population distribution. The position update unit enhances behavior patterns and step size formulas for cub lions, incorporating crowding degree sorting, Pareto non-dominated sorting, and Levy flight to improve convergence speed and global search capabilities. Reference points guide convergence in higher-dimensional spaces, maintaining population diversity. An adaptive cold-hot start strategy generates a population responsive to environmental changes. The external archive update unit re-evaluates solutions based on non-domination and diversity to form the new population. Evaluations on benchmark functions showed MF-DMOLSO surpassed multi-objective particle swarm optimization, non-dominated sorting genetic algorithm II, and multi-objective lion swarm optimization, exceeding 90% accuracy for two-objective and 97% for three-objective problems. Compared to non-dominated sorting genetic algorithm III, MF-DMOLSO showed a 60% improvement. Applied to 6R robot trajectory planning, MF-DMOLSO optimized running time and maximum acceleration to 8.3s and 0.3pi rad/s^2, achieving a set coverage rate of 70.97% compared to 2% by multi-objective particle swarm optimization, thus improving efficiency and reducing mechanical dither.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-08
# オープン量子システムにおける散逸経路の定量化フレームワーク I. 理論的定式化

General Framework for Quantifying Dissipation Pathways in Open Quantum Systems. I. Theoretical Formulation ( http://arxiv.org/abs/2406.00266v2 )

ライセンス: Link先を確認
Chang Woo Kim, Ignacio Franco, (参考訳) オープン量子系力学におけるエネルギーの散逸について、汎用的で実用的な理論的枠組みを提案する。 これは、個々の浴室成分のシステム全体の消散への寄与を定量化する。 本手法は, 中島・Zwanzigプロジェクション・オペレーターの手法をベースとして, 演算子生成物のトレースを用いて, 特定の浴室自由度にエネルギー散逸率を表現できる。 このアプローチは全ての順序に対するシステム-バス相互作用を捉えるが、対角部分系のカップリングに関する二階摂動理論と、入浴のマルコフ的記述に基づいている。 本理論の有用性は, 高調波発振器やスピン浴を含むオープン量子系の様々なモデルに適用し, 局所結合型高調波浴 (J. Chem. Phys. 154, 084109 (2021)) で導かれた式など, 既存の結果と結合することによって実証される。 また、我々の理論によって計算された散逸は、エネルギー保存や詳細なバランスといった熱力学の原理を厳格に満たしていることを示す。 全体として、この戦略は開量子系の力学を解釈・工学するために散逸経路の理論とシミュレーションを開発するのに利用できる。

We present a general and practical theoretical framework to investigate how energy is dissipated in open quantum system dynamics. This is done by quantifying the contributions of individual bath components to the overall dissipation of the system. The framework is based on the Nakajima-Zwanzig projection operator technique which allows us to express the rate of energy dissipation into a specific bath degree of freedom by using traces of operator products. The approach captures system-bath interactions to all orders, but is based on second-order perturbation theory on the off-diagonal subsystem's couplings and a Markovian description of the bath. The usefulness of our theory is demonstrated by applying it to various models of open quantum systems involving harmonic oscillator or spin baths, and connecting the outcomes to existing results such as our previously reported formula derived for locally coupled harmonic bath [J. Chem. Phys. 154, 084109 (2021)]. We also prove that the dissipation calculated by our theory rigorously satisfies thermodynamic principles such as energy conservation and detailed balance. Overall, the strategy can be used to develop the theory and simulation of dissipation pathways to interpret and engineer the dynamics of open quantum systems.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-08
# 開放量子系における散逸経路の定量化のための一般フレームワーク II. 数値検証と非マルコビアン性の役割

General Framework for Quantifying Dissipation Pathways in Open Quantum Systems. II. Numerical Validation and the Role of Non-Markovianity ( http://arxiv.org/abs/2406.00267v2 )

ライセンス: Link先を確認
Chang Woo Kim, Ignacio Franco, (参考訳) 前回の論文 (C. W. Kim and I. Franco, J. Chem. Phys. 160, 214111 (2024)] において、我々は MQME-D という理論を開発した。 本稿では,階層型運動方程式(HEOM)と最近報告された浴槽の統計モニタリングプロトコルを組み合わせることで得られる数値的精度とMQME-Dの予測を対比する。 全体として、MQME-D は、HEOM を用いた正確な計算に比べて計算コストを大幅に削減しつつ、特定の浴室成分の全体散布への寄与を正確に捉えている。 計算の結果,MQME-Dはマルコフ近似に起因した誤差を示すことがわかった。 浴槽の異なる成分に時間スケール分離(TSS)を利用することにより,非マルコビアン性を導入することにより,その精度を著しく向上できることを実証した。 我々の研究は、MQME-DとTSSを組み合わせることで、現実的なオープン量子系の力学において、エネルギーがどのように散逸するかを確実に理解できることを示した。

In the previous paper [C. W. Kim and I. Franco, J. Chem. Phys. 160, 214111 (2024)], we developed a theory called MQME-D, which allows us to decompose the overall energy dissipation process in open quantum system dynamics into contributions by individual components of the bath when the subsystem dynamics is governed by a Markovian quantum master equation (MQME). Here, we contrast the predictions of MQME-D against the numerically exact results obtained by combining hierarchical equations of motion (HEOM) with a recently reported protocol for monitoring the statistics of the bath. Overall, MQME-D accurately captures the contributions of specific bath components to the overall dissipation while greatly reducing the computational cost as compared to exact computations using HEOM. The computations show that MQME-D exhibits errors originating from its inherent Markov approximation. We demonstrate that its accuracy can be significantly increased by incorporating non-Markovianity by exploiting time scale separations (TSS) in different components of the bath. Our work demonstrates that MQME-D combined with TSS can be reliably used to understanding how energy is dissipated in realistic open quantum system dynamics.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-08
# グラフニューラルネットワークトレーニングシステム:フルグラフとミニバッチの性能比較

Graph Neural Network Training Systems: A Performance Comparison of Full-Graph and Mini-Batch ( http://arxiv.org/abs/2406.00552v2 )

ライセンス: Link先を確認
Saurabh Bajaj, Hui Guan, Marco Serafini, (参考訳) グラフニューラルネットワーク(GNN)は,近年,グラフ構造化データの表現を学習する能力から注目されている。 GNNのトレーニングには、ミニバッチトレーニングとフルグラフトレーニングの2つの一般的な方法がある。 これらの2つの手法は異なる訓練パイプラインとシステム最適化を必要とするため、GNN訓練システムの2つの異なるカテゴリが出現し、それぞれが1つの方法に適している。 特定のカテゴリに属するシステムを紹介する作品は、主に同じカテゴリに属する他のシステムと比較し、他のカテゴリに属するシステムと限定的または全く比較しない。 いくつかの先行研究は、ある特定のトレーニング方法に焦点をあてることも正当化している。 しかし、この文献には不完全かつ矛盾した証拠がある。 本稿では,全グラフとミニバッチGNNトレーニングシステムの総合的な比較実験を行い,現場における最先端技術のより明確な画像を得る。 ミニバッチトレーニングシステムは、複数のデータセット、GNNモデル、システム構成にまたがるフルグラフトレーニングシステムよりも一貫して収束し、2.4倍から15.2倍のスピードアップを実現している。 また、両方のトレーニング手法が類似の精度値に収束していることがわかり、時間から精度の点で2つのカテゴリのシステムを比較することは健全なアプローチである。

Graph Neural Networks (GNNs) have gained significant attention in recent years due to their ability to learn representations of graph structured data. Two common methods for training GNNs are mini-batch training and full-graph training. Since these two methods require different training pipelines and systems optimizations, two separate categories of GNN training systems emerged, each tailored for one method. Works that introduce systems belonging to a particular category predominantly compare them with other systems within the same category, offering limited or no comparison with systems from the other category. Some prior work also justifies its focus on one specific training method by arguing that it achieves higher accuracy than the alternative. The literature, however, has incomplete and contradictory evidence in this regard. In this paper, we provide a comprehensive empirical comparison of full-graph and mini-batch GNN training systems to get a clearer picture of the state of the art in the field. We find that the mini-batch training systems we consider consistently converge faster than the full-graph training ones across multiple datasets, GNN models, and system configurations, with speedups between 2.4x - 15.2x. We also find that both training techniques converge to similar accuracy values, so comparing systems across the two categories in terms of time-to-accuracy is a sound approach.
翻訳日:2024-06-11 23:25:32 公開日:2024-06-08
# 拡散目標生成のための共分散適応シーケンスブラックボックス最適化

Covariance-Adaptive Sequential Black-box Optimization for Diffusion Targeted Generation ( http://arxiv.org/abs/2406.00812v2 )

ライセンス: Link先を確認
Yueming Lyu, Kim Yong Tan, Yew Soon Ong, Ivor W. Tsang, (参考訳) 拡散モデルは、画像、自然言語、タンパク質ドメインなどの高品質なコンテンツを生成する大きな可能性を示している。 しかし,ブラックボックスのターゲットスコアしか持たない拡散モデルを用いて,ユーザ優先のターゲット生成を行う方法はまだ困難である。 この問題に対処するため,我々はまず,事前学習した拡散モデルに付随する目標予備時間確率微分方程式(SDE)の微調整を逐次ブラックボックス最適化問題として定式化する。 さらに、未知の遷移ダイナミクスの下で累積的なブラックボックススコアを最適化する新しい共分散適応逐次最適化アルゴリズムを提案する。 理論的には、滑らかで強凸な仮定を伴わない累積凸函数に対する$O(\frac{d^2}{\sqrt{T}})$収束率を証明する。 実験的に,数値実験問題と目標誘導3次元分子生成タスクの両方に関する実験は,より優れた目標値を得る上で,本手法の優れた性能を示す。

Diffusion models have demonstrated great potential in generating high-quality content for images, natural language, protein domains, etc. However, how to perform user-preferred targeted generation via diffusion models with only black-box target scores of users remains challenging. To address this issue, we first formulate the fine-tuning of the targeted reserve-time stochastic differential equation (SDE) associated with a pre-trained diffusion model as a sequential black-box optimization problem. Furthermore, we propose a novel covariance-adaptive sequential optimization algorithm to optimize cumulative black-box scores under unknown transition dynamics. Theoretically, we prove a $O(\frac{d^2}{\sqrt{T}})$ convergence rate for cumulative convex functions without smooth and strongly convex assumptions. Empirically, experiments on both numerical test problems and target-guided 3D-molecule generation tasks show the superior performance of our method in achieving better target scores.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-08
# ビデオテキスト検索のためのCLIP4Clipにおける励起・凝集設計適応に関する実証的研究

An Empirical Study of Excitation and Aggregation Design Adaptions in CLIP4Clip for Video-Text Retrieval ( http://arxiv.org/abs/2406.01604v2 )

ライセンス: Link先を確認
Xiaolun Jing, Genke Yang, Jian Chu, (参考訳) CLIPから移行したCLIP4Clipモデルは、フレームレベルの入力からビデオクリップ検索タスクを解決するためのデファクタ標準であり、ビデオテキスト検索ドメインにおけるCLIP4Clipベースのモデルの急増を引き起こしている。 本研究では,フレーム特徴集合における有意な平均プール動作の制限について再考し,識別ビデオ表現生成のための励起・集約設計の適用について検討する。 本稿では,(1)フレーム特徴間の非相互排他的関係を捕捉し,フレームワイド特徴の再分類を実現するための励起モジュールと,(2)フレーム表現集約に使用される排他性を学習するためにアグリゲーションモジュールを適用することを含む,新しい励起・集約設計を提案する。 同様に、シーケンシャルなモジュールとアグリゲーションの設計のカスケードを用いて、シーケンシャルなビデオ表現を生成する。 さらに,マルチモーダルインタラクションのための代表的なフレーム特徴を得るために,タイトな型での励起設計を採用する。 MSR-VTT、ActivityNet、DiDeMoの3つのベンチマークデータセットで評価を行い、MSR-VTT (43.9 R@1)、ActivityNet (44.1 R@1)、DiDeMo (31.0 R@1)を達成した。 CLIP4Clipの結果は+1.2%(+0.5%)、+4.5%(+1.9%)、+9.5%(+2.7%)の相対的(絶対的)改善に優れており、提案した励起および凝集設計の優位性を示している。 私たちの研究がフレーム表現アグリゲーションの代替として機能し、将来の研究を促進することを願っています。

CLIP4Clip model transferred from the CLIP has been the de-factor standard to solve the video clip retrieval task from frame-level input, triggering the surge of CLIP4Clip-based models in the video-text retrieval domain. In this work, we rethink the inherent limitation of widely-used mean pooling operation in the frame features aggregation and investigate the adaptions of excitation and aggregation design for discriminative video representation generation. We present a novel excitationand-aggregation design, including (1) The excitation module is available for capturing non-mutuallyexclusive relationships among frame features and achieving frame-wise features recalibration, and (2) The aggregation module is applied to learn exclusiveness used for frame representations aggregation. Similarly, we employ the cascade of sequential module and aggregation design to generate discriminative video representation in the sequential type. Besides, we adopt the excitation design in the tight type to obtain representative frame features for multi-modal interaction. The proposed modules are evaluated on three benchmark datasets of MSR-VTT, ActivityNet and DiDeMo, achieving MSR-VTT (43.9 R@1), ActivityNet (44.1 R@1) and DiDeMo (31.0 R@1). They outperform the CLIP4Clip results by +1.2% (+0.5%), +4.5% (+1.9%) and +9.5% (+2.7%) relative (absolute) improvements, demonstrating the superiority of our proposed excitation and aggregation designs. We hope our work will serve as an alternative for frame representations aggregation and facilitate future research.
翻訳日:2024-06-11 23:15:47 公開日:2024-06-08
# 効率性を超えて: 持続可能なAIのスケーリング

Beyond Efficiency: Scaling AI Sustainably ( http://arxiv.org/abs/2406.05303v1 )

ライセンス: Link先を確認
Carole-Jean Wu, Bilge Acun, Ramya Raghavendra, Kim Hazelwood, (参考訳) バローゾのエネルギーに比例した倉庫規模のコンピューティングへの献身的な貢献は、現代のデータセンターがこれまで以上にエネルギー効率とコスト効率を高めてきた時代を幕開けた。 同時に、現代のAIアプリケーションは、ディープラーニングモデル開発サイクル全体にわたって効率を最適化することの重要性を強調しながら、コンピューティングにおける需要を継続的に増加させてきた。 本稿では、トレーニングと推論からの運転中の二酸化炭素排出量と、データセンターの構築とハードウェア製造から排出した炭素排出量の両方を含む、AIのカーボンインパクトを特徴付ける。 我々は、ディープラーニングレコメンデーションモデルからマルチモーダル生成AIタスクまで、最先端AI技術における主要な効率最適化機会を強調します。 AIを継続的にスケールアップするには、ハードウェア製造からデータセンタ運用、ハードウェアの終末処理に至るまで、コンピュータインフラストラクチャのライフサイクル全体にわたって、効率性を超えて最適化しなければなりません。

Barroso's seminal contributions in energy-proportional warehouse-scale computing launched an era where modern datacenters have become more energy efficient and cost effective than ever before. At the same time, modern AI applications have driven ever-increasing demands in computing, highlighting the importance of optimizing efficiency across the entire deep learning model development cycle. This paper characterizes the carbon impact of AI, including both operational carbon emissions from training and inference as well as embodied carbon emissions from datacenter construction and hardware manufacturing. We highlight key efficiency optimization opportunities for cutting-edge AI technologies, from deep learning recommendation models to multi-modal generative AI tasks. To scale AI sustainably, we must also go beyond efficiency and optimize across the life cycle of computing infrastructures, from hardware manufacturing to datacenter operations and end-of-life processing for the hardware.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-08
# YouTube SFV+HDR品質データセット

YouTube SFV+HDR Quality Dataset ( http://arxiv.org/abs/2406.05305v1 )

ライセンス: Link先を確認
Yilin Wang, Joong Gon Yim, Neil Birkbeck, Balu Adsumilli, (参考訳) ショートフォームビデオ(SFV)の人気はここ数年で劇的に増加し、何十億もの視聴者を抱える驚くべきビデオカテゴリーとなっている。 一方、高度な機能としてのHigh Dynamic Range(HDR)も、ビデオ共有プラットフォームでますます人気を博している。 SFVとHDRは、大きなインパクトを持つホットトピックとして、ビデオ品質の研究に新たな疑問をもたらす。 1) SFV+HDR品質評価は従来のユーザ生成コンテンツ(UGC)品質評価と大きく異なるか? 2) 従来のUGC用に設計された客観的な品質指標は,SFV+HDRでも有効か? 以上の質問に答えるために、我々は、信頼性の高い主観的品質スコアを持つ最初の大規模SFV+HDRデータセットを作成し、10の人気のあるコンテンツカテゴリをカバーした。 さらに、データセットの表現性を最大化するための一般的なサンプリングフレームワークも導入する。 我々は,ショートフォームSDRおよびHDRビデオの主観的品質スコアを包括的に分析し,最先端のUGC品質指標の信頼性と潜在的な改善について検討した。

The popularity of Short form videos (SFV) has grown dramatically in the past few years, and has become a phenomenal video category with billions of viewers. Meanwhile, High Dynamic Range (HDR) as an advanced feature also becomes more and more popular on video sharing platforms. As a hot topic with huge impact, SFV and HDR bring new questions to video quality research: 1) is SFV+HDR quality assessment significantly different from traditional User Generated Content (UGC) quality assessment? 2) do objective quality metrics designed for traditional UGC still work well for SFV+HDR? To answer the above questions, we created the first large scale SFV+HDR dataset with reliable subjective quality scores, covering 10 popular content categories. Further, we also introduce a general sampling framework to maximize the representativeness of the dataset. We provided a comprehensive analysis of subjective quality scores for Short form SDR and HDR videos, and discuss the reliability of state-of-the-art UGC quality metrics and potential improvements.
翻訳日:2024-06-11 20:34:04 公開日:2024-06-08
# DeviceBERT:FDAのリコール・サマリーにおける医療機器とコンポーネント・ターミノロジーの同定のためのターゲットアノテーションと語彙豊か化による応用トランスファーラーニング

DeviceBERT: Applied Transfer Learning With Targeted Annotations and Vocabulary Enrichment to Identify Medical Device and Component Terminology in FDA Recall Summaries ( http://arxiv.org/abs/2406.05307v1 )

ライセンス: Link先を確認
Miriam Farrington, (参考訳) FDAのメディカルデバイスリコールは、重要かつ時間に敏感なイベントであり、感染したデバイスを素早く識別し、リコールイベントを一般大衆に知らせ、患者の安全を確保する必要がある。 OpenFDAのデバイスリコールデータセットには、進行中のデバイスリコールアクションに関する貴重な情報が含まれているが、リコールアクションサマリーから関連するデバイス情報を手作業で抽出することは、時間を要する作業である。 名前付きエンティティ認識(英: Named Entity Recognition、NER)は、自然言語処理(NLP)において、名前付きエンティティを非構造化テキストで識別し分類するタスクである。 BioBERTのようなドメイン固有のモデルを含む既存のNERモデルは、これらの要約の中で医療機器の商標、部品番号、コンポーネント用語を正しく識別するのに苦労している。 そこで我々は,BioBERT上に構築された医療機器アノテーション,前処理,濃縮パイプラインであるDeviceBERTを提案する。 さらに,本手法は,訓練データに制限や疎結合なエンティティ認識タスクを効果的に適用できることを実証した。

FDA Medical Device recalls are critical and time-sensitive events, requiring swift identification of impacted devices to inform the public of a recall event and ensure patient safety. The OpenFDA device recall dataset contains valuable information about ongoing device recall actions, but manually extracting relevant device information from the recall action summaries is a time-consuming task. Named Entity Recognition (NER) is a task in Natural Language Processing (NLP) that involves identifying and categorizing named entities in unstructured text. Existing NER models, including domain-specific models like BioBERT, struggle to correctly identify medical device trade names, part numbers and component terms within these summaries. To address this, we propose DeviceBERT, a medical device annotation, pre-processing and enrichment pipeline, which builds on BioBERT to identify and label medical device terminology in the device recall summaries with improved accuracy. Furthermore, we demonstrate that our approach can be applied effectively for performing entity recognition tasks where training data is limited or sparse.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 弱教師付き集合一貫性学習は単セル画像の形態的プロファイリングを改善する

Weakly Supervised Set-Consistency Learning Improves Morphological Profiling of Single-Cell Images ( http://arxiv.org/abs/2406.05308v1 )

ライセンス: Link先を確認
Heming Yao, Phil Hanslovsky, Jan-Christian Huetter, Burkhard Hoeckendorf, David Richmond, (参考訳) 光ポーリングスクリーニング(OPS)は、高濃度顕微鏡と遺伝子工学を組み合わせて病気の遺伝子機能を調べる強力なツールである。 高濃度画像のキャラクタリゼーションは依然として研究の活発な領域であり、現在は自己監督型学習とビジョントランスフォーマーの応用を通じて急速なイノベーションが進められている。 本研究では,単一セルイメージにおける摂動効果の学習表現を改善するために,自己教師付き学習と弱監督を組み合わせたセットレベルの整合性学習アルゴリズムSet-DINOを提案する。 本手法は, OPS実験の複製構造(すなわち, バッチ内とバッチ内の両方で同じ遺伝的摂動を行う細胞)を, 弱い監督形態として活用する。 我々は5000以上の遺伝的摂動を持つ大規模OPSデータセットで広範な実験を行い、Set-DINOが共同設立者の影響を緩和し、より生物学的に意味のある情報をエンコードすることを示した。 特に、Set-DINOは、よく使われる形態的プロファイリング法と比較して、既知の生物学的関係を高い精度でリコールし、OPSを利用した薬物標的発見キャンペーンからより信頼性の高い洞察を得られることを示唆している。

Optical Pooled Screening (OPS) is a powerful tool combining high-content microscopy with genetic engineering to investigate gene function in disease. The characterization of high-content images remains an active area of research and is currently undergoing rapid innovation through the application of self-supervised learning and vision transformers. In this study, we propose a set-level consistency learning algorithm, Set-DINO, that combines self-supervised learning with weak supervision to improve learned representations of perturbation effects in single-cell images. Our method leverages the replicate structure of OPS experiments (i.e., cells undergoing the same genetic perturbation, both within and across batches) as a form of weak supervision. We conduct extensive experiments on a large-scale OPS dataset with more than 5000 genetic perturbations, and demonstrate that Set-DINO helps mitigate the impact of confounders and encodes more biologically meaningful information. In particular, Set-DINO recalls known biological relationships with higher accuracy compared to commonly used methods for morphological profiling, suggesting that it can generate more reliable insights from drug target discovery campaigns leveraging OPS.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# COOKIEGUARD: ファーストパーティクッキージャーのキャラクタリゼーションとアイソレーション

COOKIEGUARD: Characterizing and Isolating the First-Party Cookie Jar ( http://arxiv.org/abs/2406.05310v1 )

ライセンス: Link先を確認
Pouneh Nikkhah Bahrami, Aurore Fass, Zubair Shafiq, (参考訳) サードパーティ製のクッキーがなくなるにつれ、サードパーティ製のクッキーはますます追跡に使われている。 以前の調査では、Webサイトのメインフレームに含まれているため、サードパーティのスクリプトがブラウザのクッキーjarに書き込む(あるいは、‘textit{ghost-write}’)ことが示されている。 さらにサードパーティ製スクリプトは、実際のサードパーティ製クッキーだけでなく、別のサードパーティ製スクリプトによるゴースト書きのサードパーティ製クッキーでも、すべてのサードパーティ製クッキーにアクセスすることができる。 SOPやCSPのようなWebブラウザの既存の分離メカニズムは、異なるサードパーティによって書かれたサードパーティクッキー間の分離の欠如に対処するために設計されていない。 我々は、トップ10Kのウェブサイト上で、クロスドメインなファースト・パーティ・クッキーの検索、抽出、修正を包括的に分析する。 最も注目すべきは、サードパーティ製スクリプトによって、サードパーティ製のクッキーの18\%と4\%が、それぞれ浸透し、上書きされていることだ。 メインフレーム内の異なるサードパーティスクリプトによって設定された第1のクッキー間での分離を実現するために, \nameを提案する。 この目的のために、Shanameは、サードパーティのスクリプトとブラウザのCookie jarの間のクッキーの取得と設定の操作をインターセプトし、異なるサードパーティのドメインによって設定されたサードパーティのCookie間の厳密な隔離を強制する。 \nameの評価は、完全に分離されたクッキーjarを提供するために、ドメイン横断クッキーの読み取り/書き込み操作を効果的にブロックしていることを示している。 外観、ナビゲーション、その他のWebサイト機能には影響を与えないが、厳格な隔離ポリシーは、セッション管理のためにサードパーティのクッキーに依存するウェブサイトのわずか11%でSSO(Single Sign-On)を妨害する。 我々の研究は、ファーストパーティークッキーの分離の可能性を示している。

As third-party cookies are going away, first-party cookies are increasingly being used for tracking. Prior research has shown that third-party scripts write (or \textit{ghost-write}) first-party cookies in the browser's cookie jar because they are included in the website's main frame. What is more is that a third-party script is able to access all first-party cookies, both the actual first-party cookies as well as the ghost-written first-party cookies by different third-party scripts. Existing isolation mechanisms in the web browser such as SOP and CSP are not designed to address this lack of isolation between first-party cookies written by different third-parties. We conduct a comprehensive analysis of cross-domain first-party cookie retrieval, exfiltration, and modification on top-10K websites. Most notably, we find 18\% and 4\% of the first-party cookies are exfiltrated and overwritten, respectively, by cross-domain third-party scripts. We propose \name to introduce isolation between first-party cookies set by different third-party scripts in the main frame. To this end, \name intercepts cookie get and set operations between third-party scripts and the browser's cookie jar to enforce strict isolation between first-party cookies set by different third-party domains. Our evaluation of \name shows that it effectively blocks all cross-domain cookie read/write operations to provide a fully isolated cookie jar. While it generally does not impact appearance, navigation, or other website functionality, the strict isolation policy disrupts Single Sign-On (SSO) on just 11\% of websites that rely on first-party cookies for session management. Our work demonstrates the feasibility of isolating first-party cookies.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 音声テキストに基づくキーワードスポッティングにおける関係的プロキシ損失

Relational Proxy Loss for Audio-Text based Keyword Spotting ( http://arxiv.org/abs/2406.05314v1 )

ライセンス: Link先を確認
Youngmoon Jung, Seungjin Lee, Joon-Young Yang, Jaeyoung Roh, Chang Woo Han, Hoon-Young Cho, (参考訳) 近年,キーワードスポッティング (KWS) のためのテキストベースのキーワード登録システムへの関心が高まっている。 本システムでは,登録期間中のテキスト入力と実際の使用時の音声入力を利用するので,このタスクを音声テキストベースのKWSと呼ぶ。 このタスクを実現するために、音響エンコーダとテキストエンコーダは、典型的には三重項やプロキシベースの損失のような深度学習損失関数を用いて訓練される。 本研究の目的は,音の埋め込みやテキスト埋め込みにおける構造的関係を活用することで,既存の手法を改善することである。 音声とテキストの埋め込みをポイント・ツー・ポイントで比較する従来の研究とは異なり,本研究では,RPL(Relational Proxy Loss)の概念を導入して,埋め込み空間内の関係構造に着目した。 RPLを組み込むことで,ウォールストリートジャーナル(WSJ)コーパスの性能向上を実証した。

In recent years, there has been an increasing focus on user convenience, leading to increased interest in text-based keyword enrollment systems for keyword spotting (KWS). Since the system utilizes text input during the enrollment phase and audio input during actual usage, we call this task audio-text based KWS. To enable this task, both acoustic and text encoders are typically trained using deep metric learning loss functions, such as triplet- and proxy-based losses. This study aims to improve existing methods by leveraging the structural relations within acoustic embeddings and within text embeddings. Unlike previous studies that only compare acoustic and text embeddings on a point-to-point basis, our approach focuses on the relational structures within the embedding space by introducing the concept of Relational Proxy Loss (RPL). By incorporating RPL, we demonstrated improved performance on the Wall Street Journal (WSJ) corpus.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 言語モデルにおける概念形成とアライメント: 潜在空間における統計的パターンを分類学にブリッジする

Concept Formation and Alignment in Language Models: Bridging Statistical Patterns in Latent Space to Concept Taxonomy ( http://arxiv.org/abs/2406.05315v1 )

ライセンス: Link先を確認
Mehrdad Khatir, Chandan K. Reddy, (参考訳) 本稿では,言語モデル(LM)の領域における概念形成とアライメントについて考察する。 本稿では,Glove のような初期のモデルから ALBERT や T5 といったトランスフォーマーベースの言語モデルまで,様々な LM で学習した意味表現の中で概念とその階層構造を識別する機構を提案する。 提案手法は,これらのモデルが生成したセマンティック埋め込みに存在する固有構造を利用して,概念の分類と階層的関係を抽出する。 この調査は、LMが概念的理解をどのように発展させ、現実世界の知識を推論し活用する能力を改善するために、さらなる研究を行うための扉を開くかに光を当てている。 我々はさらに実験を行い、これらの抽出された概念表現をトランスフォーマーベースのLMの推論モジュールから分離する可能性を観察した。 観測された概念形成と、推論モジュールからの概念表現の分離により、ターゲットトークンエンジニアリングは、知識伝達、説明可能なAI、そしてよりモジュール的で概念的に基礎付けられた言語モデルの開発において、潜在的な応用への扉を開くことができる。

This paper explores the concept formation and alignment within the realm of language models (LMs). We propose a mechanism for identifying concepts and their hierarchical organization within the semantic representations learned by various LMs, encompassing a spectrum from early models like Glove to the transformer-based language models like ALBERT and T5. Our approach leverages the inherent structure present in the semantic embeddings generated by these models to extract a taxonomy of concepts and their hierarchical relationships. This investigation sheds light on how LMs develop conceptual understanding and opens doors to further research to improve their ability to reason and leverage real-world knowledge. We further conducted experiments and observed the possibility of isolating these extracted conceptual representations from the reasoning modules of the transformer-based LMs. The observed concept formation along with the isolation of conceptual representations from the reasoning modules can enable targeted token engineering to open the door for potential applications in knowledge transfer, explainable AI, and the development of more modular and conceptually grounded language models.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# C-Mamba:多変量時系列予測のためのチャネル相関強化状態空間モデル

C-Mamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2406.05316v1 )

ライセンス: Link先を確認
Chaolv Zeng, Zhanyu Liu, Guanjie Zheng, Linghe Kong, (参考訳) 近年,線形ベース,トランスフォーマーベース,コンボリューションベースモデルを用いた時系列の多変量予測が大幅に進歩している。 線形予測器は表現能力に悩まされ、注意機構は二次的な複雑さに悩まされ、畳み込みモデルは受容力に制限がある。 これらの制約は、複雑な時系列、特に多くの変数を持つ時系列のモデリングにおいて、それらの効果を妨げた。 さらに、多くのモデルはChannel-Independent(CI)戦略を採用し、多変量時系列を相関を無視しながら非相関な単変量系列として扱う。 チャネル間の関係を考慮したモデルでは、自己アテンション機構、線形結合、あるいは畳み込みによって、いずれも高い計算コストを発生させ、チャネル間の潜在的な比例関係を無視して重み付けされた和関係にのみ焦点をあてる。 本研究では,新たに導入された状態空間モデルを活用してこれらの問題に対処し,グローバルな受容場を失うことなく線形複雑性を維持しながらチャネル間の依存関係を捉える新しいアプローチである「textbf{C-Mamba}」を提案する。 私たちのモデルは2つの重要なコンポーネントで構成されています。 (i)訓練セットを強化するため、2つのチャンネルを混合するチャンネル混成 (II) チャネルアテンションにより, チャネル間の相互依存を捉える状態空間モデルと, 重み関係をマイニングすることでチャネル間の相関をモデル化するパッチワイド・マンバエンコーダが強化された。 本モデルは、7つの実世界の時系列データセット上での最先端のパフォーマンスを実現する。 さらに、提案したミックスアップとアテンション戦略は、他のフレームワーク間で強力な一般化性を示している。

In recent years, significant progress has been made in multivariate time series forecasting using Linear-based, Transformer-based, and Convolution-based models. However, these approaches face notable limitations: linear forecasters struggle with representation capacities, attention mechanisms suffer from quadratic complexity, and convolutional models have a restricted receptive field. These constraints impede their effectiveness in modeling complex time series, particularly those with numerous variables. Additionally, many models adopt the Channel-Independent (CI) strategy, treating multivariate time series as uncorrelated univariate series while ignoring their correlations. For models considering inter-channel relationships, whether through the self-attention mechanism, linear combination, or convolution, they all incur high computational costs and focus solely on weighted summation relationships, neglecting potential proportional relationships between channels. In this work, we address these issues by leveraging the newly introduced state space model and propose \textbf{C-Mamba}, a novel approach that captures cross-channel dependencies while maintaining linear complexity without losing the global receptive field. Our model consists of two key components: (i) channel mixup, where two channels are mixed to enhance the training sets; (ii) channel attention enhanced patch-wise Mamba encoder that leverages the ability of the state space models to capture cross-time dependencies and models correlations between channels by mining their weight relationships. Our model achieves state-of-the-art performance on seven real-world time series datasets. Moreover, the proposed mixup and attention strategy exhibits strong generalizability across other frameworks.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# LoCoCo:長期的コンプレッションのための畳み込み

LoCoCo: Dropping In Convolutions for Long Context Compression ( http://arxiv.org/abs/2406.05317v1 )

ライセンス: Link先を確認
Ruisi Cai, Yuandong Tian, Zhangyang Wang, Beidi Chen, (参考訳) 本稿では,Large Language Models (LLMs) において,Long Context Compression (LoCoCo) のためのDropping In Convolutions (Dropping In Convolutions for Long Context Compression) という新しいアプローチを提示することによって,長いコンテキストシーケンスを処理するためのメモリハードルに取り組む。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。 ヒューリスティックスに基づいてKVペアを選択的にドロップする従来の方法とは違い、LoCoCoはデータ駆動適応融合技術を活用し、以前のKVペアを入力トークンとブレンドすることで、コンテキスト情報の損失を最小限に抑え、正確な注意モデリングを保証する。 このトークン統合は、各KVキャッシュスロットの混合重みを動的に計算する1次元畳み込みカーネルを注入することで達成される。 既存のLLMフレームワークとの広範な互換性のために設計されたLoCoCoは、アーキテクチャの変更を必要とせず、最小限のチューニングオーバーヘッドを発生させることなく、単純な"ドロップイン"統合を可能にする。 実験により、LoCoCoは様々なコンテキスト長にわたって一貫した性能を維持し、推論と微調整の両方のフェーズで高いコンテクスト圧縮率を達成することを示した。 推論中、最大3482トークンを128サイズのKVキャッシュに圧縮することに成功し、同じキャッシュサイズでのベースラインと比較して最大0.2791の精度向上を実現した。 トレーニング後のチューニングでは,4Kから32Kまでのコンテキスト長を固定サイズ512のKVキャッシュで効果的に拡張し,シーケンス全体の微調整に類似した性能を実現した。

This paper tackles the memory hurdle of processing long context sequences in Large Language Models (LLMs), by presenting a novel approach, Dropping In Convolutions for Long Context Compression (LoCoCo). LoCoCo employs only a fixed-size Key-Value (KV) cache, and can enhance efficiency in both inference and fine-tuning stages. Diverging from prior methods that selectively drop KV pairs based on heuristics, LoCoCo leverages a data-driven adaptive fusion technique, blending previous KV pairs with incoming tokens to minimize the loss of contextual information and ensure accurate attention modeling. This token integration is achieved through injecting one-dimensional convolutional kernels that dynamically calculate mixing weights for each KV cache slot. Designed for broad compatibility with existing LLM frameworks, LoCoCo allows for straightforward "drop-in" integration without needing architectural modifications, while incurring minimal tuning overhead. Experiments demonstrate that LoCoCo maintains consistently outstanding performance across various context lengths and can achieve a high context compression rate during both inference and fine-tuning phases. During inference, we successfully compressed up to 3482 tokens into a 128-size KV cache, while retaining comparable performance to the full sequence - an accuracy improvement of up to 0.2791 compared to baselines at the same cache size. During post-training tuning, we also effectively extended the context length from 4K to 32K using a KV cache of fixed size 512, achieving performance similar to fine-tuning with entire sequences.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# マルチモーダルアルゴリズム推論のためのテキストと画像事前学習の統合

Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning ( http://arxiv.org/abs/2406.05318v1 )

ライセンス: Link先を確認
Zijian Zhang, Wei Liu, (参考訳) 本稿では,CVPRマルチモーダルアルゴリズム推論タスク2024におけるSMART-101の課題について述べる。 従来の視覚的質問や解答課題とは異なり、この課題は6-8歳児に特化して設計されたビジュオ言語パズルの解法において、ニューラルネットワークの抽象化、推論、一般化能力を評価する。 本モデルは,テキストと画像からそれぞれ特徴を抽出する2つの事前学習モデルに基づく。 異なるモダリティから特徴を統合するために,注意機構を持つ融合層を用いた。 SMART-101データセット上で,テキストと画像の事前学習モデルについて検討し,統合分類器を微調整した。 実験結果から,提案した統合型分類器は,パズル分割方式を用いて,複数モーダルな事前学習表現の有効性を検証し,優れた性能を達成できることが示唆された。

In this paper, we present our solution for SMART-101 Challenge of CVPR Multi-modal Algorithmic Reasoning Task 2024. Unlike traditional visual questions and answer tasks, this challenge evaluates abstraction, deduction and generalization ability of neural network in solving visuo-linguistic puzzles designed for specially children in the 6-8 age group. Our model is based on two pre-trained models, dedicated to extract features from text and image respectively. To integrate the features from different modalities, we employed a fusion layer with attention mechanism. We explored different text and image pre-trained models, and fine-tune the integrated classifier on the SMART-101 dataset. Experiment results show that under the data splitting style of puzzle split, our proposed integrated classifier achieves superior performance, verifying the effectiveness of multi-modal pre-trained representations.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 深部ニューラルネットワークは近似と推定における正規性とデータ分布に適応する

Deep Neural Networks are Adaptive to Function Regularity and Data Distribution in Approximation and Estimation ( http://arxiv.org/abs/2406.05320v1 )

ライセンス: Link先を確認
Hao Liu, Jiahui Cheng, Wenjing Liao, (参考訳) 深層学習は様々な分野において顕著な成果を上げている。 その成功を理解するために、かなりの研究が理論の基礎に向けられている。 しかしながら、これらの研究の大部分は、ディープニューラルネットワークが一様規則性を持つ関数をいかにうまくモデル化できるかを検証している。 本稿では、深層ニューラルネットワークが、異なる位置とスケール、および一様でないデータ分布にまたがる関数の規則性にどのように適応するかという、異なる角度を探索する。 より正確には、非線形木に基づく近似によって定義される幅広い関数のクラスに焦点を当てる。 このクラスは、一様正則関数や不連続関数など、様々な関数型を含んでいる。 深部ReLUネットワークを用いた関数クラスに対する非パラメトリック近似と推定理論を開発した。 その結果,深部ニューラルネットワークは,異なる位置やスケールでの関数の規則性や不均一なデータ分布に適応していることがわかった。 本結果はいくつかの関数クラスに適用し,対応する近似および一般化誤差を導出する。 本研究の妥当性は数値実験により検証した。

Deep learning has exhibited remarkable results across diverse areas. To understand its success, substantial research has been directed towards its theoretical foundations. Nevertheless, the majority of these studies examine how well deep neural networks can model functions with uniform regularity. In this paper, we explore a different angle: how deep neural networks can adapt to different regularity in functions across different locations and scales and nonuniform data distributions. More precisely, we focus on a broad class of functions defined by nonlinear tree-based approximation. This class encompasses a range of function types, such as functions with uniform regularity and discontinuous functions. We develop nonparametric approximation and estimation theories for this function class using deep ReLU networks. Our results show that deep neural networks are adaptive to different regularity of functions and nonuniform data distributions at different locations and scales. We apply our results to several function classes, and derive the corresponding approximation and generalization errors. The validity of our results is demonstrated through numerical experiments.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 低予算シナリオにおける教師モデルからの知識蒸留の改善

Teaching-Assistant-in-the-Loop: Improving Knowledge Distillation from Imperfect Teacher Models in Low-Budget Scenarios ( http://arxiv.org/abs/2406.05322v1 )

ライセンス: Link先を確認
Yuhang Zhou, Wei Ai, (参考訳) 大規模言語モデル(LLM)からより小さな学生モデルへのタスク固有の知識の蒸留への関心が高まっている。 それでも、LLM蒸留は二重課題である。 1) 多数の実演を収集するために, GPT-4 などの教師 LLM を照会する際には, 高いコストがかかる。 2) 教師のLLMは, 学習過程に悪影響を及ぼすことなく, 不完全なアウトプットを提供する可能性がある。 資源制約のない教師シナリオにおけるサンプル効率を向上させるために,3種類の信号タイプを活用した3成分フレームワークを提案する。 最初の信号は学生の自己整合性(学生の複数の出力の整合性)であり、学生の自信の代用となる。 具体的には,学生と教師のアウトプットの不確実性を評価するための「教師支援」モデルを導入する。 さらに,学生の信号をよりよく活用するために,学生を少量のデータで温めるための2段階のトレーニングスキーマを提案する。 4つの複雑な推論タスクにおいて,提案手法の優位性を示す実験を行った。 提案した2段階フレームワークは,データセット間の信号を持たない微調整に比べて,平均で20.79%の相対的な改善を実現している。

There is increasing interest in distilling task-specific knowledge from large language models (LLM) to smaller student models. Nonetheless, LLM distillation presents a dual challenge: 1) there is a high cost associated with querying the teacher LLM, such as GPT-4, for gathering an ample number of demonstrations; 2) the teacher LLM might provide imperfect outputs with a negative impact on the student's learning process. To enhance sample efficiency within resource-constrained, imperfect teacher scenarios, we propose a three-component framework leveraging three signal types. The first signal is the student's self-consistency (consistency of student multiple outputs), which is a proxy of the student's confidence. Specifically, we introduce a ``teaching assistant'' (TA) model to assess the uncertainty of both the student's and the teacher's outputs via confidence scoring, which serves as another two signals for student training. Furthermore, we propose a two-stage training schema to first warm up the student with a small proportion of data to better utilize student's signal. Experiments have shown the superiority of our proposed framework for four complex reasoning tasks. On average, our proposed two-stage framework brings a relative improvement of up to 20.79% compared to fine-tuning without any signals across datasets.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# おそらく最もシンプルで安価なモンテカルロ法による高精度エンタングルメントエントロピーとその誘導体の抽出法

Probably the simplest and cheapest quantum Monte Carlo method so far for extracting high-precision entanglement entropy and its derivative ( http://arxiv.org/abs/2406.05324v1 )

ライセンス: Link先を確認
Zhe Wang, Zhiyan Wang, Yi-Ming Ding, Bin-Bin Mao, Zheng Yan, (参考訳) 量子多体系の内在物理学を探索するために絡み合いエントロピー(EE)を測定することは、凝縮物質、高エネルギー、計算物理学において重要であるが難しいトピックである。 R'enyi EEを得るために量子モンテカルロ (QMC) アルゴリズムを設計することは、大規模多体システムにおいて有望な解である。 しかし、高精度なEEを得るためには、QMCベースのEEのアルゴリズムは設計レベルでますます複雑になる。 QMCシミュレーション中に絡み合った領域を変更する必要があり、詳細なバランス条件がより複雑になる。 さらに、導入された中間段階的なプロセスも利用できない。 本稿では、シミュレーション中にレプリカ多様体を変更したり、余分な詳細バランス条件を加えたりすることなく、EEとそのデリバティブを高精度に抽出できる簡単なQMCスキームを提案する。 インクリメンタルなプロセスで測定されるすべての値は、物理的パラメータの下でのEEであり、効率を大幅に改善します。 2次元および高次元系の広いパラメータ領域でEEを走査することで、新しい位相と位相遷移を数値的に探索するアクセスを開放する。 この手法は低技術障壁を持ち、並列計算には自然である。 我々のアルゴリズムは、複雑な技術と膨大な計算コストを伴わずに大量の高精度EE値を計算することがもはや夢ではない。

Measuring entanglement entropy (EE) to probe the intrinsic physics of quantum many-body systems is an important but challenging topic in condensed matter, high energy and computational physics. Designing quantum Monte Carlo (QMC) algorithm to obtain the R\'enyi EE is a promising solution in large-scale many-body systems. However, to gain high-precision EE, the QMC-based algorithm for EE becomes more and more complex at the designing level. The entangled region needs being changed during the QMC simulation, and the detailed balance condition becomes more complicated. Moreover, the intermediately incremental processes introduced cannot be exploited neither. In this paper, we propose a simple QMC scheme able to extract EE and its derivative with high-precision, which requires neither changing replica manifold during the simulation nor adding extra detailed balance conditions. All the values measured in the incremental process are the EE under physical parameters, which greatly improves the efficiency. It opens an access to numerically probe the novel phases and phase transitions by scanning EE in a wide parameter-region in 2D and higher dimensional systems. The method has low-technical barrier and is natural for parallel computing. Our algorithm makes it no longer a dream to calculate a large amount of high-precision EE values without complicated techniques and huge computational cost.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 意味的テキスト類似性モデリングの強化: 翻訳されたReLUと滑らかなK2損失を持つ回帰フレームワーク

Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss ( http://arxiv.org/abs/2406.05326v1 )

ライセンス: Link先を確認
Bowen Zhang, Chunping Li, (参考訳) BERTとRoBERTaの導入以来、セマンティックテキスト類似性(STS)の研究は画期的な進歩を遂げてきた。 特に、コントラスト学習の採用により、さまざまなSTSベンチマークで最先端のパフォーマンスが大幅に向上した。 しかし、対照的な学習は、テキストペアを意味論的に類似しているか、異種であると分類し、微粒な注釈付き情報を活用することができず、モデルの崩壊を防ぐために大規模なバッチサイズを必要とする。 これらの制約は、多くの類似度レベルや限られた計算資源を必要とするSTSタスクに携わる研究者や、Sentence-BERTのような代替品を探索するよう説得する研究者にとって課題となる。 それでもSentence-BERTは、分類の観点からSTSタスクに取り組み、セマンティックリレーションの進歩的な性質を見越して、最適以下のパフォーマンスをもたらす。 このギャップを埋めるため,本稿では,ReLUの翻訳とK2の平滑化という2つのシンプルかつ効果的な損失関数を提案する。 実験により,本手法は7つのSTSベンチマークにおいて,特にタスク固有のトレーニングデータを補足した場合に,説得力のある性能を達成できることが確認された。

Since the introduction of BERT and RoBERTa, research on Semantic Textual Similarity (STS) has made groundbreaking progress. Particularly, the adoption of contrastive learning has substantially elevated state-of-the-art performance across various STS benchmarks. However, contrastive learning categorizes text pairs as either semantically similar or dissimilar, failing to leverage fine-grained annotated information and necessitating large batch sizes to prevent model collapse. These constraints pose challenges for researchers engaged in STS tasks that require nuanced similarity levels or those with limited computational resources, compelling them to explore alternatives like Sentence-BERT. Nonetheless, Sentence-BERT tackles STS tasks from a classification perspective, overlooking the progressive nature of semantic relationships, which results in suboptimal performance. To bridge this gap, this paper presents an innovative regression framework and proposes two simple yet effective loss functions: Translated ReLU and Smooth K2 Loss. Experimental analyses demonstrate that our method achieves convincing performance across seven established STS benchmarks, especially when supplemented with task-specific training data.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 大規模言語モデルにおける非現実性を示す隠れた質問表現

Hidden Question Representations Tell Non-Factuality Within and Across Large Language Models ( http://arxiv.org/abs/2406.05328v1 )

ライセンス: Link先を確認
Yanling Wang, Haoyang Li, Hao Zou, Jing Zhang, Xinlei He, Qi Li, Ke Xu, (参考訳) 大規模言語モデル(LLM)の顕著な進歩にもかかわらず、非事実応答の頻度は依然として一般的な問題である。 本研究は非実効性予測(NFP)について研究し、LLMが生成プロセスの前に質問に対する非実効性応答を生成するかどうかを予測する。 NFPに対する以前の取り組みは、通常広範な計算に依存していた。 本研究では,軽量プローブを用いて質問の隠れ表現から「LLMが知っているかどうか」を抽出する能力について,広範囲にわたる分析を行った。 さらに、非実効性プローブは複数のLLMにまたがるNFPに類似したパターンを採用することが判明した。 興味をそそる発見に刺激され,我々はクロスLLM NFPの効果的な転送学習を行い,ミニバッチベースのトレーニングの有効性を確保するための質問整合戦略を提案する。

Despite the remarkable advance of large language models (LLMs), the prevalence of non-factual responses remains a common issue. This work studies non-factuality prediction (NFP), which predicts whether an LLM will generate non-factual responses to a question before the generation process. Previous efforts on NFP usually rely on extensive computation. In this work, we conduct extensive analysis to explore the capabilities of using a lightweight probe to elicit ``whether an LLM knows'' from the hidden representations of questions. Additionally, we discover that the non-factuality probe employs similar patterns for NFP across multiple LLMs. Motivated by the intriguing finding, we conduct effective transfer learning for cross-LLM NFP and propose a question-aligned strategy to ensure the efficacy of mini-batch based training.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 時系列の変圧器等角予測

Transformer Conformal Prediction for Time Series ( http://arxiv.org/abs/2406.05332v1 )

ライセンス: Link先を確認
Junghwan Lee, Chen Xu, Yao Xie, (参考訳) 本稿では,Transformerアーキテクチャを用いた時系列の共形予測手法を提案する。 具体的には、トランスフォーマーデコーダを条件付き量子化推定器として、予測残差の量子化を予測し、予測間隔を推定する。 我々は,トランスフォーマーデコーダが過去の予測残差の時間依存性を学習することで,予測区間の推定に有効であると仮定する。 シミュレーションおよび実データを用いた包括的実験により,提案手法の既存手法と比較して,提案手法の優位性を実証的に実証した。

We present a conformal prediction method for time series using the Transformer architecture to capture long-memory and long-range dependencies. Specifically, we use the Transformer decoder as a conditional quantile estimator to predict the quantiles of prediction residuals, which are used to estimate the prediction interval. We hypothesize that the Transformer decoder benefits the estimation of the prediction interval by learning temporal dependencies across past prediction residuals. Our comprehensive experiments using simulated and real data empirically demonstrate the superiority of the proposed method compared to the existing state-of-the-art conformal prediction methods.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 空間分離伝送方式による純量子非相互性

Purely Quantum Nonreciprocity by Spatially Separated Transmission Scheme ( http://arxiv.org/abs/2406.05334v1 )

ライセンス: Link先を確認
Zhi-Hao Liu, Guang-Yu Zhang, Xun-Wei Xu, (参考訳) 非相互光子遮断は、キラル量子技術やトポロジカルフォトニクスにおける潜在的な応用のために特に興味深い。 通常の場合、非相互伝達(古典的非相互性)と非相互光子遮断(量子的非相互性)が同時に現れる。 それでも、純粋に量子的非相互性(古典的非相互性を持たない)を達成する方法はほとんど解明されていない。 本稿では、2つの共振器導波路によって間接的に結合された2つの回転キャビティからなる光学系において、異なる方向に移動する光子が異なる経路を移動するような空間的に分離された伝送方式を提案する。 空間的に分離された伝送方式に基づき、経路の1つにおけるKerr非線形相互作用を考慮し、純粋に量子的非相互性(非相互光子遮断)を示す。 興味深いことに、非相反光子遮断は非相反的に増強され、すなわち、光子が一方方向に移動するときに非相反光子遮断が強化されるが、逆方向に抑制される。 非相互光子遮断の非相互増強は、系全体を通過する2つの光子に対する2つの経路間の破壊的または建設的干渉によって引き起こされる。 この研究で提案された空間的に分離された伝送方式は、純粋に量子的非相互効果を観測するための新しいアプローチを提供する。

Nonreciprocal photon blockade is of particular interest due to its potential applications in chiral quantum technologies and topological photonics. In the regular cases, nonreciprocal transmission (classical nonreciprocity) and nonreciprocal photon blockade (quantum nonreciprocity) often appear simultaneously. Nevertheless, how to achieve purely quantum nonreciprocity (no classical nonreciprocity) remains largely unexplored. Here, we propose a spatially separated transmission scheme, that the photons transport in different directions take different paths, in an optical system consisting of two spinning cavities coupled indirectly by two common drop-filter waveguides. Based on the spatially separated transmission scheme, we demonstrate a purely quantum nonreciprocity (nonreciprocal photon blockade) by considering the Kerr nonlinear interaction in one of the paths. Interestingly, we find that the nonreciprocal photon blockade is enhanced nonreciprocally, i.e., the nonreciprocal photon blockade is enhanced when the photons transport in one direction but suppressed in the reverse direction. We identify that the nonreciprocal enhancement of nonreciprocal photon blockade is induced by the destructive or constructive interference between two paths for two photons passing through the whole system. The spatially separated transmission scheme proposed in the work provides a novel approach to observe purely quantum nonreciprocal effects.
翻訳日:2024-06-11 20:24:20 公開日:2024-06-08
# 大規模言語モデルにおける臨界相転移

Critical Phase Transition in a Large Language Model ( http://arxiv.org/abs/2406.05335v1 )

ライセンス: Link先を確認
Kai Nakaishi, Yoshihiko Nishikawa, Koji Hukushima, (参考訳) 大規模言語モデル (LLM) の性能は, <textit{temperature} パラメータに強く依存する。 経験的に、非常に低温では、LLMは明確な繰り返し構造を持つ文を生成するが、非常に高温では、生成された文はしばしば理解できない。 本研究は, GPT-2を用いて, 両者の相違は単に滑らかな変化ではなく, 特異な発散した統計量による相転移であることを示す。 我々の広範な分析は、テキスト中の相関関係のパワー-ロッド崩壊のような臨界挙動が、遷移温度および自然言語データセットで LLM に現れることを示している。 また, 臨界度を特徴付ける統計量は, LLMの性能評価に有用であると考えられる。

The performance of large language models (LLMs) strongly depends on the \textit{temperature} parameter. Empirically, at very low temperatures, LLMs generate sentences with clear repetitive structures, while at very high temperatures, generated sentences are often incomprehensible. In this study, using GPT-2, we numerically demonstrate that the difference between the two regimes is not just a smooth change but a phase transition with singular, divergent statistical quantities. Our extensive analysis shows that critical behaviors, such as a power-law decay of correlation in a text, emerge in the LLM at the transition temperature as well as in a natural language dataset. We also discuss that several statistical quantities characterizing the criticality should be useful to evaluate the performance of LLMs.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# MotionClone: 制御可能なビデオ生成のためのトレーニング不要モーションクローン

MotionClone: Training-Free Motion Cloning for Controllable Video Generation ( http://arxiv.org/abs/2406.05338v1 )

ライセンス: Link先を確認
Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin, (参考訳) モーションベースの制御可能なテキスト・ビデオ生成には、動画生成を制御するモーションが含まれる。 従来手法では、モーションキューを符号化するためのモデルのトレーニングや、ビデオ拡散モデルの微調整が求められていた。 しかし、これらのアプローチは訓練された領域の外で適用された場合、しばしば準最適運動の発生をもたらす。 本研究では,テキスト・ビデオ生成を制御するための参照ビデオからのモーション・クローンを可能にする,トレーニング不要なフレームワークであるMotionCloneを提案する。 基準映像における動きを表現するために時間的注意をビデオインバージョンに用い,注意重み内の雑音や非常に微妙な動きの影響を軽減するために時間的注意指導を導入した。 さらに、合理的な空間関係を合成し、その素早い追跡能力を高めるために、基準映像から前景の粗い位置を活用できる位置認識型意味指導機構と、オリジナル分類器なし指導機能を用いて、映像生成を誘導する。 大規模な実験により、MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方に熟練度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れていることが示されている。

Motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion generation when applied outside the trained domain. In this work, we propose MotionClone, a training-free framework that enables motion cloning from a reference video to control text-to-video generation. We employ temporal attention in video inversion to represent the motions in the reference video and introduce primary temporal-attention guidance to mitigate the influence of noisy or very subtle motions within the attention weights. Furthermore, to assist the generation model in synthesizing reasonable spatial relationships and enhance its prompt-following capability, we propose a location-aware semantic guidance mechanism that leverages the coarse location of the foreground from the reference video and original classifier-free guidance features to guide the video generation. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# ASVシステムは、スプーフィング攻撃に対して、どのくらいまで自然に防御できるのか?

To what extent can ASV systems naturally defend against spoofing attacks? ( http://arxiv.org/abs/2406.05339v1 )

ライセンス: Link先を確認
Jee-weon Jung, Xin Wang, Nicholas Evans, Shinji Watanabe, Hye-jin Shim, Hemlata Tak, Sidhhant Arora, Junichi Yamagishi, Joon Son Chung, (参考訳) 現在の自動話者検証(ASV)タスクでは、ターゲットと非ターゲットの2つのタイプのトライアルでバイナリ決定を行う。 しかし、音声生成技術の進歩は、ASVシステムの信頼性に重大な脅威をもたらす。 本研究では,従来の手法から最先端技術まで,多種多様なASVシステムやスプーフ攻撃を体系的に探索することにより,無力的にスプーフ攻撃に対する堅牢性(ゼロショット能力)を得るかどうかを検討する。 ASVの8つの異なる攻撃システムと29のスプーフ攻撃システムについて広範な分析を行った結果、ASVの進化には本質的にスプーフ攻撃に対する防御機構が組み込まれていることが明らかとなった。 いずれにせよ,スプーフィング攻撃の進展は, ASV システムよりもはるかに優れており,スプーフィング・ロバスト ASV の方法論に関するさらなる研究が必要であると考えられた。

The current automatic speaker verification (ASV) task involves making binary decisions on two types of trials: target and non-target. However, emerging advancements in speech generation technology pose significant threats to the reliability of ASV systems. This study investigates whether ASV effortlessly acquires robustness against spoofing attacks (i.e., zero-shot capability) by systematically exploring diverse ASV systems and spoofing attacks, ranging from traditional to cutting-edge techniques. Through extensive analyses conducted on eight distinct ASV systems and 29 spoofing attack systems, we demonstrate that the evolution of ASV inherently incorporates defense mechanisms against spoofing attacks. Nevertheless, our findings also underscore that the advancement of spoofing attacks far outpaces that of ASV systems, hence necessitating further research on spoofing-robust ASV methodologies.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# 重み付き重み補正確率ブロックモデルにおけるコミュニティ数の選択

Selecting the Number of Communities for Weighted Degree-Corrected Stochastic Block Models ( http://arxiv.org/abs/2406.05340v1 )

ライセンス: Link先を確認
Yucheng Liu, Xiaodong Li, (参考訳) 本研究では,重み付きネットワークのコミュニティ数を選択する方法を検討する。 まず, 平均隣接行列を標準DCSBMと同一にモデル化する重み付き次数補正確率ブロックモデル(DCSBM)を提案する。 本手法は,各ステップ毎にスペクトルクラスタリング法を用いて測定したDCSBMを適応させる。 重要なステップは、推定分散プロファイル行列上で行列スケーリングを実行することである。 得られたスケーリング係数は、テスト統計が得られた隣接行列の正規化に使用できる。 重み付きDCSBMの軽度条件下では,提案手法は真のコミュニティ数の推定に一貫性があることが示されている。 シミュレーションデータと実ネットワークデータの両方に関する数値実験により,本手法の望ましい経験的特性が示された。

We investigate how to select the number of communities for weighted networks without a full likelihood modeling. First, we propose a novel weighted degree-corrected stochastic block model (DCSBM), in which the mean adjacency matrix is modeled as the same as in standard DCSBM, while the variance profile matrix is assumed to be related to the mean adjacency matrix through a given variance function. Our method of selection the number of communities is based on a sequential testing framework, in each step the weighed DCSBM is fitted via some spectral clustering method. A key step is to carry out matrix scaling on the estimated variance profile matrix. The resulting scaling factors can be used to normalize the adjacency matrix, from which the testing statistic is obtained. Under mild conditions on the weighted DCSBM, our proposed procedure is shown to be consistent in estimating the true number of communities. Numerical experiments on both simulated and real network data also demonstrate the desirable empirical properties of our method.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# M3GIA: マルチ言語およびマルチモーダル・ジェネラルインテリジェンス能力ベンチマークに着想を得た認知

M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark ( http://arxiv.org/abs/2406.05343v1 )

ライセンス: Link先を確認
Wei Song, Yadong Li, Jianhua Xu, Guowei Wu, Lingfeng Ming, Kexin Yi, Weihua Luo, Houyi Li, Yi Du, Fangda Guo, Kaicheng Yu, (参考訳) 近年、MLLM(Multi-modality large language model)は、様々な複雑なタスクにおいて、極めて高い習熟度を示しており、これらのモデルが最終的に人間の知能を反映するかどうかの議論に注目が集まっている。 しかし、既存のベンチマークは主に、オブジェクトの属性を特定する精度など、タスクのパフォーマンスのみを評価することに重点を置いている。 表面的な達成以上のMLLMの知性を理解するために、よく発達した認知科学を組み合わせることは、ほとんど未解明のままである。 この目的のために,M3GIAと呼ばれるMLLMの汎用インテリジェンス能力を評価するために,認知駆動型マルチ言語およびマルチモーダルベンチマークを導入した。 具体的には、よく認識されている知能のキャッテル・ホルン・キャロルモデル(CHC)に基づいて、5つの重要な認知要因を同定し、新しい評価基準を提案する。 さらに、ほとんどのMLLMは異なる言語で実行するように訓練されているため、自然な疑問が生じる: 言語はMLLMの認知能力に影響を与える重要な要因か? そのため、我々は英語を超えて、中国語、フランス語、スペイン語、ポルトガル語、韓国語など、その人気に基づいて他の言語を包含し、我々のM3GIAを構築する。 文化背景に関連するすべてのデータが、英語中心のバイアスを避けるために、彼らのネイティブコンテキストから収集されることを確認します。 我々は、人間の参加者から大量のデータを収集し、最も進歩したMLLMが、英語における人間の知能の下位境界に達することを明らかにした。 しかし、他の5つの言語には明らかな相違がある。 我々はまた、認知研究における発見と一致したすべての現象を、興味深い勝者が取ることも明らかにした。 我々のベンチマークはオープンソースであり、MLLMにおける認知能力の向上を促進することを目的としています。

As recent multi-modality large language models (MLLMs) have shown formidable proficiency on various complex tasks, there has been increasing attention on debating whether these models could eventually mirror human intelligence. However, existing benchmarks mainly focus on evaluating solely on task performance, such as the accuracy of identifying the attribute of an object. Combining well-developed cognitive science to understand the intelligence of MLLMs beyond superficial achievements remains largely unexplored. To this end, we introduce the first cognitive-driven multi-lingual and multi-modal benchmark to evaluate the general intelligence ability of MLLMs, dubbed M3GIA. Specifically, we identify five key cognitive factors based on the well-recognized Cattell-Horn-Carrol (CHC) model of intelligence and propose a novel evaluation metric. In addition, since most MLLMs are trained to perform in different languages, a natural question arises: is language a key factor influencing the cognitive ability of MLLMs? As such, we go beyond English to encompass other languages based on their popularity, including Chinese, French, Spanish, Portuguese and Korean, to construct our M3GIA. We make sure all the data relevant to the cultural backgrounds are collected from their native context to avoid English-centric bias. We collected a significant corpus of data from human participants, revealing that the most advanced MLLM reaches the lower boundary of human intelligence in English. Yet, there remains a pronounced disparity in the other five languages assessed. We also reveals an interesting winner takes all phenomenon that are aligned with the discovery in cognitive studies. Our benchmark will be open-sourced, with the aspiration of facilitating the enhancement of cognitive capabilities in MLLMs.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# MemeGuard:memeインターベンションによるコンテンツモデレーション改善のためのLLMおよびVLMベースのフレームワーク

MemeGuard: An LLM and VLM-based Framework for Advancing Content Moderation via Meme Intervention ( http://arxiv.org/abs/2406.05344v1 )

ライセンス: Link先を確認
Prince Jha, Raghav Jain, Konika Mandal, Aman Chadha, Sriparna Saha, Pushpak Bhattacharyya, (参考訳) デジタル世界では、ミームは有害なコンテンツを拡散する可能性があるため、コンテンツモデレーションに固有の課題を提示する。 検出手法は改善されているものの、介入のような積極的な解決策は依然として限られており、現在の研究は主にテキストベースのコンテンツに焦点を当てており、ミームのようなマルチモーダルコンテンツの影響を無視している。 このギャップに対処するために,大言語モデル (LLM) とビジュアル言語モデル (VLM) を活用した包括的なフレームワークである \textit{MemeGuard} を紹介した。 \textit{MemeGuard} は、特殊に微調整された VLM, \textit{VLMeme} をミーム解釈に利用し、関連する知識を蒸留するためにマルチモーダルな知識選択とランキング機構 (\textit{MKS}) を利用する。 この知識は、文脈的に適切な介入を生成するために汎用LLMによって使用される。 この研究のもうひとつの重要な貢献は、 有毒なミームとそれに対応する人間のアノテーションによる介入を特徴とする高品質なラベル付きデータセットである、 \textit{\textbf{I}ntervening} \textit{\textbf{C}yberbullying in \textbf{M}ultimodal \textbf{M}emes (ICMM)}データセットである。 我々は, 有害ミームに対する関連性および効果的な応答を生成する能力を示すために, textit{ICMM} を利用して \textit{MemeGuard} をテストする。

In the digital world, memes present a unique challenge for content moderation due to their potential to spread harmful content. Although detection methods have improved, proactive solutions such as intervention are still limited, with current research focusing mostly on text-based content, neglecting the widespread influence of multimodal content like memes. Addressing this gap, we present \textit{MemeGuard}, a comprehensive framework leveraging Large Language Models (LLMs) and Visual Language Models (VLMs) for meme intervention. \textit{MemeGuard} harnesses a specially fine-tuned VLM, \textit{VLMeme}, for meme interpretation, and a multimodal knowledge selection and ranking mechanism (\textit{MKS}) for distilling relevant knowledge. This knowledge is then employed by a general-purpose LLM to generate contextually appropriate interventions. Another key contribution of this work is the \textit{\textbf{I}ntervening} \textit{\textbf{C}yberbullying in \textbf{M}ultimodal \textbf{M}emes (ICMM)} dataset, a high-quality, labeled dataset featuring toxic memes and their corresponding human-annotated interventions. We leverage \textit{ICMM} to test \textit{MemeGuard}, demonstrating its proficiency in generating relevant and effective responses to toxic memes.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# ProG: グラフプロンプト学習ベンチマーク

ProG: A Graph Prompt Learning Benchmark ( http://arxiv.org/abs/2406.05346v1 )

ライセンス: Link先を確認
Chenyi Zi, Haihong Zhao, Xiangguo Sun, Yiqing Lin, Hong Cheng, Jia Li, (参考訳) グラフ上の人工知能は、様々なアプリケーションで顕著な進歩を見せているが、従来の'Pre-train & Fine-Tune'パラダイムは、特に複雑で少数のショット設定において、非効率性と負の転送問題に直面している。 グラフプロンプト学習は、データを操作する軽量なプロンプトを活用し、下流のタスクをプリテキストに書き換えることでタスクギャップを埋める、有望な代替手段として浮上する。 しかし、グラフプロンプトモデルを統一する方法、グラフプロンプトの品質を評価する方法、実用的な比較と選択のためのユーザビリティの改善など、いくつかの重要な課題が残っている。 これらの課題に応えて、グラフプロンプト学習のための最初の総合的なベンチマークを導入する。 本ベンチマークでは,SIX事前学習手法とFIVE最先端グラフプロンプト技術を統合し,FIFTEEN多種多様なデータセットを用いて評価を行い,性能,柔軟性,効率を評価する。 また,さまざまなグラフプロンプトモデルの実行を合理化し,客観的評価を容易にするオープンソースライブラリであるProGについても紹介する。 さらに,既存のグラフプロンプトメソッドを,グラフとしてのプロンプトとトークンとしてのプロンプトの2つの主要なアプローチに分類する統合フレームワークを提案する。 このフレームワークは、グラフプロンプト技術の適用性と比較を強化する。 コードは、https://github.com/sheldonresearch/ProG.comで入手できる。

Artificial general intelligence on graphs has shown significant advancements across various applications, yet the traditional 'Pre-train & Fine-tune' paradigm faces inefficiencies and negative transfer issues, particularly in complex and few-shot settings. Graph prompt learning emerges as a promising alternative, leveraging lightweight prompts to manipulate data and fill the task gap by reformulating downstream tasks to the pretext. However, several critical challenges still remain: how to unify diverse graph prompt models, how to evaluate the quality of graph prompts, and to improve their usability for practical comparisons and selection. In response to these challenges, we introduce the first comprehensive benchmark for graph prompt learning. Our benchmark integrates SIX pre-training methods and FIVE state-of-the-art graph prompt techniques, evaluated across FIFTEEN diverse datasets to assess performance, flexibility, and efficiency. We also present 'ProG', an easy-to-use open-source library that streamlines the execution of various graph prompt models, facilitating objective evaluations. Additionally, we propose a unified framework that categorizes existing graph prompt methods into two main approaches: prompts as graphs and prompts as tokens. This framework enhances the applicability and comparison of graph prompt techniques. The code is available at: https://github.com/sheldonresearch/ProG.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# MSAGPT:MSA生成前訓練による神経プロンプトタンパク質構造予測

MSAGPT: Neural Prompting Protein Structure Prediction via MSA Generative Pre-Training ( http://arxiv.org/abs/2406.05347v1 )

ライセンス: Link先を確認
Bo Chen, Zhilei Bei, Xingyi Cheng, Pan Li, Jie Tang, Le Song, (参考訳) マルチシークエンスアライメント(MSA)は、タンパク質ファミリーの進化的軌道を明らかにする上で重要な役割を担っている。 タンパク質構造予測の精度は、高品質のMSAを構築するのに十分な相同性情報を持たないタンパク質配列に対してしばしば妥協される。 これらの条件下で仮想MSAを生成するための様々な方法が提案されているが、MSA内の複雑な進化パターンを包括的に捉えたり、外部のオラクルモデルからのガイダンスを必要とすることには不足している。 ここでは,低MSA条件下でのMSA生成前訓練によるタンパク質構造予測を促進させる新しい手法であるMSAGPTを紹介する。 MSAGPTは、複雑な進化パターンをモデル化するために、単純だが効果的な2D進化的位置符号化方式を採用している。 これにより、フレキシブルな1D MSAデコーディングフレームワークは、ゼロまたは少ないショットラーニングを容易にする。 さらに、AlphaFold2からのフィードバックを活用することで、Rejective Fine tuning (RFT) とReinforcement Learning from AF2 Feedback (RLAF) によるモデルキャパシティをさらに向上させることができることを示す。 大規模実験により,MSAGPTが忠実な仮想MSAの生成に有効であることが確認され,構造予測精度が向上した。 トランスファー学習能力は、他のタンパク質タスクを円滑にするための大きな可能性も浮き彫りにしている。

Multiple Sequence Alignment (MSA) plays a pivotal role in unveiling the evolutionary trajectories of protein families. The accuracy of protein structure predictions is often compromised for protein sequences that lack sufficient homologous information to construct high quality MSA. Although various methods have been proposed to generate virtual MSA under these conditions, they fall short in comprehensively capturing the intricate coevolutionary patterns within MSA or require guidance from external oracle models. Here we introduce MSAGPT, a novel approach to prompt protein structure predictions via MSA generative pretraining in the low MSA regime. MSAGPT employs a simple yet effective 2D evolutionary positional encoding scheme to model complex evolutionary patterns. Endowed by this, its flexible 1D MSA decoding framework facilitates zero or few shot learning. Moreover, we demonstrate that leveraging the feedback from AlphaFold2 can further enhance the model capacity via Rejective Fine tuning (RFT) and Reinforcement Learning from AF2 Feedback (RLAF). Extensive experiments confirm the efficacy of MSAGPT in generating faithful virtual MSA to enhance the structure prediction accuracy. The transfer learning capabilities also highlight its great potential for facilitating other protein tasks.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# 信頼性の高いアドホックな科学情報抽出に向けて:2つの素材データセットを事例として

Toward Reliable Ad-hoc Scientific Information Extraction: A Case Study on Two Materials Datasets ( http://arxiv.org/abs/2406.05348v1 )

ライセンス: Link先を確認
Satanu Ghosh, Neal R. Brodnik, Carolina Frey, Collin Holgate, Tresa M. Pollock, Samantha Daly, Samuel Carton, (参考訳) 我々は,GPT-4が科学的文献からアドホックなスキーマに基づく情報抽出を行う能力について検討する。 筆者らは、手作業で抽出した原稿から既存の2つの物質科学データセットを再現できるかどうかを、基本的なプロンプトアプローチで具体的に評価する。 我々は材料科学者を用いて詳細な手動エラー解析を行い、モデルが望ましい情報を忠実に抽出するのに苦労しているかどうかを判断し、この幅広い重要な課題に対処するための研究の方向性を提案する。

We explore the ability of GPT-4 to perform ad-hoc schema based information extraction from scientific literature. We assess specifically whether it can, with a basic prompting approach, replicate two existing material science datasets, given the manuscripts from which they were originally manually extracted. We employ materials scientists to perform a detailed manual error analysis to assess where the model struggles to faithfully extract the desired information, and draw on their insights to suggest research directions to address this broadly important task.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# 3次元乳がん球体における差分干渉法によるBlurry-Consistency Segmentation Framework

Blurry-Consistency Segmentation Framework with Selective Stacking on Differential Interference Contrast 3D Breast Cancer Spheroid ( http://arxiv.org/abs/2406.05349v1 )

ライセンス: Link先を確認
Thanh-Huy Nguyen, Thi Kim Ngan Ngo, Mai Anh Vu, Ting-Yuan Tu, (参考訳) 3次元スフェロイドモデルによる乳がん細胞の浸潤挙動の研究が注目されている。 深層学習に基づく画像処理フレームワークは,細胞形態解析プロセスの高速化に非常に有効である。 しかし、複数のzスライスの下で3D細胞を捕獲しながら撮影されたアウト・オブ・フォーカス写真は、ディープラーニングモデルに悪影響を及ぼす可能性がある。 本研究では,画像の品質を維持しつつ,ぼやけた画像を扱う新しいアルゴリズムを開発した。 さらに,高密度スライス・スタッキングを適用した場合のモデルのバイアスを軽減するために,一貫性トレーニングを活用するユニークなトレーニングアーキテクチャを提案する。 さらに、自己学習手法を用いてスパース・スライス・スタッキング効果によりモデルの安定性が向上する。 新しいぼやけた積み重ね技術とトレーニングフローは、提案されたアーキテクチャと自己学習メカニズムを組み合わせることで、革新的で使いやすいフレームワークを提供する。 本手法は定量的および定性的両面の観点から有意義な実験結果を得た。

The ability of three-dimensional (3D) spheroid modeling to study the invasive behavior of breast cancer cells has drawn increased attention. The deep learning-based image processing framework is very effective at speeding up the cell morphological analysis process. Out-of-focus photos taken while capturing 3D cells under several z-slices, however, could negatively impact the deep learning model. In this work, we created a new algorithm to handle blurry images while preserving the stacked image quality. Furthermore, we proposed a unique training architecture that leverages consistency training to help reduce the bias of the model when dense-slice stacking is applied. Additionally, the model's stability is increased under the sparse-slice stacking effect by utilizing the self-training approach. The new blurring stacking technique and training flow are combined with the suggested architecture and self-training mechanism to provide an innovative yet easy-to-use framework. Our methods produced noteworthy experimental outcomes in terms of both quantitative and qualitative aspects.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# ビデオパノプティカルセマンティックセマンティックセマンティックセマンティックセマンティクスにおける2024年画素レベルのビデオ理解(CVPR'24PVUW)チャレンジの第1位

1st Place Winner of the 2024 Pixel-level Video Understanding in the Wild (CVPR'24 PVUW) Challenge in Video Panoptic Segmentation and Best Long Video Consistency of Video Semantic Segmentation ( http://arxiv.org/abs/2406.05352v1 )

ライセンス: Link先を確認
Qingfeng Liu, Mostafa El-Khamy, Kee-Bong Song, (参考訳) 3つ目のPixelレベルのビデオ理解(PVUW CVPR 2024)チャレンジは、ビデオパノプティクスセグメンテーション(VPS)とビデオセマンティックセグメンテーション(VSS)を、それぞれ大規模なビデオパノプティクスセグメンテーション・イン・ザ・ワイルド(VIPSeg)テストセットと大規模なビデオシーンパーシング・イン・ザ・ワイルド(VSPW)テストセットで導入された挑戦的なビデオとシーンについてベンチマークすることで、ビデオ理解の最先端化を目指している。 本稿では、PVUW'24 VPSチャレンジで1位を獲得した私たちの研究成果を詳述し、ビデオパノプティクティ(VPQ)やセグメンテーション・トラッキング品質(STQ)など、すべての指標において、アート結果の状態を確立する。 マイナーな微調整によって、PVUW'24 VSSチャレンジではmIoUメトリックが3位、VC16メトリックが1位になった。 我々の勝利したソリューションは、ビデオ理解のための巨大な基盤視覚トランスフォーマーモデル(DINOv2 ViT-g)とマルチステージデカップリングビデオインスタンスセグメンテーション(DVIS)フレームワークの肩の上にあります。

The third Pixel-level Video Understanding in the Wild (PVUW CVPR 2024) challenge aims to advance the state of art in video understanding through benchmarking Video Panoptic Segmentation (VPS) and Video Semantic Segmentation (VSS) on challenging videos and scenes introduced in the large-scale Video Panoptic Segmentation in the Wild (VIPSeg) test set and the large-scale Video Scene Parsing in the Wild (VSPW) test set, respectively. This paper details our research work that achieved the 1st place winner in the PVUW'24 VPS challenge, establishing state of art results in all metrics, including the Video Panoptic Quality (VPQ) and Segmentation and Tracking Quality (STQ). With minor fine-tuning our approach also achieved the 3rd place in the PVUW'24 VSS challenge ranked by the mIoU (mean intersection over union) metric and the first place ranked by the VC16 (16-frame video consistency) metric. Our winning solution stands on the shoulders of giant foundational vision transformer model (DINOv2 ViT-g) and proven multi-stage Decoupled Video Instance Segmentation (DVIS) frameworks for video understanding.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# CPUアーキテクチャ全体にわたるメモリ障害予測の調査

Investigating Memory Failure Prediction Across CPU Architectures ( http://arxiv.org/abs/2406.05354v1 )

ライセンス: Link先を確認
Qiao Yu, Wengui Zhang, Min Zhou, Jialiang Yu, Zhenli Sheng, Jasmin Bogatinovski, Jorge Cardoso, Odej Kao, (参考訳) 大規模なデータセンタはメモリ障害を経験することが多く、Uncorrectable Errors (UE) はDual Inline Memory Modules (DIMM) において重要な障害を浮き彫りにする。 既存のアプローチでは、主に修正可能なエラー(CE)を使用してUEを予測するが、特にエラー訂正コード(ECC)の適用性の観点から、これらのエラーがCPUアーキテクチャによってどのように異なるかは無視されるのが一般的である。 本稿では,X86とARMを含むCPUアーキテクチャ間のCEとUEの相関について検討する。 本分析では,各プロセッサプラットフォームに関連するメモリ障害のユニークなパターンを同定する。 プロダクションデータセットに機械学習(ML)技術を活用することで、異なるプロセッサのプラットフォームでメモリ障害予測を行い、既存のアルゴリズムと比較して最大15%のF1スコアの改善を実現します。 最後に、プロダクション環境での障害予測を継続的に改善するためにMLOps(Machine Learning Operations)フレームワークが提供される。

Large-scale datacenters often experience memory failures, where Uncorrectable Errors (UEs) highlight critical malfunction in Dual Inline Memory Modules (DIMMs). Existing approaches primarily utilize Correctable Errors (CEs) to predict UEs, yet they typically neglect how these errors vary between different CPU architectures, especially in terms of Error Correction Code (ECC) applicability. In this paper, we investigate the correlation between CEs and UEs across different CPU architectures, including X86 and ARM. Our analysis identifies unique patterns of memory failure associated with each processor platform. Leveraging Machine Learning (ML) techniques on production datasets, we conduct the memory failure prediction in different processors' platforms, achieving up to 15% improvements in F1-score compared to the existing algorithm. Finally, an MLOps (Machine Learning Operations) framework is provided to consistently improve the failure prediction in the production environment.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# インテンシティ制御のための強化学習:選択型ネットワーク収益管理への応用

Reinforcement Learning for Intensity Control: An Application to Choice-Based Network Revenue Management ( http://arxiv.org/abs/2406.05358v1 )

ライセンス: Link先を確認
Huiling Meng, Ningyuan Chen, Xuefeng Gao, (参考訳) インテンシティ制御は、待ち行列や収益管理を含むオペレーションリサーチにおける多くの重要な応用を伴う、連続時間動的最適化問題の一種である。 本研究では,大規模な状態空間,大規模な行動空間,継続的な時間的地平を特徴とする収益管理における古典的な問題である選択型ネットワーク収益管理を事例として,強化学習の枠組みを強み制御に適用する。 ジャンプポイントによって生成されたサンプルパスの固有な離散化、強度制御のユニークな特徴を利用することで、事前の時間的水平線を識別する必要がなく、ほとんどの強化学習アルゴリズムは離散時間問題のために設計されているため、必要であると考えられていた。 その結果、計算が容易になり、離散化誤差が大幅に低減される。 我々はモンテカルロ理論の基礎を築き、政策評価のための時間差学習アルゴリズムと、強度制御のためのポリシー勾配に基づくアクタ批評家アルゴリズムを開発した。 総合的な数値的な研究により、我々のアプローチと他の最先端ベンチマークの利点を実証する。

Intensity control is a type of continuous-time dynamic optimization problems with many important applications in Operations Research including queueing and revenue management. In this study, we adapt the reinforcement learning framework to intensity control using choice-based network revenue management as a case study, which is a classical problem in revenue management that features a large state space, a large action space and a continuous time horizon. We show that by utilizing the inherent discretization of the sample paths created by the jump points, a unique and defining feature of intensity control, one does not need to discretize the time horizon in advance, which was believed to be necessary because most reinforcement learning algorithms are designed for discrete-time problems. As a result, the computation can be facilitated and the discretization error is significantly reduced. We lay the theoretical foundation for the Monte Carlo and temporal difference learning algorithms for policy evaluation and develop policy gradient based actor critic algorithms for intensity control. Via a comprehensive numerical study, we demonstrate the benefit of our approach versus other state-of-the-art benchmarks.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# エキスパート分離によるフレキシブルで適応可能な要約

Flexible and Adaptable Summarization via Expertise Separation ( http://arxiv.org/abs/2406.05360v1 )

ライセンス: Link先を確認
Xiuying Chen, Mingzhe Li, Shen Gao, Xin Cheng, Qingqing Zhu, Rui Yan, Xin Gao, Xiangliang Zhang, (参考訳) 熟練した要約モデルは、様々なドメインの要約タスクを扱う能力と、新しい知識を取得してドメイン外のタスクに適応する能力の両方を表現すべきである。 パラメータスケーリングによってこれを実現できる大規模言語モデル(LLM)とは異なり、本研究ではよりパラメータ効率の良いアプローチを提案する。 我々のモチベーションは、有能な情報をキャプチャする一般的な要約能力が、異なるタスク間で共有可能であるのに対して、ドメイン固有の要約能力は、区別され、調整される必要があるという原則に依拠している。 具体的には,Mixture-of-Expert SummarizationのアーキテクチャであるMoeSummを提案する。 さらに,これらの能力の分離を刺激する最大損失を提案する。 我々のモデルでは、一般とドメイン固有の要約能力の分離により、パラメータ効率を保ちながら、顕著な柔軟性と適応性が得られる。 MoeSummは、複数のドメインにまたがる要約を単一のモデルで管理し、共有されたメインエキスパートと選択された副エキスパートを活用することで、柔軟性を実現する。 ドメイン外の少数ショットとゼロショットのシナリオに対応するために、副専門家を調整することで、適応性を示す。 11個のデータセットに対する実験結果から,最近のベースラインやLLMと比較して,モデルが優れていることが示された。 また,MoeSumm(https://github.com/iriscxy/MoE_Summ)における2つの能力の分離の統計的および視覚的証拠も提供する。

A proficient summarization model should exhibit both flexibility -- the capacity to handle a range of in-domain summarization tasks, and adaptability -- the competence to acquire new knowledge and adjust to unseen out-of-domain tasks. Unlike large language models (LLMs) that achieve this through parameter scaling, we propose a more parameter-efficient approach in this study. Our motivation rests on the principle that the general summarization ability to capture salient information can be shared across different tasks, while the domain-specific summarization abilities need to be distinct and tailored. Concretely, we propose MoeSumm, a Mixture-of-Expert Summarization architecture, which utilizes a main expert for gaining the general summarization capability and deputy experts that selectively collaborate to meet specific summarization task requirements. We further propose a max-margin loss to stimulate the separation of these abilities. Our model's distinct separation of general and domain-specific summarization abilities grants it with notable flexibility and adaptability, all while maintaining parameter efficiency. MoeSumm achieves flexibility by managing summarization across multiple domains with a single model, utilizing a shared main expert and selected deputy experts. It exhibits adaptability by tailoring deputy experts to cater to out-of-domain few-shot and zero-shot scenarios. Experimental results on 11 datasets show the superiority of our model compared with recent baselines and LLMs. We also provide statistical and visual evidence of the distinct separation of the two abilities in MoeSumm (https://github.com/iriscxy/MoE_Summ).
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# ステップバイステップ: ステップワイズ・サマリゼーションのパイロットスタディ

Write Summary Step-by-Step: A Pilot Study of Stepwise Summarization ( http://arxiv.org/abs/2406.05361v1 )

ライセンス: Link先を確認
Xiuying Chen, Shen Gao, Mingzhe Li, Qingqing Zhu, Xin Gao, Xiangliang Zhang, (参考訳) 今日では、抽象的な要約タスクにおいて、ニューラルテキスト生成が大幅に進歩している。 しかし、既存の要約モデルのほとんどはドキュメント全体を一度に取り込んでおり、実際にはそのニーズを満たすことはできない。 実際、ニュースイベントやつぶやきなどのソーシャルなテキストストリームは、時折成長し続けており、段階的に要約システムにしか送れない。 そこで本稿では,新たな文書が提案されるたびに,新たな要約文を生成するステップワイズ・サムライゼーションの課題を提案する。 追加された要約は、新たに追加されたコンテンツを要約するだけでなく、以前の要約と一貫性を持ち、最新の完全な要約を形成するべきである。 この課題に対処するため,我々はSSG(Stepwise Summary Generator)という逆学習モデルを設計した。 まず、SSGは、前回の要約のガイダンスに基づいて、新しい文書を選択的に処理し、洗練された文書表現を得る。 次に、SSGは、前回の要約と文書の両方を考慮した要約を生成する。 最後に、畳み込みに基づく判別器を用いて、新たに生成された要約が前の要約と一致しているかどうかを判定する。 実験では,従来の2段階の更新要約設定を多段階的な設定に拡張し,公開ストーリ生成データセットに基づく大規模段階的な要約データセットを再提案する。 このデータセットの大規模な実験は、SSGが自動測定と人的評価の両方の観点から最先端のパフォーマンスを達成することを示している。 アブレーション研究は、我々のフレームワークにおける各モジュールの有効性を示す。 また、このタスクにおける最近の大規模言語モデルの利点と限界についても論じる。

Nowadays, neural text generation has made tremendous progress in abstractive summarization tasks. However, most of the existing summarization models take in the whole document all at once, which sometimes cannot meet the needs in practice. Practically, social text streams such as news events and tweets keep growing from time to time, and can only be fed to the summarization system step by step. Hence, in this paper, we propose the task of Stepwise Summarization, which aims to generate a new appended summary each time a new document is proposed. The appended summary should not only summarize the newly added content but also be coherent with the previous summary, to form an up-to-date complete summary. To tackle this challenge, we design an adversarial learning model, named Stepwise Summary Generator (SSG). First, SSG selectively processes the new document under the guidance of the previous summary, obtaining polished document representation. Next, SSG generates the summary considering both the previous summary and the document. Finally, a convolutional-based discriminator is employed to determine whether the newly generated summary is coherent with the previous summary. For the experiment, we extend the traditional two-step update summarization setting to a multi-step stepwise setting, and re-propose a large-scale stepwise summarization dataset based on a public story generation dataset. Extensive experiments on this dataset show that SSG achieves state-of-the-art performance in terms of both automatic metrics and human evaluations. Ablation studies demonstrate the effectiveness of each module in our framework. We also discuss the benefits and limitations of recent large language models on this task.
翻訳日:2024-06-11 20:14:35 公開日:2024-06-08
# RAPID:文脈認識深層学習を用いたロバストAPT検出と調査

RAPID: Robust APT Detection and Investigation Using Context-Aware Deep Learning ( http://arxiv.org/abs/2406.05362v1 )

ライセンス: Link先を確認
Yonatan Amaru, Prasanna Wudali, Yuval Elovici, Asaf Shabtai, (参考訳) 高度な永続的脅威(APT)は、データ漏洩、財務的損失、評判のダメージにつながる組織に重大な課題をもたらす。 APT検出のための既存の証明に基づくアプローチは、しばしば高い偽陽性率、解釈可能性の欠如、進化するシステムの振る舞いに適応できないことに苦慮する。 RAPIDは、文脈認識異常検出と警告追跡を利用した、堅牢なAPT検出と調査のための新しいディープラーニングベースの手法である。 自己教師付きシーケンス学習と反復的に学習した埋め込みを利用して,本手法は動的システムの挙動に効果的に適応する。 プロファイランストレースを使用することで、アラートが強化され、アプローチの検出能力が向上します。 実世界のシナリオにおけるRAPIDの有効性と計算効率を示す。 さらに、RAPIDは最先端の手法よりも精度が高く、偽陽性を著しく低減する。 RAPIDはコンテキスト情報を統合し、検出から調査へのスムーズな移行を促進する。

Advanced persistent threats (APTs) pose significant challenges for organizations, leading to data breaches, financial losses, and reputational damage. Existing provenance-based approaches for APT detection often struggle with high false positive rates, a lack of interpretability, and an inability to adapt to evolving system behavior. We introduce RAPID, a novel deep learning-based method for robust APT detection and investigation, leveraging context-aware anomaly detection and alert tracing. By utilizing self-supervised sequence learning and iteratively learned embeddings, our approach effectively adapts to dynamic system behavior. The use of provenance tracing both enriches the alerts and enhances the detection capabilities of our approach. Our extensive evaluation demonstrates RAPID's effectiveness and computational efficiency in real-world scenarios. In addition, RAPID achieves higher precision and recall than state-of-the-art methods, significantly reducing false positives. RAPID integrates contextual information and facilitates a smooth transition from detection to investigation, providing security teams with detailed insights to efficiently address APT threats.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# オンデバイスAIは破壊され、爆発可能か? : 小さな言語モデルにおける信頼と倫理の評価

Is On-Device AI Broken and Exploitable? Assessing the Trust and Ethics in Small Language Models ( http://arxiv.org/abs/2406.05364v1 )

ライセンス: Link先を確認
Kalyan Nakka, Jimmy Dani, Nitesh Saxena, (参考訳) 本稿では,スマートフォンなどのパーソナルデバイスで使用可能な「小型」言語モデル(SLM)に着目し,デバイス上での人工知能(AI)の信頼性と倫理的意味を初めて研究する。 デバイス上のSLMは、クラウドベースのサービスと比較して、プライバシの向上、レイテンシの削減、ユーザエクスペリエンスの向上を約束していますが、サーバ上のサービスと比較して、重大な課題や脆弱性も導入する可能性もあります。 信頼度評価研究の一環として,信頼度測定の枠組みを基礎として,現状のデバイスオンデバイスSLMを,サーバ上のSLMと対比して体系的に評価する。 以上の結果から、デバイス上のSLMは(統計的に)信頼性が著しく低く、特にステレオタイプ、不公平、プライバシー侵害の行動を示す。 これらの知見から, SLM が潜在的に非倫理的なバニラプロンプトに反応するかどうかを推定し, 事前の脱獄と工学的な研究などの資料を収集し, 倫理評価研究を行う。 興味深いことに、オンデバイスSLMはこれらのプロンプトに対する有効な応答に答えた。 さらに真剣なことに、デバイス上のSLMは、フィルターを使わずに、ジェイルブレイクやプロンプトエンジニアリングを必要とせず、有効な回答で応答した。 これらの反応は、社会的害、違法な活動、憎悪、自己害、悪用可能なフィッシングコンテンツ、悪用可能なコードなど、様々な有害で非倫理的なシナリオで悪用され得る。 全体としては、これらのモデルが直面しているリソースの制約に起因していると思われる、最先端のオンデバイスAIにおける脆弱性の欠如に注目しています。

In this paper, we present a very first study to investigate trust and ethical implications of on-device artificial intelligence (AI), focusing on ''small'' language models (SLMs) amenable for personal devices like smartphones. While on-device SLMs promise enhanced privacy, reduced latency, and improved user experience compared to cloud-based services, we posit that they might also introduce significant challenges and vulnerabilities compared to on-server counterparts. As part of our trust assessment study, we conduct a systematic evaluation of the state-of-the-art on-devices SLMs, contrasted to their on-server counterparts, based on a well-established trustworthiness measurement framework. Our results show on-device SLMs to be (statistically) significantly less trustworthy, specifically demonstrating more stereotypical, unfair and privacy-breaching behavior. Informed by these findings, we then perform our ethics assessment study by inferring whether SLMs would provide responses to potentially unethical vanilla prompts, collated from prior jailbreaking and prompt engineering studies and other sources. Strikingly, the on-device SLMs did answer valid responses to these prompts, which ideally should be rejected. Even more seriously, the on-device SLMs responded with valid answers without any filters and without the need for any jailbreaking or prompt engineering. These responses can be abused for various harmful and unethical scenarios including: societal harm, illegal activities, hate, self-harm, exploitable phishing content and exploitable code, all of which indicates the high vulnerability and exploitability of these on-device SLMs. Overall, our findings highlight gaping vulnerabilities in state-of-the-art on-device AI which seem to stem from resource constraints faced by these models and which may make typical defenses fundamentally challenging to be deployed in these environments.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# CaLM: グランドジェネレーションを検証するために、大規模で小さな言語モデルと対比する

CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation ( http://arxiv.org/abs/2406.05365v1 )

ライセンス: Link先を確認
I-Hung Hsu, Zifeng Wang, Long T. Le, Lesly Miculicich, Nanyun Peng, Chen-Yu Lee, Tomas Pfister, (参考訳) グラウンドドジェネレーションは、検証可能な情報源を正確に引用することで、より信頼性が高く説明可能な応答を生成する能力を備えた言語モデル(LM)を装備することを目的としている。 しかし、既存の方法は、原材料または前処理材料でLMを供給することによって、エラーを起こしやすいままである。 そこで本研究では,新しい検証フレームワークであるCaLMを紹介する。 CaLMは、ロバストな接地応答は、引用されたソースからのみ引き出された情報と一致すべきであるという洞察を利用する。 提案フレームワークは,パラメータメモリに頼らず,クエリの関連情報処理に優れる小型のLMを有効活用し,より大きなLMの出力を検証する。 引用文書にのみ依存するより小さなLMの出力と密に一致したより大きなLM応答が検証される。 相違を示す応答はフィードバックループを通じて反復的に洗練される。 3つのオープンドメイン質問回答データセットの実験では、モデルの微調整を必要とせずに、絶対平均1.5%から7%の大幅なパフォーマンス向上が示されている。

Grounded generation aims to equip language models (LMs) with the ability to produce more credible and accountable responses by accurately citing verifiable sources. However, existing methods, by either feeding LMs with raw or preprocessed materials, remain prone to errors. To address this, we introduce CaLM, a novel verification framework. CaLM leverages the insight that a robust grounded response should be consistent with information derived solely from its cited sources. Our framework empowers smaller LMs, which rely less on parametric memory and excel at processing relevant information given a query, to validate the output of larger LMs. Larger LM responses that closely align with the smaller LMs' output, which relies exclusively on cited documents, are verified. Responses showing discrepancies are iteratively refined through a feedback loop. Experiments on three open-domain question-answering datasets demonstrate significant performance gains of 1.5% to 7% absolute average without any required model fine-tuning.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# エピソードリスク感応性線形二次レギュレータのためのレグレト境界

Regret Bounds for Episodic Risk-Sensitive Linear Quadratic Regulator ( http://arxiv.org/abs/2406.05366v1 )

ライセンス: Link先を確認
Wenhao Xu, Xuefeng Gao, Xuedong He, (参考訳) リスクに敏感な線形二次規制は、リスクに敏感な最適制御における最も基本的な問題の1つである。 本稿では,有限地平線エピソード設定におけるリスク感応性線形二次規制器のオンライン適応制御について検討する。 簡単な最小二乗グリーディアルゴリズムを提案し、特定の識別可能性仮定の下で、$\widetilde{\mathcal{O}}(\log N)$ regretを達成し、$N$はエピソードの総数であることを示す。 同一性仮定が満たされない場合、最小二乗アルゴリズムに探索ノイズを組み込むことを提案し、その結果、$\widetilde{\mathcal{O}}(\sqrt{N})$ regret というアルゴリズムが成立する。 我々の知る限りでは、これはエピソジックなリスクに敏感な線形二次的レギュレータに対する最初の後悔の束である。 本証明は,リスク感受性線形二次制御のための低標準リカティ方程式の摂動解析と,オンライン学習プロセスにおける準最適制御の適用によるリスク感受性性能基準の損失の微妙な解析に依拠する。

Risk-sensitive linear quadratic regulator is one of the most fundamental problems in risk-sensitive optimal control. In this paper, we study online adaptive control of risk-sensitive linear quadratic regulator in the finite horizon episodic setting. We propose a simple least-squares greedy algorithm and show that it achieves $\widetilde{\mathcal{O}}(\log N)$ regret under a specific identifiability assumption, where $N$ is the total number of episodes. If the identifiability assumption is not satisfied, we propose incorporating exploration noise into the least-squares-based algorithm, resulting in an algorithm with $\widetilde{\mathcal{O}}(\sqrt{N})$ regret. To our best knowledge, this is the first set of regret bounds for episodic risk-sensitive linear quadratic regulator. Our proof relies on perturbation analysis of less-standard Riccati equations for risk-sensitive linear quadratic control, and a delicate analysis of the loss in the risk-sensitive performance criterion due to applying the suboptimal controller in the online learning process.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# Venn Diagram Prompting : シャッフル効果による理解の促進

Venn Diagram Prompting : Accelerating Comprehension with Scaffolding Effect ( http://arxiv.org/abs/2406.05369v1 )

ライセンス: Link先を確認
Sakshi Mahendru, Tejul Pandit, (参考訳) 本稿では,Venn Diagram (VD) Promptingを紹介し,Large Language Models (LLMs) が知識集約型質問応答タスクにおいて,複雑で多種多様で長文の文書にまたがる情報を組み合わせて合成する,革新的なプロンプト技術を提案する。 複数の文書から回答を生成するには、関連性のあるユニークな情報を抽出し、それを結合的な応答に集約する、数多くのステップが伴う。 最終回答の品質を向上させるために、複数のLCM呼び出しや事前訓練されたモデルを使用して、要約、再構成、カスタマイズといった様々なタスクを実行する。 本稿では,VDプロンプトを用いた単一LLMコールによるマルチステップ戦略の置き換えに焦点が当てられている。 提案手法は,LLMの固有位置バイアスを除去し,入力情報のシーケンスに対する感度を除去し,回答の一貫性を高めることを目的としている。 これは、伝統的に様々な入力シーケンスに関連付けられた一貫性の難しさを克服する。 また,VDプロンプトの実用的応用についても検討した。 4つの公開ベンチマーク質問回答データセットで実施された実験では、VDは、最適なガイドラインとプラクティスに準拠した厳密に構築された命令プロンプトのパフォーマンスを継続的に一致させたり、超えたりしている。

We introduce Venn Diagram (VD) Prompting, an innovative prompting technique which allows Large Language Models (LLMs) to combine and synthesize information across complex, diverse and long-context documents in knowledge-intensive question-answering tasks. Generating answers from multiple documents involves numerous steps to extract relevant and unique information and amalgamate it into a cohesive response. To improve the quality of the final answer, multiple LLM calls or pretrained models are used to perform different tasks such as summarization, reorganization and customization. The approach covered in the paper focuses on replacing the multi-step strategy via a single LLM call using VD prompting. Our proposed technique also aims to eliminate the inherent position bias in the LLMs, enhancing consistency in answers by removing sensitivity to the sequence of input information. It overcomes the challenge of inconsistency traditionally associated with varying input sequences. We also explore the practical applications of the VD prompt based on our examination of the prompt's outcomes. In the experiments performed on four public benchmark question-answering datasets, VD prompting continually matches or surpasses the performance of a meticulously crafted instruction prompt which adheres to optimal guidelines and practices.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# VALL-E 2:ニューラルコーデック言語モデルは、音声合成のための人間のパーティゼロショットテキストである

VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers ( http://arxiv.org/abs/2406.05370v1 )

ライセンス: Link先を確認
Sanyuan Chen, Shujie Liu, Long Zhou, Yanqing Liu, Xu Tan, Jinyu Li, Sheng Zhao, Yao Qian, Furu Wei, (参考訳) 本稿では,ゼロショット音声合成(TTS)における節目となる,ニューラルコーデック言語モデルの最新の進歩であるVALL-E 2を紹介する。 繰り返し認識サンプリング(Repetition Aware Smpling)は、デコード履歴におけるトークンの繰り返しを考慮して、元の核サンプリングプロセスを洗練する。 復号化を安定化するだけでなく、無限ループ問題を回避している。 Grouped Code Modelingは、コーデックコードをグループに編成してシーケンス長を効果的に短縮する。 LibriSpeech と VCTK を用いた実験により,VALL-E 2 は音声の頑健性,自然性,話者の類似性において,従来のシステムを上回っていることがわかった。 この種のベンチマークで人間と同等に到達したのは、これが初めてのことだ。 さらに、VALL-E 2は、その複雑さや繰り返し句によって伝統的に困難な文であっても、高品質な音声を一貫して合成する。 この研究の利点は、失語症のある人や筋萎縮性側索硬化症を持つ人のためのスピーチを生成するなど、貴重な努力に寄与する可能性がある。 VALL-E 2のデモはhttps://aka.ms/valle2.comに投稿される。

This paper introduces VALL-E 2, the latest advancement in neural codec language models that marks a milestone in zero-shot text-to-speech synthesis (TTS), achieving human parity for the first time. Based on its predecessor, VALL-E, the new iteration introduces two significant enhancements: Repetition Aware Sampling refines the original nucleus sampling process by accounting for token repetition in the decoding history. It not only stabilizes the decoding but also circumvents the infinite loop issue. Grouped Code Modeling organizes codec codes into groups to effectively shorten the sequence length, which not only boosts inference speed but also addresses the challenges of long sequence modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E 2 surpasses previous systems in speech robustness, naturalness, and speaker similarity. It is the first of its kind to reach human parity on these benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech, even for sentences that are traditionally challenging due to their complexity or repetitive phrases. The advantages of this work could contribute to valuable endeavors, such as generating speech for individuals with aphasia or people with amyotrophic lateral sclerosis. Demos of VALL-E 2 will be posted to https://aka.ms/valle2.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# 高精度推論が可能な一貫したマッピング関係を持つニューラルネットワークのスパイキング

Spiking Neural Networks with Consistent Mapping Relations Allow High-Accuracy Inference ( http://arxiv.org/abs/2406.05371v1 )

ライセンス: Link先を確認
Yang Li, Xiang He, Qingqun Kong, Yi Zeng, (参考訳) スパイクベースのニューロモルフィックハードウェアは、低エネルギー消費と効率的な推論において大きな可能性を証明している。 しかし、ディープスパイクニューラルネットワークの直接トレーニングは困難であり、変換ベースの手法では未解決の変換エラーのため、かなり時間を要する。 変換誤差の主な原因は、従来の活性化関数のマッピング関係とスパイクニューロンのインプット・アウトプット・ダイナミクスとの整合性にあると判断する。 これに対応するために、Consistent ANN-SNN Conversion (CASC)フレームワークを紹介する。 具体的には、安定点の上界の影響を最小限に抑えるために考案されたConsistent IF(CIF)ニューロンモデルと、ニューロンの挙動の均一性を相乗的に保証するウェイク-スリープ変換(WSC)手法を含む。 この方法は理論的には損失のない変換を実現し、時間遅延を著しく低減し、広範囲の分類およびオブジェクト検出タスクにおける推論性能を向上させる。 我々のアプローチはより効率的で効果的なニューロモルフィックシステムへの有効な経路を提供する。

Spike-based neuromorphic hardware has demonstrated substantial potential in low energy consumption and efficient inference. However, the direct training of deep spiking neural networks is challenging, and conversion-based methods still require substantial time delay owing to unresolved conversion errors. We determine that the primary source of the conversion errors stems from the inconsistency between the mapping relationship of traditional activation functions and the input-output dynamics of spike neurons. To counter this, we introduce the Consistent ANN-SNN Conversion (CASC) framework. It includes the Consistent IF (CIF) neuron model, specifically contrived to minimize the influence of the stable point's upper bound, and the wake-sleep conversion (WSC) method, synergistically ensuring the uniformity of neuron behavior. This method theoretically achieves a loss-free conversion, markedly diminishing time delays and improving inference performance in extensive classification and object detection tasks. Our approach offers a viable pathway toward more efficient and effective neuromorphic systems.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# ギャップを埋める:ロバストにおけるラデマッハ複雑性と標準一般化

Bridging the Gap: Rademacher Complexity in Robust and Standard Generalization ( http://arxiv.org/abs/2406.05372v1 )

ライセンス: Link先を確認
Jiancong Xiao, Ruoyu Sun, Qi Long, Weijie J. Su, (参考訳) ディープニューラルネットワーク(DNN)を敵の例で訓練すると、テストタイムの敵データに対する一般化が不十分になることが多い。 本稿では、Radecher複雑性のレンズを通して、逆向き堅牢な一般化として知られるこの問題を考察する。 Khim and Loh (2018) と Yin et al (2019) による研究に基づいて、この問題に多くの研究が注がれてきたが、満足できる限界を達成することは、いまだにあり得ない目標である。 既存のDNNの作業は、ロバストな損失ではなく、サロゲートの損失に適用するか、標準の損失よりも顕著に緩い利得境界に適用される。 後者の場合、境界は DNN の幅 $m$ あるいはデータ次元 $d$ に高い依存度を持ち、少なくとも$\mathcal{O}(\sqrt{m})$ または $\mathcal{O}(\sqrt{d})$ の余剰係数を持つ。 本稿では、Bartlett et al (2017)の論文で確立されたように、標準設定における最もよく知られた上界と一致するDNNの逆ラドマチャー複雑性の上限について、幅と寸法への依存が$\mathcal{O}(\ln(dm))$であることを示す。 対処する中心的な課題は、敵関数クラスの被覆数を計算することである。 我々は2つの性質を持つ新しいカバーを構築することを目指している。 1)敵の例との整合性、及び 2) 標準設定で使用されるカバーに匹敵する精度。 この目的のために、我々は、これらの2つの性質を具体的に設計し、整合することが証明された \emph{uniform cover number} と呼ばれる被覆数の新しい変種を導入する。 その結果,ロバストおよび標準一般化におけるRademacher複雑性のギャップを効果的に埋めることができた。

Training Deep Neural Networks (DNNs) with adversarial examples often results in poor generalization to test-time adversarial data. This paper investigates this issue, known as adversarially robust generalization, through the lens of Rademacher complexity. Building upon the studies by Khim and Loh (2018); Yin et al. (2019), numerous works have been dedicated to this problem, yet achieving a satisfactory bound remains an elusive goal. Existing works on DNNs either apply to a surrogate loss instead of the robust loss or yield bounds that are notably looser compared to their standard counterparts. In the latter case, the bounds have a higher dependency on the width $m$ of the DNNs or the dimension $d$ of the data, with an extra factor of at least $\mathcal{O}(\sqrt{m})$ or $\mathcal{O}(\sqrt{d})$. This paper presents upper bounds for adversarial Rademacher complexity of DNNs that match the best-known upper bounds in standard settings, as established in the work of Bartlett et al. (2017), with the dependency on width and dimension being $\mathcal{O}(\ln(dm))$. The central challenge addressed is calculating the covering number of adversarial function classes. We aim to construct a new cover that possesses two properties: 1) compatibility with adversarial examples, and 2) precision comparable to covers used in standard settings. To this end, we introduce a new variant of covering number called the \emph{uniform covering number}, specifically designed and proven to reconcile these two properties. Consequently, our method effectively bridges the gap between Rademacher complexity in robust and standard generalization.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# 人間のようなプランニング:対話プランニングのためのデュアルプロセスフレームワーク

Planning Like Human: A Dual-process Framework for Dialogue Planning ( http://arxiv.org/abs/2406.05374v1 )

ライセンス: Link先を確認
Tao He, Lizi Liao, Yixin Cao, Yuanxing Liu, Ming Liu, Zerui Chen, Bing Qin, (参考訳) 積極的対話では、課題は応答を生成するだけでなく、所定の目標に向けて会話を操ることにある。 LLMにおける対話計画を強化する従来のアプローチは、精巧なプロンプトエンジニアリングからポリシーネットワークの統合まで、効率上の問題に直面したり、準最適性能を提供するものまで様々である。 直感的(高速)と分析的(低速)の2つの異なる思考様式を識別する心理学における二重プロセス理論に着想を得て,両プロセス対話計画(DPDP)フレームワークを提案する。 DPDPはこの理論を、2つの補完的な計画システムを通して具体化している: 親しみやすい文脈に対する本能的なポリシーモデルと、複雑で斬新なシナリオのための熟考的モンテカルロ木探索(MCTS)機構である。 堅牢な初期政策モデル形成のためのオフライン強化学習と、MCTSが強化したオンザフライ学習により、効率性と戦略的深さの動的バランスが保証される。 多様な対話課題に対する実証的な評価は、DPDPが高品質な対話と運用効率の両方を達成し、既存の手法よりも優れていることを裏付けるものである。

In proactive dialogue, the challenge lies not just in generating responses but in steering conversations toward predetermined goals, a task where Large Language Models (LLMs) typically struggle due to their reactive nature. Traditional approaches to enhance dialogue planning in LLMs, ranging from elaborate prompt engineering to the integration of policy networks, either face efficiency issues or deliver suboptimal performance. Inspired by the dualprocess theory in psychology, which identifies two distinct modes of thinking - intuitive (fast) and analytical (slow), we propose the Dual-Process Dialogue Planning (DPDP) framework. DPDP embodies this theory through two complementary planning systems: an instinctive policy model for familiar contexts and a deliberative Monte Carlo Tree Search (MCTS) mechanism for complex, novel scenarios. This dual strategy is further coupled with a novel two-stage training regimen: offline Reinforcement Learning for robust initial policy model formation followed by MCTS-enhanced on-the-fly learning, which ensures a dynamic balance between efficiency and strategic depth. Our empirical evaluations across diverse dialogue tasks affirm DPDP's superiority in achieving both high-quality dialogues and operational efficiency, outpacing existing methods.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# LEMMA-RCA: 根本原因解析のための大規模マルチモーダルマルチドメインデータセット

LEMMA-RCA: A Large Multi-modal Multi-domain Dataset for Root Cause Analysis ( http://arxiv.org/abs/2406.05375v1 )

ライセンス: Link先を確認
Lecheng Zheng, Zhengzhang Chen, Dongjie Wang, Chengyuan Deng, Reon Matsuoka, Haifeng Chen, (参考訳) ルート原因分析(RCA)は複雑なシステムの信頼性と性能を高めるために重要である。 しかし、この分野の進歩はRCAに適した大規模なオープンソースデータセットの欠如によって妨げられている。 このギャップを埋めるために、複数のドメインとモダリティにまたがる多様なRCAタスク用に設計された大規模なデータセットであるLEMMA-RCAを導入する。 LEMMA-RCAは、マイクロサービス、水分散、水処理システムを含むITおよびOT運用システムから、数百のシステムエンティティを含む、さまざまな現実的な障害シナリオを特徴とする。 LEMMA-RCAの品質評価は,オフラインモードやオンラインモード,シングルモードや複数モードを含む,このデータセット上での8つのベースライン手法の性能試験により行う。 LEMMA-RCAの高品質化を実証した。 データセットはhttps://lemma-rca.github.io/.com/で公開されている。

Root cause analysis (RCA) is crucial for enhancing the reliability and performance of complex systems. However, progress in this field has been hindered by the lack of large-scale, open-source datasets tailored for RCA. To bridge this gap, we introduce LEMMA-RCA, a large dataset designed for diverse RCA tasks across multiple domains and modalities. LEMMA-RCA features various real-world fault scenarios from IT and OT operation systems, encompassing microservices, water distribution, and water treatment systems, with hundreds of system entities involved. We evaluate the quality of LEMMA-RCA by testing the performance of eight baseline methods on this dataset under various settings, including offline and online modes as well as single and multiple modalities. Our experimental results demonstrate the high quality of LEMMA-RCA. The dataset is publicly available at https://lemma-rca.github.io/.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# 逆流: 逆流の勾配流のキャラクタリゼーション

Adversarial flows: A gradient flow characterization of adversarial attacks ( http://arxiv.org/abs/2406.05376v1 )

ライセンス: Link先を確認
Lukas Weigand, Tim Roith, Martin Burger, (参考訳) 神経ネットワークに対する敵対的攻撃を行う一般的な方法は、いわゆる高速勾配標識法とその反復的変種である。 本稿では,この手法を微分包摂の明示的なオイラー離散化と解釈し,それに伴う勾配流への離散化の収束を示す。 そのため、極大斜面の p-曲線の概念を、$p=\infty$ の場合に考える。 最大勾配の$\infty$-曲線の存在を証明し、微分包含によって別の特徴を導出する。 さらに、ポテンシャルエネルギーに対するワッサーシュタイン勾配流も考慮し、ワッサーシュタイン空間の曲線は、微分包含を満たすバナッハ空間の曲線の空間の表現測度によって特徴づけられることを示す。 有限次元の設定への我々の理論の適用は2つある: 一方、ステップサイズを0にしたとき、正規化勾配降下法(特に符号付き勾配降下法)のクラス全体が流れに収束することを示す。 一方, 分布設定では, 最適輸送空間上の最大勾配の$\infty$-curves を用いて, 対向訓練対象の内的最適化タスクを特徴付けることができることを示す。

A popular method to perform adversarial attacks on neuronal networks is the so-called fast gradient sign method and its iterative variant. In this paper, we interpret this method as an explicit Euler discretization of a differential inclusion, where we also show convergence of the discretization to the associated gradient flow. To do so, we consider the concept of p-curves of maximal slope in the case $p=\infty$. We prove existence of $\infty$-curves of maximum slope and derive an alternative characterization via differential inclusions. Furthermore, we also consider Wasserstein gradient flows for potential energies, where we show that curves in the Wasserstein space can be characterized by a representing measure on the space of curves in the underlying Banach space, which fulfill the differential inclusion. The application of our theory to the finite-dimensional setting is twofold: On the one hand, we show that a whole class of normalized gradient descent methods (in particular signed gradient descent) converge, up to subsequences, to the flow, when sending the step size to zero. On the other hand, in the distributional setting, we show that the inner optimization task of adversarial training objective can be characterized via $\infty$-curves of maximum slope on an appropriate optimal transport space.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# FPGA実装サイバーコヒーレントイジングマシン

Highly Versatile FPGA-Implemented Cyber Coherent Ising Machine ( http://arxiv.org/abs/2406.05377v1 )

ライセンス: Link先を確認
Toru Aonishi, Tatsuya Nagasawa, Toshiyuki Koizumi, Mastiyage Don Sudeera Hasaranga Gunathilaka, Kazushi Mimura, Masato Okada, Satoshi Kako, Yoshihisa Yamamoto, (参考訳) 近年、量子イジングマシンは注目されているが、物理的な実装上の制約のため、実用的な大規模アプリケーションを扱うのに十分なスピンとの完全な結合のような密結合は困難である。 したがって、古典的に計算可能な方程式は、これらの量子イジングマシンの量子マスター方程式から導かれる。 FPGAを用いたこれらのアルゴリズムの並列実装は、物理システムでは達成が難しいスケールでこれらの問題の解を迅速に見つけるために使われてきた。 我々はFPGAを実装したサイバーコヒーレントIsingマシン(サイバーCIM)を開発した。 我々のアーキテクチャは、CIM研究開始時に提案されたオープンループCIMや、最近使われているクローズループCIM、そしてヤコビ連続オーバーラックス法に適用できるため、多用途である。 計算制御モジュールのシーケンス制御コードを変更することで、Simulated Bifurcation (SB)のような他のアルゴリズムも実装できる。 SBとCIMの大規模FPGA実装に関する以前の研究では、接続に2値または3値の離散値を使用していたが、サイバーCIMはFP32値を使用していた。 また、サイバーCIMは、他の大規模FPGAシステムには存在しないFP32として表現されたゼーマン語を利用した。 連続的相互作用を用いた実装では,N=4096を単一FPGA上で実現し,N=4096を用いたSBの単一FPGA実装に匹敵する結果を得た。 サイバーCIMは、従来のFPGAシステムでは不可能だったCDMAマルチユーザ検出器やL0圧縮センシングなどのアプリケーションを実現すると同時に、GPU実装の10倍以上の計算速度を実現している。 クラスタリングなどの並列性を高めて計算速度をさらに向上することができる。

In recent years, quantum Ising machines have drawn a lot of attention, but due to physical implementation constraints, it has been difficult to achieve dense coupling, such as full coupling with sufficient spins to handle practical large-scale applications. Consequently, classically computable equations have been derived from quantum master equations for these quantum Ising machines. Parallel implementations of these algorithms using FPGAs have been used to rapidly find solutions to these problems on a scale that is difficult to achieve in physical systems. We have developed an FPGA implemented cyber coherent Ising machine (cyber CIM) that is much more versatile than previous implementations using FPGAs. Our architecture is versatile since it can be applied to the open-loop CIM, which was proposed when CIM research began, to the closed-loop CIM, which has been used recently, as well as to Jacobi successive over-relaxation method. By modifying the sequence control code for the calculation control module, other algorithms such as Simulated Bifurcation (SB) can also be implemented. Earlier research on large-scale FPGA implementations of SB and CIM used binary or ternary discrete values for connections, whereas the cyber CIM used FP32 values. Also, the cyber CIM utilized Zeeman terms that were represented as FP32, which were not present in other large-scale FPGA systems. Our implementation with continuous interaction realizes N=4096 on a single FPGA, comparable to the single-FPGA implementation of SB with binary interactions, with N=4096. The cyber CIM enables applications such as CDMA multi-user detector and L0 compressed sensing which were not possible with earlier FPGA systems, while enabling superior calculation speeds, more than ten times faster than a GPU implementation. The calculation speed can be further improved by increasing parallelism, such as through clustering.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# マルチエージェントソフトウェア開発の実験:統一プラットフォームを目指して

Experimenting with Multi-Agent Software Development: Towards a Unified Platform ( http://arxiv.org/abs/2406.05381v1 )

ライセンス: Link先を確認
Malik Abdul Sami, Muhammad Waseem, Zeeshan Rasheed, Mika Saari, Kari Systä, Pekka Abrahamsson, (参考訳) 大規模言語モデルは、要件収集、ソフトウェアアーキテクチャ、コード生成、テスト、デプロイメントを含む、ソフトウェア開発プロセス全体にわたってAI駆動技術を実装することで、ソフトウェアエンジニアリングを再定義する。 しかし、すべての段階において最高の成果を連続的に生み出す、結束的なプラットフォームを開発することは依然として困難である。 本研究の目的は、複数の人工知能エージェントを用いて、ユーザの要求を適切に構成された配送物に変換するプロセスを自動化する統一プラットフォームを開発することである。 これらの成果物には、ユーザストーリ、優先順位付け、UMLシーケンスダイアグラム、APIへのモジュラーアプローチ、ユニットテスト、エンドツーエンドテストが含まれる。 さらに、プラットフォームはタスクを整理し、セキュリティとコンプライアンスを実行し、非機能要件の設計パターンと改善を提案する。 ユーザーは好みに応じて各フェーズを制御および管理できる。 さらに、このプラットフォームは欧州標準に従ってセキュリティとコンプライアンスのチェックを提供し、設計の最適化を提案する。 我々は、GPT-3.5、GPT-4、Llama3などの複数のモデルを使用して、ユーザー選択に応じてモジュラーコードを生成する。 この調査はまた、ソフトウェア開発ライフサイクルを全般的に改善するための制限と将来の研究の議論を強調している。 統一プラットフォーム用のソースコードはGitHubにホストされており、さらなる実験を可能にし、研究と実践の両方の使用をサポートする。 御前

Large language models are redefining software engineering by implementing AI-powered techniques throughout the whole software development process, including requirement gathering, software architecture, code generation, testing, and deployment. However, it is still difficult to develop a cohesive platform that consistently produces the best outcomes across all stages. The objective of this study is to develop a unified platform that utilizes multiple artificial intelligence agents to automate the process of transforming user requirements into well-organized deliverables. These deliverables include user stories, prioritization, and UML sequence diagrams, along with the modular approach to APIs, unit tests, and end-to-end tests. Additionally, the platform will organize tasks, perform security and compliance, and suggest design patterns and improvements for non-functional requirements. We allow users to control and manage each phase according to their preferences. In addition, the platform provides security and compliance checks following European standards and proposes design optimizations. We use multiple models, such as GPT-3.5, GPT-4, and Llama3 to enable to generation of modular code as per user choice. The research also highlights the limitations and future research discussions to overall improve the software development life cycle. The source code for our uniform platform is hosted on GitHub, enabling additional experimentation and supporting both research and practical uses. \end
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# 絶縁体のトポロジカル分類:II. 準2次元局所性

Topological Classification of Insulators: II. Quasi-Two-Dimensional Locality ( http://arxiv.org/abs/2406.05385v1 )

ライセンス: Link先を確認
Jui-Hui Chung, Jacob Shapiro, (参考訳) ラウリン束作用素のスペクトル射影を用いた2次元局所性(フェルミ射影のホール伝導度を定義するために必要なeg)の代替的特徴付けを提供する。 この抽象的特徴量を用いて、この局所性の一般化を定義する。 続いて、準2次元局所なユニタリ空間や直交射影の経路連結成分を計算し、北エフテーブルの実際の2次元列と比較して、無限に多くの$\mathbb{Z}$-valued indices を示す。

We provide an alternative characterization of two-dimensional locality (necessary e.g. to define the Hall conductivity of a Fermi projection) using the spectral projections of the Laughlin flux operator. Using this abstract characterization, we define generalizations of this locality, which we term quasi-2D. We go on to calculate the path-connected components of spaces of unitaries or orthogonal projections which are quasi-2D-local and find a starkly different behavior compared with the actual 2D column of the Kitaev table, exhibiting e.g., in the unitary chiral case, infinitely many $\mathbb{Z}$-valued indices.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# DUPLEX: 方向性グラフの複合埋め込みのためのデュアルGAT

DUPLEX: Dual GAT for Complex Embedding of Directed Graphs ( http://arxiv.org/abs/2406.05391v1 )

ライセンス: Link先を確認
Zhaoru Ke, Hang Yu, Jianguo Li, Haipeng Zhang, (参考訳) 現在の有向グラフ埋め込み手法は,非指向的手法に基づいて構築されているが,多くの場合,有向エッジ情報の取得が不十分なため,(1)隣り合わせの相互作用が不十分なノードに対する最適部分表現,(2)新しいノードの訓練後表現の限定的帰納的能力,(3)訓練が特定のタスクと過度に結合された狭い一般化性など,課題が生じる。 そこで本研究では,有向グラフの複雑な埋め込みのための帰納的フレームワークであるDUPLEXを提案する。 本手法は,(1)Hermitian adjacency matrix decompositionを総合的な隣り合わせ積分に利用し,(2)指向性隣り合わせモデリングに2つのGATエンコーダを使用し,(3)パラメータフリーデコーダを2つ備えて,特定のタスクからトレーニングを分離する。 DUPLEXは、特に疎結合なノードにおいて、最先端モデルよりも優れており、様々なタスクにまたがる堅牢なインダクティブ能力と適応性を示している。 コードはhttps://github.com/alipay/DUPLEX.comで入手できる。

Current directed graph embedding methods build upon undirected techniques but often inadequately capture directed edge information, leading to challenges such as: (1) Suboptimal representations for nodes with low in/out-degrees, due to the insufficient neighbor interactions; (2) Limited inductive ability for representing new nodes post-training; (3) Narrow generalizability, as training is overly coupled with specific tasks. In response, we propose DUPLEX, an inductive framework for complex embeddings of directed graphs. It (1) leverages Hermitian adjacency matrix decomposition for comprehensive neighbor integration, (2) employs a dual GAT encoder for directional neighbor modeling, and (3) features two parameter-free decoders to decouple training from particular tasks. DUPLEX outperforms state-of-the-art models, especially for nodes with sparse connectivity, and demonstrates robust inductive capability and adaptability across various tasks. The code is available at https://github.com/alipay/DUPLEX.
翻訳日:2024-06-11 20:04:51 公開日:2024-06-08
# 長期的課題から新たなジレンマへ

Deconstructing The Ethics of Large Language Models from Long-standing Issues to New-emerging Dilemmas ( http://arxiv.org/abs/2406.05392v1 )

ライセンス: Link先を確認
Chengyuan Deng, Yiqun Duan, Xin Jin, Heng Chang, Yijun Tian, Han Liu, Henry Peng Zou, Yiqiao Jin, Yijia Xiao, Yichen Wang, Shenghao Wu, Zongxing Xie, Kuofeng Gao, Sihong He, Jun Zhuang, Lu Cheng, Haohan Wang, (参考訳) 大規模言語モデル(LLM)は近年,多種多様な言語モデリングタスクにおいて,相容れない成功を収めている。 しかし、この進歩は倫理的懸念を増し、日常的な文脈におけるLLMの展開に影響を及ぼした。 本稿では,著作権侵害,体系的偏見,データプライバシといった長年の課題から,真偽や社会的規範といった新たな問題まで,LLMに関連する倫理的課題を包括的に調査する。 我々は、これらの倫理的リスクを理解し、調査し、緩和することを目的とした既存の研究を批判的に分析する。 本調査は,LLMの発展に倫理的基準と社会的価値を統合し,責任的・倫理的に整合した言語モデルの開発を導くものである。

Large Language Models (LLMs) have achieved unparalleled success across diverse language modeling tasks in recent years. However, this progress has also intensified ethical concerns, impacting the deployment of LLMs in everyday contexts. This paper provides a comprehensive survey of ethical challenges associated with LLMs, from longstanding issues such as copyright infringement, systematic bias, and data privacy, to emerging problems like truthfulness and social norms. We critically analyze existing research aimed at understanding, examining, and mitigating these ethical risks. Our survey underscores integrating ethical standards and societal values into the development of LLMs, thereby guiding the development of responsible and ethically aligned language models.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# 非線形システム同定のための漁師情報ゲインを用いた動的重要度学習

Dynamic importance learning using fisher information gain for nonlinear system identification ( http://arxiv.org/abs/2406.05395v1 )

ライセンス: Link先を確認
Vahid MohammadZadeh Eivaghi, Mahdi Aliyari Shoorehdeli, (参考訳) Fisher Information Matrix (FIM) は、変数を特徴付けるモデル内の未知のパラメータに関する観測可能な乱変数の情報内容を定量化する方法を提供する。 モデル内のパラメータが個々の特徴に直接リンクされている場合、FIMの対角要素は各特徴の相対的重要性を示す。 しかし、機能的相互作用が存在する場合のシナリオでは、完全なFIMの総合的な探索は、その対角要素のみに焦点を当てるのではなく、必要である。 本稿では、FIMをトレーニングプロセスに統合し、動的重要性と全体モデル構造に関する洞察を得る、エンドツーエンドのブラックボックスシステム識別手法を提案する。 ネットワークの第1層に決定モジュールを追加して、FIM全体を入力とする関連スコアを決定する。 次に、前方伝播は入力と関連スコアの要素ワイド乗算で実行される。 シミュレーションの結果,提案手法は動的相互作用の様々な種類の相互作用を効果的に捕捉し,多項式相互作用に限定した既存手法より優れていることが示された。 さらに,本手法の有効性を実世界の産業システム,特にPH中性化プロセスの同定に応用することで確認した。

The Fisher Information Matrix (FIM) provides a way for quantifying the information content of an observable random variable concerning unknown parameters within a model that characterizes the variable. When parameters in a model are directly linked to individual features, the diagonal elements of the FIM can signify the relative importance of each feature. However, in scenarios where feature interactions may exist, a comprehensive exploration of the full FIM is necessary rather than focusing solely on its diagonal elements. This paper presents an end-to-end black box system identification approach that integrates the FIM into the training process to gain insights into dynamic importance and overall model structure. A decision module is added to the first layer of the network to determine the relevance scores using the entire FIM as input. The forward propagation is then performed on element-wise multiplication of inputs and relevance scores. Simulation results demonstrate that the proposed methodology effectively captures various types of interactions between dynamics, outperforming existing methods limited to polynomial interactions. Moreover, the effectiveness of this novel approach is confirmed through its application in identifying a real-world industrial system, specifically the PH neutralization process.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# 平均場カオス拡散モデル

Mean-field Chaos Diffusion Models ( http://arxiv.org/abs/2406.05396v1 )

ライセンス: Link先を確認
Sungwoo Park, Dongjun Kim, Ahmed Alaa, (参考訳) 本稿では, 平均場理論の概念を活用することで, 心電図データ分布を扱うための新しいスコアベース生成モデル(SGM)を提案する。 本研究では, 相互作用粒子のカオス特性の伝播を利用した平均場カオス拡散モデル(MF-CDMs)を提案する。 相互作用する粒子の大きな確率的システムとして高心性データを扱うことにより、無限次元カオス粒子システムのための新しいスコアマッチング法を開発し、効率的なトレーニングのための分割戦略を用いた近似スキームを提案する。 我々は,MF-CDMの3次元点雲などの大規模心電図データ構造に対するスケーラビリティと有効性を示した。

In this paper, we introduce a new class of score-based generative models (SGMs) designed to handle high-cardinality data distributions by leveraging concepts from mean-field theory. We present mean-field chaos diffusion models (MF-CDMs), which address the curse of dimensionality inherent in high-cardinality data by utilizing the propagation of chaos property of interacting particles. By treating high-cardinality data as a large stochastic system of interacting particles, we develop a novel score-matching method for infinite-dimensional chaotic particle systems and propose an approximation scheme that employs a subdivision strategy for efficient training. Our theoretical and empirical results demonstrate the scalability and effectiveness of MF-CDMs for managing large high-cardinality data structures, such as 3D point clouds.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# メタモルフィック関係生成の現状と今後の展望

Metamorphic Relation Generation: State of the Art and Visions for Future Research ( http://arxiv.org/abs/2406.05397v1 )

ライセンス: Link先を確認
Rui Li, Huai Liu, Pak-Lok Poon, Dave Towey, Chang-Ai Sun, Zheng Zheng, Zhi Quan Zhou, Tsong Yueh Chen, (参考訳) メタモルフィックテストは、ソフトウェアテストにおける悪名高いオラクルの問題に対処する主要なテクニックとなっている。 メタモルフィックテストのコアコンポーネントであるメタモルフィック関係は、学術と産業の両方から継続的に研究の関心を集めている。 過去10年間で、様々なソースや異なるアプリケーションドメインから、体系的にメタモルフィック関係を生成する研究が急速に増えている。 本稿では, メタモルフィック関係の生成技術に関する体系的なレビューに基づいて, メタモルフィック関係の同定・構築のための理論・技術をさらに発展させるためのビジョンを要約し, 強調し, 関連分野における潜在的研究動向について考察する。

Metamorphic testing has become one mainstream technique to address the notorious oracle problem in software testing, thanks to its great successes in revealing real-life bugs in a wide variety of software systems. Metamorphic relations, the core component of metamorphic testing, have continuously attracted research interests from both academia and industry. In the last decade, a rapidly increasing number of studies have been conducted to systematically generate metamorphic relations from various sources and for different application domains. In this article, based on the systematic review on the state of the art for metamorphic relations' generation, we summarize and highlight visions for further advancing the theory and techniques for identifying and constructing metamorphic relations, and discuss potential research trends in related areas.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# 長寿命有限サイズ熱処理システムの高精度シミュレーション

High-precision simulation of finite-size thermalizing systems at long times ( http://arxiv.org/abs/2406.05399v1 )

ライセンス: Link先を確認
Yichen Huang, (参考訳) 長い時間で熱重合系をシミュレートするには、最も簡単なアプローチは対応するエネルギーの熱特性を計算することである。 局所可観測物や多くの初期状態の量子多体系において、このアプローチはアンサンブルの同値性の有限サイズの誤差を思わせる$O(1/N)$の誤差を持つ。 本稿では,シミュレーション誤差が1/N$で高次になるような,単純で効率的な数値計算法を提案する。 この有限サイズの誤差スケーリングは固有状態熱化仮説を仮定して証明される。

To simulate thermalizing systems at long times, the most straightforward approach is to calculate the thermal properties at the corresponding energy. In a quantum many-body system of size $N$, for local observables and many initial states, this approach has an error of $O(1/N)$, which is reminiscent of the finite-size error of the equivalence of ensembles. In this paper, we propose a simple and efficient numerical method so that the simulation error is of higher order in $1/N$. This finite-size error scaling is proved by assuming the eigenstate thermalization hypothesis.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# Metric Convolutions: 適応的畳み込みに対する統一理論

Metric Convolutions: A Unifying Theory to Adaptive Convolutions ( http://arxiv.org/abs/2406.05400v1 )

ライセンス: Link先を確認
Thomas Dagès, Michael Lindenbaum, Alfred M. Bruckstein, (参考訳) イメージ処理やディープラーニングでは標準的な畳み込みが一般的だが、固定されたカーネル設計は適応性を制限している。 参照カーネルグリッドの変形戦略が提案されている。 しかし、それらは統一された理論的な枠組みを欠いている。 画像の計量的視点に戻すことで、現在では局所的および測地的距離の概念を持つ2次元多様体として、対称的(リーマン計量)かそうでない(フィンスラー計量)のいずれかを具備することで、カーネル位置は暗黙的なメトリクスの単位球のサンプルである、という統一原理を提供する。 この新たな観点からは,信号に依存した明示的な指標から単位球を抽出し,幾何学的正則化を備えた解釈可能な演算子を提供する,計量畳み込みも提案する。 このフレームワークは勾配に基づく最適化と互換性があり、入力画像やニューラルネットワークの深い特徴に適用される既存の畳み込みを直接置き換えることができる。 メトリック畳み込みは通常、より少ないパラメータを必要とし、より良い一般化を提供する。 提案手法は,標準的な分類タスクにおける競合性能を示す。

Standard convolutions are prevalent in image processing and deep learning, but their fixed kernel design limits adaptability. Several deformation strategies of the reference kernel grid have been proposed. Yet, they lack a unified theoretical framework. By returning to a metric perspective for images, now seen as two-dimensional manifolds equipped with notions of local and geodesic distances, either symmetric (Riemannian metrics) or not (Finsler metrics), we provide a unifying principle: the kernel positions are samples of unit balls of implicit metrics. With this new perspective, we also propose metric convolutions, a novel approach that samples unit balls from explicit signal-dependent metrics, providing interpretable operators with geometric regularisation. This framework, compatible with gradient-based optimisation, can directly replace existing convolutions applied to either input images or deep features of neural networks. Metric convolutions typically require fewer parameters and provide better generalisation. Our approach shows competitive performance in standard denoising and classification tasks.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# SemPat: マイクロアーキテクチャー攻撃パターンの生成にハイパープロパティベースセマンティック分析を用いたSemPat

SemPat: Using Hyperproperty-based Semantic Analysis to Generate Microarchitectural Attack Patterns ( http://arxiv.org/abs/2406.05403v1 )

ライセンス: Link先を確認
Adwait Godbole, Yatin A. Manerkar, Sanjit A. Seshia, (参考訳) ソフトウェアのマイクロアーキテクチャのセキュリティ検証は、2つの幅広いアプローチのクラスが出現した。 1つ目は、特定のプログラムとハードウェアマイクロアーキテクチャの特定の抽象モデルに対して検証されるセマンティックセキュリティ特性(例えば、非干渉)に基づいている。 2つ目は攻撃パターンに基づいており、プログラムの実行で見つかった場合、エクスプロイトの存在を示す。 前者は、同じ脆弱性をターゲットにしたいくつかのガジェットをキャプチャできる正式な仕様を使用しているが、検証のスケーラビリティによって制限されている。 パターンは、よりスケーラブルだが、スコープが狭く、ガジェット固有の構造に敏感であるため、現在手動で構築する必要がある。 この研究は、非干渉ベースのセマンティックセキュリティハイパープロパティを前提として、特定の複雑性パラメータ(スケルトンサイズと呼ばれる)までの攻撃パターンを自動生成する技術を開発した。 セキュリティは、複数のガジェットの変種を均一にキャプチャするハイパープロパティによって特定でき、自動生成されたパターンはスケーラブルな検証に使用できる。 ツールにアプローチを実装し,新しいパターンを生成する能力(SpectreV1,SpectreV4など)を実証し,ハイパープロパタイザベースの検証よりも生成されたパターンを用いてスケーラビリティを向上させる。

Microarchitectural security verification of software has seen the emergence of two broad classes of approaches. The first is based on semantic security properties (e.g., non-interference) which are verified for a given program and a specified abstract model of the hardware microarchitecture. The second is based on attack patterns, which, if found in a program execution, indicates the presence of an exploit. While the former uses a formal specification that can capture several gadget variants targeting the same vulnerability, it is limited by the scalability of verification. Patterns, while more scalable, must be currently constructed manually, as they are narrower in scope and sensitive to gadget-specific structure. This work develops a technique that, given a non-interference-based semantic security hyperproperty, automatically generates attack patterns up to a certain complexity parameter (called the skeleton size). Thus, we combine the advantages of both approaches: security can be specified by a hyperproperty that uniformly captures several gadget variants, while automatically generated patterns can be used for scalable verification. We implement our approach in a tool and demonstrate the ability to generate new patterns, (e.g., for SpectreV1, SpectreV4) and improved scalability using the generated patterns over hyperproperty-based verification.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# 意味的単純化による層状画像ベクトル化

Layered Image Vectorization via Semantic Simplification ( http://arxiv.org/abs/2406.05404v1 )

ライセンス: Link先を確認
Zhenyu Wang, Jianxi Huang, Zhida Sun, Daniel Cohen-Or, Min Lu, (参考訳) 本研究は,粗い画像から細部まで原画像を表す層状ベクトルを生成することを目的とした,新しいプログレッシブ画像ベクトル化手法を提案する。 提案手法では,Score Distillation Smplingとセマンティックセグメンテーションを組み合わせて,入力画像の反復的単純化を行う。 そこで本手法では,各画像のベクトル層を最適化する。 提案手法は,局所最小化を回避し,最終出力の細部レベルを調整可能なロバスト最適化を実現する。 階層化されたコンパクトなベクトル表現により、さらなる編集と修正のユーザビリティが向上する。 従来のベクトル化法との比較分析は, 高い視覚的忠実度を持つベクトルの創出において, ベクトルのコンパクト性と管理性を維持する上で, 本手法の優位性を示すものである。 プロジェクトのホームページはhttps://szuviz.github.io/layered_vectorization/である。

This work presents a novel progressive image vectorization technique aimed at generating layered vectors that represent the original image from coarse to fine detail levels. Our approach introduces semantic simplification, which combines Score Distillation Sampling and semantic segmentation to iteratively simplify the input image. Subsequently, our method optimizes the vector layers for each of the progressively simplified images. Our method provides robust optimization, which avoids local minima and enables adjustable detail levels in the final output. The layered, compact vector representation enhances usability for further editing and modification. Comparative analysis with conventional vectorization methods demonstrates our technique's superiority in producing vectors with high visual fidelity, and more importantly, maintaining vector compactness and manageability. The project homepage is https://szuviz.github.io/layered_vectorization/.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# 原始情報を用いたロバストな等角予測

Robust Conformal Prediction Using Privileged Information ( http://arxiv.org/abs/2406.05405v1 )

ライセンス: Link先を確認
Shai Feldman, Yaniv Romano, (参考訳) そこで本研究では,学習データ中のノイズや障害変数などの破損に対して頑健な,保証されたカバレッジ率で予測セットを生成する手法を開発した。 我々のアプローチは、i.d仮定の下で有効となる予測セットを構築するための強力なフレームワークである共形予測に基づいている。 重要なことは、汚職によって引き起こされる分布シフトのため、直感的に整合予測を適用することは、この設定において確実な予測を提供しないということである。 分配シフトを考慮し、特権情報(PI)へのアクセスを前提とします。 PIは、分散シフトを説明する追加機能として定式化されているが、トレーニング中にのみ利用可能であり、テスト時に不在である。 本稿では,重み付き共形予測の新たな一般化を導入し,理論的カバレッジを保証する手法を提案する。 実データと合成データの両方に対する実証実験により,提案手法は有効なカバレッジ率を達成し,理論的な保証に支えられていない既存手法と比較して,より有意義な予測を構築できることが示唆された。

We develop a method to generate prediction sets with a guaranteed coverage rate that is robust to corruptions in the training data, such as missing or noisy variables. Our approach builds on conformal prediction, a powerful framework to construct prediction sets that are valid under the i.i.d assumption. Importantly, naively applying conformal prediction does not provide reliable predictions in this setting, due to the distribution shift induced by the corruptions. To account for the distribution shift, we assume access to privileged information (PI). The PI is formulated as additional features that explain the distribution shift, however, they are only available during training and absent at test time. We approach this problem by introducing a novel generalization of weighted conformal prediction and support our method with theoretical coverage guarantees. Empirical experiments on both real and synthetic datasets indicate that our approach achieves a valid coverage rate and constructs more informative predictions compared to existing methods, which are not supported by theoretical guarantees.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# 自然言語指向プログラミング(NLOP):ソフトウェア創造の民主化を目指して

Natural Language-Oriented Programming (NLOP): Towards Democratizing Software Creation ( http://arxiv.org/abs/2406.05409v1 )

ライセンス: Link先を確認
Amin Beheshti, (参考訳) 生成人工知能(AI)技術が進化するにつれて、コーディングを含む様々なタスクを自動化し、強化する前例のない可能性を提供する。 自然言語指向プログラミング(NLOP: Natural Language-Oriented Programming)は、開発者が自然言語でソフトウェア要件とロジックを記述し、それによってソフトウェア作成を民主化することで、この可能性を活用する。 このアプローチは開発プロセスを合理化し、ソフトウェアエンジニアリングの参入障壁を著しく減らし、非専門家がソフトウェアプロジェクトに効果的に貢献できるようにする。 概念からコードへの移行を簡単にすることで、NLOPは開発サイクルを加速し、共同作業を強化し、要求仕様の誤解を減らすことができる。 本稿では、様々なプログラミングモデルについてレビューし、その貢献と限界を評価し、自然言語が新しいプログラミング言語であることを強調する。 この比較を通じて、NLOPは、より大きな傾きと革新を育み、ソフトウェア工学の風景をどう変えるかを説明します。

As generative Artificial Intelligence (AI) technologies evolve, they offer unprecedented potential to automate and enhance various tasks, including coding. Natural Language-Oriented Programming (NLOP), a vision introduced in this paper, harnesses this potential by allowing developers to articulate software requirements and logic in their natural language, thereby democratizing software creation. This approach streamlines the development process and significantly lowers the barrier to entry for software engineering, making it feasible for non-experts to contribute effectively to software projects. By simplifying the transition from concept to code, NLOP can accelerate development cycles, enhance collaborative efforts, and reduce misunderstandings in requirement specifications. This paper reviews various programming models, assesses their contributions and limitations, and highlights that natural language will be the new programming language. Through this comparison, we illustrate how NLOP stands to transform the landscape of software engineering by fostering greater inclusivity and innovation.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# MLLM-SR:対話型シンボリック回帰ベース多モード大言語モデル

MLLM-SR: Conversational Symbolic Regression base Multi-Modal Large Language Models ( http://arxiv.org/abs/2406.05410v1 )

ライセンス: Link先を確認
Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jingyi Liu, Wenqiang Li, Shu Wei, Yusong Deng, (参考訳) フォーミュラは人間と自然の間のコミュニケーションの言語である。 これは、観測データから表現を見つけ、データ内の各変数間の関係を反映する重要な研究トピックであり、これは象徴的回帰問題と呼ばれる。 既存のシンボリック回帰法は, 与えられた観測データに従って表現を直接生成するので, 既知の事前知識に従って, 特定の要求を満たす表現を生成するために, アルゴリズムを必要としない。 例えば、式は$\sin$を含むか、対称である必要がある。 可能であっても、しばしば非常に複雑な操作を必要とするが、非常に不都合である。 本稿では,マルチモーダルな大規模言語モデルに基づく対話型記号回帰手法MLLM-SRを提案する。 Nguyenデータセットを実験することにより、MLLM-SRが適合性能の最先端のベースラインを導くことを示すことができる。 より具体的には、MLLM-SRが自然言語命令に付加される事前知識を十分に理解できることを実験的に実証する。 さらに、事前知識を追加することで、MLLM-SRを効果的に導き、正しい表現を生成することができる。

Formulas are the language of communication between humans and nature. It is an important research topic of artificial intelligence to find expressions from observed data to reflect the relationship between each variable in the data, which is called a symbolic regression problem. The existing symbolic regression methods directly generate expressions according to the given observation data, and we cannot require the algorithm to generate expressions that meet specific requirements according to the known prior knowledge. For example, the expression needs to contain $\sin$ or be symmetric, and so on. Even if it can, it often requires very complex operations, which is very inconvenient. In this paper, based on multi-modal large language models, we propose MLLM-SR, a conversational symbolic regression method that can generate expressions that meet the requirements simply by describing the requirements with natural language instructions. By experimenting on the Nguyen dataset, we can demonstrate that MLLM-SR leads the state-of-the-art baselines in fitting performance. More notably, we experimentally demonstrate that MLLM-SR can well understand the prior knowledge we add to the natural language instructions. Moreover, the addition of prior knowledge can effectively guide MLLM-SR to generate correct expressions.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# 非エルミート系における一般化対称性

Generalized symmetry in non-Hermitian systems ( http://arxiv.org/abs/2406.05411v1 )

ライセンス: Link先を確認
Karin Sim, Nicolò Defenu, Paolo Molignini, R. Chitra, (参考訳) 非エルミート系の力学への強い関心にもかかわらず、非エルミート量子力学の数学的定式化にはコンセンサスがない。 文学において、非エルミート力学を研究するために異なる方法論が用いられる。 これは、生物直交量子力学や改良された内部積によって特徴づけられる計量アプローチのような一貫したフレームワークから、オープン量子システムにインスパイアされた時間依存ノルムによる正規化まで様々である。 本研究では,これらの手法の類似点と相違点について系統的に検討する。 実測モデルと正確な解を用いて、これらの手法が定量的に異なる結果を得るだけでなく、別の物理的解釈も生み出すことを示した。 非ハーミティティーが近似として現れる散逸系に対しては、$\mathcal{PT}$-breakken 状態の正規化法が完全マスター方程式解と密接に一致していることが分かる。 対照的に、非ハーミティシティを正確に設計できる量子系では、量子力学の確率論的解釈に計量力学を取り入れることが不可欠であり、ユニタリ対称性の非エルミティアン系への一般化が必要である。 この研究は、非エルミート・ハミルトニアンのさらなる探索の基礎を築き、新しい物理現象に一般化された対称性を活用する可能性がある。

Despite acute interest in the dynamics of non-Hermitian systems, there is a lack of consensus in the mathematical formulation of non-Hermitian quantum mechanics in the community. Different methodologies are used in the literature to study non-Hermitian dynamics. This ranges from consistent frameworks like biorthogonal quantum mechanics and metric approach characterized by modified inner products, to normalization by time-dependent norms inspired by open quantum systems. In this work, we systematically explore the similarities and differences among these various methods. Utilizing illustrative models with exact solutions, we demonstrate that these methods produce not only quantitatively different results but also distinct physical interpretations. For dissipative systems where non-Hermiticity arises as an approximation, we find that the normalization method in the $\mathcal{PT}$-broken regime closely aligns with the full master equation solutions. In contrast, for quantum systems where non-Hermiticity can be engineered exactly, incorporating metric dynamics is crucial for the probabilistic interpretation of quantum mechanics, necessitating the generalization of unitary symmetry to non-Hermitian systems. This study lays the groundwork for further exploration of non-Hermitian Hamiltonians, potentially leveraging generalized symmetries for novel physical phenomena.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# Select-Mosaic:Dense Small Object Scenesのためのデータ拡張手法

Select-Mosaic: Data Augmentation Method for Dense Small Object Scenes ( http://arxiv.org/abs/2406.05412v1 )

ライセンス: Link先を確認
Hao Zhang, Shuaijie Zhang, Renbin Zou, (参考訳) データ拡張とは、一連の変換や拡張を元のデータに適用して新しいサンプルを生成し、それによってデータの多様性と量を増やし、モデルの性能と堅牢性を効果的に改善するプロセスを指す。 一般的なデータ拡張手法として、モザイクデータ拡張技術は、複数の画像を縫合してトレーニングデータの多様性と複雑さを増大させ、オーバーフィッティングのリスクを低減する。 モザイクデータの増大は、画像の縫合による一般的な検出タスクにおいて優れた結果をもたらすが、特定の検出タスクには一定の制限がある。 本稿では,Select-Mosaic Data Augmentation法を提案し,細粒度領域選択戦略により改良した,空中画像中の多数の高密度分散小物体を検出することの課題に対処する。 改良されたセレクトモザイク法は、高密度小物体検出タスクの処理において優れた性能を示し、検出モデルの精度と安定性を著しく向上させる。 コードはhttps://github.com/malagoutou/Select-Mosaic.comで入手できる。

Data augmentation refers to the process of applying a series of transformations or expansions to original data to generate new samples, thereby increasing the diversity and quantity of the data, effectively improving the performance and robustness of models. As a common data augmentation method, Mosaic data augmentation technique stitches multiple images together to increase the diversity and complexity of training data, thereby reducing the risk of overfitting. Although Mosaic data augmentation achieves excellent results in general detection tasks by stitching images together, it still has certain limitations for specific detection tasks. This paper addresses the challenge of detecting a large number of densely distributed small objects in aerial images by proposing the Select-Mosaic data augmentation method, which is improved with a fine-grained region selection strategy. The improved Select-Mosaic method demonstrates superior performance in handling dense small object detection tasks, significantly enhancing the accuracy and stability of detection models. Code is available at https://github.com/malagoutou/Select-Mosaic.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# 隣人を見つける:動的世界における高度な安定したテスト時間適応

Discover Your Neighbors: Advanced Stable Test-Time Adaptation in Dynamic World ( http://arxiv.org/abs/2406.05413v1 )

ライセンス: Link先を確認
Qinting Jiang, Chuyang Ye, Dongyan Wei, Yuan Xue, Jingyan Jiang, Zhi Wang, (参考訳) 高度なニューラルネットワークは、トレーニングとテストドメイン間の分散シフトによって依然としてパフォーマンス低下を被っており、マルチメディアアプリケーションにおけるQuality of Experience(QoE)の大幅な低下につながっている。 既存のテスト時間適応(TTA)メソッドは、バッチ内で動的に複数のテスト分布によって挑戦される。 本研究は,クラス関連およびクラス非関連機能によるバッチ正規化手法の解析における新たな視点を提供する。 しかし、テスト統計は高い類似性を持つ必要がある。 そこで我々は、動的TTAに特化した最初の後方自由アプローチであるDiscover Your Neighbours (DYN)を提案する。 中心となるイノベーションは、インスタンスの正規化統計と一貫したクラス非関連表現を提供するグループへのクラスタリングを通じて、類似したサンプルを識別することである。 具体的には,階層型インスタンス統計クラスタリング(LISC)とクラスタ対応バッチ正規化(CABN)から構成される。 LISCでは、各BN層に近似した特徴サンプルを階層的にクラスタリングし、バッチ全体にわたるインスタンス正規化統計量のコサイン類似性を計算する。 CABN は SBN と TCN の統計データを集約し、より堅牢な表現を可能にする。 DYNのロバスト性と有効性を評価し、動的データストリームパターン下での維持性能を示す実験結果を得た。

Despite progress, deep neural networks still suffer performance declines under distribution shifts between training and test domains, leading to a substantial decrease in Quality of Experience (QoE) for multimedia applications. Existing test-time adaptation (TTA) methods are challenged by dynamic, multiple test distributions within batches. This work provides a new perspective on analyzing batch normalization techniques through class-related and class-irrelevant features, our observations reveal combining source and test batch normalization statistics robustly characterizes target distributions. However, test statistics must have high similarity. We thus propose Discover Your Neighbours (DYN), the first backward-free approach specialized for dynamic TTA. The core innovation is identifying similar samples via instance normalization statistics and clustering into groups which provides consistent class-irrelevant representations. Specifically, Our DYN consists of layer-wise instance statistics clustering (LISC) and cluster-aware batch normalization (CABN). In LISC, we perform layer-wise clustering of approximate feature samples at each BN layer by calculating the cosine similarity of instance normalization statistics across the batch. CABN then aggregates SBN and TCN statistics to collaboratively characterize the target distribution, enabling more robust representations. Experimental results validate DYN's robustness and effectiveness, demonstrating maintained performance under dynamic data stream patterns.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# GPTに基づくDRLアプローチ

Multi-attribute Auction-based Resource Allocation for Twins Migration in Vehicular Metaverses: A GPT-based DRL Approach ( http://arxiv.org/abs/2406.05418v1 )

ライセンス: Link先を確認
Yongju Tong, Junlong Chen, Minrui Xu, Jiawen Kang, Zehui Xiong, Dusit Niyato, Chau Yuen, Zhu Han, (参考訳) 車両メタバース(Vehicular Metaverses)は、現代の自動車産業を、接続された車両や道路沿いのインフラ(例えば、RoadSide Units (RSUs))の間で、没入的で安全な体験で強化するために開発されている。 仮想空間とのシームレスな同期のために、VTは物理的実体のデジタル表現として構築される。 しかしながら、リソース集約型VTの更新と高モビリティには、特に限られたカバレッジを持つRSU間の移行のために、集中的な計算、通信、ストレージリソースが必要である。 これらの問題に対処するため,VTs移行時の資源配分を最適化する属性対応オークション方式を提案する。 本機構では,マルチアトリビュートリソース市場における車両利用者とメタバースサービス提供者を対象とした2段階マッチングを提案する。 まず、資源属性マッチングアルゴリズムは、リソース属性の完全マッチング、すなわち、買い手と売り手が二重オランダオークション(DDA)に参加することができる。 そして、生成事前学習型変換器(GPT)に基づく深部強化学習(DRL)アルゴリズムを用いてDDAオークション装置を訓練し、オークションプロセス中に効率よくオークションクロックを調整する。 本研究では,社会福祉と競売情報交換のコストを,異なる環境下での最先端のベースラインと比較する。 シミュレーションの結果,提案したGPTベースのDRLオークション方式は,他よりも優れた性能を示した。

Vehicular Metaverses are developed to enhance the modern automotive industry with an immersive and safe experience among connected vehicles and roadside infrastructures, e.g., RoadSide Units (RSUs). For seamless synchronization with virtual spaces, Vehicle Twins (VTs) are constructed as digital representations of physical entities. However, resource-intensive VTs updating and high mobility of vehicles require intensive computation, communication, and storage resources, especially for their migration among RSUs with limited coverages. To address these issues, we propose an attribute-aware auction-based mechanism to optimize resource allocation during VTs migration by considering both price and non-monetary attributes, e.g., location and reputation. In this mechanism, we propose a two-stage matching for vehicular users and Metaverse service providers in multi-attribute resource markets. First, the resource attributes matching algorithm obtains the resource attributes perfect matching, namely, buyers and sellers can participate in a double Dutch auction (DDA). Then, we train a DDA auctioneer using a generative pre-trained transformer (GPT)-based deep reinforcement learning (DRL) algorithm to adjust the auction clocks efficiently during the auction process. We compare the performance of social welfare and auction information exchange costs with state-of-the-art baselines under different settings. Simulation results show that our proposed GPT-based DRL auction schemes have better performance than others.
翻訳日:2024-06-11 19:55:06 公開日:2024-06-08
# Slice-based Latent Diffusion Modelを用いた3次元MRI合成 : データスカースレジームにおける腫瘍分離タスクの改善

3D MRI Synthesis with Slice-Based Latent Diffusion Models: Improving Tumor Segmentation Tasks in Data-Scarce Regimes ( http://arxiv.org/abs/2406.05421v1 )

ライセンス: Link先を確認
Aghiles Kebaili, Jérôme Lapuyade-Lahorgue, Pierre Vera, Su Ruan, (参考訳) 医用画像のセグメンテーションにおけるディープラーニングの利用の増加にもかかわらず、アノテートされたトレーニングデータの可用性は、データ取得とプライバシ規制に時間を要するため、依然として大きな課題である。 セグメンテーションタスクの文脈では、医療画像とそれに対応するターゲットマスクの両方を提供することが不可欠である。 しかし,従来のデータ拡張手法は主に画像合成に重点を置いている。 本研究では,スライス・バイ・スライス方式でボリュームデータ生成の複雑さに対処する,スライス・ベースの遅延拡散アーキテクチャを提案する。 この手法は,医療用画像と関連するマスクの同時分布モデルを拡張し,データスカース体制下での同時生成を可能にする。 提案手法は拡散モデルに関連する計算複雑性とメモリコストを緩和する。 さらに, この構造は, 大きさ, 形状, 相対的な位置などの腫瘍特性によって調節できるため, 腫瘍の多様性は様々である。 BRATS2022を用いたセグメンテーションタスクの実験により、データ拡張のための合成ボリュームとマスクの有効性が確認された。

Despite the increasing use of deep learning in medical image segmentation, the limited availability of annotated training data remains a major challenge due to the time-consuming data acquisition and privacy regulations. In the context of segmentation tasks, providing both medical images and their corresponding target masks is essential. However, conventional data augmentation approaches mainly focus on image synthesis. In this study, we propose a novel slice-based latent diffusion architecture designed to address the complexities of volumetric data generation in a slice-by-slice fashion. This approach extends the joint distribution modeling of medical images and their associated masks, allowing a simultaneous generation of both under data-scarce regimes. Our approach mitigates the computational complexity and memory expensiveness typically associated with diffusion models. Furthermore, our architecture can be conditioned by tumor characteristics, including size, shape, and relative position, thereby providing a diverse range of tumor variations. Experiments on a segmentation task using the BRATS2022 confirm the effectiveness of the synthesized volumes and masks for data augmentation.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# 動的UAV支援車両双極子移動のための拡散型強化学習

Diffusion-based Reinforcement Learning for Dynamic UAV-assisted Vehicle Twins Migration in Vehicular Metaverses ( http://arxiv.org/abs/2406.05422v1 )

ライセンス: Link先を確認
Yongju Tong, Jiawen Kang, Junlong Chen, Minrui Xu, Gaolei Li, Weiting Zhang, Xincheng Yan, (参考訳) 地上統合ネットワークは、地上交通網の通信圧力を軽減し、6G対応の車載メタバースサービスを、低速のロードサイドユニット(RSU)と、ユーザーが車載サービスに高い需要があるダウンタウンエリアで遠隔地でオフロードすることができる。 ビークル・ツイン(VT)は、より没入的で現実的な車載サービスを可能にする物理的車両のデジタルツインであり、RSUでオフロードおよび更新が可能で、車載メタバースサービスを乗客やドライバーに管理および提供することができる。 車両の高モビリティとRSU信号の限られたカバレッジは、車両がRSUの信号カバレッジを離れるときにサービス継続性を確保するためにVTマイグレーションを必要とする。 しかしながら、不均一なVTタスクのマイグレーションは、サービスのレイテンシが増加し、ユーザにとって影響のある没入感をもたらす可能性のある、一部のRSUをオーバーロードする可能性がある。 本稿では,UAVが空中エッジサーバとして機能し,VTタスクオフロード時の地上RSUを補助する,空対地統合ネットワークにおける無人航空機(UAV)支援VTマイグレーションフレームワークを提案する。 本稿では,UAV支援車載ネットワークにおける没入型VTマイグレーション決定を効率的に行うことができる拡散型強化学習(RL)アルゴリズムを提案する。 RSUの作業負荷のバランスとVTマイグレーション品質の向上のために,UAVのヒューリスティック検索戦略に基づく新しい動的経路計画アルゴリズムを設計する。 シミュレーションの結果,UAVを用いた拡散型RLアルゴリズムは,他のベースライン方式よりも優れた性能を示した。

Air-ground integrated networks can relieve communication pressure on ground transportation networks and provide 6G-enabled vehicular Metaverses services offloading in remote areas with sparse RoadSide Units (RSUs) coverage and downtown areas where users have a high demand for vehicular services. Vehicle Twins (VTs) are the digital twins of physical vehicles to enable more immersive and realistic vehicular services, which can be offloaded and updated on RSU, to manage and provide vehicular Metaverses services to passengers and drivers. The high mobility of vehicles and the limited coverage of RSU signals necessitate VT migration to ensure service continuity when vehicles leave the signal coverage of RSUs. However, uneven VT task migration might overload some RSUs, which might result in increased service latency, and thus impactive immersive experiences for users. In this paper, we propose a dynamic Unmanned Aerial Vehicle (UAV)-assisted VT migration framework in air-ground integrated networks, where UAVs act as aerial edge servers to assist ground RSUs during VT task offloading. In this framework, we propose a diffusion-based Reinforcement Learning (RL) algorithm, which can efficiently make immersive VT migration decisions in UAV-assisted vehicular networks. To balance the workload of RSUs and improve VT migration quality, we design a novel dynamic path planning algorithm based on a heuristic search strategy for UAVs. Simulation results show that the diffusion-based RL algorithm with UAV-assisted performs better than other baseline schemes.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# 計算形態学の最近の進歩 : 包括的調査

Recent advancements in computational morphology : A comprehensive survey ( http://arxiv.org/abs/2406.05424v1 )

ライセンス: Link先を確認
Jatayu Baxi, Brijesh Bhatt, (参考訳) 計算形態学は単語レベルで言語処理を扱う。 これは、より高いレベルのNLPアプリケーションを開発するための、NLPパイプラインの基本的なタスクの1つである。 主に単語や単語の処理を扱う。 計算形態学は、形態素境界検出、補題化、形態的特徴タグ付け、形態的再帰など、様々なサブ問題に対処する。 本稿では,計算形態学関連ツールの開発方法について,徹底的な調査を行う。 本稿では,従来の手法から,深層ニューラルネットワークに基づくアプローチの最近の進化まで,時系列の文献を調査する。 また、このタスクで利用可能な既存のデータセットを言語間でレビューします。 本稿では,従来のモデルと比較してニューラルモデルの有効性について論じ,計算形態学ツールの構築にまつわる固有の課題について述べる。 この分野における最近のオープンな研究課題について論じる。

Computational morphology handles the language processing at the word level. It is one of the foundational tasks in the NLP pipeline for the development of higher level NLP applications. It mainly deals with the processing of words and word forms. Computational Morphology addresses various sub problems such as morpheme boundary detection, lemmatization, morphological feature tagging, morphological reinflection etc. In this paper, we present exhaustive survey of the methods for developing computational morphology related tools. We survey the literature in the chronological order starting from the conventional methods till the recent evolution of deep neural network based approaches. We also review the existing datasets available for this task across the languages. We discuss about the effectiveness of neural model compared with the traditional models and present some unique challenges associated with building the computational morphology tools. We conclude by discussing some recent and open research issues in this field.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# GFlowNetへのベーキングシンメトリー

Baking Symmetry into GFlowNets ( http://arxiv.org/abs/2406.05426v1 )

ライセンス: Link先を確認
George Ma, Emmanuel Bengio, Yoshua Bengio, Dinghuai Zhang, (参考訳) GFlowNetsは、さまざまな候補を高い報酬で生成する上で、有望なパフォーマンスを示している。 これらのネットワークは、オブジェクトを段階的に生成し、報酬に比例してオブジェクトをサンプリングする確率を割り当てるポリシーを学習することを目的としている。 しかし、現在のGFlowNetsの訓練パイプラインは、対称状態や同型状態をもたらす作用である同型作用の存在を考慮していない。 この対称性の欠如は、GFlowNetsのトレーニングに必要なサンプルの量を増大させ、非効率で潜在的に不正確なフロー関数をもたらす。 その結果、生成されたオブジェクトの報酬と多様性は減少する。 本研究では,生成過程における等価な動作を特定することにより,GFlowNetに対称性を統合することを目的とする。 合成データを用いた実験結果は,提案手法の有望な性能を示すものである。

GFlowNets have exhibited promising performance in generating diverse candidates with high rewards. These networks generate objects incrementally and aim to learn a policy that assigns probability of sampling objects in proportion to rewards. However, the current training pipelines of GFlowNets do not consider the presence of isomorphic actions, which are actions resulting in symmetric or isomorphic states. This lack of symmetry increases the amount of samples required for training GFlowNets and can result in inefficient and potentially incorrect flow functions. As a consequence, the reward and diversity of the generated objects decrease. In this study, our objective is to integrate symmetries into GFlowNets by identifying equivalent actions during the generation process. Experimental results using synthetic data demonstrate the promising performance of our proposed approaches.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# Decision Mamba: オフラインRLのための自己進化正規化を備えた多点状態空間モデル

Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL ( http://arxiv.org/abs/2406.05427v1 )

ライセンス: Link先を確認
Qi Lv, Xiang Deng, Gongwei Chen, Michael Yu Wang, Liqiang Nie, (参考訳) 変圧器アーキテクチャを用いた条件付きシーケンスモデリングは、オフライン強化学習(RL)タスクに対処する上での有効性を示したが、分配外状態や動作を扱うのに苦労している。 既存の作業は、学習ポリシによるデータ拡張や、バリューベースのRLアルゴリズムによる追加制約の追加によって、この問題に対処しようとするものだ。 しかし, これらの研究は, 1) ステップ間の時間的情報の不十分な活用, (2) 状態, 行動, リターン・トゥ・ゴス (RTG) 間の局所的なステップ内関係の見落とし, (3) 雑音ラベルによる最適下方軌道の過度な適合, といった課題を克服することができない。 これらの課題に対処するため、我々は自己進化型政策学習戦略を持つ新しい多粒状態空間モデル(SSM)であるDecision Mamba (DM)を提案する。 DMは、マンバアーキテクチャを用いて時間情報を抽出するために、歴史的に隠された状態を明示的にモデル化する。 状態-作用-RTG三重項間の関係を捉えるため、細粒のSSMモジュールをマムバの粗粒のSSMに設計・統合し、新しいマンバアーキテクチャをオフラインRL用に調整した。 最後に,ノイズトラジェクトリにおける過度に適合する問題を緩和するために,進行正規化を用いて自己進化政策を提案する。 この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。 様々なタスクに対する大規模な実験により、DMは他のベースラインよりも大幅に優れていた。

While the conditional sequence modeling with the transformer architecture has demonstrated its effectiveness in dealing with offline reinforcement learning (RL) tasks, it is struggle to handle out-of-distribution states and actions. Existing work attempts to address this issue by data augmentation with the learned policy or adding extra constraints with the value-based RL algorithm. However, these studies still fail to overcome the following challenges: (1) insufficiently utilizing the historical temporal information among inter-steps, (2) overlooking the local intrastep relationships among states, actions and return-to-gos (RTGs), (3) overfitting suboptimal trajectories with noisy labels. To address these challenges, we propose Decision Mamba (DM), a novel multi-grained state space model (SSM) with a self-evolving policy learning strategy. DM explicitly models the historical hidden state to extract the temporal information by using the mamba architecture. To capture the relationship among state-action-RTG triplets, a fine-grained SSM module is designed and integrated into the original coarse-grained SSM in mamba, resulting in a novel mamba architecture tailored for offline RL. Finally, to mitigate the overfitting issue on noisy trajectories, a self-evolving policy is proposed by using progressive regularization. The policy evolves by using its own past knowledge to refine the suboptimal actions, thus enhancing its robustness on noisy demonstrations. Extensive experiments on various tasks show that DM outperforms other baselines substantially.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# 部分相関グラフのアライメントに対する情報理論閾値

Information-Theoretic Thresholds for the Alignments of Partially Correlated Graphs ( http://arxiv.org/abs/2406.05428v1 )

ライセンス: Link先を確認
Dong Huang, Xianwen Song, Pengkun Yang, (参考訳) 本稿では、2つの相関したランダムグラフ間の隠れ頂点対応を復元する問題について検討する。 本稿では, 部分相関した Erd\H{o}s-R\'enyi グラフモデルを提案する。 本稿では,潜時関連部分グラフと隠れ頂点対応を復元するための情報理論しきい値について検討する。 相関ノード数に対して,正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の 可能性の証明として,交差グラフのエッジを2種類の成分に分割し,下位累積生成関数によって誤差確率を限定する相関関数グラフを提案する。 不合理性の結果の証明は、一般化されたファノの不等式と、相関した Erd\H{o}s-R\'enyi グラフモデルで解決された回復しきい値に基づいている。

This paper studies the problem of recovering the hidden vertex correspondence between two correlated random graphs. We propose the partially correlated Erd\H{o}s-R\'enyi graphs model, wherein a pair of induced subgraphs with a certain number are correlated. We investigate the information-theoretic thresholds for recovering the latent correlated subgraphs and the hidden vertex correspondence. We prove that there exists an optimal rate for partial recovery for the number of correlated nodes, above which one can correctly match a fraction of vertices and below which correctly matching any positive fraction is impossible, and we also derive an optimal rate for exact recovery. In the proof of possibility results, we propose correlated functional digraphs, which partition the edges of the intersection graph into two types of components, and bound the error probability by lower-order cumulant generating functions. The proof of impossibility results build upon the generalized Fano's inequality and the recovery thresholds settled in correlated Erd\H{o}s-R\'enyi graphs model.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# MaTableGPT: GPTベースのテーブルデータエクストラクタ

MaTableGPT: GPT-based Table Data Extractor from Materials Science Literature ( http://arxiv.org/abs/2406.05431v1 )

ライセンス: Link先を確認
Gyeong Hoon Yi, Jiwoo Choi, Hyeongyun Song, Olivia Miano, Jaewoong Choi, Kihoon Bang, Byungju Lee, Seok Su Sohn, David Buttler, Anna Hiszpanski, Sang Soo Han, Donghun Kim, (参考訳) 科学文献の表から効率的にデータを抽出することは、大規模データベースを構築する上で重要である。 しかし、物質科学論文に報告されている表は、非常に多様な形で存在するため、ルールベースの抽出は非効率なアプローチである。 この課題を克服するために,材料科学文献からGPTベースのテーブルデータ抽出装置であるMaTableGPTを提案する。 MaTableGPTは、テーブルデータ表現とテーブル分割の鍵となる戦略を特徴とし、GPTの理解を改善し、フォローアップ質問を通じて幻覚情報をフィルタリングする。 大量の水分解触媒の文献に適用すると、MaTableGPTは96.8%の抽出精度(全F1スコア)を達成した。 ゼロショット, 少数ショット, 微調整の学習方法について, GPT使用コスト, ラベル付けコスト, 抽出精度を総合的に評価することにより, 高抽出精度(F1スコア>95%)と低コスト(GPT使用コスト5.97USドル, ラベル付けコスト10I/Oペア化例)の両面から, 少ショット学習法が最もバランスの取れた解であることが判明したパレートフロントマッピングを提案する。 MaTableGPT が生成したデータベース上で行った統計分析により,水分離文学において報告された触媒間での過電位および元素利用の分布について,貴重な知見が得られた。

Efficiently extracting data from tables in the scientific literature is pivotal for building large-scale databases. However, the tables reported in materials science papers exist in highly diverse forms; thus, rule-based extractions are an ineffective approach. To overcome this challenge, we present MaTableGPT, which is a GPT-based table data extractor from the materials science literature. MaTableGPT features key strategies of table data representation and table splitting for better GPT comprehension and filtering hallucinated information through follow-up questions. When applied to a vast volume of water splitting catalysis literature, MaTableGPT achieved an extraction accuracy (total F1 score) of up to 96.8%. Through comprehensive evaluations of the GPT usage cost, labeling cost, and extraction accuracy for the learning methods of zero-shot, few-shot and fine-tuning, we present a Pareto-front mapping where the few-shot learning method was found to be the most balanced solution owing to both its high extraction accuracy (total F1 score>95%) and low cost (GPT usage cost of 5.97 US dollars and labeling cost of 10 I/O paired examples). The statistical analyses conducted on the database generated by MaTableGPT revealed valuable insights into the distribution of the overpotential and elemental utilization across the reported catalysts in the water splitting literature.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# 視覚言語モデルの名前オンリー転送のための生成データセットを用いた正規化学習

Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models ( http://arxiv.org/abs/2406.05432v1 )

ライセンス: Link先を確認
Minho Park, Sunghyun Park, Jooyeol Yun, Jaegul Choo, (参考訳) 近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。 本研究では,生成したデータセット上で視覚言語モデル(例えばCLIP)を微調整する際の課題に対処することを目的とする。 具体的には、実画像にアクセスすることなく、視覚言語モデルを特定の分類モデルに微調整することを目的としている。 しかし, 生成画像の忠実度が高いにもかかわらず, 実画像と生成画像の領域差により, 生成されたデータセットを用いてモデルを微調整する際に, 顕著な性能劣化が見られた。 ドメインギャップを克服するために、トレーニングとポストトレーニングの2つの正規化方法を提案する。 まず、学習後モデルで生成されたデータセット上で、微調整モデルの重み空間アンサンブルを実行することにより、学習前モデルからのドメインに依存しない知識を活用する。 第2に,特徴量の高い微調整モデルが実領域で高い性能を示すことを明らかにし,特徴量の増加が生成したドメイン固有知識の学習を妨げていることを示す。 したがって、トレーニング時に追加の正規化を提供することにより、特徴の多様性を奨励する。 様々な分類データセットやテキスト・画像生成モデルに対する大規模な実験により、これまで見過ごされてきた領域ギャップを効果的に軽減し、生成した画像のトレーニングによって最先端のパフォーマンスを達成することができることを示した。 コードはhttps://github.com/pmh9960/regft-for-genで入手できる。

Recent advancements in text-to-image generation have inspired researchers to generate datasets tailored for perception models using generative models, which prove particularly valuable in scenarios where real-world data is limited. In this study, our goal is to address the challenges when fine-tuning vision-language models (e.g., CLIP) on generated datasets. Specifically, we aim to fine-tune vision-language models to a specific classification model without access to any real images, also known as name-only transfer. However, despite the high fidelity of generated images, we observed a significant performance degradation when fine-tuning the model using the generated datasets due to the domain gap between real and generated images. To overcome the domain gap, we provide two regularization methods for training and post-training, respectively. First, we leverage the domain-agnostic knowledge from the original pre-trained vision-language model by conducting the weight-space ensemble of the fine-tuned model on the generated dataset with the original pre-trained model at the post-training. Secondly, we reveal that fine-tuned models with high feature diversity score high performance in the real domain, which indicates that increasing feature diversity prevents learning the generated domain-specific knowledge. Thus, we encourage feature diversity by providing additional regularization at training time. Extensive experiments on various classification datasets and various text-to-image generation models demonstrated that our analysis and regularization techniques effectively mitigate the domain gap, which has long been overlooked, and enable us to achieve state-of-the-art performance by training with generated images. Code is available at https://github.com/pmh9960/regft-for-gen
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# 対向ロバスト性ニューラルアーキテクチャ探索を支援する大言語モデル

Large Language Model Assisted Adversarial Robustness Neural Architecture Search ( http://arxiv.org/abs/2406.05433v1 )

ライセンス: Link先を確認
Rui Zhong, Yang Cao, Jun Yu, Masaharu Munetomo, (参考訳) 本稿では,組合せ最適化問題の解法として,大規模言語モデル (LLM) のポテンシャルを活かして,対向ロバスト性ニューラルアーキテクチャサーチ (ARNAS) に対処する新しいLLM支援オプティマイザ (LLMO) を提案する。 我々は標準CRISPEフレームワーク(能力と役割、洞察、ステートメント、パーソナリティ、実験)を用いてプロンプトを設計する。 本研究では,Googleが開発した強力なLLMであるGeminiを採用する。 我々はプロンプトを反復的に洗練し、Geminiからの応答はARNASインスタンスの解として適応される。 NAS-Bench-201-based ARNAS task with CIFAR-10 and CIFAR-100 datas。 遺伝的アルゴリズム(GA)、粒子群最適化(PSO)、微分進化(DE)、およびその変種を含む6つのよく知られたメタヒューリスティックアルゴリズム(MHA)がベースラインとして機能する。 実験によりLLMOの競合性を確認し,LLMを効果的な組合せ最適化器としての可能性を強調した。 この研究のソースコードは \url{https://github.com/RuiZhong961230/LLMO} からダウンロードできる。

Motivated by the potential of large language models (LLMs) as optimizers for solving combinatorial optimization problems, this paper proposes a novel LLM-assisted optimizer (LLMO) to address adversarial robustness neural architecture search (ARNAS), a specific application of combinatorial optimization. We design the prompt using the standard CRISPE framework (i.e., Capacity and Role, Insight, Statement, Personality, and Experiment). In this study, we employ Gemini, a powerful LLM developed by Google. We iteratively refine the prompt, and the responses from Gemini are adapted as solutions to ARNAS instances. Numerical experiments are conducted on NAS-Bench-201-based ARNAS tasks with CIFAR-10 and CIFAR-100 datasets. Six well-known meta-heuristic algorithms (MHAs) including genetic algorithm (GA), particle swarm optimization (PSO), differential evolution (DE), and its variants serve as baselines. The experimental results confirm the competitiveness of the proposed LLMO and highlight the potential of LLMs as effective combinatorial optimizers. The source code of this research can be downloaded from \url{https://github.com/RuiZhong961230/LLMO}.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# キーポイントトラッキングを用いたデータ駆動表情符号化システム(DFECS)の教師なし学習

Unsupervised learning of Data-driven Facial Expression Coding System (DFECS) using keypoint tracking ( http://arxiv.org/abs/2406.05434v1 )

ライセンス: Link先を確認
Shivansh Chandra Tripathi, Rahul Garg, (参考訳) ファシアル・アクション・コーディング・システム(FACS)のような既存の顔符号化システムの開発は、アクション・ユニット(AU)を定義するための表情ビデオの手動検査に頼っていた。 このプロセスの労働集約性を克服するために,コンピュータビジョンベースの顔キーポイントトラッキングを活用して,自動化された顔符号化システムの教師なし学習を提案する。 データ駆動顔表情符号化システム(DFECS)と呼ばれるこの新しい顔符号化システムにおいて、AUは、提案したフルフェイスモデル(FFM)を介して中性フレームからの顔キーポイント運動に次元性還元を適用して推定する。 FFMは、辞書学習(DL)や非負行列分解(NMF)のような高度な次元削減技術を用いて2段階分解を行う。 これらの技術は、符号化行列に疎性や肯定性などの制約を導入することにより、AUの解釈可能性を高める。 その結果、DisFAデータセットから推定されるDFECS AUは、テストデータセット(CK+とBP4D-Spontaneous)の91.29パーセントの平均分散を説明でき、これらのデータセットにおけるFACS AUのキーポイントベースの等価値によって説明される分散を超越できることが示された。 さらに、DFECS AUの87.5パーセントは解釈可能であり、顔面筋運動の方向と一致している。 要約すると、自動化された顔認識システムの進歩は、セキュリティ、ヘルスケア、エンターテイメントといった様々な分野における表情分析を加速させることができる。 これらの進歩は、異常な行動の検出の強化、医療環境における痛みの分析の改善、感情駆動相互作用の強化など、多くの利点を提供する。 さらなる研究を容易にするため、DFECSのコードリポジトリが公開されている。

The development of existing facial coding systems, such as the Facial Action Coding System (FACS), relied on manual examination of facial expression videos for defining Action Units (AUs). To overcome the labor-intensive nature of this process, we propose the unsupervised learning of an automated facial coding system by leveraging computer-vision-based facial keypoint tracking. In this novel facial coding system called the Data-driven Facial Expression Coding System (DFECS), the AUs are estimated by applying dimensionality reduction to facial keypoint movements from a neutral frame through a proposed Full Face Model (FFM). FFM employs a two-level decomposition using advanced dimensionality reduction techniques such as dictionary learning (DL) and non-negative matrix factorization (NMF). These techniques enhance the interpretability of AUs by introducing constraints such as sparsity and positivity to the encoding matrix. Results show that DFECS AUs estimated from the DISFA dataset can account for an average variance of up to 91.29 percent in test datasets (CK+ and BP4D-Spontaneous) and also surpass the variance explained by keypoint-based equivalents of FACS AUs in these datasets. Additionally, 87.5 percent of DFECS AUs are interpretable, i.e., align with the direction of facial muscle movements. In summary, advancements in automated facial coding systems can accelerate facial expression analysis across diverse fields such as security, healthcare, and entertainment. These advancements offer numerous benefits, including enhanced detection of abnormal behavior, improved pain analysis in healthcare settings, and enriched emotion-driven interactions. To facilitate further research, the code repository of DFECS has been made publicly accessible.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# 数値最適化のための微分進化のための競合メカニズムの導入

Introducing Competitive Mechanism to Differential Evolution for Numerical Optimization ( http://arxiv.org/abs/2406.05436v1 )

ライセンス: Link先を確認
Rui Zhong, Yang Cao, Enzhi Zhang, Masaharu Munetomo, (参考訳) 本稿では,新しい競合機構を微分進化(DE)に導入し,競合DE(CDE)と呼ばれる有効なDE変種を提示する。 CDEは単純だが効率的な突然変異戦略である: DE/winner-to-best/1。 基本的に、提案されたDE/winner-to-best/1戦略は、既存の DE/rand-to-best/1 と DE/cur-to-best/1 の突然変異戦略のインテリジェントな統合として認識することができる。 DE/Winner-to-best/1の導入と競争メカニズムはD技術の進歩に新たな道筋を提供する。 さらに、CDEでは、従来の研究で示唆されたように、スケーリング係数$F$と突然変異率$Cr$は、正規分布に続く乱数生成器によって決定される。 提案したCDEの性能を調べるため,CEC2017および工学シミュレーション最適化タスクにおいて,CMA-ES,JADE,その他の最先端オプティマイザおよび競合アルゴリズムとして使用されるDDEの変種を用いた総合的な数値実験を行った。 実験結果と統計的分析は、多様な最適化課題に対処するための代替オプティマイザとして、CDEの有望な可能性を強調している。

This paper introduces a novel competitive mechanism into differential evolution (DE), presenting an effective DE variant named competitive DE (CDE). CDE features a simple yet efficient mutation strategy: DE/winner-to-best/1. Essentially, the proposed DE/winner-to-best/1 strategy can be recognized as an intelligent integration of the existing mutation strategies of DE/rand-to-best/1 and DE/cur-to-best/1. The incorporation of DE/winner-to-best/1 and the competitive mechanism provide new avenues for advancing DE techniques. Moreover, in CDE, the scaling factor $F$ and mutation rate $Cr$ are determined by a random number generator following a normal distribution, as suggested by previous research. To investigate the performance of the proposed CDE, comprehensive numerical experiments are conducted on CEC2017 and engineering simulation optimization tasks, with CMA-ES, JADE, and other state-of-the-art optimizers and DE variants employed as competitor algorithms. The experimental results and statistical analyses highlight the promising potential of CDE as an alternative optimizer for addressing diverse optimization challenges.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# オープンなコラボレーション型開発環境におけるソフトウェアテストのロードマップ

A Roadmap for Software Testing in Open Collaborative Development Environments ( http://arxiv.org/abs/2406.05438v1 )

ライセンス: Link先を確認
Qing Wang, Junjie Wang, Mingyang Li, Yawen Wang, Zhe Liu, (参考訳) インターネットの進化は情報の透明性と共有の雰囲気を育み、ソフトウェア開発の実践に革命をもたらした。 オープンコラボレーティブ開発という分散した性質は、多様なコントリビュータと迅速なイテレーションとともに、ソフトウェア品質を保証するための新たな課題を提示します。 本稿では,オープンな共同開発環境におけるソフトウェア品質保証の最近の進歩に関する総合的なレビューと分析を行う。 本研究は, プロセス管理, 人員動態, 技術進歩など, 様々な側面をカバーし, 協調作業環境におけるソフトウェア品質維持のための効果的なアプローチに関する貴重な知見を提供する。 さらに、LLMやAIモデル中心の開発パラダイムといった新興技術から生じる課題と機会を掘り下げる。 これらのトピックに対処することによって、オープンなコラボレーション環境におけるソフトウェア品質保証のより深い理解に寄与し、将来の探索とイノベーションの土台を築きます。

Amidst the ever-expanding digital sphere, the evolution of the Internet has not only fostered an atmosphere of information transparency and sharing but has also sparked a revolution in software development practices. The distributed nature of open collaborative development, along with its diverse contributors and rapid iterations, presents new challenges for ensuring software quality. This paper offers a comprehensive review and analysis of recent advancements in software quality assurance within open collaborative development environments. Our examination covers various aspects, including process management, personnel dynamics, and technological advancements, providing valuable insights into effective approaches for maintaining software quality in such collaborative settings. Furthermore, we delve into the challenges and opportunities arising from emerging technologies such as LLMs and the AI model-centric development paradigm. By addressing these topics, our study contributes to a deeper understanding of software quality assurance in open collaborative environments and lays the groundwork for future exploration and innovation.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# 長いトレースに対する拡張性と近似的コンフォーマンスチェック手法

A Scalable and Near-Optimal Conformance Checking Approach for Long Traces ( http://arxiv.org/abs/2406.05439v1 )

ライセンス: Link先を確認
Eli Bogdanov, Izack Cohen, Avigdor Gal, (参考訳) センサや予測モデルから派生した長いトレースと大規模なイベントログは、私たちのデータ豊富な世界ではますます一般的になっています。 このような状況下では、プロセスマイニングにおける重要なタスクである適合性チェックは、最適なアライメントを見つけるという指数関数的な複雑さのため、計算不能になる可能性がある。 本稿では,アライメントに基づく手法の解釈可能性を維持しつつ,これらの拡張性に対処する新しいスライディングウインドウ手法を提案する。 トレースを管理可能なサブトレースに分割し,プロセスモデルと反復的に整列することにより,検索空間を大幅に削減する。 このアプローチでは、トレースとプロセスモデルの構造的特性を捉えたグローバルな情報を使用して、インフォームドアライメント決定を行い、ローカルなサブトレースに最適であるとしても、予期せぬアライメントを破棄する。 これにより結果の全体的な精度が向上する。 実験により,提案手法はほとんどの場合において常に最適なアライメントを見つけ,その拡張性を強調していることが示された。 これは、他の一般的な適合性検査法と比較して、探索空間の増大を減少させる理論的な複雑性解析によってさらに支持される。 この研究は、大規模プロセスマイニングアプリケーションに対する効率的な適合性チェックへの貴重な貢献を提供する。

Long traces and large event logs that originate from sensors and prediction models are becoming more common in our data-rich world. In such circumstances, conformance checking, a key task in process mining, can become computationally infeasible due to the exponential complexity of finding an optimal alignment. This paper introduces a novel sliding window approach to address these scalability challenges while preserving the interpretability of alignment-based methods. By breaking down traces into manageable subtraces and iteratively aligning each with the process model, our method significantly reduces the search space. The approach uses global information that captures structural properties of the trace and the process model to make informed alignment decisions, discarding unpromising alignments even if they are optimal for a local subtrace. This improves the overall accuracy of the results. Experimental evaluations demonstrate that the proposed method consistently finds optimal alignments in most cases and highlight its scalability. This is further supported by a theoretical complexity analysis, which shows the reduced growth of the search space compared to other common conformance checking methods. This work provides a valuable contribution towards efficient conformance checking for large-scale process mining applications.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# 残差変動和を持つ線形回帰モデルの有限サンプル同定

Finite-Sample Identification of Linear Regression Models with Residual-Permuted Sums ( http://arxiv.org/abs/2406.05440v1 )

ライセンス: Link先を確認
Szabolcs Szentpéteri, Balázs Csanád Csáji, (参考訳) 本稿では,PDP法であるResidual-Permuted Sums(Residual-Permuted Sums,RPS)について述べる。 SPS は 0 について対称な独立な(しかし潜在的に時間的に変化する)ノイズ項を仮定するが、RSS は対称性仮定を排除しているが、すなわちノイズを仮定する。 主な考え方は、RSSは記号を摂動する代わりに残基を摂動させることである。 このレターは柔軟な方法でRSSを導入し、様々なデザイン選択を可能にします。 RPS は厳密な有限標本被覆確率を持ち、これらの置換に基づく信頼領域が一般仮定の下で一様に強い整合性を持つという最初の証明を与える。 これは、サンプルサイズが大きくなるにつれて、RSS領域が真のパラメータの周りにほぼ確実に縮小することを意味する。 SPS の楕円体外近似 (EOA) も RPS に拡張され, 数値実験により RPS の有効性が検証された。

This letter studies a distribution-free, finite-sample data perturbation (DP) method, the Residual-Permuted Sums (RPS), which is an alternative of the Sign-Perturbed Sums (SPS) algorithm, to construct confidence regions. While SPS assumes independent (but potentially time-varying) noise terms which are symmetric about zero, RPS gets rid of the symmetricity assumption, but assumes i.i.d. noises. The main idea is that RPS permutes the residuals instead of perturbing their signs. This letter introduces RPS in a flexible way, which allows various design-choices. RPS has exact finite sample coverage probabilities and we provide the first proof that these permutation-based confidence regions are uniformly strongly consistent under general assumptions. This means that the RPS regions almost surely shrink around the true parameters as the sample size increases. The ellipsoidal outer-approximation (EOA) of SPS is also extended to RPS, and the effectiveness of RPS is validated by numerical experiments, as well.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# GAN-MSCNN-BILSTMの導入による侵入検知の新しいアプローチ

Novel Approach to Intrusion Detection: Introducing GAN-MSCNN-BILSTM with LIME Predictions ( http://arxiv.org/abs/2406.05443v1 )

ライセンス: Link先を確認
Asmaa Benchama, Khalid Zebbara, (参考訳) 本稿では、GAN(Generative Adversarial Networks)、MSCNN(Multi-Scale Convolutional Neural Networks)、Bidirectional Long Short-Term Memory(BiLSTM)ネットワークを利用した革新的な侵入検知システムを提案する。 GANを利用すると、システムは通常のパターンと攻撃パターンの両方を含むリアルなネットワークトラフィックデータを生成する。 この合成データをMSCNN-BiLSTMアーキテクチャに入力し、侵入検知を行う。 MSCNN層は異なるスケールのネットワークトラフィックデータから特徴を抽出し、BiLSTM層はトラフィックシーケンス内の時間的依存関係をキャプチャする。 LIMEの統合は、モデルの判断を説明することを可能にする。 標準ベンチマークであるHogzillaデータセットの評価では、多クラス分類では99.16\%、バイナリ分類では99.10\%、LIMEによる解釈性が保証されている。 この深層学習と解釈可能性の融合は、ネットワークセキュリティにおける透明性と意思決定支援を改善して侵入検知システムを強化するための有望な道を示す。

This paper introduces an innovative intrusion detection system that harnesses Generative Adversarial Networks (GANs), Multi-Scale Convolutional Neural Networks (MSCNNs), and Bidirectional Long Short-Term Memory (BiLSTM) networks, supplemented by Local Interpretable Model-Agnostic Explanations (LIME) for interpretability. Employing a GAN, the system generates realistic network traffic data, encompassing both normal and attack patterns. This synthesized data is then fed into an MSCNN-BiLSTM architecture for intrusion detection. The MSCNN layer extracts features from the network traffic data at different scales, while the BiLSTM layer captures temporal dependencies within the traffic sequences. Integration of LIME allows for explaining the model's decisions. Evaluation on the Hogzilla dataset, a standard benchmark, showcases an impressive accuracy of 99.16\% for multi-class classification and 99.10\% for binary classification, while ensuring interpretability through LIME. This fusion of deep learning and interpretability presents a promising avenue for enhancing intrusion detection systems by improving transparency and decision support in network security.
翻訳日:2024-06-11 19:45:22 公開日:2024-06-08
# 特許指標の校正機械学習を用いた信頼性技術評価モデルの設計

Design of reliable technology valuation model with calibrated machine learning of patent indicators ( http://arxiv.org/abs/2406.05446v1 )

ライセンス: Link先を確認
Seunghyun Lee, Janghyeok Yoon, Jaewoong Choi, (参考訳) 機械学習(ML)は、特許の価値を高い精度で予測することで、技術評価のデジタルトランスフォーメーションに革命をもたらした。 しかし、これらのモデルの信頼性に関する検証の欠如は、モデル予測の信頼性を完全に信頼することを妨げる。 この問題に対処するため,我々は,モデル予測において堅牢な信頼性レベルを提供する校正MLモデルを用いて,信頼性の高い技術評価のための分析フレームワークを提案する。 我々は,特許維持期間を技術価値のプロキシとして利用して,様々な技術特性を入力データとして表現する定量的な特許指標を抽出する。 特許指標と技術価値の非線形関係を捉えるために,複数のMLモデルを開発した。 これらのモデルの信頼性と精度を評価し、予測キャリブレーション誤差、マシューズ相関係数、F1スコアを比較するパレートフロントマップを示す。 最高の性能モデルを特定した後、信頼ビンによる最も重要な入力特徴の特定にSHAP分析を適用した。 ケーススタディを通じて,提案手法が,学術と産業の両方に重要な意味を持つ信頼性と精度の高いMLベースの技術評価モデルを開発するための実践的ガイドラインを提供することを確認した。

Machine learning (ML) has revolutionized the digital transformation of technology valuation by predicting the value of patents with high accuracy. However, the lack of validation regarding the reliability of these models hinders experts from fully trusting the confidence of model predictions. To address this issue, we propose an analytical framework for reliable technology valuation using calibrated ML models, which provide robust confidence levels in model predictions. We extract quantitative patent indicators that represent various technology characteristics as input data, using the patent maintenance period as a proxy for technology values. Multiple ML models are developed to capture the nonlinear relationship between patent indicators and technology value. The reliability and accuracy of these models are evaluated, presenting a Pareto-front map where the expected calibration error, Matthews correlation coefficient and F1-scores are compared. After identifying the best-performing model, we apply SHapley Additive exPlanation (SHAP) analysis to pinpoint the most significant input features by confidence bin. Through a case study, we confirmed that the proposed approach offers a practical guideline for developing reliable and accurate ML-based technology valuation models, with significant implications for both academia and industry.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# 渋滞低減のための最適化の再検討

Reconsideration of optimization for reduction of traffic congestion ( http://arxiv.org/abs/2406.05448v1 )

ライセンス: Link先を確認
Masayuki Ohzeki, (参考訳) 量子アニールの最も印象的な応用の1つは、D-Waveシステムを用いた交通渋滞を減らすためにフォルクスワーゲンのグループを最適化することであった。 交通渋滞を低減するために2次項の簡単な定式化が提案された。 この二次的な用語は、いくつかの候補者の中で最も短いルートを決定するのに役立った。 当初の定式化は、自動車ツアーと交通渋滞の総延長を減少させた。 本研究では,交通渋滞の低減にのみ焦点をあてて,コスト関数を再構築した。 次に, デッドゾーンと不等式制約を持つ二次関数を表現するためのユニークなコスト関数を見出した。

One of the most impressive applications of a quantum annealer was optimizing a group of Volkswagen to reduce traffic congestion using a D-Wave system. A simple formulation of a quadratic term was proposed to reduce traffic congestion. This quadratic term was useful for determining the shortest routes among several candidates. The original formulation produced decreases in the total lengths of car tours and traffic congestion. In this study, we reformulated the cost function with the sole focus on reducing traffic congestion. We then found a unique cost function for expressing the quadratic function with a dead zone and an inequality constraint.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# PrivacyCube: IoTにおけるプライバシ意識を高めるためのデータ物理化

PrivacyCube: Data Physicalization for Enhancing Privacy Awareness in IoT ( http://arxiv.org/abs/2406.05451v1 )

ライセンス: Link先を確認
Bayan Al Muhander, Nalin Arachchilage, Yasar Majib, Mohammed Alosaimi, Omer Rana, Charith Perera, (参考訳) 人々は、データの収集、処理、使用方法を理解することなく、モノのインターネット(IoT)デバイスを家庭に持ち込んでいる。 スマートホーム環境におけるプライバシー意識を高めるために設計された新しいデータ物理化であるPrivacyCubeについて説明する。 PrivacyCubeは、プライバシ関連の通知を表示することによって、IoTデータ消費を可視化する。 PrivacyCubeはスマートホームの利用者を支援する i) データのプライバシーをよりよく理解し (ii) 家庭内で使用されるIoTデバイスのデータ管理プラクティスについて会話する。 プライバシキューブを使うことで、家庭は学習し、情報的なプライバシー決定をまとめることができる。 プライバシキューブの評価には,設計のさまざまな段階にわたって,複数の研究手法を用いた。 最初に、プライバシキューブとテキストと最先端のプライバシポリシを比較するために、6人の参加者による2段階のフォーカスグループ調査を行った。 次に、8世帯を対象に14日間にわたるフィールドスタディにPrivacyCubeを配置した。 以上の結果から,プライバシキューブはIoTプライバシをよりよく理解し,プライバシ意識をp < .05 (p=0.00041, t= -5.57) で大幅に向上させる。 参加者はテキストのプライバシーポリシーよりもPrivacyCubeを好んだ。 PrivacyCubeとPrivacy Labelはどちらも最先端のアプローチで、参加者から肯定的なレビューを受けており、PrivacyCubeは対話性と会話を促進する能力に好まれている。 PrivacyCubeはまた、家庭の居住者によって家庭用家具の一部と見なされ、このデバイスを使ってIoTのプライバシーへの影響を社交化し議論することを奨励した。

People are increasingly bringing Internet of Things (IoT) devices into their homes without understanding how their data is gathered, processed, and used. We describe PrivacyCube, a novel data physicalization designed to increase privacy awareness within smart home environments. PrivacyCube visualizes IoT data consumption by displaying privacy-related notices. PrivacyCube aims to assist smart home occupants to (i) understand their data privacy better and (ii) have conversations around data management practices of IoT devices used within their homes. Using PrivacyCube, households can learn and make informed privacy decisions collectively. To evaluate PrivacyCube, we used multiple research methods throughout the different stages of design. We first conducted a focus group study in two stages with six participants to compare PrivacyCube to text and state-of-the-art privacy policies. We then deployed PrivacyCube in a 14-day-long field study with eight households. Our results show that PrivacyCube helps home occupants comprehend IoT privacy better with significantly increased privacy awareness at p < .05 (p=0.00041, t= -5.57). Participants preferred PrivacyCube over text privacy policies because it was comprehensive and easier to use. PrivacyCube and Privacy Label, a state-of-the-art approach, both received positive reviews from participants, with PrivacyCube being preferred for its interactivity and ability to encourage conversations. PrivacyCube was also considered by home occupants as a piece of home furniture, encouraging them to socialize and discuss IoT privacy implications using this device.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# PriviFy: IoTプライバシ設定のためのタンジブルインターフェースの設計

PriviFy: Designing Tangible Interfaces for Configuring IoT Privacy Preferences ( http://arxiv.org/abs/2406.05459v1 )

ライセンス: Link先を確認
Bayan Al Muhander, Omer Rana, Charith Perera, (参考訳) スマートスピーカーのようなIoT(Internet of Things)デバイスは、機密性の高いユーザデータを収集し、ユーザがプライバシの好みを管理する必要がある。 しかし、これらの好みを設定すると、ユーザは複数の課題を抱えることになる。 既存のプライバシーコントロールは透明性を欠くことが多く、理解するのが難しく、意味のある選択肢を提供していない。 さらに、複数のメニューやラベル付けが混乱しているため、ユーザーはプライバシー設定を見つけるのに苦労している。 PriviFy (Privacy Simplify-er)は,スマートデバイスのプライバシ設定の設定をシンプルにするための,新規でユーザフレンドリな有形インターフェースである。 PriviFyは、プライバシ管理を改善する追加機能を統合することで、既存のハードウェアの拡張を提案するように設計されている。 当社の研究からの肯定的なフィードバックとユーザエクスペリエンスが、消費者製品開発者やスマートデバイスメーカーに、私たちが特定した有用なデザイン要素を取り入れさせるきっかけになることを期待しています。 フィデリティプロトタイピングを使用して、20人の参加者によるPriviFyプロトタイプを反復的に設計し、ノブ、ボタン、ライト、通知などのインタラクティブな機能を含むようにしました。 さらに,20名以上の参加者でPriviFy高忠実度プロトタイプの評価を行った。 以上の結果から,PrivFyはプライバシ設定の複雑さを,p < .05 (P = 0.000000017, t = -8.8639) という大きなユーザビリティスコアで単純化する。 PriviFyはユーザーのプライバシー要求に応えて、データのコントロールを取り戻せるようにした。 私たちは、特定のプライバシー設定オプションを設計することの重要性を推奨することで締めくくります。

The Internet of Things (IoT) devices, such as smart speakers can collect sensitive user data, necessitating the need for users to manage their privacy preferences. However, configuring these preferences presents users with multiple challenges. Existing privacy controls often lack transparency, are hard to understand, and do not provide meaningful choices. On top of that, users struggle to locate privacy settings due to multiple menus or confusing labeling, which discourages them from using these controls. We introduce PriviFy (Privacy Simplify-er), a novel and user-friendly tangible interface that can simplify the configuration of smart devices privacy settings. PriviFy is designed to propose an enhancement to existing hardware by integrating additional features that improve privacy management. We envision that positive feedback and user experiences from our study will inspire consumer product developers and smart device manufacturers to incorporate the useful design elements we have identified. Using fidelity prototyping, we iteratively designed PriviFy prototype with 20 participants to include interactive features such as knobs, buttons, lights, and notifications that allow users to configure their data privacy preferences and receive confirmation of their choices. We further evaluated PriviFy high-fidelity prototype with 20 more participants. Our results show that PriviFy helps simplify the complexity of privacy preferences configuration with a significant usability score at p < .05 (P = 0.000000017, t = -8.8639). PriviFy successfully met users privacy needs and enabled them to regain control over their data. We conclude by recommending the importance of designing specific privacy configuration options.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# ファウショット型エンティティ認識における反復訓練とサンプル依存問題への対処

Fighting Against the Repetitive Training and Sample Dependency Problem in Few-shot Named Entity Recognition ( http://arxiv.org/abs/2406.05460v1 )

ライセンス: Link先を確認
Chang Tian, Wenpeng Yin, Dan Li, Marie-Francine Moens, (参考訳) 名前付きエンティティ認識(NER)システムは、いくつかのラベル付きトレーニング例を使用してエンティティを認識する。 一般的なパイプラインは、テキスト内のエンティティスパンを特定するスパン検出器と、エンティティに型を割り当てるエンティティタイプ分類器で構成される。 現在のスパン検出器は、ガイドトレーニングのための広範囲な手動ラベリングに依存している。 ほぼ全てのスパン検出器は、基本的なスパンの特徴の初期訓練とタスク固有の特徴への適応を必要とする。 このプロセスは、スパン検出器間の基本的なスパンの特徴を反復的に訓練する。 さらに、原型ネットワークのようなメートル法に基づくエンティティタイプ分類器は、通常、クエリサンプルとエンティティタイプ参照の間の距離を計測する特定のメトリックを使用し、最終的に最も確率の高いエンティティタイプをクエリサンプルに割り当てる。 しかし、これらの分類器は、主に各エンティティタイプ参照で利用可能な限られたサンプルから生じる、サンプル依存問題に遭遇する。 これらの課題に対処するため、我々は改良された数発のNERパイプラインを提案した。 まず,オープンドメインのウィキペディアデータに基づいて事前学習した足場スパン検出器を提案する。 パイプラインスパン検出器を初期化して基本的な特徴の反復的な訓練を減らすために使用できる。 次に,大型言語モデル(LLM)を用いて信頼性の高いエンティティ型参照を設定する。 本モデルでは, 各種データセットの広範囲な実験により, ベースラインと比較して, トレーニングステップが少なく, 人によるラベル付きデータよりも優れた性能を示す。 特に微妙なNER設定では、ChatGPTなどの強力なベースラインよりも優れています。 コード、データセット、LCM出力、モデルチェックポイントを公開します。

Few-shot named entity recognition (NER) systems recognize entities using a few labeled training examples. The general pipeline consists of a span detector to identify entity spans in text and an entity-type classifier to assign types to entities. Current span detectors rely on extensive manual labeling to guide training. Almost every span detector requires initial training on basic span features followed by adaptation to task-specific features. This process leads to repetitive training of the basic span features among span detectors. Additionally, metric-based entity-type classifiers, such as prototypical networks, typically employ a specific metric that gauges the distance between the query sample and entity-type referents, ultimately assigning the most probable entity type to the query sample. However, these classifiers encounter the sample dependency problem, primarily stemming from the limited samples available for each entity-type referent. To address these challenges, we proposed an improved few-shot NER pipeline. First, we introduce a steppingstone span detector that is pre-trained on open-domain Wikipedia data. It can be used to initialize the pipeline span detector to reduce the repetitive training of basic features. Second, we leverage a large language model (LLM) to set reliable entity-type referents, eliminating reliance on few-shot samples of each type. Our model exhibits superior performance with fewer training steps and human-labeled data compared with baselines, as demonstrated through extensive experiments on various datasets. Particularly in fine-grained few-shot NER settings, our model outperforms strong baselines, including ChatGPT. We will publicly release the code, datasets, LLM outputs, and model checkpoints.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# DAISY:音声表現モデルのためのデータ適応型自己監督型早期出力

DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models ( http://arxiv.org/abs/2406.05464v1 )

ライセンス: Link先を確認
Tzu-Quan Lin, Hung-yi Lee, Hao Tang, (参考訳) 自己教師付き音声モデルは様々なタスクに有用であることが示されているが、その大きなサイズは計算能力とメモリが低いデバイスでの使用を制限する。 本研究では,ネットワークのフォワードプロセスの早期終了によるレイテンシ低減手法であるアーリーエグジットについて検討する。 アーリーエグジットのほとんどのアプローチでは、各タスクごとに別々のアーリーエグジットモデルが必要であり、一部では事前訓練されたモデル全体の微調整も必要である。 我々は,データ適応型自己監督早期退避(DAISY)を導入する。これは,自己監督的損失に基づいていつ退避するかを決定するアプローチであり,複数ラウンドのトレーニングや微調整は不要である。 DAISY は MiniSUPERB ベンチマークで HuBERT のパフォーマンスと一致しているが、推論時間の方がはるかに速い。 DAISYの適応性に関する分析では, ノイズレベルに基づいて推論の計算コストを動的に調整し, クリーンデータ上で早期に(より少ない層を用いて)退避し, ノイズデータ上で(より多くの層を用いて)退避することを示す。

Self-supervised speech models have shown to be useful for various tasks, but their large size limits the use in devices with low computing power and memory. In this work, we explore early exit, an approach for reducing latency by exiting the forward process of a network early. Most approaches of early exit need a separate early exit model for each task, with some even requiring fine-tuning of the entire pretrained model. We introduce Data Adaptive Self-Supervised Early Exit (DAISY), an approach that decides when to exit based on the self-supervised loss, eliminating the need for multiple round of training and fine-tuning. DAISY matches the performance of HuBERT on the MiniSUPERB benchmark, but with much faster inference times. Our analysis on the adaptivity of DAISY shows that the model exits early (using fewer layers) on clean data while exits late (using more layers) on noisy data, dynamically adjusting the computational cost of inference based on the noise level of each sample.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# Bayesian vs. PAC-Bayesian Deep Neural Network アンサンブル

Bayesian vs. PAC-Bayesian Deep Neural Network Ensembles ( http://arxiv.org/abs/2406.05469v1 )

ライセンス: Link先を確認
Nick Hauptvogel, Christian Igel, (参考訳) ベイズニューラルネットワークは、モデルパラメータの後方分布を学習することで、てんかんの不確実性に対処する。 この後続のネットワークのサンプリングと重み付けは、ベイズアンサンブルと呼ばれるアンサンブルモデルを生成する。 ニューラルネットワークのアンサンブル(ディープアンサンブル)は、エラー効果のキャンセルによって利益を得ることができる: アンサンブルメンバーによるエラーは平均アウトし、ディープアンサンブルは個々のネットワークよりも優れた予測性能を達成する。 ベイズアンサンブルのサンプリングや重み付けは、不特定モデルに対するベルンシュタイン・ヴォン–ミゼス定理の極限で明らかな誤差効果のキャンセルをサポートしないため、一般化性能の向上には特に適していない。 対照的に、PAC-ベイジアン一般化境界の最小化により重みが最適化されるモデルの重み付き平均は、一般化性能を向上させることができる。 この最適化はモデル間の相関を考慮に入れ、誤差相関を推定するためのデータを保持するコストでタンデム損失を最小限にすることで達成できる。 PAC-ベイズ重み付けは、アンサンブル内の低い性能を持つ相関モデルやモデルに対するロバスト性を高める。 これにより、シングルウェイト構成を選択するのにアーリーストッピングを使うのではなく、同じ学習プロセスから複数のモデルをアンサンブルに安全に追加することができます。 本研究は,4つの分類データセットにおける概念的考察を支援する実証的な結果を示す。 文献から得られた最先端のベイズアンサンブルは、計算的に要求されているにもかかわらず、単純な重み付きディープアンサンブルよりも改善せず、タンデム損失を最適化することで重み付けされたディープアンサンブルの性能と一致しない。

Bayesian neural networks address epistemic uncertainty by learning a posterior distribution over model parameters. Sampling and weighting networks according to this posterior yields an ensemble model referred to as Bayes ensemble. Ensembles of neural networks (deep ensembles) can profit from the cancellation of errors effect: Errors by ensemble members may average out and the deep ensemble achieves better predictive performance than each individual network. We argue that neither the sampling nor the weighting in a Bayes ensemble are particularly well-suited for increasing generalization performance, as they do not support the cancellation of errors effect, which is evident in the limit from the Bernstein-von~Mises theorem for misspecified models. In contrast, a weighted average of models where the weights are optimized by minimizing a PAC-Bayesian generalization bound can improve generalization performance. This requires that the optimization takes correlations between models into account, which can be achieved by minimizing the tandem loss at the cost that hold-out data for estimating error correlations need to be available. The PAC-Bayesian weighting increases the robustness against correlated models and models with lower performance in an ensemble. This allows us to safely add several models from the same learning process to an ensemble, instead of using early-stopping for selecting a single weight configuration. Our study presents empirical results supporting these conceptual considerations on four different classification datasets. We show that state-of-the-art Bayes ensembles from the literature, despite being computationally demanding, do not improve over simple uniformly weighted deep ensembles and cannot match the performance of deep ensembles weighted by optimizing the tandem loss, which additionally come with non-vacuous generalization guarantees.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# RandONet:Shallow-Networks with Random Projections for Learning linear and linear operator

RandONet: Shallow-Networks with Random Projections for learning linear and nonlinear operators ( http://arxiv.org/abs/2406.05470v1 )

ライセンス: Link先を確認
Gianluca Fabiani, Ioannis G. Kevrekidis, Constantinos Siettos, Athanasios N. Yannacopoulos, (参考訳) Deep Operator Networks (DeepOnets)は、動的システムに対する逆問題の解決のために、科学機械学習の領域に革命をもたらした。 しかし、それらの実装はパラメータとハイパーパラメータの高次元空間を最適化する必要がある。 この事実は、かなりの計算資源の要求とともに、高い数値精度を達成するための障壁となる。 ここでは、DeepONetsが仮定し、上記の課題に対処するため、ランダムプロジェクションに基づく演算子ネットワーク(RandONets):線形および非線形演算子を学習するランダムプロジェクションを持つ浅層ネットワークを提案する。 RandONetsの実装には以下のものがある。 a) ランダムベースを組み込むことにより、単一の隠蔽層を持つ浅層ニューラルネットワークの使用が可能になり、未知のものがネットワークの重み付けされた内部積の出力重みである。 b) 定式化最小二乗解法(例えば、チコノフ正則化と事前条件付きQR分解)を用いて、ディープラーニングで用いられる他の最適化手法と比較して、優れた数値近似特性を提供する。 本研究では、非線形作用素を近似するためのRandONetsの普遍近似精度を証明し、PDEに着目した線形非線形進化作用素(右辺(RHS))の近似の効率を実証する。 この特定のタスクにおいて、RandONetsは数値近似の精度と計算コストの両面において、‘vanilla’ DeepOnetsよりも優れていることを示す。

Deep Operator Networks (DeepOnets) have revolutionized the domain of scientific machine learning for the solution of the inverse problem for dynamical systems. However, their implementation necessitates optimizing a high-dimensional space of parameters and hyperparameters. This fact, along with the requirement of substantial computational resources, poses a barrier to achieving high numerical accuracy. Here, inpsired by DeepONets and to address the above challenges, we present Random Projection-based Operator Networks (RandONets): shallow networks with random projections that learn linear and nonlinear operators. The implementation of RandONets involves: (a) incorporating random bases, thus enabling the use of shallow neural networks with a single hidden layer, where the only unknowns are the output weights of the network's weighted inner product; this reduces dramatically the dimensionality of the parameter space; and, based on this, (b) using established least-squares solvers (e.g., Tikhonov regularization and preconditioned QR decomposition) that offer superior numerical approximation properties compared to other optimization techniques used in deep-learning. In this work, we prove the universal approximation accuracy of RandONets for approximating nonlinear operators and demonstrate their efficiency in approximating linear nonlinear evolution operators (right-hand-sides (RHS)) with a focus on PDEs. We show, that for this particular task, RandONets outperform, both in terms of numerical approximation accuracy and computational cost, the ``vanilla" DeepOnets.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# スマートグリッド通信におけるマルチキャストメッセージにおける異常検出のためのAIに基づく新しい生成フレームワーク

A Novel Generative AI-Based Framework for Anomaly Detection in Multicast Messages in Smart Grid Communications ( http://arxiv.org/abs/2406.05472v1 )

ライセンス: Link先を確認
Aydin Zaboli, Seong Lok Choi, Tai-Jin Song, Junho Hong, (参考訳) デジタル変電所におけるサイバーセキュリティ違反は、電力系統の運用の安定性と信頼性に重大な課題をもたらす可能性がある。 これらの課題に対処するためには、防御と緩和技術が必要である。 情報通信技術(ICT)における異常の特定と検出は,デジタルサブステーション内でのセキュアなデバイスインタラクションの確保に不可欠である。 本稿では,大規模言語モデル(LLM)を用いたデジタルサブステーションにおけるマルチキャストメッセージ,汎用オブジェクト指向サブステーションイベント(GOOSE)およびサンプル値(SV)のデータセットにおける異常検出(AD)のためのタスク指向対話(ToD)システムを提案する。 このモデルは、Human-in-the-loop(HITL)プロセスとして知られる、人間が推奨するサイバーセキュリティガイドラインを考えるプロセスよりも、潜在的なエラーやスケーラビリティ、適応性が低い。 また、この手法は、モデルの複雑さと精度に影響を与えず、より高速な実装を提供するため、機械学習(ML)技術と比較して、新しいサイバー脅威や異常に対処するために必要な労力を大幅に削減する。 これらの結果から,ADフレームワークとHITLプロセスの標準および高度な性能評価指標を用いて比較評価を行った。 IEC 61850通信のデータセットの生成と抽出のために、ハードウェア・イン・ザ・ループ(HIL)テストベッドが採用された。

Cybersecurity breaches in digital substations can pose significant challenges to the stability and reliability of power system operations. To address these challenges, defense and mitigation techniques are required. Identifying and detecting anomalies in information and communication technology (ICT) is crucial to ensure secure device interactions within digital substations. This paper proposes a task-oriented dialogue (ToD) system for anomaly detection (AD) in datasets of multicast messages e.g., generic object oriented substation event (GOOSE) and sampled value (SV) in digital substations using large language models (LLMs). This model has a lower potential error and better scalability and adaptability than a process that considers the cybersecurity guidelines recommended by humans, known as the human-in-the-loop (HITL) process. Also, this methodology significantly reduces the effort required when addressing new cyber threats or anomalies compared with machine learning (ML) techniques, since it leaves the models complexity and precision unaffected and offers a faster implementation. These findings present a comparative assessment, conducted utilizing standard and advanced performance evaluation metrics for the proposed AD framework and the HITL process. To generate and extract datasets of IEC 61850 communications, a hardware-in-the-loop (HIL) testbed was employed.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# トランスモン量子の多ビット交換結合率計算のためのフィールドベース形式

Field-Based Formalism for Calculating Multi-Qubit Exchange Coupling Rates for Transmon Qubits ( http://arxiv.org/abs/2406.05473v1 )

ライセンス: Link先を確認
Ghazi Khan, Thomas E. Roth, (参考訳) 超伝導量子ビットは量子コンピューティングの最も成熟したプラットフォームの一つだが、大きなパフォーマンス改善が必要である。 これらのシステムのエンジニアリングを改善するために、3次元フルウェーブ・コンピュータ・電磁解析がますます利用されている。 残念なことに、既存の分析手法は、いくつかの量子ビットを持つデバイスを解析する際には、通常扱いにくい、堅牢ではなく、計算的に禁止される、固有モードソルバを用いたフルウェーブシミュレーションに頼っていることが多い。 これらの欠点を回避しつつ超伝導回路のキャラクタリゼーションを改善するため、この研究はトランモン量子ビット間の量子ビット-量子交換結合速度を評価する文脈で示す別のフレームワークの開発に着手する。 これは、高速なマルチキュービットゲート性能の絡み合い率を決定するキーデザインパラメータであり、また、キュービットクロストークのようなデコヒーレンスソースに影響を与える。 モデル化フレームワークでは, 量子力学の文脈における場に基づく定式化を用いて, 量子ビット-量子ビット交換結合速度が, 量子ビットを結合する電磁的ダイアディックグリーン関数と関係があることを示す。 さらに,従来の計算電磁式ツールを用いて効率よく計算できるシステムのインピーダンス応答に,ダイアディックグリーン関数が関与する量がどのように関連しているかを示す。 提案手法の有効性と有効性は、4つの実用的マルチキュービット超伝導回路をシミュレートし、その量子ビット交換結合率を評価することで実証する。 本研究では,3次元数値対角化法と実験データとの比較を行った。 また、マルチカプラデバイスをシミュレートし、キュービットクロストークがゼロとなる操作点を特定することにより、キュービット交換結合速度がキュービットクロストークに与える影響を実証する。

Superconducting qubits are one of the most mature platforms for quantum computing, but significant performance improvements are still needed. To improve the engineering of these systems, 3D full-wave computational electromagnetics analyses are increasingly being used. Unfortunately, existing analysis approaches often rely on full-wave simulations using eigenmode solvers that are typically cumbersome, not robust, and computationally prohibitive if devices with more than a few qubits are to be analyzed. To improve the characterization of superconducting circuits while circumventing these drawbacks, this work begins the development of an alternative framework that we illustrate in the context of evaluating the qubit-qubit exchange coupling rate between transmon qubits. This is a key design parameter that determines the entanglement rate for fast multi-qubit gate performance and also affects decoherence sources like qubit crosstalk. Our modeling framework uses a field-based formalism in the context of macroscopic quantum electrodynamics, which we use to show that the qubit-qubit exchange coupling rate can be related to the electromagnetic dyadic Green's function linking the qubits together. We further show how the quantity involving the dyadic Green's function can be related to the impedance response of the system that can be efficiently computed with classical computational electromagnetics tools. We demonstrate the validity and efficacy of this approach by simulating four practical multi-qubit superconducting circuits and evaluating their qubit-qubit exchange coupling rates. We validate our results against a 3D numerical diagonalization method and against experimental data where available. We also demonstrate the impact of the qubit-qubit exchange coupling rate on qubit crosstalk by simulating a multi-coupler device and identifying operating points where the qubit crosstalk becomes zero.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# HDRT:HDRイメージングのための赤外線キャプチャ

HDRT: Infrared Capture for HDR Imaging ( http://arxiv.org/abs/2406.05475v1 )

ライセンス: Link先を確認
Jingchao Peng, Thomas Bashford-Rogers, Francesco Banterle, Haitao Zhao, Kurt Debattista, (参考訳) 実世界の照明を捉えることは、画像撮影における長年の課題であり、最も実践的な手法は、複数の露光を融合させることで、高ダイナミックレンジ(HDR)画像を取得するか、標準ダイナミックレンジ(SDR)画像のダイナミックレンジを増大させるかのいずれかである。 多重露光は、しばしばゴースト問題に繋がる長い捕獲時間を必要とするため、問題となる。 逆トーンマッピング(inverse tone mapping、逆トーンマッピング、逆トーンマッピング、逆トーンマッピング、逆トーンマッピング、英: inverse tone mapping、逆トーンマッピング、英: inverse tone mapping、逆トーンマッピング、英: inverse tone mapping、逆トーンマッピング、英: inverse tone mapping、逆トーンマッピング、英: inverse tone mapping、逆トーンマッピング、英: inverse tone mapping)は、特に難しい問題である。 そこで本研究では,高ダイナミックレンジサーマル(HDRT, High Dynamic Range Thermal)という,別個の赤外線センサを用いたHDR取得手法を提案する。 本稿では、赤外線とSDRを組み合わせてHDR画像を生成する新しいディープニューラルネットワーク(HDRTNet)を提案する。 HDRTNetはRGBイメージにリンクされたIR機能を活用することを学習し、IR固有のパラメータはその後、浅い層で機能を融合するデュアルブランチメソッドで使用される。 これにより、単純核融合法により生成されたHDR画像よりもはるかに優れたHDR画像が生成される。 提案手法を検証するため,HDRとサーマルデータセットを作成し,HDRTNetと最先端技術を比較した広範な実験を行った。 オーバー露光画像とアンダー露光画像の量的および定性的な品質向上を示すとともに,複数の異なる照明条件下での撮影に頑健であることを示す。

Capturing real world lighting is a long standing challenge in imaging and most practical methods acquire High Dynamic Range (HDR) images by either fusing multiple exposures, or boosting the dynamic range of Standard Dynamic Range (SDR) images. Multiple exposure capture is problematic as it requires longer capture times which can often lead to ghosting problems. The main alternative, inverse tone mapping is an ill-defined problem that is especially challenging as single captured exposures usually contain clipped and quantized values, and are therefore missing substantial amounts of content. To alleviate this, we propose a new approach, High Dynamic Range Thermal (HDRT), for HDR acquisition using a separate, commonly available, thermal infrared (IR) sensor. We propose a novel deep neural method (HDRTNet) which combines IR and SDR content to generate HDR images. HDRTNet learns to exploit IR features linked to the RGB image and the IR-specific parameters are subsequently used in a dual branch method that fuses features at shallow layers. This produces an HDR image that is significantly superior to that generated using naive fusion approaches. To validate our method, we have created the first HDR and thermal dataset, and performed extensive experiments comparing HDRTNet with the state-of-the-art. We show substantial quantitative and qualitative quality improvements on both over- and under-exposed images, showing that our approach is robust to capturing in multiple different lighting conditions.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# Attri-Net: クラス特化因子を用いたマルチラベル分類のためのグローバルかつ局所的に解釈可能なモデル

Attri-Net: A Globally and Locally Inherently Interpretable Model for Multi-Label Classification Using Class-Specific Counterfactuals ( http://arxiv.org/abs/2406.05477v1 )

ライセンス: Link先を確認
Susu Sun, Stefano Woerner, Andreas Maier, Lisa M. Koch, Christian F. Baumgartner, (参考訳) 高度な医療応用において、解釈可能性は機械学習アルゴリズムにとって不可欠である。 しかし、高性能ニューラルネットワークは一般的に予測を説明できない。 ポストホックな説明法は、ニューラルネットワークを理解する方法を提供するが、概念的な問題に悩まされていることが示されている。 さらに、現在の研究は、モデル自体のグローバルな説明よりも、個々のサンプルに局所的な説明を提供することに重点を置いている。 本稿では,局所的およびグローバルな説明を提供するマルチラベル分類モデルであるAttri-Netを提案する。 Attri-Netは、まず、病気の証拠を強調するためにクラス固有の属性マップを生成し、その後、属性マップのみに基づいてロジスティック回帰分類器を用いて分類を行う。 各予測に対する局所的な説明は、分類器の重みによって重み付けられた帰属写像を解釈することによって得られる。 モデル全体のグローバルな説明は、各クラス(クラス中心と呼ばれる)に対する帰属写像の学習平均表現と線形分類器の重みを共同で検討することで得られる。 モデルが正しい理由のために正しいことを保証するために、我々はさらに、人間の知識に合わせるためにモデルの説明をガイドするメカニズムを導入します。 総合評価の結果、Attri-Netは分類性能を犠牲にすることなく、臨床知識と整合した高品質な説明を生成できることがわかった。

Interpretability is crucial for machine learning algorithms in high-stakes medical applications. However, high-performing neural networks typically cannot explain their predictions. Post-hoc explanation methods provide a way to understand neural networks but have been shown to suffer from conceptual problems. Moreover, current research largely focuses on providing local explanations for individual samples rather than global explanations for the model itself. In this paper, we propose Attri-Net, an inherently interpretable model for multi-label classification that provides local and global explanations. Attri-Net first counterfactually generates class-specific attribution maps to highlight the disease evidence, then performs classification with logistic regression classifiers based solely on the attribution maps. Local explanations for each prediction can be obtained by interpreting the attribution maps weighted by the classifiers' weights. Global explanation of whole model can be obtained by jointly considering learned average representations of the attribution maps for each class (called the class centers) and the weights of the linear classifiers. To ensure the model is ``right for the right reason", we further introduce a mechanism to guide the model's explanations to align with human knowledge. Our comprehensive evaluations show that Attri-Net can generate high-quality explanations consistent with clinical knowledge while not sacrificing classification performance.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# 効率的な画像合成のための非自己回帰変換器の再検討

Revisiting Non-Autoregressive Transformers for Efficient Image Synthesis ( http://arxiv.org/abs/2406.05478v1 )

ライセンス: Link先を確認
Zanlin Ni, Yulin Wang, Renping Zhou, Jiayi Guo, Jinyi Hu, Zhiyuan Liu, Shiji Song, Yuan Yao, Gao Huang, (参考訳) 画像合成の分野は現在、拡散モデルの発展により繁栄している。 拡散モデルは成功したが、その計算強度はより効率的な代替品の追求を促している。 代表作として、非自己回帰トランスフォーマー(NAT)がその急速な世代で認識されている。 しかし、これらのモデルの大きな欠点は拡散モデルに比べて性能が劣っていることである。 本稿では,NATのトレーニング戦略と推論戦略の設計を再考することにより,NATの潜在能力を再評価することを目的とする。 具体的には、これらの戦略を適切に構成する際の複雑さを特定し、既存のヒューリスティック駆動設計における準最適性を示す。 これを認識し、我々は、自動フレームワークで最適な戦略を直接解決することで、既存の手法を超えることを提案する。 結果、AutoNATと呼ばれる手法はNATの性能境界を著しく向上させ、最新の拡散モデルとの互換性を著しく低減した推論コストで実現できる。 AutoNATの有効性は、ImageNet-256 & 512、MS-COCO、CC3Mの4つのベンチマークデータセットで検証されている。 私たちのコードはhttps://github.com/LeapLabTHU/ImprovedNAT.comで利用可能です。

The field of image synthesis is currently flourishing due to the advancements in diffusion models. While diffusion models have been successful, their computational intensity has prompted the pursuit of more efficient alternatives. As a representative work, non-autoregressive Transformers (NATs) have been recognized for their rapid generation. However, a major drawback of these models is their inferior performance compared to diffusion models. In this paper, we aim to re-evaluate the full potential of NATs by revisiting the design of their training and inference strategies. Specifically, we identify the complexities in properly configuring these strategies and indicate the possible sub-optimality in existing heuristic-driven designs. Recognizing this, we propose to go beyond existing methods by directly solving the optimal strategies in an automatic framework. The resulting method, named AutoNAT, advances the performance boundaries of NATs notably, and is able to perform comparably with the latest diffusion models at a significantly reduced inference cost. The effectiveness of AutoNAT is validated on four benchmark datasets, i.e., ImageNet-256 & 512, MS-COCO, and CC3M. Our code is available at https://github.com/LeapLabTHU/ImprovedNAT.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# 高次グラフニューラルネットワークのための高効率トポロジ対応データ拡張

Efficient Topology-aware Data Augmentation for High-Degree Graph Neural Networks ( http://arxiv.org/abs/2406.05482v1 )

ライセンス: Link先を確認
Yurui Lai, Xiaoyang Lin, Renchi Yang, Hongtao Wang, (参考訳) 近年,グラフニューラルネットワーク(GNN)がグラフ構造化データ学習の強力なツールとして登場し,様々な分野で実りある成功を収めている。 GNNの大多数はメッセージパッシングのパラダイムに従っており、各ノードの表現は隣人の機能を再帰的に集約することで学習される。 しかし、このメカニズムは、高次グラフ(HDG)よりも過度にスムーシングと効率上の問題をもたらし、ほとんどのノードには、ソーシャルネットワーク、トランザクショングラフ、電力網など、数十(あるいは数百)の隣人が存在する。 さらに、そのようなグラフは通常、リッチで複雑な構造意味論を含み、GNNの機能集約だけではキャプチャが困難である。 上記の制限により,HDG上でのGNNのための効率的かつ効果的なフロントマウントデータ拡張フレームワークであるTADを提案する。 内部では、TADには2つの重要なモジュールが含まれている。 (i)構造埋め込みによる特徴拡張、及び (ii) トポロジーと属性対応グラフのスパース化。 前者は,高効率スケッチ法を用いて,グラフ構造を高品質な構造埋め込みに符号化することにより,拡張ノード特性とモデルキャパシティを向上させる。 さらに、グラフ構造や属性から抽出したタスク関連特徴を利用して、第2モジュールは、入力グラフから多数の冗長/ノイズエッジの正確な識別と削減を可能にし、過剰なスムーシングを緩和し、HDGよりも高速な特徴集約を容易にする。 経験的に、TADはノード分類の観点から8つの実ホモ親和性/ヘテロ親和性HDG上でのメインストリームGNNモデルの予測性能を著しく改善し、効率的なトレーニングと推論プロセスを実現している。

In recent years, graph neural networks (GNNs) have emerged as a potent tool for learning on graph-structured data and won fruitful successes in varied fields. The majority of GNNs follow the message-passing paradigm, where representations of each node are learned by recursively aggregating features of its neighbors. However, this mechanism brings severe over-smoothing and efficiency issues over high-degree graphs (HDGs), wherein most nodes have dozens (or even hundreds) of neighbors, such as social networks, transaction graphs, power grids, etc. Additionally, such graphs usually encompass rich and complex structure semantics, which are hard to capture merely by feature aggregations in GNNs. Motivated by the above limitations, we propose TADA, an efficient and effective front-mounted data augmentation framework for GNNs on HDGs. Under the hood, TADA includes two key modules: (i) feature expansion with structure embeddings, and (ii) topology- and attribute-aware graph sparsification. The former obtains augmented node features and enhanced model capacity by encoding the graph structure into high-quality structure embeddings with our highly-efficient sketching method. Further, by exploiting task-relevant features extracted from graph structures and attributes, the second module enables the accurate identification and reduction of numerous redundant/noisy edges from the input graph, thereby alleviating over-smoothing and facilitating faster feature aggregations over HDGs. Empirically, TADA considerably improves the predictive performance of mainstream GNN models on 8 real homophilic/heterophilic HDGs in terms of node classification, while achieving efficient training and inference processes.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# ビジネスとアプリケーションアーキテクチャのリンクにおけるコンポーネントマッチングアプローチ

Component Matching Approach in Linking Business and Application Architecture ( http://arxiv.org/abs/2406.05483v1 )

ライセンス: Link先を確認
Suresh Kamath, (参考訳) IT戦略の開発と、それがビジネスにとって最善のものであることを保証することが、多くの組織が直面する重要な問題です。 この問題は、ビジネスアーキテクチャとITアーキテクチャを、特にアプリケーションアーキテクチャとを結びつけることです。 初期の研究で私たちは、ビジネスとITの世界を統一的な方法で両概念と関係を表現する能力で統一するための形式言語としてカテゴリ理論を提案しました。 インターフェース、コントラクト、コンポーネントの仕様の基盤となるモデルとして、rCOSを使用しました。 擬似分類の概念はビジネスとアプリケーションアーキテクチャの仕様とそれに含まれる関係を表現するために使われる。 それらの間のリンクは、ビジネスコンポーネント契約とアプリケーションコンポーネント契約のマッチングを使って確立できます。 しかし、マッチングは手動のプロセスに基づいており、本論文では、自動コンポーネントマッチングプロセスを考慮して作業を拡張する。 本論文では,マッチングプロセスを支援するためのツールの基礎的作業について述べる。

The development of an IT strategy and ensuring that it is the best possible one for business is a key problem many organizations face. This problem is that of linking business architecture to IT architecture in general and application architecture specifically. In our earlier work we proposed Category theory as the formal language to unify the business and IT worlds with the ability to represent the concepts and relations between the two in a unified way. We used rCOS as the underlying model for the specification of interfaces, contracts, and components. The concept of pseudo-category was then utilized to represent the business and application architecture specifications and the relationships contained within. The linkages between them now can be established using the matching of the business component contracts with the application component contracts. However the matching was based on manual process and in this paper we extend the work by considering automated component matching process. The ground work for a tool to support the matching process is laid out in this paper.
翻訳日:2024-06-11 19:35:37 公開日:2024-06-08
# シュレディンガーの4次物質-波動方程式を用いた量子力学の実数値記述

A Real-Valued Description of Quantum Mechanics with Schrodinger's 4th-order Matter-Wave Equation ( http://arxiv.org/abs/2406.05484v1 )

ライセンス: Link先を確認
Nicos Makris, Gary F. Dargush, (参考訳) 変分式を用いて、シュロディンガーの4階実数値物質波方程式はポテンシャルV(r)の空間微分を伴い、同じ数の負のミラー固有値とともにシュロディンガーの2階複素数値物質波方程式の正確な固有値を生成することを示した。 したがって、この論文は負の(反発する)エネルギー準位の存在に関連して、非相対論的量子力学の真に評価された記述が存在すると結論付けている。 シュロディンガーの古典的な2階複素数値式は、4階実数値微分作用素を分解して構成され、2つの共役複素作用素のうちの1つしか持たない。

Using a variational formulation, we show that Schrodinger's 4th-order, real-valued matter-wave equation which involves the spatial derivatives of the potential V(r), produces the precise eigenvalues of Schrodinger's 2nd-order, complex-valued matter-wave equation together with an equal number of negative, mirror eigenvalues. Accordingly, the paper concludes that there is a real-valued description of non-relativistic quantum mechanics in association with the existence of negative (repelling) energy levels. Schrodinger's classical 2nd-order, complex-valued matter-wave equation which was constructed upon factoring the 4th-order, real-valued differential operator and retaining only one of the two conjugate complex operators is a simpler description of the matter-wave, since it does not involve the derivatives of the potential V(r), at the expense of missing the negative (repelling) energy levels.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# トレーニング不要なロバストな対話型ビデオオブジェクトセグメンテーション

Training-Free Robust Interactive Video Object Segmentation ( http://arxiv.org/abs/2406.05485v1 )

ライセンス: Link先を確認
Xiaoli Wei, Zhaoqing Wang, Yandong Guo, Chunxia Zhang, Tongliang Liu, Mingming Gong, (参考訳) インタラクティブなビデオオブジェクトセグメンテーションは重要なビデオタスクであり、ビデオ編集からデータアノテートまで様々な応用がある。 しかし、現在のアプローチでは、さまざまなドメインにまたがるオブジェクトを正確に分割するのに苦労している。 最近、Segment Anything Model (SAM)はインタラクティブなビジュアルプロンプトを導入し、異なるドメイン間で素晴らしいパフォーマンスを示している。 本稿では,SAMの強力な一般化を利用した対話型ビデオオブジェクトセグメンテーション(I-PT)のためのトレーニングフリープロンプト追跡フレームワークを提案する。 ポイントトラッキングは、ビデオ内のオブジェクトのピクセルワイズ情報を効率的にキャプチャするが、長い時間にわたって追跡すると点が不安定になり、誤ったセグメンテーションが発生する。 高速で堅牢なインタラクションに向けて、スパースポイントとボックストラッキングを共同で採用し、不安定なポイントをフィルタリングし、オブジェクト情報を取得する。 複数のインタラクションからの参照情報をよりよく統合するために,以前のラウンドやフレームからマスクの特徴を適応的に集約するクロスラウンド時空間モジュール(CRSTM)を導入し,セグメンテーション安定性を向上させる。 我々のフレームワークは、DAVIS 2017、YouTube-VOS 2018、MOSE 2023など、一般的なVOSデータセットとインタラクションタイプによる、ゼロショットビデオセグメンテーションの堅牢な結果を示し、パフォーマンスとインタラクションタイムの良好なトレードオフを維持しています。

Interactive video object segmentation is a crucial video task, having various applications from video editing to data annotating. However, current approaches struggle to accurately segment objects across diverse domains. Recently, Segment Anything Model (SAM) introduces interactive visual prompts and demonstrates impressive performance across different domains. In this paper, we propose a training-free prompt tracking framework for interactive video object segmentation (I-PT), leveraging the powerful generalization of SAM. Although point tracking efficiently captures the pixel-wise information of objects in a video, points tend to be unstable when tracked over a long period, resulting in incorrect segmentation. Towards fast and robust interaction, we jointly adopt sparse points and boxes tracking, filtering out unstable points and capturing object-wise information. To better integrate reference information from multiple interactions, we introduce a cross-round space-time module (CRSTM), which adaptively aggregates mask features from previous rounds and frames, enhancing the segmentation stability. Our framework has demonstrated robust zero-shot video segmentation results on popular VOS datasets with interaction types, including DAVIS 2017, YouTube-VOS 2018, and MOSE 2023, maintaining a good tradeoff between performance and interaction time.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# SyDRA: ゲームエンジンアーキテクチャを理解するためのアプローチ

SyDRA: An Approach to Understand Game Engine Architecture ( http://arxiv.org/abs/2406.05487v1 )

ライセンス: Link先を確認
Gabriel C. Ullmann, Yann-Gaël Guéhéneuc, Fabio Petrillo, Nicolas Anquetil, Cristiano Politowski, (参考訳) ゲームエンジンは、ビデオゲーム開発を促進するツールである。 グラフィック、サウンド、物理シミュレーション機能を提供しており、そうでなければ開発者によって実装されなければならない。 現代の商用ビデオゲーム開発に欠かせないが、ゲームエンジンは複雑であり、開発者はそのアーキテクチャを理解するのに苦慮し、ビデオゲームの生産に悪影響を及ぼす保守性や進化の問題を招いている。 本稿では,ゲームエンジン開発者のゲームエンジンアーキテクチャ理解を支援するサブシステム依存回復手法(SyDRA)を提案する。 このアプローチを10個のオープンソースゲームエンジンに適用することにより、ゲームエンジンのアーキテクチャを比較し、過剰な結合とフォルダネストの問題を特定し解決できるアーキテクチャモデルを得る。 制御実験により、SyDRAから派生したアーキテクチャモデルの検査により、開発者がアーキテクチャ理解や影響分析に関連するタスクをより少ない時間で完了し、これらのモデルなしではより正確であることを示す。

Game engines are tools to facilitate video game development. They provide graphics, sound, and physics simulation features, which would have to be otherwise implemented by developers. Even though essential for modern commercial video game development, game engines are complex and developers often struggle to understand their architecture, leading to maintainability and evolution issues that negatively affect video game productions. In this paper, we present the Subsystem-Dependency Recovery Approach (SyDRA), which helps game engine developers understand game engine architecture and therefore make informed game engine development choices. By applying this approach to 10 open-source game engines, we obtain architectural models that can be used to compare game engine architectures and identify and solve issues of excessive coupling and folder nesting. Through a controlled experiment, we show that the inspection of the architectural models derived from SyDRA enables developers to complete tasks related to architectural understanding and impact analysis in less time and with higher correctness than without these models.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# 意思決定を考慮したオンライン政策蒸留

Online Policy Distillation with Decision-Attention ( http://arxiv.org/abs/2406.05488v1 )

ライセンス: Link先を確認
Xinqiang Yu, Chuanguang Yang, Chengqing Yu, Libo Huang, Zhulin An, Yongjun Xu, (参考訳) 政策蒸留(PD)は、深い強化学習タスクを改善する効果的な方法となっている。 PDの中核となる考え方は、政策知識を教師エージェントから学生エージェントに蒸留することである。 しかし,教師教育の枠組みには,計算コストの高い教師モデルが必要であり,オンライン知識の蒸留により,同じ環境から多様な知識を学習できる異なる政策間の知識伝達について検討する。本研究では,異なる政策を同一環境内で動作させるオンライン学習フレームワークであるオンライン政策蒸留(OPD, Online Policy Distillation)を提案する。 成績のよい教師政策が欠如しているため、各生徒の方針に集団知識を移す上で、グループ由来の目標が重要な役割を果たしている。 しかし、ナイーブアグリゲーション機能は生徒の政策を急速に均質化する傾向がある。 この課題に対処するため、オンライン政策蒸留フレームワークにDecision-Attentionモジュールを導入する。 Decision-Attentionモジュールは、各ポリシーに対して異なる重みセットを生成して、グループメンバーの重要性を測定することができる。 我々は、PPOやDQNなど、さまざまな強化学習アルゴリズムの実験にAtariプラットフォームを使用します。 異なるタスクにおいて,本手法はPPOアルゴリズムとDQNアルゴリズムの両方の独立トレーニングポリシーよりも優れた性能を発揮する。 このことは、OPD-DAが異なる政策間で知識をうまく伝達し、エージェントがより多くの報酬を得るのに役立つことを示唆している。

Policy Distillation (PD) has become an effective method to improve deep reinforcement learning tasks. The core idea of PD is to distill policy knowledge from a teacher agent to a student agent. However, the teacher-student framework requires a well-trained teacher model which is computationally expensive.In the light of online knowledge distillation, we study the knowledge transfer between different policies that can learn diverse knowledge from the same environment.In this work, we propose Online Policy Distillation (OPD) with Decision-Attention (DA), an online learning framework in which different policies operate in the same environment to learn different perspectives of the environment and transfer knowledge to each other to obtain better performance together. With the absence of a well-performance teacher policy, the group-derived targets play a key role in transferring group knowledge to each student policy. However, naive aggregation functions tend to cause student policies quickly homogenize. To address the challenge, we introduce the Decision-Attention module to the online policies distillation framework. The Decision-Attention module can generate a distinct set of weights for each policy to measure the importance of group members. We use the Atari platform for experiments with various reinforcement learning algorithms, including PPO and DQN. In different tasks, our method can perform better than an independent training policy on both PPO and DQN algorithms. This suggests that our OPD-DA can transfer knowledge between different policies well and help agents obtain more rewards.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# 1つの摂動は十分である:ビジョンランゲージ事前学習モデルに対する普遍的対向摂動の生成について

One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models ( http://arxiv.org/abs/2406.05491v1 )

ライセンス: Link先を確認
Hao Fang, Jiawei Kong, Wenbo Yu, Bin Chen, Jiawei Li, Shutao Xia, Ke Xu, (参考訳) 大規模画像テキストペアで訓練された視覚言語前訓練(VLP)モデルは、多くの実用的な応用において前例のない能力を示している。 しかし、以前の研究では、VLPモデルは悪意のある敵によって作られた敵のサンプルに対して脆弱であることが示されている。 既存の攻撃は攻撃効果と転送可能性を改善することに成功しているが、それらはすべて、各入力サンプルに対する摂動を生成するインスタンス固有の攻撃に焦点を当てている。 本稿では,VLPモデルが全ての入力サンプルに対して,新しい種類の普遍的対向摂動(UAP)に対して脆弱であることを示す。 既存のUAPアルゴリズムを移植して攻撃を行うと、識別モデルを攻撃する効果が見られたが、VLPモデルに適用した場合は不満足であった。 そこで我々は,VLPモデルトレーニングにおけるマルチモーダルアライメントを再検討し,クロスモーダル条件(C-PGC)を用いたコントラストトレーニング摂動発電機を提案する。 具体的には、まずクロスモーダル情報を条件入力として組み込んだジェネレータを設計し、トレーニングを指導する。 そこで本研究では,提案手法を,構築した肯定的および否定的な画像テキストペアに基づくマルチモーダルコントラスト学習パラダイムとして定式化することを提案する。 条件付きジェネレータを設計した損失で訓練することにより、VLPモデルの特徴空間における元の領域から離れるように、敵のサンプルを強制的に移動させ、本質的に攻撃を増強する。 広汎な実験により,本手法は様々なVLPモデルと視覚・言語(V+L)タスクにまたがる顕著な攻撃性能を実現することが示された。 さらに、C-PGCは優れたブラックボックス転送性を示し、LLaVAやQwen-VLといった大容量VLPモデルを騙すという印象的な結果が得られる。

Vision-Language Pre-training (VLP) models trained on large-scale image-text pairs have demonstrated unprecedented capability in many practical applications. However, previous studies have revealed that VLP models are vulnerable to adversarial samples crafted by a malicious adversary. While existing attacks have achieved great success in improving attack effect and transferability, they all focus on instance-specific attacks that generate perturbations for each input sample. In this paper, we show that VLP models can be vulnerable to a new class of universal adversarial perturbation (UAP) for all input samples. Although initially transplanting existing UAP algorithms to perform attacks showed effectiveness in attacking discriminative models, the results were unsatisfactory when applied to VLP models. To this end, we revisit the multimodal alignments in VLP model training and propose the Contrastive-training Perturbation Generator with Cross-modal conditions (C-PGC). Specifically, we first design a generator that incorporates cross-modal information as conditioning input to guide the training. To further exploit cross-modal interactions, we propose to formulate the training objective as a multimodal contrastive learning paradigm based on our constructed positive and negative image-text pairs. By training the conditional generator with the designed loss, we successfully force the adversarial samples to move away from its original area in the VLP model's feature space, and thus essentially enhance the attacks. Extensive experiments show that our method achieves remarkable attack performance across various VLP models and Vision-and-Language (V+L) tasks. Moreover, C-PGC exhibits outstanding black-box transferability and achieves impressive results in fooling prevalent large VLP models including LLaVA and Qwen-VL.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# 否定に関わる課題におけるLLMの幻覚の調査と対処

Investigating and Addressing Hallucinations of LLMs in Tasks Involving Negation ( http://arxiv.org/abs/2406.05494v1 )

ライセンス: Link先を確認
Neeraj Varshney, Satyam Raj, Venkatesh Mishra, Agneet Chatterjee, Ritika Sarkar, Amir Saeidi, Chitta Baral, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。 しかし、生産において「幻覚」に関係する限界に悩まされていることが示されている。 近年の研究では, 伝記生成, 質問応答, 抽象要約, 対話生成といった様々な課題に対して, この問題の調査と対処に焦点が当てられている。 しかし、「団結」にまつわる重要な側面はいまだにかなり過小評価されている。 否定は言語理解に深みとニュアンスを加え、論理的推論や推論にも重要であるため重要である。 本研究では, 上記の限界に対処し, 特にLLM幻覚における否定の影響について検討する。 具体的には,「偽の前提完了」,「制約された事実生成」,「複数選択質問応答」,「製品生成」の4つの課題について検討する。 我々は,LLaMA-2-chat,Vicuna,Orca-2といったオープンソースのLLMが,これらのモデルの重大な欠点を浮き彫りにする否定に関わるすべてのタスクに対して,かなり幻覚的であることを示す。 この問題に対処するために、これらの幻覚を緩和し、その影響を実証するための多くの戦略を更に研究する。

Large Language Models (LLMs) have achieved remarkable performance across a wide variety of natural language tasks. However, they have been shown to suffer from a critical limitation pertinent to 'hallucination' in their output. Recent research has focused on investigating and addressing this problem for a variety of tasks such as biography generation, question answering, abstractive summarization, and dialogue generation. However, the crucial aspect pertaining to 'negation' has remained considerably underexplored. Negation is important because it adds depth and nuance to the understanding of language and is also crucial for logical reasoning and inference. In this work, we address the above limitation and particularly focus on studying the impact of negation in LLM hallucinations. Specifically, we study four tasks with negation: 'false premise completion', 'constrained fact generation', 'multiple choice question answering', and 'fact generation'. We show that open-source state-of-the-art LLMs such as LLaMA-2-chat, Vicuna, and Orca-2 hallucinate considerably on all these tasks involving negation which underlines a critical shortcoming of these models. Addressing this problem, we further study numerous strategies to mitigate these hallucinations and demonstrate their impact.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# Generalist Multimodal AI: アーキテクチャ、課題、機会のレビュー

Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities ( http://arxiv.org/abs/2406.05496v1 )

ライセンス: Link先を確認
Sai Munikoti, Ian Stewart, Sameera Horawalavithana, Henry Kvinge, Tegan Emerson, Sandra E Thompson, Karl Pazdernik, (参考訳) マルチモーダルモデルは、人工知能の今後の進歩にとって重要な要素であると期待されている。 この分野は、自然言語処理(NLP)とビジョンの基盤モデルの成功によって、新しいデザイン要素が急増し始めています。 基礎モデルを複数のモダリティ(テキスト、画像、ビデオ、センサー、時系列、グラフなど)に拡張することで、最終的には汎用的なマルチモーダルモデル、すなわち異なるデータモダリティとタスクにまたがる1つのモデルへと発展することが広く期待されている。 しかし,近年のマルチモーダルモデル(特にテキストや視覚を超えて機能するモデル)を下層アーキテクチャに関して体系的に解析する研究はほとんどない。 したがって、この研究は、新しいアーキテクチャと特定の分類学の訓練を通じて、ジェネラリストマルチモーダルモデル(GMM)に対する新たな視点を提供する。 これには、Unifiability、Modularity、Adaptabilityなどの要素が含まれており、GMMの広範な採用と適用に不可欠である。 このレビューは、この分野における重要な課題と展望を強調し、研究者に新たな進歩を導く。

Multimodal models are expected to be a critical component to future advances in artificial intelligence. This field is starting to grow rapidly with a surge of new design elements motivated by the success of foundation models in natural language processing (NLP) and vision. It is widely hoped that further extending the foundation models to multiple modalities (e.g., text, image, video, sensor, time series, graph, etc.) will ultimately lead to generalist multimodal models, i.e. one model across different data modalities and tasks. However, there is little research that systematically analyzes recent multimodal models (particularly the ones that work beyond text and vision) with respect to the underling architecture proposed. Therefore, this work provides a fresh perspective on generalist multimodal models (GMMs) via a novel architecture and training configuration specific taxonomy. This includes factors such as Unifiability, Modularity, and Adaptability that are pertinent and essential to the wide adoption and application of GMMs. The review further highlights key challenges and prospects for the field and guide the researchers into the new advancements.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# 自衛隊:LLMは脱獄を防げる

SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner ( http://arxiv.org/abs/2406.05498v1 )

ライセンス: Link先を確認
Xunguang Wang, Daoyuan Wu, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Shuai Wang, Yingjiu Li, Yang Liu, Ning Liu, Juergen Rahmel, (参考訳) Jailbreakingは、既製の大規模言語モデル(LLM)にデプロイされる安全アライメントを回避し、Greedy Coordinate Gradient(GCG)のような最適化ベースの攻撃、"Do-Anything-Now"のようなジェイルブレイクテンプレートベースの攻撃、DrAttackのような先進的な間接的攻撃、マルチ言語ジェイルブレイクの4つの主要なカテゴリに進化した、新たな敵攻撃である。 しかし、実際のジェイルブレイク防御を提供することは、上記のジェイルブレイク攻撃を全て処理するだけでなく、ユーザのプロンプトに無視できない遅延を発生させる必要があるため、オープンソースとクローズドソースの両方のLDMと互換性を持つ必要があるため、難しい。 本稿では,従来のセキュリティ概念であるシャドウスタックがメモリオーバーフロー攻撃に対してどのように防御するかに着想を得て,通常のスタック内のLLMインスタンスを同時に保護し,チェックポイントベースのアクセス制御のために協調する,SlfDefendという汎用的なLDMジェイルブレイク防御フレームワークを導入する。 SelfDefendの有効性は、既存のLDM(ターゲットとディフェンスの両方)がユーザクエリの有害なプロンプトや意図を識別する能力を持っているという我々の観察に基づいており、主要なジェイルブレイク攻撃すべてでよく使われているGPT-3.5/4モデルを用いて実証的に検証している。 測定の結果,GPT-3.5は攻撃成功率(ASR)を8.97-95.74%(平均60%)、GPT-4は36.36-100%(平均83%)まで抑えることができた。 防衛の堅牢性をさらに向上し、コストを最小化するために、我々は専用のオープンソース防衛モデルをチューニングするためにデータ蒸留アプローチを採用している。 これらのモデルは4つのSOTAディフェンスを上回り、GPT-4ベースのSelfDefendの性能に匹敵し、余分な遅延は大幅に減少した。 また、調整したモデルが標的のGCGに対して堅牢であることや、インジェクション攻撃の迅速化を実証的に示す。

Jailbreaking is an emerging adversarial attack that bypasses the safety alignment deployed in off-the-shelf large language models (LLMs) and has evolved into four major categories: optimization-based attacks such as Greedy Coordinate Gradient (GCG), jailbreak template-based attacks such as "Do-Anything-Now", advanced indirect attacks like DrAttack, and multilingual jailbreaks. However, delivering a practical jailbreak defense is challenging because it needs to not only handle all the above jailbreak attacks but also incur negligible delay to user prompts, as well as be compatible with both open-source and closed-source LLMs. Inspired by how the traditional security concept of shadow stacks defends against memory overflow attacks, this paper introduces a generic LLM jailbreak defense framework called SelfDefend, which establishes a shadow LLM defense instance to concurrently protect the target LLM instance in the normal stack and collaborate with it for checkpoint-based access control. The effectiveness of SelfDefend builds upon our observation that existing LLMs (both target and defense LLMs) have the capability to identify harmful prompts or intentions in user queries, which we empirically validate using the commonly used GPT-3.5/4 models across all major jailbreak attacks. Our measurements show that SelfDefend enables GPT-3.5 to suppress the attack success rate (ASR) by 8.97-95.74% (average: 60%) and GPT-4 by even 36.36-100% (average: 83%), while incurring negligible effects on normal queries. To further improve the defense's robustness and minimize costs, we employ a data distillation approach to tune dedicated open-source defense models. These models outperform four SOTA defenses and match the performance of GPT-4-based SelfDefend, with significantly lower extra delays. We also empirically show that the tuned models are robust to targeted GCG and prompt injection attacks.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# 二次モデルにおける生存確率、粒子不均衡とその関係

Survival probability, particle imbalance, and their relationship in quadratic models ( http://arxiv.org/abs/2406.05500v1 )

ライセンス: Link先を確認
Miroslav Hopjan, Lev Vidmar, (参考訳) 二次フェルミオンモデルにおける粒子不均衡のダイナミクスは、多くの多体積状態のほとんどにおいて、単一粒子状態の生存確率のダイナミクスとほぼ区別できないものであると論じる。 次に、多体状態における非等時と空間密度相関関数と非零距離における単一粒子状態の遷移確率との類似した関係を一般化する。 最後に, 多体状態における等時連結密度相関関数について検討し, 単一粒子状態の生存と遷移確率との質的類似性を示す。 この結果は,3次元アンダーソンモデルと1次元オーブリー・アンドルーモデルの2つのパラメタモデルに対して数値実験を行った。 この研究は、多体状態における観測可能な状態のダイナミクスによって、単一粒子の生存と遷移確率の特徴を測定できるかどうかという疑問に対して、肯定的な答えを与える。

We argue that the dynamics of particle imbalance in quadratic fermionic models is, for the majority of initial many-body product states in site occupation basis, virtually indistinguishable from the dynamics of survival probabilities of single-particle states. We then generalize our statement to a similar relationship between the non-equal time and space density correlation functions in many-body states and the transition probabilities of single-particle states at nonzero distances. Finally, we study the equal time connected density-density correlation functions in many-body states, which exhibit certain qualitative analogies with the survival and transition probabilities of single-particle states. Our results are numerically tested for two paradigmatic models of single-particle localization: the 3D Anderson model and the 1D Aubry-Andr\'e model. This work gives affirmative answer to the question whether it is possible to measure features of the single-particle survival and transition probabilities by the dynamics of observables in many-body states.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# G-transformer:動的および時間変化処理レジームにおける実測結果予測

G-Transformer: Counterfactual Outcome Prediction under Dynamic and Time-varying Treatment Regimes ( http://arxiv.org/abs/2406.05504v1 )

ライセンス: Link先を確認
Hong Xiong, Feng Wu, Leon Deng, Megan Su, Li-wei H Lehman, (参考訳) 医学的意思決定の文脈では、反事実予測により、臨床医は、観察された患者の歴史に与えられた治療行動の代替コースの下で、興味のある治療結果を予測することができる。 従来の機械学習アプローチは、過去の共変量履歴に依存しない静的な時間変化治療体制に重点を置いている。 本稿では,G-Transformerについて述べる。G-Transformerは動的および時間的処理戦略の下での対実予測のためのg-computationをサポートするトランスフォーマーベースのフレームワークである。 G-Transfomerは、Transformerアーキテクチャを用いて、時間変化の共変量における複雑な長距離依存関係をキャプチャする。 G-Transformerは、エンコーダアーキテクチャを用いて、各時点における関連共変量および処理履歴の条件分布を推定し、興味ある治療戦略の下で患者軌道をシミュレートすることで、偽結果のモンテカルロ推定を生成する。 メカニスティックモデルによる2つのシミュレーション時系列データセットとMIMIC-IVによる実世界のセシスICUデータセットを用いて,G-Transformerを広範囲に評価した。 G-Transformerは、これらの設定において、古典的および最先端の対実予測モデルの両方を上回っている。 我々の知る限り、このアーキテクチャは動的かつ時間的に変化する治療戦略の下で、対実的な結果予測を行う最初のTransformerベースのアーキテクチャである。 コードは論文の発行時に公開される。

In the context of medical decision making, counterfactual prediction enables clinicians to predict treatment outcomes of interest under alternative courses of therapeutic actions given observed patient history. Prior machine learning approaches for counterfactual predictions under time-varying treatments focus on static time-varying treatment regimes where treatments do not depend on previous covariate history. In this work, we present G-Transformer, a Transformer-based framework supporting g-computation for counterfactual prediction under dynamic and time-varying treatment strategies. G-Transfomer captures complex, long-range dependencies in time-varying covariates using a Transformer architecture. G-Transformer estimates the conditional distribution of relevant covariates given covariate and treatment history at each time point using an encoder architecture, then produces Monte Carlo estimates of counterfactual outcomes by simulating forward patient trajectories under treatment strategies of interest. We evaluate G-Transformer extensively using two simulated longitudinal datasets from mechanistic models, and a real-world sepsis ICU dataset from MIMIC-IV. G-Transformer outperforms both classical and state-of-the-art counterfactual prediction models in these settings. To the best of our knowledge, this is the first Transformer-based architecture for counterfactual outcome prediction under dynamic and time-varying treatment strategies. Code will be released upon publication of the paper.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# I-Sirch:母性調査から安全インサイトを平等に抽出し分析するためのAIを利用した概念アノテーションツール

I-SIRch: AI-Powered Concept Annotation Tool For Equitable Extraction And Analysis Of Safety Insights From Maternity Investigations ( http://arxiv.org/abs/2406.05505v1 )

ライセンス: Link先を確認
Mohit Kumar Singh, Georgina Cosma, Patrick Waterson, Jonathan Back, Gyuchan Thomas Jun, (参考訳) 母性ケアは、患者、提供者、およびケア環境の間の治療と相互作用を含む複雑なシステムである。 患者の安全と成果を改善するためには、医療提供に影響を与える人的要因(例えば、個人決定、地域施設)を理解することが不可欠である。 しかし、現在の医療データ分析ツールのほとんどは、人的要因の重要性を見越して、バイオメディカルな概念(例えば、健康状態、手順、検査)にのみ焦点をあてている。 I-SIRchと呼ばれる新しいアプローチを開発し、イングランドの医療安全調査部(HSIB)が生み出した有害な産児事故を報告した産児医療調査報告において、人工知能を用いて人的要因を自動同定し、ラベル付けする。 これらの調査報告は、医療システム全体の母体安全を学習し、改善する機会を特定することを目的としている。 I-SIRchは実データを用いて訓練され、実データとシミュレーションデータの両方でテストし、人間の因子の概念を識別する性能を評価した。 実際の報告に適用すると、97のレポートから90%の文で関連概念を正確に識別し、高い精度を達成する。 これらの報告を解析するためにI-SIRchを適用すると、ある人間の要因が異なる民族集団の母親に不均等に影響を与えていることが判明した。 本研究は,生物医学的概念のみに焦点をあてるのではなく,母性事故調査報告において,人間の因子概念を識別するための自動ツールの可能性を実証するものである。 このアプローチは、母親の安全と人口健康に影響を及ぼす社会的、技術的、組織的要因の間の複雑な相互作用を理解するための新たな可能性を開く。 より包括的な母体医療提供の視点を採り、格差に対処し、母体の成果を改善するために、ターゲットとなる介入を開発することができる。

Maternity care is a complex system involving treatments and interactions between patients, providers, and the care environment. To improve patient safety and outcomes, understanding the human factors (e.g. individuals decisions, local facilities) influencing healthcare delivery is crucial. However, most current tools for analysing healthcare data focus only on biomedical concepts (e.g. health conditions, procedures and tests), overlooking the importance of human factors. We developed a new approach called I-SIRch, using artificial intelligence to automatically identify and label human factors concepts in maternity healthcare investigation reports describing adverse maternity incidents produced by England's Healthcare Safety Investigation Branch (HSIB). These incident investigation reports aim to identify opportunities for learning and improving maternal safety across the entire healthcare system. I-SIRch was trained using real data and tested on both real and simulated data to evaluate its performance in identifying human factors concepts. When applied to real reports, the model achieved a high level of accuracy, correctly identifying relevant concepts in 90\% of the sentences from 97 reports. Applying I-SIRch to analyse these reports revealed that certain human factors disproportionately affected mothers from different ethnic groups. Our work demonstrates the potential of using automated tools to identify human factors concepts in maternity incident investigation reports, rather than focusing solely on biomedical concepts. This approach opens up new possibilities for understanding the complex interplay between social, technical, and organisational factors influencing maternal safety and population health outcomes. By taking a more comprehensive view of maternal healthcare delivery, we can develop targeted interventions to address disparities and improve maternal outcomes.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# LLMによる因果ビジネスプロセス推論のベンチマークに向けて

Towards a Benchmark for Causal Business Process Reasoning with LLMs ( http://arxiv.org/abs/2406.05506v1 )

ライセンス: Link先を確認
Fabiana Fournier, Lior Limonad, Inna Skarbovsky, (参考訳) 大きな言語モデル(LLM)は、組織の効率向上やタスクの自動化にますます使われています。 もともとは複雑な認知プロセスのために設計されたものではないが、近年の取り組みは、推論、計画、意思決定といった活動にLLMを採用するように拡張されている。 ビジネスプロセスにおいて、そのような能力は、そのようなプロセスの深い理解を得るために訓練された巨大なコーパスLLMを活用する上で、貴重なものになり得る。 本研究は, LLMの因果的・プロセス的視点を推論する能力を評価するため, ベンチマーク開発のための種子を植え付けるものである。 この見解を、BP^C(Causally-augmented Business Processes)と呼ぶ。 ベンチマークのコアは、BP^C関連の一連の状況と、これらの状況に関する一連の質問と、これらの質問に対する基礎的な真実の答えを体系的に解決するために使用される導出規則から構成される。 また、LLMの力により、種子はより大規模なドメイン固有の状況や問題にインスタンス化される。 BP^Cの推論は、プロセスの介入とプロセス改善にとって重要である。 BP^Cを推理する能力を向上させるため, LLMの性能試験とLLMの訓練の2つの方法の1つである。

Large Language Models (LLMs) are increasingly used for boosting organizational efficiency and automating tasks. While not originally designed for complex cognitive processes, recent efforts have further extended to employ LLMs in activities such as reasoning, planning, and decision-making. In business processes, such abilities could be invaluable for leveraging on the massive corpora LLMs have been trained on for gaining deep understanding of such processes. In this work, we plant the seeds for the development of a benchmark to assess the ability of LLMs to reason about causal and process perspectives of business operations. We refer to this view as Causally-augmented Business Processes (BP^C). The core of the benchmark comprises a set of BP^C related situations, a set of questions about these situations, and a set of deductive rules employed to systematically resolve the ground truth answers to these questions. Also with the power of LLMs, the seed is then instantiated into a larger-scale set of domain-specific situations and questions. Reasoning on BP^C is of crucial importance for process interventions and process improvement. Our benchmark could be used in one of two possible modalities: testing the performance of any target LLM and training an LLM to advance its capability to reason about BP^C.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# 条件付き情報フロー最大化による表現学習

Representation Learning with Conditional Information Flow Maximization ( http://arxiv.org/abs/2406.05510v1 )

ライセンス: Link先を確認
Dou Hu, Lingwei Wei, Wei Zhou, Songlin Hu, (参考訳) 本稿では,入力データと対象タスクに対するノイズ不変表現を抽出するために,条件情報フローの最大化という情報理論表現学習フレームワークを提案する。 学習された表現は、良好な特徴均一性と十分な予測能力を有し、目標タスクに対する事前学習言語モデル(PLM)の一般化を促進することができる。 まず,入力表現と表現ラベルの両相互情報を同時に最大化することにより,情報フローの最大化原理を提案する。 情報ボトルネックとは対照的に、潜在表現の過剰圧縮問題を避けるために、入力表現情報を反対の方法で処理する。 さらに、潜在的な冗長な特徴の負の効果を軽減するため、条件情報最小化原理は、入力からノイズ不変な特徴を保ちながら、負の冗長な特徴を排除するように設計されている。 13の言語理解ベンチマーク実験により,本手法は分類と回帰のためのPLMの性能を効果的に向上することを示した。 大規模な実験により、学習された表現はより十分で、堅牢で、伝達可能であることが示された。

This paper proposes an information-theoretic representation learning framework, named conditional information flow maximization, to extract noise-invariant sufficient representations for the input data and target task. It promotes the learned representations have good feature uniformity and sufficient predictive ability, which can enhance the generalization of pre-trained language models (PLMs) for the target task. Firstly, an information flow maximization principle is proposed to learn more sufficient representations by simultaneously maximizing both input-representation and representation-label mutual information. In contrast to information bottleneck, we handle the input-representation information in an opposite way to avoid the over-compression issue of latent representations. Besides, to mitigate the negative effect of potential redundant features, a conditional information minimization principle is designed to eliminate negative redundant features while preserve noise-invariant features from the input. Experiments on 13 language understanding benchmarks demonstrate that our method effectively improves the performance of PLMs for classification and regression. Extensive experiments show that the learned representations are more sufficient, robust and transferable.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# CVPR 2024ワークショップUG2+における2段階逆気象セマンティックセマンティックセグメンテーション法

A Two-Stage Adverse Weather Semantic Segmentation Method for WeatherProof Challenge CVPR 2024 Workshop UG2+ ( http://arxiv.org/abs/2406.05513v1 )

ライセンス: Link先を確認
Jianzhao Wang, Yanyan Wei, Dehua Hu, Yilin Zhang, Shengeng Tang, Dan Guo, Zhao Zhang, (参考訳) 本技術報告では,CVPR'24 UG2+における天気予報のセマンティックセグメンテーション(Semantic Segmentation in Adverse Weather)について述べる。 本稿では,この課題に対する2段階のディープラーニングフレームワークを提案する。 第1段階では、画像をビデオシーケンスに分解することで、提供されたデータセットを前処理する。 その後,高忠実度擬似基底真理を生成するために,低ランクなビデオデアライニング手法を利用する。 これらの擬似基底真理は、元の基底真理よりも優れた整合性を提供し、訓練中のモデル収束を促進する。 第2段階では、インターンイメージネットワークを用いて、生成された擬似基底真理を用いてセマンティックセグメンテーションタスクを訓練する。 特に、我々の綿密に設計された枠組みは、悪天候下で取得した劣化データに対して堅牢性を示す。 この課題では,mIoU(Mean Intersection over Union)測定値で0.43の競争スコアを達成し,上位4位を確保した。

This technical report presents our team's solution for the WeatherProof Dataset Challenge: Semantic Segmentation in Adverse Weather at CVPR'24 UG2+. We propose a two-stage deep learning framework for this task. In the first stage, we preprocess the provided dataset by concatenating images into video sequences. Subsequently, we leverage a low-rank video deraining method to generate high-fidelity pseudo ground truths. These pseudo ground truths offer superior alignment compared to the original ground truths, facilitating model convergence during training. In the second stage, we employ the InternImage network to train for the semantic segmentation task using the generated pseudo ground truths. Notably, our meticulously designed framework demonstrates robustness to degraded data captured under adverse weather conditions. In the challenge, our solution achieved a competitive score of 0.43 on the Mean Intersection over Union (mIoU) metric, securing a respectable rank of 4th.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# RAG強化コミットメッセージ生成

RAG-Enhanced Commit Message Generation ( http://arxiv.org/abs/2406.05514v1 )

ライセンス: Link先を確認
Linghao Zhang, Hongyi Zhang, Chong Wang, Peng Liang, (参考訳) コミットメッセージは、ソフトウェア開発とメンテナンスにおいて最も重要なテキスト情報のひとつです。 しかし、手動でコミットメッセージを書くのに時間がかかり、労力がかかります。 コミットメッセージ生成(CMG)は、自動化ソフトウェアエンジニアリングにおける研究ホットスポットとなっている。 研究者はCMGのいくつかの方法を提案し、大きな成果を上げている。 近年、コードのためのCodeBERT、CodeT5、その他の事前訓練言語モデル(PLM)が提案されている。 これらのモデルは、単純な微調整でCMGなどのコード関連下流タスクに簡単に移行でき、優れたパフォーマンスを実現することができる。 さらに、コード機能(ChatGPT、Llama 3、Gemmaなど)を持つLarge Language Models(LLM)は、トレーニングなしでインストラクションプロンプトを設計することで、様々なタスクに直接適用することができる。 これにより、CMGタスクに新たな可能性をもたらす。 本研究では,様々なPLMとLLMを効果的に統合し,CMGタスク上での各種モデルの性能を広範囲に向上する,新しいRetrieval-Augmented framework for CommiTメッセージ生成手法であるREACTを提案する。 具体的には、コードベースから最も関連性の高いdiffとcommitメッセージペアを"例"として検索するハイブリッドレトリバーを設計し、構築する。 次に、検索したペアを用いて、微調整およびテキスト内学習により、PLMとLMによるコミットメッセージの生成をガイドし、強化する。 我々のアプローチは広く使われているデータセットで評価される。 実験の結果、REACTはCMGタスクにおける各種モデルの性能を大幅に向上させ、CodeT5のBLEUスコアを最大55%向上させ、Llama 3のBLEUスコアを102%向上させ、全てのベースラインを大幅に上回り、新しいSOTAを実現した。 このことは、CMGを大きなマージンで強化できるフレームワークの有効性と幅広い適用性を示している。

Commit message is one of the most important textual information in software development and maintenance. However, it is time-consuming and labor-intensive to write commit messages manually. Commit Message Generation (CMG) has become a research hotspot in automated software engineering. Researchers have proposed several methods for CMG and achieved great results. In recent years, CodeBERT, CodeT5, and other Pre-trained Language Models (PLMs) for code have been proposed. These models can be easily transferred to code-related downstream tasks including CMG with simple fine-tuning and can achieve impressive performance. Moreover, Large Language Models (LLMs) with code capabilities (e.g., ChatGPT, Llama 3, Gemma) can be directly applied to various tasks by designing instruct prompts without training. This brings new possibilities to the CMG task. In this work, we propose REACT, a novel REtrieval-Augmented framework for CommiT message generation, which effectively integrates advanced retrieval techniques with different PLMs and LLMs and can broadly enhance the performance of various models on the CMG task. Specifically, we design and build a hybrid retriever to retrieve the most relevant code diff and commit message pair from the code base as an "exemplar". Then, the retrieved pair is utilized to guide and enhance the generation of commit messages by PLMs and LLMs through fine-tuning and in-context learning. Our approach is evaluated on a widely-used dataset. The experimental results show that REACT significantly enhances the performance of various models on the CMG task, improving the BLEU score of CodeT5 by up to 55%, boosting Llama 3's BLEU score by 102%, and substantially surpassing all baselines, achieving a new SOTA. This demonstrates the effectiveness and broad applicability of our framework that can enhance CMG by a large margin.
翻訳日:2024-06-11 19:25:53 公開日:2024-06-08
# Mmm Whatcha say?精神物理学的逆相関を用いた第1語および第2語単語知覚における遠位・近位文脈効果の解明

Mmm whatcha say? Uncovering distal and proximal context effects in first and second-language word perception using psychophysical reverse correlation ( http://arxiv.org/abs/2406.05515v1 )

ライセンス: Link先を確認
Paige Tuttösí, H. Henny Yeung, Yue Wang, Fenqi Wang, Guillaume Denis, Jean-Julien Aucouturier, Angelica Lim, (参考訳) ピッチ、レート、音色の変化が音の知覚に影響を及ぼす音環境効果は、音声知覚において十分に文書化されているが、それらが言語背景とどのように相互作用するかは、まだ不明である。 逆相関法を用いて, 第二言語話者(/i/-/I/)とフランス語話者(/u/-/y/)の異なる母音対のフレーズのピッチと発話速度を体系的に変化させ, データ駆動方式で韻律プロファイルを再構成した。 英語とフランス語の話者 (n=25) を比較したところ, 母音の知覚は, 周囲のピッチと発話速度の相反する効果, 一致した近位効果0.2と最大1秒前の遠位コントラスト効果の影響を受けており, L1とL2話者は印象的に類似した韻律的特徴を示した。 本研究では, 刺激, 時間スケール, 音響領域にまたがる音環境効果について検討する。

Acoustic context effects, where surrounding changes in pitch, rate or timbre influence the perception of a sound, are well documented in speech perception, but how they interact with language background remains unclear. Using a reverse-correlation approach, we systematically varied the pitch and speech rate in phrases around different pairs of vowels for second language (L2) speakers of English (/i/-/I/) and French (/u/-/y/), thus reconstructing, in a data-driven manner, the prosodic profiles that bias their perception. Testing English and French speakers (n=25), we showed that vowel perception is in fact influenced by conflicting effects from the surrounding pitch and speech rate: a congruent proximal effect 0.2s pre-target and a distal contrastive effect up to 1s before; and found that L1 and L2 speakers exhibited strikingly similar prosodic profiles in perception. We provide a novel method to investigate acoustic context effects across stimuli, timescales, and acoustic domain.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# 大規模言語モデルを用いた言語確率的グラフモデリング

Verbalized Probabilistic Graphical Modeling with Large Language Models ( http://arxiv.org/abs/2406.05516v1 )

ライセンス: Link先を確認
Hengguan Huang, Xing Shen, Songtao Wang, Dianbo Liu, Hao Wang, (参考訳) 複雑な問題に直面して、人間の脳は感覚入力を超越し、知覚された世界パターンの潜在的な理解を形成する能力を示す。 しかし、この認知能力は現在の大規模言語モデル(LLM)では明確に考慮されていない。 その結果、LLMは複雑な構成的推論タスクにおいて潜在構造を捉え、不確実性をモデル化するのにしばしば苦労する。 本研究では,言語化された確率図形モデル (PGM) を用いて,LLMを用いた学習自由ベイズ推論を促進する新しいベイズ促進手法を提案する。 従来のベイズ的アプローチは、潜伏要因と依存を学習するための広範なデータと所定の数学的構造に依存しているが、我々のアプローチは、潜伏変数とその確率的依存関係を、ベイズ的原理に従うようLLMに促すことによって効率的に推論する。 我々は,複数の構成的推論タスクにおいて,クローズドおよびオープンエンドの両方でモデルを評価した。 本研究は,AI言語理解システム,特に不確実性のモデル化において,モデルが信頼性向上とテキスト生成品質を効果的に向上することを示し,AI言語理解システムの改善の可能性を示す。

Faced with complex problems, the human brain demonstrates a remarkable capacity to transcend sensory input and form latent understandings of perceived world patterns. However, this cognitive capacity is not explicitly considered or encoded in current large language models (LLMs). As a result, LLMs often struggle to capture latent structures and model uncertainty in complex compositional reasoning tasks. This work introduces a novel Bayesian prompting approach that facilitates training-free Bayesian inference with LLMs by using a verbalized Probabilistic Graphical Model (PGM). While traditional Bayesian approaches typically depend on extensive data and predetermined mathematical structures for learning latent factors and dependencies, our approach efficiently reasons latent variables and their probabilistic dependencies by prompting LLMs to adhere to Bayesian principles. We evaluated our model on several compositional reasoning tasks, both close-ended and open-ended. Our results indicate that the model effectively enhances confidence elicitation and text generation quality, demonstrating its potential to improve AI language understanding systems, especially in modeling uncertainty.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# IoTベースのヘルスケアアプリケーションのためのエッジフォグクラウドシステムにおけるブロックチェーン統合フェデレーション学習に関する調査

Blockchain Integrated Federated Learning in Edge-Fog-Cloud Systems for IoT based Healthcare Applications A Survey ( http://arxiv.org/abs/2406.05517v1 )

ライセンス: Link先を確認
Shinu M. Rajagopal, Supriya M., Rajkumar Buyya, (参考訳) 現代のモノのインターネット(IoT)アプリケーションは膨大な量のデータを生成し、正確で信頼性の高い統計モデルを開発するためにデータ駆動機械学習が不可欠である。 しかし、データはサイロに格納されることが多く、厳格なユーザプライバシ法はデータ利用を複雑にし、多様なデータ確率分布とパーソナライゼーションの欠如により、従来の中央集権的パラダイムにおける機械学習の可能性を制限する。 新たな分散パラダイムであるフェデレーション学習は、プライバシを維持しながら協調学習をサポートし、IoTアプリケーションに理想的だ。 暗号化技術を利用することで、IoTシステムはデータをセキュアに保存し、送信し、一貫性を確保することができる。 フェデレートされた学習とブロックチェーンの統合は、医療などの機密データを扱う上で特に有利である。 これらの技術の可能性にもかかわらず、エッジフォッグベースのIoTコンピューティングシステムとヘルスケアアプリケーションとの統合に関する包括的な調査が必要である。 本稿では、フェデレートされた学習とブロックチェーンのアーキテクチャ、構造、機能、特性、そして様々なコンピューティングパラダイムにおけるそれらの応用について検討し、医療におけるそれらの実装を評価します。

Modern Internet of Things (IoT) applications generate enormous amounts of data, making data-driven machine learning essential for developing precise and reliable statistical models. However, data is often stored in silos, and strict user-privacy legislation complicates data utilization, limiting machine learning's potential in traditional centralized paradigms due to diverse data probability distributions and lack of personalization. Federated learning, a new distributed paradigm, supports collaborative learning while preserving privacy, making it ideal for IoT applications. By employing cryptographic techniques, IoT systems can securely store and transmit data, ensuring consistency. The integration of federated learning and blockchain is particularly advantageous for handling sensitive data, such as in healthcare. Despite the potential of these technologies, a comprehensive examination of their integration in edge-fog-cloud-based IoT computing systems and healthcare applications is needed. This survey article explores the architecture, structure, functions, and characteristics of federated learning and blockchain, their applications in various computing paradigms, and evaluates their implementations in healthcare.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# 「身体の暴力」:AIによる非合意的(親密な)イメージの知覚

"Violation of my body:" Perceptions of AI-generated non-consensual (intimate) imagery ( http://arxiv.org/abs/2406.05520v1 )

ライセンス: Link先を確認
Natalie Grace Brigham, Miranda Wei, Tadayoshi Kohno, Elissa M. Redmiles, (参考訳) AI技術は、超現実的な合成メディアであるディープフェイクの作成を可能にした。 我々は,性行為を描写するディープフェイクを含む,ディープフェイクを描写する仮説的な非合意的なディープフェイクの作成について,米国の315人の個人を調査した。 レスポンデントは、特にその内容が性行為を描写している場合、非合意に作られた合成コンテンツを共有することに強く反対した。 しかし、そのようなコンテンツを探すことは、一部の回答者にとってより受け入れがたいように思われた。 受容性に関する態度は、仮説作成者と参加者との関係、応答者の性別、性的な同意に対する態度によってさらに変化した。 この研究は、増大する脅威に対する公衆の見解に関する最初の洞察を提供し、社会規範を伝えるためのさらなる研究の必要性と、現在進行中の政策会話や、生成的AIの技術的発展を強調している。

AI technology has enabled the creation of deepfakes: hyper-realistic synthetic media. We surveyed 315 individuals in the U.S. on their views regarding the hypothetical non-consensual creation of deepfakes depicting them, including deepfakes portraying sexual acts. Respondents indicated strong opposition to creating and, even more so, sharing non-consensually created synthetic content, especially if that content depicts a sexual act. However, seeking out such content appeared more acceptable to some respondents. Attitudes around acceptability varied further based on the hypothetical creator's relationship to the participant, the respondent's gender and their attitudes towards sexual consent. This study provides initial insight into public perspectives of a growing threat and highlights the need for further research to inform social norms as well as ongoing policy conversations and technical developments in generative AI.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# 情報ボトルネック制約による対向移動性の向上

Enhancing Adversarial Transferability via Information Bottleneck Constraints ( http://arxiv.org/abs/2406.05531v1 )

ライセンス: Link先を確認
Biqing Qi, Junqi Gao, Jianxing Liu, Ligang Wu, Bowen Zhou, (参考訳) 情報ボトルネック(IB)理論の観点から,不変特徴の進歩を生かした,ISBTAと呼ばれるブラックボックス転送可能な敵攻撃を行うための新しい枠組みを提案する。 直観的には、同等な攻撃性能の制約の下で、元のデータに対する敵対的摂動の依存を減らし、分類に最も寄与する不変な特徴への依存を強くし、敵的攻撃の伝達可能性を高める。 このモチベーションに基づいて、IBを中心にした新たな理論的枠組みを用いて、転送可能な攻撃の最適化を再定義する。 具体的には、最適化不能な相互情報に対する課題を克服するため、計算を近似するためのシンプルで効率的な相互情報低境界(MILB)を提案する。 さらに,相互情報を定量的に評価するために,MINE(Mutual Information Neural Estimator)を用いて詳細な解析を行う。 ImageNetデータセットの実験では、IBTAとMILBの効率性とスケーラビリティがよく示されている。 私たちのコードはhttps://github.com/Biqing-Qi/Enhancing-Adversarial-Transferability-via-Information-Bottleneck-Constr aintsで利用可能です。

From the perspective of information bottleneck (IB) theory, we propose a novel framework for performing black-box transferable adversarial attacks named IBTA, which leverages advancements in invariant features. Intuitively, diminishing the reliance of adversarial perturbations on the original data, under equivalent attack performance constraints, encourages a greater reliance on invariant features that contributes most to classification, thereby enhancing the transferability of adversarial attacks. Building on this motivation, we redefine the optimization of transferable attacks using a novel theoretical framework that centers around IB. Specifically, to overcome the challenge of unoptimizable mutual information, we propose a simple and efficient mutual information lower bound (MILB) for approximating computation. Moreover, to quantitatively evaluate mutual information, we utilize the Mutual Information Neural Estimator (MINE) to perform a thorough analysis. Our experiments on the ImageNet dataset well demonstrate the efficiency and scalability of IBTA and derived MILB. Our code is available at https://github.com/Biqing-Qi/Enhancing-Adversarial-Transferability-via-Information-Bottleneck-Constr aints.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# 深部宇宙モデルの逆ロバスト性を探る

Exploring Adversarial Robustness of Deep State Space Models ( http://arxiv.org/abs/2406.05532v1 )

ライセンス: Link先を確認
Biqing Qi, Yang Luo, Junqi Gao, Pengfei Li, Kai Tian, Zhiyuan Ma, Bowen Zhou, (参考訳) ディープステートスペースモデル(SSM)は多くのタスクシナリオで有効であることが証明されているが、現実のデプロイメントにおいてAP(Adversarial Perturbations)によって重大なセキュリティ上の問題に直面している。 Adversarial Training (AT) は、Adversarial Robustness (AR) を強化する主要なアプローチであり、様々な従来のDNNアーキテクチャで検証されている。 しかし、SSMのARを改善する効果は未だ不明である。 注意機構の統合やデータ依存のSSMパラメータ化への拡張など、SSMコンポーネントの多くの拡張は、Standard Training (ST)設定において大きな進歩をもたらしたが、ATの潜在的なメリットは未検討のままである。 そこで本研究では,既存のSSMの構造変化をATを用いて評価し,そのAR性能を評価する。 我々は、純粋なSSM構造はATの恩恵を受けるのに苦労するのに対し、Attentionを取り入れることによって、ATにおけるSSMの堅牢性と一般化の間のトレードオフが、他のコンポーネントと比較して著しく改善されるのを観察する。 それでも、Attentionの統合は、Robust Overfitting(RO)の問題にもつながります。 これらの現象を理解するため,AP下でのSSMの出力誤差を実験的に理論的に解析した。 固定パラメータ化SSMは、出力誤差境界がパラメータと厳密に関係しており、ATの利点が制限されているのに対し、入力依存SSMはエラー爆発の問題に直面する可能性がある。 さらに、トレーニング中のSSMの出力誤差を効果的にスケールし、ATの恩恵を享受できるが、モデル複雑度が高いROを導入するコストがかかることを示した。 そこで本研究では,Attention-Intentated SSMにAT性能を近づける,シンプルな適応スケーリング(AdS)機構を提案する。

Deep State Space Models (SSMs) have proven effective in numerous task scenarios but face significant security challenges due to Adversarial Perturbations (APs) in real-world deployments. Adversarial Training (AT) is a mainstream approach to enhancing Adversarial Robustness (AR) and has been validated on various traditional DNN architectures. However, its effectiveness in improving the AR of SSMs remains unclear. While many enhancements in SSM components, such as integrating Attention mechanisms and expanding to data-dependent SSM parameterizations, have brought significant gains in Standard Training (ST) settings, their potential benefits in AT remain unexplored. To investigate this, we evaluate existing structural variants of SSMs with AT to assess their AR performance. We observe that pure SSM structures struggle to benefit from AT, whereas incorporating Attention yields a markedly better trade-off between robustness and generalization for SSMs in AT compared to other components. Nonetheless, the integration of Attention also leads to Robust Overfitting (RO) issues. To understand these phenomena, we empirically and theoretically analyze the output error of SSMs under AP. We find that fixed-parameterized SSMs have output error bounds strictly related to their parameters, limiting their AT benefits, while input-dependent SSMs may face the problem of error explosion. Furthermore, we show that the Attention component effectively scales the output error of SSMs during training, enabling them to benefit more from AT, but at the cost of introducing RO due to its high model complexity. Inspired by this, we propose a simple and effective Adaptive Scaling (AdS) mechanism that brings AT performance close to Attention-integrated SSMs without introducing the issue of RO.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# PAPR in Motion: Seamless Point-level 3D Scene Interpolation

PAPR in Motion: Seamless Point-level 3D Scene Interpolation ( http://arxiv.org/abs/2406.05533v1 )

ライセンス: Link先を確認
Shichong Peng, Yanshu Zhang, Ke Li, (参考訳) 複数の視点から2つの状態において同時に3Dシーンを再構築し、それらの間の滑らかな点レベル補間を合成し、各状態間の監督なしに新規な視点からシーンをレンダリングする点レベル3Dシーン補間問題を提案する。 主な課題は、重要な変化と非厳密な変化を含む状態間のスムーズな遷移を達成することである。 これらの課題に対処するため,近年のPAPR(Proximity Attention Point Rendering)技術に基づく新しいアプローチであるPAPR(PAPR in Motion)を導入する。 本手法は,PAPRに様々な正規化手法を導入することにより,幾何構造の時間的整合性を維持するように設計されている。 その結果、大きなシーンの変化を効果的に橋渡しし、幾何学と外観の両方において視覚的に一貫性があり、時間的に滑らかな補間を生成することができる。 多様なモーションタイプによる評価は、「動作中のPAPR」がダイナミックシーンにおける主要なニューラルレンダラーよりも優れていることを示している。 さらなる結果とコードについては、プロジェクトのWebサイト(https://niopeng.github.io/PAPR-in-Motion/)を参照してください。

We propose the problem of point-level 3D scene interpolation, which aims to simultaneously reconstruct a 3D scene in two states from multiple views, synthesize smooth point-level interpolations between them, and render the scene from novel viewpoints, all without any supervision between the states. The primary challenge is on achieving a smooth transition between states that may involve significant and non-rigid changes. To address these challenges, we introduce "PAPR in Motion", a novel approach that builds upon the recent Proximity Attention Point Rendering (PAPR) technique, which can deform a point cloud to match a significantly different shape and render a visually coherent scene even after non-rigid deformations. Our approach is specifically designed to maintain the temporal consistency of the geometric structure by introducing various regularization techniques for PAPR. The result is a method that can effectively bridge large scene changes and produce visually coherent and temporally smooth interpolations in both geometry and appearance. Evaluation across diverse motion types demonstrates that "PAPR in Motion" outperforms the leading neural renderer for dynamic scenes. For more results and code, please visit our project website at https://niopeng.github.io/PAPR-in-Motion/ .
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# オンラインDPO: 高速チャットによるオンラインダイレクト参照最適化

Online DPO: Online Direct Preference Optimization with Fast-Slow Chasing ( http://arxiv.org/abs/2406.05534v1 )

ライセンス: Link先を確認
Biqing Qi, Pengfei Li, Fangyuan Li, Junqi Gao, Kaiyan Zhang, Bowen Zhou, (参考訳) 直接選好最適化(DPO)は、人間の選好データセットを直接トレーニングすることで、大きな言語モデル(LLM)と人間の価値との整合性を改善し、報酬モデルの必要性を排除する。 しかし、ドメイン間の人間の嗜好があるため、直接連続的なトレーニングは、DPOのパフォーマンスと効率を制限し、破滅的な忘れを招きかねない。 本研究は,種種進化に触発されたオンライン高速追従DPO(Online Fast-Slow chasing DPO, OFS-DPO)を提案する。 具体的には、まずオンライン学習における後悔の上限を導出し、min-max最適化パターンでモチベーションを検証する。 そこで本研究では,Low-rank Adaptive (LoRA) を用いた2つの同一モジュールを提案する。 クロスドメインシナリオにおける破滅的な忘れを緩和するため、LORAモジュールの組み合わせ戦略によりOFS-DPOを拡張し、Cross Domain Online Fast-Slow chasing DPO (COFS-DPO) を実現する。 この方法は、異なるタスク領域からの高速モジュールパラメータの線形結合を利用して、履歴情報を完全に活用し、連続的な値アライメントを実現する。 実験の結果,OFS-DPOはドメイン内アライメントにおいてDPOより優れており,COFS-DPOはドメイン間連続学習において優れていた。

Direct Preference Optimization (DPO) improves the alignment of large language models (LLMs) with human values by training directly on human preference datasets, eliminating the need for reward models. However, due to the presence of cross-domain human preferences, direct continual training can lead to catastrophic forgetting, limiting DPO's performance and efficiency. Inspired by intraspecific competition driving species evolution, we propose a Online Fast-Slow chasing DPO (OFS-DPO) for preference alignment, simulating competition through fast and slow chasing among models to facilitate rapid adaptation. Specifically, we first derive the regret upper bound for online learning, validating our motivation with a min-max optimization pattern. Based on this, we introduce two identical modules using Low-rank Adaptive (LoRA) with different optimization speeds to simulate intraspecific competition, and propose a new regularization term to guide their learning. To further mitigate catastrophic forgetting in cross-domain scenarios, we extend the OFS-DPO with LoRA modules combination strategy, resulting in the Cross domain Online Fast-Slow chasing DPO (COFS-DPO). This method leverages linear combinations of fast modules parameters from different task domains, fully utilizing historical information to achive continual value alignment. Experimental results show that OFS-DPO outperforms DPO in in-domain alignment, while COFS-DPO excels in cross-domain continual learning scenarios.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# 簡易サンプルへの摂動による対向移動性の向上

Perturbation Towards Easy Samples Improves Targeted Adversarial Transferability ( http://arxiv.org/abs/2406.05535v1 )

ライセンス: Link先を確認
Junqi Gao, Biqing Qi, Yao Li, Zhichang Guo, Dong Li, Yuming Xing, Dazhi Zhang, (参考訳) 敵の摂動の伝達性はブラックボックス攻撃の効果的なショートカットを提供する。 標的摂動はより実用性が高いが、モデル間での移動は困難である。 本稿では,同じデータセット上でトレーニングされたニューラルネットワークが,サンプル密度の低い領域ではなく,各クラスの高サンプル密度領域(HSDR)においてより一貫した性能を示すことを実験的に理論的に実証した。 したがって, 対象クラスのHSDRに対して摂動を加えることは, 転送性の向上に有効である。 しかし,高次元シナリオでは密度推定が困難である。 さらなる理論的、実験的検証により、損失の少ないサンプルがHSDRに入る可能性がより高いことが示されている。 対象クラスのこのような簡単なサンプルに対する摂動は、HSDR位置の密度推定を避けることができる。 以上より,対象クラスのサンプルに摂動を加えることで,既存の攻撃手法の対向移動性が向上することが確認された。 標的攻撃の成功率が高いESMA(Easy Sample Matching Attack)と呼ばれるジェネレーティブターゲット攻撃戦略が提案され,SOTA生成法よりも優れていた。 さらに、ESMAはストレージスペースの5%しか必要とせず、現在のSOTAと比較して計算時間もはるかに少なく、ESMAは各クラスの分離モデルではなく、1つのモデルで全てのクラスを攻撃している。 私たちのコードはhttps://github.com/gjq100/ESMAで公開されています。

The transferability of adversarial perturbations provides an effective shortcut for black-box attacks. Targeted perturbations have greater practicality but are more difficult to transfer between models. In this paper, we experimentally and theoretically demonstrated that neural networks trained on the same dataset have more consistent performance in High-Sample-Density-Regions (HSDR) of each class instead of low sample density regions. Therefore, in the target setting, adding perturbations towards HSDR of the target class is more effective in improving transferability. However, density estimation is challenging in high-dimensional scenarios. Further theoretical and experimental verification demonstrates that easy samples with low loss are more likely to be located in HSDR. Perturbations towards such easy samples in the target class can avoid density estimation for HSDR location. Based on the above facts, we verified that adding perturbations to easy samples in the target class improves targeted adversarial transferability of existing attack methods. A generative targeted attack strategy named Easy Sample Matching Attack (ESMA) is proposed, which has a higher success rate for targeted attacks and outperforms the SOTA generative method. Moreover, ESMA requires only 5% of the storage space and much less computation time comparing to the current SOTA, as ESMA attacks all classes with only one model instead of seperate models for each class. Our code is available at https://github.com/gjq100/ESMA.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# タンパク質理解のための大規模言語モデルのための微調整データセットとベンチマーク

A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding ( http://arxiv.org/abs/2406.05540v1 )

ライセンス: Link先を確認
Yiqing Shen, Zan Chen, Michail Mamalakis, Luhan He, Haiyang Xia, Tianbin Li, Yanzhou Su, Junjun He, Yu Guang Wang, (参考訳) タンパク質配列とそれらの配列構造における自然言語の並行性は、タンパク質理解への大規模言語モデル(LLM)の適用にインスピレーションを与えている。 NLP における LLM の成功にもかかわらず、タンパク質配列の解釈の有効性は、主にタンパク質配列と記述テキストをリンクするデータセットがないために、未解決の問題である。 その後、研究者は、タンパク質配列エンコーダと事前訓練されたLLMを統合することで、LLMをタンパク質理解に適応させようとした。 しかし、この適応は根本的な疑問を提起する: "Can LLMs, originally designed for NLP, effectively comhend protein sequences as a form of language? 現在のデータセットは、タンパク質配列と対応するテキスト記述との直接的な相関が欠如しているため、この問題に対処するのに不足している。 このギャップを埋めるために、我々は、タンパク質配列の理解能力を高めるために、LLMのさらなる自己教師付き事前学習と教師付き微調整(SFT)のために設計されたデータセットであるProteinLMDatasetを紹介する。 具体的には、ProteinLMDatasetには、事前トレーニングのための176億のトークンと、SFTのための893,000の命令が含まれている。 さらに,LCMのタンパク質理解能力を評価するために,第1のベンチマークデータセットであるProteinLMBenchを提案する。 ProteinLMBenchは、タンパク質関連の詳細と配列を複数の言語に含み、タンパク質理解におけるLLMの能力を評価するための新しい標準を確立している。 大規模な言語モデルであるInternLM2-7Bは、ProteinLMDatasetで事前訓練され微調整され、ProteinLMBenchでGPT-4を上回り、高い精度のスコアを得た。 データセットとベンチマークはhttps://huggingface.co/datasets/tsynbio/ProteinLMBenchで公開されている。

The parallels between protein sequences and natural language in their sequential structures have inspired the application of large language models (LLMs) to protein understanding. Despite the success of LLMs in NLP, their effectiveness in comprehending protein sequences remains an open question, largely due to the absence of datasets linking protein sequences to descriptive text. Researchers have then attempted to adapt LLMs for protein understanding by integrating a protein sequence encoder with a pre-trained LLM. However, this adaptation raises a fundamental question: "Can LLMs, originally designed for NLP, effectively comprehend protein sequences as a form of language?" Current datasets fall short in addressing this question due to the lack of a direct correlation between protein sequences and corresponding text descriptions, limiting the ability to train and evaluate LLMs for protein understanding effectively. To bridge this gap, we introduce ProteinLMDataset, a dataset specifically designed for further self-supervised pretraining and supervised fine-tuning (SFT) of LLMs to enhance their capability for protein sequence comprehension. Specifically, ProteinLMDataset includes 17.46 billion tokens for pretraining and 893,000 instructions for SFT. Additionally, we present ProteinLMBench, the first benchmark dataset consisting of 944 manually verified multiple-choice questions for assessing the protein understanding capabilities of LLMs. ProteinLMBench incorporates protein-related details and sequences in multiple languages, establishing a new standard for evaluating LLMs' abilities in protein comprehension. The large language model InternLM2-7B, pretrained and fine-tuned on the ProteinLMDataset, outperforms GPT-4 on ProteinLMBench, achieving the highest accuracy score. The dataset and the benchmark are available at https://huggingface.co/datasets/tsynbio/ProteinLMBench.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# VP-LLM: バッチ化による大規模言語モデルによるテキスト駆動型3次元ボリューム補完

VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification ( http://arxiv.org/abs/2406.05543v1 )

ライセンス: Link先を確認
Jianmeng Liu, Yichen Liu, Yuyao Zhang, Zeyuan Meng, Yu-Wing Tai, Chi-Keung Tang, (参考訳) 最近の条件付き3Dコンプリートは、複雑な命令をサポートできないテキスト情報をエンコードするために、主にCLIPやBERTに依存している。 一方、大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。 LLMの最近の進歩に触発されて,LLMを活用して1方向パスで条件付き3Dコンプリートを行うVolume Patch LLM(VP-LLM)を提案する。 LLMトークン化設定に3Dモデルを統合するために、不完全な3Dオブジェクトは、まず独立して符号化できる小さなパッチに分割される。 これらのコード化されたパッチは、テキストプロンプトとともにLSMに送られ、LSMにこれらのパッチ間の関係を捉え、意味的な意味を3Dオブジェクトに注入するように指示する。 以上の結果から,LLMが複雑なテキスト命令を解釈し,3次元オブジェクトを理解する能力は,最先端の拡散に基づく3次元補完モデルに勝るものであることが示唆された。

Recent conditional 3D completion works have mainly relied on CLIP or BERT to encode textual information, which cannot support complex instruction. Meanwhile, large language models (LLMs) have shown great potential in multi-modal understanding and generation tasks. Inspired by the recent advancements of LLM, we present Volume Patch LLM (VP-LLM), which leverages LLMs to perform conditional 3D completion in a single-forward pass. To integrate a 3D model into the LLM tokenization configuration, the incomplete 3D object is first divided into small patches that can be encoded independently. These encoded patches are then fed into an LLM along with the text prompt, instructing the LLM to capture the relations between these patches as well as injecting semantic meanings into the 3D object. Our results demonstrate a strong ability of LLMs to interpret complex text instructions and understand 3D objects, surpassing state-of-the-art diffusion-based 3D completion models in generation quality.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# 協調クラスタリングのためのプライバシー保護最適パラメータ選択

Privacy-Preserving Optimal Parameter Selection for Collaborative Clustering ( http://arxiv.org/abs/2406.05545v1 )

ライセンス: Link先を確認
Maryam Ghasemian, Erman Ayday, (参考訳) 本研究では、データプライバシを確保しつつ、協調クラスタリングのためのパラメータの最適選択について検討する。 私たちは、複数のデータオーナがデータを結合するコラボレーティブフレームワークにおける、重要なクラスタリングアルゴリズムに注目しています。 半信頼できるサーバは、最も適切なクラスタリングアルゴリズムとそのパラメータを推奨する。 以上の結果から,プライバシパラメータ(\epsilon$)がサーバのレコメンデーションに最小限の影響を与えることが示唆されたが,$\epsilon$の増加は,機密情報が推測される可能性のあるメンバシップ推論攻撃のリスクを増大させる。 これらのリスクを軽減するために、差分プライバシー技術、特にランダム化応答機構を実装し、ノイズを追加し、データのプライバシを保護する。 提案手法は,Adjusted Rand IndexやSilhouette Scoreといった指標が示すように,データの機密性を維持しながら高品質なクラスタリングを実現することができることを示す。 本研究は,プライバシを意識したデータ共有,最適なアルゴリズムとパラメータ選択,データ所有者とサーバ間の効果的なコミュニケーションに寄与する。

This study investigates the optimal selection of parameters for collaborative clustering while ensuring data privacy. We focus on key clustering algorithms within a collaborative framework, where multiple data owners combine their data. A semi-trusted server assists in recommending the most suitable clustering algorithm and its parameters. Our findings indicate that the privacy parameter ($\epsilon$) minimally impacts the server's recommendations, but an increase in $\epsilon$ raises the risk of membership inference attacks, where sensitive information might be inferred. To mitigate these risks, we implement differential privacy techniques, particularly the Randomized Response mechanism, to add noise and protect data privacy. Our approach demonstrates that high-quality clustering can be achieved while maintaining data confidentiality, as evidenced by metrics such as the Adjusted Rand Index and Silhouette Score. This study contributes to privacy-aware data sharing, optimal algorithm and parameter selection, and effective communication between data owners and the server.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# 失敗によるトレーニング:並列機械学習トレーニングにおけるデータ一貫性の効果

Training Through Failure: Effects of Data Consistency in Parallel Machine Learning Training ( http://arxiv.org/abs/2406.05546v1 )

ライセンス: Link先を確認
Ray Cao, Sherry Luo, Steve Gan, Sujeeth Jinesh, (参考訳) 本研究では,各種パラメータサーバ構成を用いた並列機械学習学習におけるデータ一貫性の緩和効果について検討する。 私たちの障害復旧戦略には、従来のチェックポイント、チェーンレプリケーション(障害時にバックアップサーバが引き継がれるようにする)、新しいステートレスパラメータサーバアプローチが含まれています。 ステートレスなアプローチでは、パラメータサーバがダウンしても、ワーカーはグラデーションアップデートを生成し続け、サーバがオンラインに戻れば、これらの更新を適用します。 これらの手法を,最新のチェックポイントからトレーニングジョブを再開する標準的なチェックポイント手法と比較する。 各構成のレジリエンスと性能を評価するため、各実験のトレーニング中にパラメータサーバを故意に破壊した。 実験結果から,ステートレスパラメータサーバのアプローチは,安定した重みと勾配を用いても,故障時に最大10倍の精度で収束を訓練し,精度を向上させることが示唆された。 チェーンの複製とチェックポイント技術は収束を示すが、古いチェックポイントからの再開による精度の低下に悩まされる。 これらの結果は、ワーカがサーバのダウンタイム中に更新を継続し、後から更新を適用することで、ハードウェアの利用を効果的に改善できることを示唆している。 さらに、リソース使用量が多いにもかかわらず、ステートレスパラメータサーバ方式は、一般的なクラウドプロバイダの価格構造による標準的なチェックポイント方式と比較して、ハードウェア使用量でも同様の金銭的コストを発生させる。

In this study, we explore the impact of relaxing data consistency in parallel machine learning training during a failure using various parameter server configurations. Our failure recovery strategies include traditional checkpointing, chain replication (which ensures a backup server takes over in case of failure), and a novel stateless parameter server approach. In the stateless approach, workers continue generating gradient updates even if the parameter server is down, applying these updates once the server is back online. We compare these techniques to a standard checkpointing approach, where the training job is resumed from the latest checkpoint. To assess the resilience and performance of each configuration, we intentionally killed the parameter server during training for each experiment. Our experiment results indicate that the stateless parameter server approach continues to train towards convergence and improves accuracy as much as 10\% in the face of a failure despite using stale weights and gradients. The chain replication and checkpointing techniques demonstrate convergence but suffer from setbacks in accuracy due to restarting from old checkpoints. These results suggest that allowing workers to continue generating updates during server downtime and applying these updates later can effectively improve hardware utilization. Furthermore, despite higher resource usage, the stateless parameter server method incurs similar monetary costs in terms of hardware usage compared to standard checkpointing methods due to the pricing structure of common cloud providers.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# 離散音響ユニットのトークン化のメリットを探る

Exploring the Benefits of Tokenization of Discrete Acoustic Units ( http://arxiv.org/abs/2406.05547v1 )

ライセンス: Link先を確認
Avihu Dekel, Raul Fernandez, (参考訳) 基本語彙の単位をより大きな可変レート単位にマージするトークン化アルゴリズムは、自然言語処理タスクにおいて標準となっている。 しかし、このアイデアは、語彙が音素または離散音響単位(DAUs)で構成されており、離散言語モデリング技術の成功によってますます重要な役割を担っている。 本稿では,音素単位のトークン化とDAUの利点を3つの予測課題(グラファイム対音素,グラファイム対音素,およびDAU言語モデリングを用いた教師なし音声生成)で示す。 トークン化は、3つのタスクすべてに対して、トレーニングと推論の速度だけでなく、パフォーマンスの面で大幅に改善されることを示す。 また、観察された優れたパフォーマンスを説明するための理論的洞察も提供します。

Tokenization algorithms that merge the units of a base vocabulary into larger, variable-rate units have become standard in natural language processing tasks. This idea, however, has been mostly overlooked when the vocabulary consists of phonemes or Discrete Acoustic Units (DAUs), an audio-based representation that is playing an increasingly important role due to the success of discrete language-modeling techniques. In this paper, we showcase the advantages of tokenization of phonetic units and of DAUs on three prediction tasks: grapheme-to-phoneme, grapheme-to-DAUs, and unsupervised speech generation using DAU language modeling. We demonstrate that tokenization yields significant improvements in terms of performance, as well as training and inference speed, across all three tasks. We also offer theoretical insights to provide some explanation for the superior performance observed.
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# テキスト音声合成のための自己回帰拡散変換器

Autoregressive Diffusion Transformer for Text-to-Speech Synthesis ( http://arxiv.org/abs/2406.05551v1 )

ライセンス: Link先を確認
Zhijun Liu, Shuai Wang, Sho Inoue, Qibing Bai, Haizhou Li, (参考訳) 音声言語モデルは、様々な音声生成タスクにおいて、波形を離散シンボルのシーケンスにエンコードするために、音声トークン化器に依存する有望なアプローチとして最近登場した。 オーディオトークン化は、しばしばコードビットレートと再構成の精度の間に必要な妥協をもたらす。 低ビットレートのオーディオコードを扱う場合、言語モデルはオーディオに埋め込まれた情報のサブセットのみを処理するよう制約され、それによって生成能力が制限される。 これらの問題を回避すべく、連続空間$\mathbb R^d$のベクトル列として音声を符号化し、デコーダのみの拡散変換器(ARDiT)を用いて自動回帰生成する手法を提案する。 以上の結果から,ARDiTはゼロショットのテキスト音声よりも優れており,最先端のモデルと比較した場合,あるいはそれを上回る性能を示すことが示唆された。 高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。 実験の結果, 各自己回帰段階における蒸留におけるインテグレーショナル・コールバック・リーブラー (IKL) の拡散は, 試料の品質を著しく向上させることがわかった。 同時に、拡散モデルの反復サンプリングプロセスを単一のステップに凝縮する。 さらに、ARDiTは、複数の連続ベクトルを1ステップで予測するようにトレーニングすることができる。 驚くべきことに、我々のモデルのうちの1つは、パフォーマンスの最小限の劣化を伴って、評価ステップ毎に170$msと24$kHzの音声を生成することができる。 オーディオサンプルはhttp://ardit-tts.github.io/で公開されている。

Audio language models have recently emerged as a promising approach for various audio generation tasks, relying on audio tokenizers to encode waveforms into sequences of discrete symbols. Audio tokenization often poses a necessary compromise between code bitrate and reconstruction accuracy. When dealing with low-bitrate audio codes, language models are constrained to process only a subset of the information embedded in the audio, which in turn restricts their generative capabilities. To circumvent these issues, we propose encoding audio as vector sequences in continuous space $\mathbb R^d$ and autoregressively generating these sequences using a decoder-only diffusion transformer (ARDiT). Our findings indicate that ARDiT excels in zero-shot text-to-speech and exhibits performance that compares to or even surpasses that of state-of-the-art models. High-bitrate continuous speech representation enables almost flawless reconstruction, allowing our model to achieve nearly perfect speech editing. Our experiments reveal that employing Integral Kullback-Leibler (IKL) divergence for distillation at each autoregressive step significantly boosts the perceived quality of the samples. Simultaneously, it condenses the iterative sampling process of the diffusion model into a single step. Furthermore, ARDiT can be trained to predict several continuous vectors in one step, significantly reducing latency during sampling. Impressively, one of our models can generate $170$ ms of $24$ kHz speech per evaluation step with minimal degradation in performance. Audio samples are available at http://ardit-tts.github.io/ .
翻訳日:2024-06-11 19:16:08 公開日:2024-06-08
# ThatiAR:アラビア語ニュース文における主観性検出

ThatiAR: Subjectivity Detection in Arabic News Sentences ( http://arxiv.org/abs/2406.05559v1 )

ライセンス: Link先を確認
Reem Suwaileh, Maram Hasanain, Fatema Hubail, Wajdi Zaghouani, Firoj Alam, (参考訳) ニュース文における主観性の検出は、メディアバイアスを特定し、信頼性を高め、意見に基づくコンテンツにフラグを付けることで誤情報と戦うために重要である。 大衆の感情に対する洞察を与え、読者にインフォームドな判断を与え、批判的な思考を促す。 研究はこの目的のために方法やシステムを開発してきたが、ほとんどの取り組みは英語やその他の高リソース言語に焦点を当ててきた。 本研究では,アラビア語における主観性検出のための最初の大規模データセットについて述べる。 さらに、LLMに基づく微調整を促進するための指示(英語とアラビア語の両方)も含んでいた。 PLM や LLM などを含むデータセット,アノテーションプロセス,広範なベンチマーク結果の詳細な分析を行う。 注記過程の分析は,注釈者の政治的背景,文化的背景,宗教的背景,特に注記過程の開始に強く影響されたことを強調している。 実験結果から,文脈内学習を用いたLLMの方が性能が向上することが示唆された。 コミュニティのためにデータセットとリソースをリリースすることを目指しています。

Detecting subjectivity in news sentences is crucial for identifying media bias, enhancing credibility, and combating misinformation by flagging opinion-based content. It provides insights into public sentiment, empowers readers to make informed decisions, and encourages critical thinking. While research has developed methods and systems for this purpose, most efforts have focused on English and other high-resourced languages. In this study, we present the first large dataset for subjectivity detection in Arabic, consisting of ~3.6K manually annotated sentences, and GPT-4o based explanation. In addition, we included instructions (both in English and Arabic) to facilitate LLM based fine-tuning. We provide an in-depth analysis of the dataset, annotation process, and extensive benchmark results, including PLMs and LLMs. Our analysis of the annotation process highlights that annotators were strongly influenced by their political, cultural, and religious backgrounds, especially at the beginning of the annotation process. The experimental results suggest that LLMs with in-context learning provide better performance. We aim to release the dataset and resources for the community.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# 変圧器からのオートマタ抽出

Automata Extraction from Transformers ( http://arxiv.org/abs/2406.05564v1 )

ライセンス: Link先を確認
Yihao Zhang, Zeming Wei, Meng Sun, (参考訳) 現代の機械学習システム(ML)では、トランスフォーマーベースのアーキテクチャは幅広いタスクでマイルストーンを達成しているが、その運用メカニズムの理解は依然としてオープンな問題である。 MLシステムの透明性を高めるために、ステートフルMLモデルを通常形式言語を介してオートマトンと解釈するオートマトン抽出法は、リカレントニューラルネットワーク(RNN)のメカニズムを説明するのに有効であることが証明された。 しかし、このパラダイムをTransformerモデルに適用する研究はほとんどない。 特に、形式言語の処理を理解し、この分野における制限を特定することは、まだ探索されていない。 本論文では,トランスフォーマーモデルに特化して設計された自動抽出アルゴリズムを提案する。 トランスフォーマーモデルをブラックボックスシステムとして扱い、動作中の内部潜在表現の変換プロセスを通してモデルを追跡し、L*アルゴリズムのような古典的な教育的アプローチを用いて決定論的有限状態オートマトン(DFA)として解釈する。 本研究は、トランスフォーマーモデルが形式言語の構造をどう理解するかを明らかにし、トランスフォーマーベースのMLシステムの解釈可能性を高めるだけでなく、MLシステムが形式言語をどのように処理するかを深く理解するための重要なステップとなる。 コードとデータはhttps://github.com/Zhang-Yihao/Transfomer2DFAで公開されている。

In modern machine (ML) learning systems, Transformer-based architectures have achieved milestone success across a broad spectrum of tasks, yet understanding their operational mechanisms remains an open problem. To improve the transparency of ML systems, automata extraction methods, which interpret stateful ML models as automata typically through formal languages, have proven effective for explaining the mechanism of recurrent neural networks (RNNs). However, few works have been applied to this paradigm to Transformer models. In particular, understanding their processing of formal languages and identifying their limitations in this area remains unexplored. In this paper, we propose an automata extraction algorithm specifically designed for Transformer models. Treating the Transformer model as a black-box system, we track the model through the transformation process of their internal latent representations during their operations, and then use classical pedagogical approaches like L* algorithm to interpret them as deterministic finite-state automata (DFA). Overall, our study reveals how the Transformer model comprehends the structure of formal languages, which not only enhances the interpretability of the Transformer-based ML systems but also marks a crucial step toward a deeper understanding of how ML systems process formal languages. Code and data are available at https://github.com/Zhang-Yihao/Transfomer2DFA.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# 医療ビジョンジェネラリスト:医療画像タスクのコンテキスト統合

Medical Vision Generalist: Unifying Medical Imaging Tasks in Context ( http://arxiv.org/abs/2406.05565v1 )

ライセンス: Link先を確認
Sucheng Ren, Xiaoke Huang, Xianhang Li, Junfei Xiao, Jieru Mei, Zeyu Wang, Alan Yuille, Yuyin Zhou, (参考訳) 本研究は, 医用ビジョンジェネラリスト(MVG)について, クロスモーダル合成, イメージセグメンテーション, デノナイジング, インパインティングなどの様々な医療画像タスクを, 統合画像・画像生成フレームワークで処理できる最初の基礎モデルを提案する。 具体的には、MVGは入力と出力の処理を画像として標準化するコンテキスト内生成戦略を採用している。 これらのタスクを、画像ラベルペアと入力イメージに条件付けされた画像生成プロセスとして扱うことにより、様々なタスク、例えば異なるモダリティやデータセットにまたがるタスクの柔軟な統一を可能にする。 局所的・大域的両方の状況に乗じて、マスク付き画像モデリングと自己回帰学習を組み合わせた条件付き画像生成のハイブリッド手法を設計する。 このハイブリッドアプローチは、すべての医療画像タスクにおいて、最も堅牢なパフォーマンスをもたらす。 MVGの能力を厳格に評価するために,13のデータセットと4つの画像モダリティ(CT,MRI,X線,マイクロ超音波)を網羅した,最初の総合的総合的医療ビジョンベンチマークをキュレートした。 我々の結果はMVGの優れた性能を一貫して確立し、PainterやLVMといった既存のビジョンジェネラリストよりも優れています。 さらに、MVGは強力なスケーラビリティを示し、より多様なタスクセットでトレーニングされた場合、パフォーマンスは明らかに改善され、最小限のタスク固有のサンプルだけで、目に見えないデータセットに効果的に適応できる。 コードは \url{https://github.com/OliverRensu/MVG} で公開されている。

This study presents Medical Vision Generalist (MVG), the first foundation model capable of handling various medical imaging tasks -- such as cross-modal synthesis, image segmentation, denoising, and inpainting -- within a unified image-to-image generation framework. Specifically, MVG employs an in-context generation strategy that standardizes the handling of inputs and outputs as images. By treating these tasks as an image generation process conditioned on prompt image-label pairs and input images, this approach enables a flexible unification of various tasks, even those spanning different modalities and datasets. To capitalize on both local and global context, we design a hybrid method combining masked image modeling with autoregressive training for conditional image generation. This hybrid approach yields the most robust performance across all involved medical imaging tasks. To rigorously evaluate MVG's capabilities, we curated the first comprehensive generalist medical vision benchmark, comprising 13 datasets and spanning four imaging modalities (CT, MRI, X-ray, and micro-ultrasound). Our results consistently establish MVG's superior performance, outperforming existing vision generalists, such as Painter and LVM. Furthermore, MVG exhibits strong scalability, with its performance demonstrably improving when trained on a more diverse set of tasks, and can be effectively adapted to unseen datasets with only minimal task-specific samples. The code is available at \url{https://github.com/OliverRensu/MVG}.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# SAMM:Sharded Automated Market Makers

SAMM: Sharded Automated Market Makers ( http://arxiv.org/abs/2406.05568v1 )

ライセンス: Link先を確認
Hongyin Chen, Amit Vaisman, Ittay Eyal, (参考訳) \emph{Automated Market Makers} (\emph{AMMs})は、分散型金融(DeFi)ブロックチェーンベースのプラットフォームの基礎である。 それらはスマートコントラクトであり、 \emph{liquidity pool} を維持することで、仮想トークンの直接交換を可能にする。 トレーダーは契約書とトークンを交換し、手数料を支払い、流動性はこれらの手数料で支払われる「emph{liquidity providers}」から得られる。 しかし、需要が増えているにもかかわらず、AMMのパフォーマンスは限られている。 最先端のブロックチェーンプラットフォームは、トランザクションの並列実行を可能にする。 しかし,AMMは演算が可換ではないため,トランザクションをシリアライズしなければならないため,これらの利得を享受できないことを示す。 複数の独立な \emph{shards} からなる AMM である \emph{SAMM} を述べる。 すべてのシャードは、同じチェーンで動作するスマートコントラクトだが、それぞれが独立しているため、並列実行が可能である。 課題は、標準的なAMMでの取引が流動性プールが大きい場合、より安いことである。 したがって、複数のAMMを単純に使用すれば、トレーダーは各取引を全てのAMMに分割し、パフォーマンスが悪化することを示す。 SAMMは取引手数料の新しい設計でこの問題に対処する。 トレーダーは最小のシャードのみを使用するようにインセンティブを得ている。 流動性プロバイダは、すべてのプールの流動性をバランスさせ、取引が均等に分散された状態に収束する。 Suiブロックチェーンの評価によると、SAMMのスループットは従来のAMMの5倍以上であり、システムの限界に近づいている。 SAMMは直接デプロイ可能なオープンソーススマートコントラクトであり、個人とDeFiアプリケーションの大規模取引を可能にする。

\emph{Automated Market Makers} (\emph{AMMs}) are a cornerstone of decentralized finance (DeFi) blockchain-based platforms. They are smart contracts, enabling the direct exchange of virtual tokens by maintaining \emph{liquidity pools}. Traders exchange tokens with the contract, paying a fee; liquidity comes from \emph{liquidity providers}, paid by those fees. But despite growing demand, the performance of AMMs is limited. State-of-the-art blockchain platforms allow for parallel execution of transactions. However, we show that AMMs do not enjoy these gains, since their operations are not commutative so transactions using them must be serialized. We present \emph{SAMM}, an AMM comprising multiple independent \emph{shards}. All shards are smart contracts operating in the same chain, but they allow for parallel execution as each is independent. The challenge is that trading in a standard AMM is cheaper if its liquidity pool is larger. Therefore, we show that simply using multiple smaller AMMs results in traders splitting each trade among all AMMs, which worsens performance. SAMM addresses this issue with a novel design of the trading fees. Traders are incentivized to use only a single smallest shard. We show that all Subgame-Perfect Nash Equilibria (SPNE) fit the desired behavior: Liquidity providers balance the liquidity among all pools, so the system converges to the state where trades are evenly distributed. Evaluation in the Sui blockchain shows that SAMM's throughput is over fivefold that of traditional AMMs, approaching the system's limit. SAMM is a directly deployable open-source smart contract, allowing trading at scale for individuals and DeFi applications.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# LLMは私を認識する:私が私ではないとき--指標シフト文脈におけるトルコの指数代名詞を理解するLLMの評価

Do LLMs Recognize me, When I is not me: Assessment of LLMs Understanding of Turkish Indexical Pronouns in Indexical Shift Contexts ( http://arxiv.org/abs/2406.05569v1 )

ライセンス: Link先を確認
Metehan Oğuz, Yusuf Umut Ciftci, Yavuz Faruk Bakman, (参考訳) 大規模言語モデル(LLM)は、機械翻訳、テキスト要約、質問応答、複雑な数学的問題の解法などのタスクにおいて顕著な能力を示している。 しかし、英語のようなデータ豊富な言語に関する最初のトレーニングでは、低リソース言語のパフォーマンスが制限されている。 本研究は,トルコにおける指数シフト問題に着目して,このギャップに対処する。 索引的シフト問題(Indexical Shift problem)は、英語のような高リソース言語には存在しない文法的挑戦である指数的シフト文脈における代名詞の解法である。 本研究は,この目的のために設計されたトルコ語のデータセットを公開し,任意の言語におけるインデックスシフトを調査する最初の研究である。 Indexical Shift Datasetは156の質問から成り、それぞれに必要な言語的詳細を注釈付けして、数ショットでLSMを評価する。 このデータセットを用いて, GPT-4, GPT-3.5, Cohere-AYA, Trendyol-LLM, Turkcell-LLM などの多言語 LLM の評価を行った。 我々の分析によると、GPT-4のような先進モデルでさえ、トルコにおけるインデックスシフトの文法的ニュアンスに苦慮し、適度なパフォーマンスしか達成できない。 これらの知見は,低リソース言語がもたらす文法的課題について,集中的な研究の必要性を浮き彫りにしている。 私たちはデータセットとコード href{https://anonymous.4open.science/r/indexical_shift_llm-E1B4} {here} をリリースした。

Large language models (LLMs) have shown impressive capabilities in tasks such as machine translation, text summarization, question answering, and solving complex mathematical problems. However, their primary training on data-rich languages like English limits their performance in low-resource languages. This study addresses this gap by focusing on the Indexical Shift problem in Turkish. The Indexical Shift problem involves resolving pronouns in indexical shift contexts, a grammatical challenge not present in high-resource languages like English. We present the first study examining indexical shift in any language, releasing a Turkish dataset specifically designed for this purpose. Our Indexical Shift Dataset consists of 156 multiple-choice questions, each annotated with necessary linguistic details, to evaluate LLMs in a few-shot setting. We evaluate recent multilingual LLMs, including GPT-4, GPT-3.5, Cohere-AYA, Trendyol-LLM, and Turkcell-LLM, using this dataset. Our analysis reveals that even advanced models like GPT-4 struggle with the grammatical nuances of indexical shift in Turkish, achieving only moderate performance. These findings underscore the need for focused research on the grammatical challenges posed by low-resource languages. We released the dataset and code \href{https://anonymous.4open.science/r/indexical_shift_llm-E1B4} {here}.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# PRoC3Sの信頼:LLMと制約満足度による長距離ロボット問題の解決

Trust the PRoC3S: Solving Long-Horizon Robotics Problems with LLMs and Constraint Satisfaction ( http://arxiv.org/abs/2406.05572v1 )

ライセンス: Link先を確認
Aidan Curtis, Nishanth Kumar, Jing Cao, Tomás Lozano-Pérez, Leslie Pack Kaelbling, (参考訳) ロボット工学に適用された事前訓練された大規模言語モデル(LLM)の最近の進歩は、単純なロボットタスクにおいてオープンな目標を達成するために、一連の個別スキルをシークエンシングする能力を示している。 本稿では,機械的,幾何学的,物理的制約の集合の違反を避けることが必要な,連続パラメータ化スキルの集合に対するLLM計画の課題について検討する。 我々はLLMに対して,環境制約とともに連続制約満足度問題(CCSP)と見なせるような,オープンパラメータを持つ関数のコードを出力するよう促す。 このCCSPはサンプリングや最適化によって解決でき、制約違反を回避しつつ目標を達成するためのスキルシーケンスと連続パラメータ設定を見つけることができる。 さらに, LLM が不満足な CCSP を提案する場合, 例えば, 動力学的に実現不可能で, 動的に不安定で, あるいは衝突を引き起こす場合について考察し, 新たな CCSP を形成するために LLM を再起動する。 3つの異なる3次元領域にわたる実験により、提案手法であるPRoC3Sは、既存のベースラインよりもはるかに効率的かつ効果的に、連続パラメータに現実的な制約を課した幅広い複雑な操作タスクを解くことができることを示した。

Recent developments in pretrained large language models (LLMs) applied to robotics have demonstrated their capacity for sequencing a set of discrete skills to achieve open-ended goals in simple robotic tasks. In this paper, we examine the topic of LLM planning for a set of continuously parameterized skills whose execution must avoid violations of a set of kinematic, geometric, and physical constraints. We prompt the LLM to output code for a function with open parameters, which, together with environmental constraints, can be viewed as a Continuous Constraint Satisfaction Problem (CCSP). This CCSP can be solved through sampling or optimization to find a skill sequence and continuous parameter settings that achieve the goal while avoiding constraint violations. Additionally, we consider cases where the LLM proposes unsatisfiable CCSPs, such as those that are kinematically infeasible, dynamically unstable, or lead to collisions, and re-prompt the LLM to form a new CCSP accordingly. Experiments across three different simulated 3D domains demonstrate that our proposed strategy, PRoC3S, is capable of solving a wide range of complex manipulation tasks with realistic constraints on continuous parameters much more efficiently and effectively than existing baselines.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# 高レベル量子プログラミングのためのゲート分割最適化

Optimizing Gate Decomposition for High-Level Quantum Programming ( http://arxiv.org/abs/2406.05581v1 )

ライセンス: Link先を確認
Evandro C. R. Rosa, Eduardo I. Duzzioni, Rafael de Santiago, (参考訳) 本稿では,高レベルの量子プログラミングにおいて自然に発生するマルチコントロール量子ゲートを最適化する新しい手法を提案する。 我々の第一のアプローチは、$U(2)$ゲートを$SU(2)$ゲートと書き換えることであり、位相補正のために1つの補助量子ビットを利用する。 これにより、任意の多制御量子ゲートを分解するために必要なCNOTゲートの数が$O(n^2)$から$32n$まで減少する。 さらに、マルチコントロールされたパウリゲートのCNOT数を16n$から12n$に削減し、高レベル量子プログラミングにおける制御ゲートの数を削減できる最適化を提案する。 我々はこれらの最適化をKet量子プログラミングプラットフォームで実装し、ゲート数を大幅に削減した。 例えば、114キュービットのGroverのアルゴリズム層では、CNOTの数を101,245から2,684に削減しました。 このゲート数の削減は、量子アルゴリズムの実行時間に大きな影響を与え、NISQコンピュータ上でそれらを実行する可能性を高める。

This paper presents novel methods for optimizing multi-controlled quantum gates, which naturally arise in high-level quantum programming. Our primary approach involves rewriting $U(2)$ gates as $SU(2)$ gates, utilizing one auxiliary qubit for phase correction. This reduces the number of CNOT gates required to decompose any multi-controlled quantum gate from $O(n^2)$ to at most $32n$. Additionally, we can reduce the number of CNOTs for multi-controlled Pauli gates from $16n$ to $12n$ and propose an optimization to reduce the number of controlled gates in high-level quantum programming. We have implemented these optimizations in the Ket quantum programming platform and demonstrated significant reductions in the number of gates. For instance, for a Grover's algorithm layer with 114 qubits, we achieved a reduction in the number of CNOTs from 101,245 to 2,684. This reduction in the number of gates significantly impacts the execution time of quantum algorithms, thereby enhancing the feasibility of executing them on NISQ computers.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# ダイソン級数における干渉経路振幅としての量子制御機構抽出のための効率的なハミルトン符号化アルゴリズム

Efficient Hamiltonian encoding algorithms for extracting quantum control mechanism as interfering pathway amplitudes in the Dyson series ( http://arxiv.org/abs/2406.05585v1 )

ライセンス: Link先を確認
Erez Abrams, Michael Kasprzak, Gaurav Bhole, Tak-San Ho, Herschel Rabitz, (参考訳) ハミルトニアン符号化は、制御量子系を管理する力学の背後にあるメカニズムを明らかにするための方法論である。 本稿では,Mitra と Rabitz [Phys. Rev. A 67, 033407 (2003)] に従って,各経路がダイソン級数に対応する複素数値振幅と関連付けられている系の進化を記述する固有状態の経路を介して機構を定義する。 システムの進化は、これらの経路振幅の構成的および破壊的干渉によって決定される。 類似した属性を持つパスは、経路クラスにまとめることができる。 経路クラスの振幅は、ハミルトン行列要素を変調し、ダイソン級数の個々の項を直接計算することによってではなく、その後のシステムの進化を復号することによって計算される。 ハミルトニアン符号化の当初の実装は計算集約的であり、大規模量子システムでは違法に高価になった。 本稿では、グラフ理論と代数トポロジーの手法を用いて経路クラスの振幅を計算する2つの新しい符号化アルゴリズムを提案する。 これらの新しいアルゴリズムは、系のヒルベルト空間次元に関して計算時間とメモリ使用量の両方を指数関数的に減少させる。 これらの手法を実証するために、2つの実証的な状態-状態遷移問題に適用する。

Hamiltonian encoding is a methodology for revealing the mechanism behind the dynamics governing controlled quantum systems. In this paper, following Mitra and Rabitz [Phys. Rev. A 67, 033407 (2003)], we define mechanism via pathways of eigenstates that describe the evolution of the system, where each pathway is associated with a complex-valued amplitude corresponding to a term in the Dyson series. The evolution of the system is determined by the constructive and destructive interference of these pathway amplitudes. Pathways with similar attributes can be grouped together into pathway classes. The amplitudes of pathway classes are computed by modulating the Hamiltonian matrix elements and decoding the subsequent evolution of the system rather than by direct computation of the individual terms in the Dyson series. The original implementation of Hamiltonian encoding was computationally intensive and became prohibitively expensive in large quantum systems. This paper presents two new encoding algorithms that calculate the amplitudes of pathway classes by using techniques from graph theory and algebraic topology to exploit patterns in the set of allowed transitions, greatly reducing the number of matrix elements that need to be modulated. These new algorithms provide an exponential decrease in both computation time and memory utilization with respect to the Hilbert space dimension of the system. To demonstrate the use of these techniques, they are applied to two illustrative state-to-state transition problems.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# 創造性はチャットを去った: 言語モデルのデバイアスの価格

Creativity Has Left the Chat: The Price of Debiasing Language Models ( http://arxiv.org/abs/2406.05587v1 )

ライセンス: Link先を確認
Behnam Mohammadi, (参考訳) 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスを示し、有害なコンテンツを生成する可能性がある。 Reinforcement Learning from Human Feedback (RLHF)のようなアライメント技術はこれらの問題を軽減しますが、それらの創造性への影響は、統語的および意味的な多様性として定義されています。 Llama-2シリーズに着目した3つの実験により,LLHFのLLMの創造性に対する意図しない影響について検討した。 その結果, 整列モデルでは, トークン予測のエントロピーが低く, 埋め込み空間の異なるクラスタを形成し, 限られた出力の多様性を示す「トラクタ状態」に向かってグラビテーションしていることがわかった。 我々の発見は、コピーライティング、広告作成、顧客ペルソナ生成といったクリエイティブなタスクにLLMを頼っているマーケターにとって大きな意味を持つ。 整合したモデルにおける一貫性と創造性の間のトレードオフは、与えられたアプリケーションに適したモデルを選択する際に慎重に考慮する必要がある。 また,ベースモデルの創造的可能性を活用する上で,迅速なエンジニアリングの重要性についても論じる。

Large Language Models (LLMs) have revolutionized natural language processing but can exhibit biases and may generate toxic content. While alignment techniques like Reinforcement Learning from Human Feedback (RLHF) reduce these issues, their impact on creativity, defined as syntactic and semantic diversity, remains unexplored. We investigate the unintended consequences of RLHF on the creativity of LLMs through three experiments focusing on the Llama-2 series. Our findings reveal that aligned models exhibit lower entropy in token predictions, form distinct clusters in the embedding space, and gravitate towards "attractor states", indicating limited output diversity. Our findings have significant implications for marketers who rely on LLMs for creative tasks such as copywriting, ad creation, and customer persona generation. The trade-off between consistency and creativity in aligned models should be carefully considered when selecting the appropriate model for a given application. We also discuss the importance of prompt engineering in harnessing the creative potential of base models.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# CERET: テキスト生成におけるコスト効果の極小化

CERET: Cost-Effective Extrinsic Refinement for Text Generation ( http://arxiv.org/abs/2406.05588v1 )

ライセンス: Link先を確認
Jason Cai, Hang Su, Monica Sunkara, Igor Shalyminov, Saab Mansour, (参考訳) 大規模言語モデル(LLM)は、生成タスクのための強力なモデルであるが、最初の試みで良質なアウトプットを生成できない可能性がある。 モデルの微調整とは別に、予測精度と品質を改善する既存のアプローチは、一般的に、モデル自体からのフィードバックを取り入れた自己改善/自己回帰を含む。 有効性にもかかわらず、これらの手法は高い計算コストとスケーラビリティの欠如によって妨げられている。 本研究では,意味的安定性,包摂性,サンプル間不確実性を考慮したテキスト生成手法であるCERETを提案する。 実験結果から、CERETは、抽象的な要約のためのルージュ-1では1.6%、質問応答のためのヒットレートでは3.5%という、さまざまなタスク設定の下で一貫して自己整合性と自己参照ベースラインを上回っていることが示された。 LLM Self-Rerank法と比較して、我々の手法はレイテンシの9.4%しか必要とせず、費用対効果が高い。

Large Language Models (LLMs) are powerful models for generation tasks, but they may not generate good quality outputs in their first attempt. Apart from model fine-tuning, existing approaches to improve prediction accuracy and quality typically involve LLM self-improvement / self-reflection that incorporate feedback from models themselves. Despite their effectiveness, these methods are hindered by their high computational cost and lack of scalability. In this work, we propose CERET, a method for refining text generations by considering semantic stability, entailment and inter-sample uncertainty measures. Experimental results show that CERET outperforms Self-consistency and Self-rerank baselines consistently under various task setups, by ~1.6% in Rouge-1 for abstractive summarization and ~3.5% in hit rate for question answering. Compared to LLM Self-rerank method, our approach only requires 9.4% of its latency and is more cost-effective.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# NYU CTFデータセット: 攻撃的セキュリティでLLMを評価するためのスケーラブルなオープンソースベンチマークデータセット

NYU CTF Dataset: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security ( http://arxiv.org/abs/2406.05590v1 )

ライセンス: Link先を確認
Minghao Shao, Sofija Jancheska, Meet Udeshi, Brendan Dolan-Gavitt, Haoran Xi, Kimberly Milner, Boyuan Chen, Max Yin, Siddharth Garg, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Muhammad Shafique, (参考訳) 大規模言語モデル(LLM)は現在、さまざまなドメインにデプロイされています。 しかし、サイバーセキュリティにおけるCapture the Flag(CTF)の課題を解決する能力は、十分に評価されていない。 そこで我々は,これらのアプリケーションに特化して設計された,スケーラブルでオープンソースのベンチマークデータベースを作成することで,CTFの課題を解決する上で,LCMを評価する新しい手法を開発した。 このデータベースは、LLMテストと適応学習のためのメタデータを含み、人気のあるコンペからさまざまなCTF課題をコンパイルする。 LLMの高度な機能呼び出し機能を利用することで、ワークフローを強化し、外部ツールコールをサポートする完全に自動化されたシステムを構築する。 ベンチマークデータセットと自動フレームワークにより,ブラックボックスモデルとオープンソースモデルの両方を含む5つのLCMの性能を評価することができる。 この研究は、対話型サイバーセキュリティタスクと自動タスク計画におけるLCMの効率を改善するための将来の研究の基盤となる。 特殊なデータセットを提供することで、LLMベースの脆弱性検出と解決のためのアプローチを開発し、テストし、精錬するための理想的なプラットフォームを提供します。 これらの課題に対するLCMの評価と人間のパフォーマンスの比較は、現実の脅威管理を実行するためのAI駆動型サイバーセキュリティソリューションの可能性についての洞察を与える。 データセットを公開 https://github.com/NYU-LLM-CTF/LLM_CTF_Database と遊び場の自動フレームワーク https://github.com/NYU-LLM-CTF/llm_ctf_automation に公開しています。

Large Language Models (LLMs) are being deployed across various domains today. However, their capacity to solve Capture the Flag (CTF) challenges in cybersecurity has not been thoroughly evaluated. To address this, we develop a novel method to assess LLMs in solving CTF challenges by creating a scalable, open-source benchmark database specifically designed for these applications. This database includes metadata for LLM testing and adaptive learning, compiling a diverse range of CTF challenges from popular competitions. Utilizing the advanced function calling capabilities of LLMs, we build a fully automated system with an enhanced workflow and support for external tool calls. Our benchmark dataset and automated framework allow us to evaluate the performance of five LLMs, encompassing both black-box and open-source models. This work lays the foundation for future research into improving the efficiency of LLMs in interactive cybersecurity tasks and automated task planning. By providing a specialized dataset, our project offers an ideal platform for developing, testing, and refining LLM-based approaches to vulnerability detection and resolution. Evaluating LLMs on these challenges and comparing with human performance yields insights into their potential for AI-driven cybersecurity solutions to perform real-world threat management. We make our dataset open source to public https://github.com/NYU-LLM-CTF/LLM_CTF_Database along with our playground automated framework https://github.com/NYU-LLM-CTF/llm_ctf_automation.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# 説明可能な医用画像分類に向けた視覚概念による人間の知識の調整

Aligning Human Knowledge with Visual Concepts Towards Explainable Medical Image Classification ( http://arxiv.org/abs/2406.05596v1 )

ライセンス: Link先を確認
Yunhe Gao, Difei Gu, Mu Zhou, Dimitris Metaxas, (参考訳) 臨床診断において説明責任は不可欠であるが、ほとんどの深層学習モデルは意思決定過程を解明することなくブラックボックスとして機能する。 本研究では,明快な診断基準のドメイン知識を融合させることにより,人的専門家の意思決定過程を模倣できる説明可能なモデル開発について検討する。 本稿では,説明可能な言語インフォームド基準に基づく診断に向けて,シンプルで効果的なフレームワークであるExplicdを紹介した。 Explicdは、さまざまな概念軸(例えば、色、形、テクスチャ、または病気の特定のパターン)の診断基準を確立するために、大きな言語モデル(LLM)または人間の専門家からドメイン知識をクエリすることで、そのプロセスを開始する。 事前訓練された視覚言語モデルを活用することにより、Explicdはこれらの基準を知識アンカーとして埋め込み空間に注入し、医用画像内の対応する視覚概念の学習を容易にする。 最終的な診断結果は、符号化された視覚概念とテキストの基準埋め込みとの類似度スコアに基づいて決定される。 5つの医用画像分類ベンチマークの広範な評価を通じて、Explicdはその固有の説明可能性を示し、従来のブラックボックスモデルと比較して分類性能を向上させるように拡張した。

Although explainability is essential in the clinical diagnosis, most deep learning models still function as black boxes without elucidating their decision-making process. In this study, we investigate the explainable model development that can mimic the decision-making process of human experts by fusing the domain knowledge of explicit diagnostic criteria. We introduce a simple yet effective framework, Explicd, towards Explainable language-informed criteria-based diagnosis. Explicd initiates its process by querying domain knowledge from either large language models (LLMs) or human experts to establish diagnostic criteria across various concept axes (e.g., color, shape, texture, or specific patterns of diseases). By leveraging a pretrained vision-language model, Explicd injects these criteria into the embedding space as knowledge anchors, thereby facilitating the learning of corresponding visual concepts within medical images. The final diagnostic outcome is determined based on the similarity scores between the encoded visual concepts and the textual criteria embeddings. Through extensive evaluation of five medical image classification benchmarks, Explicd has demonstrated its inherent explainability and extends to improve classification performance compared to traditional black-box models.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# 量子学習制御による線形ガウス量子系の最適制御

Optimal control of linear Gaussian quantum systems via quantum learning control ( http://arxiv.org/abs/2406.05597v1 )

ライセンス: Link先を確認
Yu-Hong Liu, Yexiong Zeng, Qing-Shou Tan, Daoyi Dong, Franco Nori, Jie-Qiao Liao, (参考訳) 線形ガウス量子(LGQ)系を効率的に制御することは、基本量子論の研究と近代量子技術の発展において重要な課題である。 本稿では、勾配差分法に基づくLGQシステムを最適に制御するための一般的な量子学習制御法を提案する。 本稿では,LGQシステムの量子状態を完全に記述した1次および2次モーメントを利用して,多様なタスクに対する損失関数を柔軟に設計する。 本手法を用いて, 深部光機械冷却と大規模光機械絡み合わせの両面を実証する。 本手法は, 連続波駆動強結合系におけるサイドバンド冷却の限界を克服し, 機械共振器の高速かつ深い地中冷却を短時間で実現する。 さらに、熱フォノンの占有が100に達する場合でも、光学的絡み合いは著しく速く発生し、対応する定常絡み合いの数倍を超える可能性がある。 この研究は、量子学習制御の適用を広げるだけでなく、LGQシステムの最適制御のための道を開く。

Efficiently controlling linear Gaussian quantum (LGQ) systems is a significant task in both the study of fundamental quantum theory and the development of modern quantum technology. Here, we propose a general quantum-learning-control method for optimally controlling LGQ systems based on the gradient-descent algorithm. Our approach flexibly designs the loss function for diverse tasks by utilizing first- and second-order moments that completely describe the quantum state of LGQ systems. We demonstrate both deep optomechanical cooling and large optomechanical entanglement using this approach. Our approach enables the fast and deep ground-state cooling of a mechanical resonator within a short time, surpassing the limitations of sideband cooling in the continuous-wave driven strong-coupling regime. Furthermore, optomechanical entanglement could be generated remarkably fast and surpass several times the corresponding steady-state entanglement, even when the thermal phonon occupation reaches one hundred. This work will not only broaden the application of quantum learning control, but also open an avenue for optimal control of LGQ systems.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# 最大テンス画像による抑制の理解

Understanding Inhibition Through Maximally Tense Images ( http://arxiv.org/abs/2406.05598v1 )

ライセンス: Link先を確認
Chris Hamblin, Srijani Saha, Talia Konkle, George Alvarez, (参考訳) 視覚モデルにおける「機能的抑制」の機能的役割、すなわち、ニューラルネットワークが特定の特徴を表現していないことを確実にするメカニズムは何か。 ReLUアクティベーション関数によって導入された非対称性を考えると、文献における標準的な解釈可能性ツールは、直ちに阻害ケースに適合しない。 そこで本稿では,与えられた特徴を同時に励起・抑制する「最大緊張画像」(MTI)を用いて,抑制の理解を提案する。 本稿では,MTIを2つの新しい可視化手法,+/- 帰属インバージョンにより,単一画像を興奮成分と抑制成分に分割する,+/- 帰属アトラスと,画像を興奮・抑制する様々な方法のグローバルな可視化を提供する,属性アトラスについて述べる。 最後に,重ね合わせによってもたらされる困難を考察し,干渉特徴がMTIと同一の帰属モチーフを誘導することを示した。

We address the functional role of 'feature inhibition' in vision models; that is, what are the mechanisms by which a neural network ensures images do not express a given feature? We observe that standard interpretability tools in the literature are not immediately suited to the inhibitory case, given the asymmetry introduced by the ReLU activation function. Given this, we propose inhibition be understood through a study of 'maximally tense images' (MTIs), i.e. those images that excite and inhibit a given feature simultaneously. We show how MTIs can be studied with two novel visualization techniques; +/- attribution inversions, which split single images into excitatory and inhibitory components, and the attribution atlas, which provides a global visualization of the various ways images can excite/inhibit a feature. Finally, we explore the difficulties introduced by superposition, as such interfering features induce the same attribution motif as MTIs.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# 信頼できない成分をもつ信頼性量子メモリ

Reliable Quantum Memories with Unreliable Components ( http://arxiv.org/abs/2406.05599v1 )

ライセンス: Link先を確認
Anuj K. Nayak, Eric Chitambar, Lav R. Varshney, (参考訳) 量子メモリシステムは、量子状態の信頼性のある記憶と検索のための量子情報処理において不可欠である。 信頼できないコンポーネントから信頼性の高い計算システムを合成する古典的信頼性理論に触発され、ノイズのあるコンポーネントを用いて量子情報の信頼性保持の問題が定式化される。 安定な量子メモリの概念を導入し,物理量子ビットの総数に対する論理量子ビット数の比と,量子ゲートと測定の両方を含むデコーダの回路複雑性を定義する。 量子展開器符号を用いた量子メモリシステムを構築することにより、厳密な正の記憶率が得られることを示す。 さらに、信頼性ストレージ問題を信頼性量子通信に還元することにより、達成可能なストレージ容量の上限を提供する。 超収縮条件を満たす雑音で劣化した物理量子ビットの場合、エントロピー散逸引数を用いて、記憶容量により強い上限を与える。 さらに、デコーダの時間複雑性が物理量子ビット数と非自明にスケールすることを確認すると、物理量子ビット数へのノイズの誘導による漸近速度の達成は不可能である。 この制約付き非漸近的設定では、有限ブロック長通信境界を用いて記憶容量上の上限を導出する。 最後に,無症候性症例と非無症候性症例の上部境界と下部境界のギャップを数値的に解析し,そのギャップを狭めることを提案する。

Quantum memory systems are vital in quantum information processing for dependable storage and retrieval of quantum states. Inspired by classical reliability theories that synthesize reliable computing systems from unreliable components, we formalize the problem of reliable storage of quantum information using noisy components. We introduce the notion of stable quantum memories and define the storage rate as the ratio of the number of logical qubits to the total number of physical qubits, as well as the circuit complexity of the decoder, which includes both quantum gates and measurements. We demonstrate that a strictly positive storage rate can be achieved by constructing a quantum memory system with quantum expander codes. Moreover, by reducing the reliable storage problem to reliable quantum communication, we provide upper bounds on the achievable storage capacity. In the case of physical qubits corrupted by noise satisfying hypercontractivity conditions, we provide a tighter upper bound on storage capacity using an entropy dissipation argument. Furthermore, observing that the time complexity of the decoder scales non-trivially with the number of physical qubits, achieving asymptotic rates may not be possible due to the induced dependence of the noise on the number of physical qubits. In this constrained non-asymptotic setting, we derive upper bounds on storage capacity using finite blocklength communication bounds. Finally, we numerically analyze the gap between upper and lower bounds in both asymptotic and non-asymptotic cases, and provide suggestions to tighten the gap.
翻訳日:2024-06-11 19:06:24 公開日:2024-06-08
# FAIntbench: テキスト・画像モデルにおけるバイアス評価のための完全かつ高精度なベンチマーク

FAIntbench: A Holistic and Precise Benchmark for Bias Evaluation in Text-to-Image Models ( http://arxiv.org/abs/2405.17814v3 )

ライセンス: Link先を確認
Hanjun Luo, Ziye Deng, Ruizhe Chen, Zuozhu Liu, (参考訳) テキスト・ツー・イメージ(T2I)モデルへの急速な開発と参入障壁の低減は、出力のバイアスに関する懸念を提起しているが、既存の研究ではバイアスの全体的定義と評価の枠組みが欠如しており、デバイアス手法の強化が制限されている。 この問題に対処するために、我々はT2Iモデルにおけるバイアスの総合的かつ正確なベンチマークであるFAIntbenchを紹介する。 限定的な側面でバイアスを評価する既存のベンチマークとは対照的に、FAIntbenchはバイアスの表示、バイアスの可視性、取得された属性、保護された属性の4つの次元からバイアスを評価する。 FAIntbenchを7種類の大規模T2Iモデル評価に適用し, 各種バイアスの同定にFAIntbenchの有効性を実証した。 また, 蒸留の副作用など, バイアスに関する新たな研究課題も明らかにした。 この結果は予備的であり、T2Iモデルのバイアスを軽減することを目的とした将来の研究を進めるためのFAIntbenchの可能性を強調している。 私たちのベンチマークは再現性を確保するために公開されています。

The rapid development and reduced barriers to entry for Text-to-Image (T2I) models have raised concerns about the biases in their outputs, but existing research lacks a holistic definition and evaluation framework of biases, limiting the enhancement of debiasing techniques. To address this issue, we introduce FAIntbench, a holistic and precise benchmark for biases in T2I models. In contrast to existing benchmarks that evaluate bias in limited aspects, FAIntbench evaluate biases from four dimensions: manifestation of bias, visibility of bias, acquired attributes, and protected attributes. We applied FAIntbench to evaluate seven recent large-scale T2I models and conducted human evaluation, whose results demonstrated the effectiveness of FAIntbench in identifying various biases. Our study also revealed new research questions about biases, including the side-effect of distillation. The findings presented here are preliminary, highlighting the potential of FAIntbench to advance future research aimed at mitigating the biases in T2I models. Our benchmark is publicly available to ensure the reproducibility.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-08
# エッジコンピューティングにおける無線LLM推論のための適応層分割:モデルに基づく強化学習アプローチ

Adaptive Layer Splitting for Wireless LLM Inference in Edge Computing: A Model-Based Reinforcement Learning Approach ( http://arxiv.org/abs/2406.02616v3 )

ライセンス: Link先を確認
Yuxuan Chen, Rongpeng Li, Xiaoxue Yu, Zhifeng Zhao, Honggang Zhang, (参考訳) エッジコンピューティング環境における大規模言語モデル(LLM)のデプロイの最適化は、プライバシと計算効率の向上に不可欠である。 本研究は,エッジコンピューティングにおける効率的な無線LLM推論に向けて,主要なオープンソースLLMにおける分割点の影響を包括的に分析する。 そこで本研究では,モデルベース強化学習(MBRL)からインスピレーションを得て,エッジとユーザ機器(UE)間の最適分割点を決定するフレームワークを提案する。 報酬代理モデルを導入することで、頻繁な性能評価の計算コストを大幅に削減できる。 大規模シミュレーションにより, この手法は, 異なるネットワーク条件下での推論性能と計算負荷のバランスを効果的に保ち, 分散環境におけるLLM配置の堅牢なソリューションを提供することを示した。

Optimizing the deployment of large language models (LLMs) in edge computing environments is critical for enhancing privacy and computational efficiency. Toward efficient wireless LLM inference in edge computing, this study comprehensively analyzes the impact of different splitting points in mainstream open-source LLMs. On this basis, this study introduces a framework taking inspiration from model-based reinforcement learning (MBRL) to determine the optimal splitting point across the edge and user equipment (UE). By incorporating a reward surrogate model, our approach significantly reduces the computational cost of frequent performance evaluations. Extensive simulations demonstrate that this method effectively balances inference performance and computational load under varying network conditions, providing a robust solution for LLM deployment in decentralized settings.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-08
# 凸ニューラルネットワークのためのランダム化幾何代数法

Randomized Geometric Algebra Methods for Convex Neural Networks ( http://arxiv.org/abs/2406.02806v2 )

ライセンス: Link先を確認
Yifei Wang, Sungyoon Kim, Paul Chu, Indu Subramaniam, Mert Pilanci, (参考訳) 我々はクリフォードの幾何代数にランダム化アルゴリズムを導入し、超複素ベクトル空間にランダム化線形代数を一般化する。 この新しいアプローチは、凸最適化によるグローバル最適性へのニューラルネットワークのトレーニングを含む、機械学習に多くの意味を持つ。 さらに,幾何代数学と現代AI技術の交わりを探求するため,LLM埋め込みを重要な応用分野として検討する。 特に,従来の手法を用いたOpenAI GPTモデルやBERTなどの埋め込みによる移動学習の堅牢性の比較分析を行い,凸最適化に基づく新しい手法を提案する。 我々は,様々なケーススタディに対して,異なる埋め込み(GPT-4,BERT埋め込み)と異なるテキスト分類データセット(IMDb,Amazon Polarity Dataset,GLUE)を多種多様なハイパーパラメータ設定で適用し,凸最適化伝達学習手法をテストする。 その結果、凸最適化と幾何代数学はLLMの性能を高めるだけでなく、埋め込みによるより安定で信頼性の高い伝達学習法を提供することを示した。

We introduce randomized algorithms to Clifford's Geometric Algebra, generalizing randomized linear algebra to hypercomplex vector spaces. This novel approach has many implications in machine learning, including training neural networks to global optimality via convex optimization. Additionally, we consider fine-tuning large language model (LLM) embeddings as a key application area, exploring the intersection of geometric algebra and modern AI techniques. In particular, we conduct a comparative analysis of the robustness of transfer learning via embeddings, such as OpenAI GPT models and BERT, using traditional methods versus our novel approach based on convex optimization. We test our convex optimization transfer learning method across a variety of case studies, employing different embeddings (GPT-4 and BERT embeddings) and different text classification datasets (IMDb, Amazon Polarity Dataset, and GLUE) with a range of hyperparameter settings. Our results demonstrate that convex optimization and geometric algebra not only enhances the performance of LLMs but also offers a more stable and reliable method of transfer learning via embeddings.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-08
# 性能保証を用いたリスク回避型PMDPの簡易化

Simplification of Risk Averse POMDPs with Performance Guarantees ( http://arxiv.org/abs/2406.03000v2 )

ライセンス: Link先を確認
Yaacov Pariente, Vadim Indelman, (参考訳) 部分的に観測可能な領域における不確実性の下でのリスク回避意思決定は、AIの基本的問題であり、信頼性の高い自律エージェントにとって不可欠である。 この場合、値関数がリターンの条件値(CVaR)である場合、問題は部分的に観測可能なマルコフ決定プロセス(POMDP)を用いてモデル化される。 POMDPの最適解を計算することは、一般に計算的に計算可能である。 本研究では,性能保証を提供しながら,値関数の評価を高速化する簡易化フレームワークを開発する。 計算的に安価な信念-MDP遷移モデルを単純化し、例えば、より安価な観測モデルや遷移モデルに対応できると考えている。 我々の貢献は、確率変数 Y を用いて確率変数 X の CVaR の有界化を可能にする CVaR の一般境界を含む。 次に,POMDP設定におけるCVaR値関数のバウンダリを導出し,計算コストの低いMDP遷移モデルを用いて,計算コストのかかるモデルにリアルタイムでアクセスすることなく,値関数をバウンダリする方法を示す。 次に,推定値に対する理論的性能保証を行う。 本研究は,信念-MDP遷移モデルの一般化と,観測モデルと状態遷移モデルの両方を同時に簡易化するためのものである。

Risk averse decision making under uncertainty in partially observable domains is a fundamental problem in AI and essential for reliable autonomous agents. In our case, the problem is modeled using partially observable Markov decision processes (POMDPs), when the value function is the conditional value at risk (CVaR) of the return. Calculating an optimal solution for POMDPs is computationally intractable in general. In this work we develop a simplification framework to speedup the evaluation of the value function, while providing performance guarantees. We consider as simplification a computationally cheaper belief-MDP transition model, that can correspond, e.g., to cheaper observation or transition models. Our contributions include general bounds for CVaR that allow bounding the CVaR of a random variable X, using a random variable Y, by assuming bounds between their cumulative distributions. We then derive bounds for the CVaR value function in a POMDP setting, and show how to bound the value function using the computationally cheaper belief-MDP transition model and without accessing the computationally expensive model in real-time. Then, we provide theoretical performance guarantees for the estimated bounds. Our results apply for a general simplification of a belief-MDP transition model and support simplification of both the observation and state transition models simultaneously.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-08
# AIリアリズムを復活させるために参加型設計を再構成する

Reconfiguring Participatory Design to Resist AI Realism ( http://arxiv.org/abs/2406.03245v2 )

ライセンス: Link先を確認
Aakash Gautam, (参考訳) 社会的および技術的な問題に対する解決策としての人工知能(AI)のトレンドは、AIリアリズムを強化する -- AIは必然的で自然な秩序である、という信念だ。 本稿では、民主的価値とプロセスに焦点をあてた参加型デザイン(PD)が、AIリアリズムに疑問を呈し抵抗する役割を担っていることを論じる。 AIリアリズムの3つの側面について検討する:真のエンパワーメントを欠く民主化のファサード、AIシステムの柔軟性とは対照的に人間の適応性への要求、AIシステムを実現する不可欠な人間労働の難しさ。 PDを再構成して価値中心のビジョンへの関与を継続し、AI以外の選択肢を探究し、AIシステムを目に見えるものにすることで、AIリアリズムに抵抗することを提案する。 私はPDを、人間のニーズと価値観を中心とした、AIリアリズムとオープンスペースとの摩擦を生み出す手段として位置づけています。

The growing trend of artificial intelligence (AI) as a solution to social and technical problems reinforces AI Realism -- the belief that AI is an inevitable and natural order. In response, this paper argues that participatory design (PD), with its focus on democratic values and processes, can play a role in questioning and resisting AI Realism. I examine three concerning aspects of AI Realism: the facade of democratization that lacks true empowerment, demands for human adaptability in contrast to AI systems' inflexibility, and the obfuscation of essential human labor enabling the AI system. I propose resisting AI Realism by reconfiguring PD to continue engaging with value-centered visions, increasing its exploration of non-AI alternatives, and making the essential human labor underpinning AI systems visible. I position PD as a means to generate friction against AI Realism and open space for alternative futures centered on human needs and values.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-08
# 言語モデルは文脈で何を学ぶか? : 構造的タスク仮説

What Do Language Models Learn in Context? The Structured Task Hypothesis ( http://arxiv.org/abs/2406.04216v2 )

ライセンス: Link先を確認
Jiaoda Li, Yifan Hou, Mrinmaya Sachan, Ryan Cotterell, (参考訳) 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する興味深い能力を示す。 当然のことながら、ICLの根底にある理論の解明に多くの研究が費やされている。 一般的な仮説の一つは、タスク選択によるICLの説明である。 LLMはデモに基づいてタスクを特定し、それをプロンプトに一般化する。 もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。 最後に、第3の仮説では、LCMは実演を使用してICLを実行するために事前学習中に学んだタスクの合成を選択する。 本稿では,これら3つの仮説を実証的に検証し,LLMが文脈で学習する能力を説明する。 我々は、最初の2つの仮説を反例で無効化し、最後の仮説を支持する証拠を提供する。 この結果から,LLMは事前学習中に学習したタスクを合成することで,文脈において新しいタスクを学習できる可能性が示唆された。

Large language models (LLMs) exhibit an intriguing ability to learn a novel task from in-context examples presented in a demonstration, termed in-context learning (ICL). Understandably, a swath of research has been dedicated to uncovering the theories underpinning ICL. One popular hypothesis explains ICL by task selection. LLMs identify the task based on the demonstration and generalize it to the prompt. Another popular hypothesis is that ICL is a form of meta-learning, i.e., the models learn a learning algorithm at pre-training time and apply it to the demonstration. Finally, a third hypothesis argues that LLMs use the demonstration to select a composition of tasks learned during pre-training to perform ICL. In this paper, we empirically explore these three hypotheses that explain LLMs' ability to learn in context with a suite of experiments derived from common text classification tasks. We invalidate the first two hypotheses with counterexamples and provide evidence in support of the last hypothesis. Our results suggest an LLM could learn a novel task in context via composing tasks learned during pre-training.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-08
# バイスタブルレジームにおけるオプトメカニカルバックアクション

Optomechanical Backaction in the Bistable Regime ( http://arxiv.org/abs/2406.04217v2 )

ライセンス: Link先を確認
L. F. Deeg, D. Zoepfl, N. Diaz-Naufal, M. L. Juan, A. Metelmann, G. Kirchmair, (参考訳) 様々な実現法により、光力学はその光物質相互作用を利用して基礎物理学をテストする。 メカニカル共振器のフォノンを高品質なキャビティ内の光子に結合することにより、ますますマクロな物体の制御が可能になった。 このようなシステムでは、キャビティを駆動することで、メカニカルモードの状態操作を実現する。 高い駆動力を達成するために、システムは典型的には、駆動時に線形応答状態に留まるように設計されている。 駆動キャビティにおける非線形応答、特に不安定性は、オプトメカニカルシステムにおける冷却と状態調整に有害であると考えられ、実験では避けられる。 ここでは,機械共振器の固有非線形空洞バックアクション冷却は,空洞の非線形状態内で深く動作可能であることを示す。 非線形性を考慮に入れた理論により、キャビティ光子数スペクトルが典型的なローレンツ形状から逸脱し始める分岐点を超えても、バックアクション冷却の正確な予測が達成できる。

With a variety of realisations, optomechanics utilizes its light matter interaction to test fundamental physics. By coupling the phonons of a mechanical resonator to the photons in a high quality cavity, control of increasingly macroscopic objects has become feasible. In such systems, state manipulation of the mechanical mode is achieved by driving the cavity. To be able to achieve high drive powers the system is typically designed such that it remains in a linear response regime when driven. A nonlinear response and especially bistability in a driven cavity is often considered detrimentally to cooling and state preparation in optomechanical systems and is avoided in experiments. Here we show, that with an intrinsic nonlinear cavity backaction cooling of a mechanical resonator is feasible operating deeply within the nonlinear regime of the cavity. With our theory taking the nonlinearity into account, precise predictions on backaction cooling can be achieved even with a cavity beyond the bifurcation point, where the cavity photon number spectrum starts to deviate from a typical Lorentzian shape.
翻訳日:2024-06-11 12:14:33 公開日:2024-06-08
# コヒーレントゼロショットビジュアルインストラクション生成

Coherent Zero-Shot Visual Instruction Generation ( http://arxiv.org/abs/2406.04337v2 )

ライセンス: Link先を確認
Quynh Phung, Songwei Ge, Jia-Bin Huang, (参考訳) テキストと画像の合成、特に拡散モデルでは進歩しているにもかかわらず、連続的なステップをまたいだオブジェクトの一貫性のある表現と滑らかな状態遷移を必要とする視覚的命令を生成することは、非常に難しい課題である。 本稿では,拡散モデルと大規模言語モデル(LLM)の進歩に乗じて,この問題に対処するためのシンプルな学習自由フレームワークを提案する。 提案手法はテキスト理解と画像生成を体系的に統合し,視覚的命令が命令シーケンスを通して視覚的にアピールし,一貫性と精度を維持する。 複数ステップの命令をテストし、テキストアライメントと一貫性をいくつかのベースラインと比較することにより、有効性を検証する。 我々の実験は、我々のアプローチがコヒーレントで視覚的に喜ばしい指示を可視化できることを示します。

Despite the advances in text-to-image synthesis, particularly with diffusion models, generating visual instructions that require consistent representation and smooth state transitions of objects across sequential steps remains a formidable challenge. This paper introduces a simple, training-free framework to tackle the issues, capitalizing on the advancements in diffusion models and large language models (LLMs). Our approach systematically integrates text comprehension and image generation to ensure visual instructions are visually appealing and maintain consistency and accuracy throughout the instruction sequence. We validate the effectiveness by testing multi-step instructions and comparing the text alignment and consistency with several baselines. Our experiments show that our approach can visualize coherent and visually pleasing instructions
翻訳日:2024-06-11 12:14:33 公開日:2024-06-08