このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240821となっている論文です。

PDF登録状況(公開日: 20240821)

TitleAuthorsAbstract論文公表日・翻訳日
# スライディングウィンドウトレーニング - 基礎モデルのための歴史的レコメンダシステムデータの利用

Sliding Window Training -- Utilizing Historical Recommender Systems Data for Foundation Models ( http://arxiv.org/abs/2409.14517v1 )

ライセンス: Link先を確認
Swanand Joshi, Yesu Feng, Ko-Jen Hsiao, Zhe Zhang, Sudarshan Lamkhede, (参考訳) 長寿命のレコメンデータシステム(RecSys)は、長年にわたる長いユーザとイテムのインタラクション履歴に遭遇することが多い。 長期的ユーザの好みを効果的に学習するためには、FM(Large RecSys foundation model)が事前学習時にこの情報をエンコードする必要がある。 通常、これは、すべての履歴シーケンスを大きなモデル入力次元のコストで入力として取るのに十分な長さのシーケンスを生成するか、あるいは、本番サービス側でモデルサイズと遅延要件を満たすために、ユーザ履歴の一部をドロップする、のいずれかによって行われる。 本稿では、モデル入力次元を増大させることなく、トレーニング時間中に長いユーザ履歴シーケンスを組み込むスライディングウィンドウトレーニング手法を提案する。 本稿では,この手法が長期学習におけるRecSys FMにもたらす量的・質的な改善について述べる。 また,事前学習で学習した項目の平均品質も向上することを示した。

Long-lived recommender systems (RecSys) often encounter lengthy user-item interaction histories that span many years. To effectively learn long term user preferences, Large RecSys foundation models (FM) need to encode this information in pretraining. Usually, this is done by either generating a long enough sequence length to take all history sequences as input at the cost of large model input dimension or by dropping some parts of the user history to accommodate model size and latency requirements on the production serving side. In this paper, we introduce a sliding window training technique to incorporate long user history sequences during training time without increasing the model input dimension. We show the quantitative & qualitative improvements this technique brings to the RecSys FM in learning user long term preferences. We additionally show that the average quality of items in the catalog learnt in pretraining also improves.
翻訳日:2024-11-06 22:19:40 公開日:2024-08-21
# 複合集合体の表現学習 : コーポレートスコープ3エミッション計算の改善に向けて

Representation Learning of Complex Assemblies, An Effort to Improve Corporate Scope 3 Emissions Calculation ( http://arxiv.org/abs/2409.03769v1 )

ライセンス: Link先を確認
Ajay Chatterjee, Srikanth Ranganathan, (参考訳) 気候変動は、政府、企業、市民にとって、世界的に懸念されている。 この懸念は、これらの団体が製造品の気候への影響を正確に評価し、サービスを提供することの必要性を浮き彫りにしている。 プロセスライフサイクル分析(英語版) (pLCA) のようなツールは、生産、使用、廃棄の気候への影響を生鉱から終生まで評価するために用いられる。 pLCAはまた、実践者が個々の部品、サブアセンブリ、アセンブリ、最終製品に対する材料選択や製造プロセスについて深く調べることを可能にする。 研究中の製品やサービスのライフサイクルの段階やプロセスに関する信頼性と詳細なデータは、必ずしも利用可能あるいはアクセス可能であるとは限らない。 データ制限を克服し、pLCAによる環境影響プロファイルの改善効果を高めるため、我々は、その形態、機能、性能の面で類似点を共有する代替部品、製品、部品を識別し、適切な代替品として機能する革新的な戦略を採用しています。 企業電子ハードウェアに着目し,製品請求書(BOM)データと少量のコンポーネントレベルの適格代用データ(正サンプル)を活用して,機械知識グラフ(MKG)を生成し,電子ハードウェアを構成するコンポーネントの効果的な埋め込みを学習する,半教師付き学習ベースのフレームワークを提案する。 提案手法は属性グラフの埋め込みに基礎を置いており, 偏りのある負のサンプルを生成し, トレーニングプロセスを大幅に強化する戦略を導入している。 既存のモデルよりも優れた性能と一般化を実証する。

Climate change is a pressing global concern for governments, corporations, and citizens alike. This concern underscores the necessity for these entities to accurately assess the climate impact of manufacturing goods and providing services. Tools like process life cycle analysis (pLCA) are used to evaluate the climate impact of production, use, and disposal, from raw material mining through end-of-life. pLCA further enables practitioners to look deeply into material choices or manufacturing processes for individual parts, sub-assemblies, assemblies, and the final product. Reliable and detailed data on the life cycle stages and processes of the product or service under study are not always available or accessible, resulting in inaccurate assessment of climate impact. To overcome the data limitation and enhance the effectiveness of pLCA to generate an improved environmental impact profile, we are adopting an innovative strategy to identify alternative parts, products, and components that share similarities in terms of their form, function, and performance to serve as qualified substitutes. Focusing on enterprise electronics hardware, we propose a semi-supervised learning-based framework to identify substitute parts that leverages product bill of material (BOM) data and a small amount of component-level qualified substitute data (positive samples) to generate machine knowledge graph (MKG) and learn effective embeddings of the components that constitute electronic hardware. Our methodology is grounded in attributed graph embeddings and introduces a strategy to generate biased negative samples to significantly enhance the training process. We demonstrate improved performance and generalization over existing published models.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-21
# MRIにおけるXAIマップによるMS病変のセグメンテーションと検出の改善

Exploiting XAI maps to improve MS lesion segmentation and detection in MRI ( http://arxiv.org/abs/2409.03772v1 )

ライセンス: Link先を確認
Federico Spagnolo, Nataliia Molchanova, Mario Ocampo Pineda, Lester Melie-Garcia, Meritxell Bach Cuadra, Cristina Granziera, Vincent Andrearczyk, Adrien Depeursinge, (参考訳) これまで,分類タスクの深層学習アルゴリズムを説明するために,いくつかの手法が開発されてきた。 近年, 多発性硬化症 (MS) 病変のセグメンテーションなどの意味的セグメンテーションシナリオにおいて, インスタンスレベルの説明可能なマップを生成するための2つの手法の適応が提案されている。 以上の研究で、3D U-Netをトレーニングし、MS病変のセグメンテーションの試験を行い、F1スコアは0.7006、PPVは0.6265とした。 説明可能な写像における値の分布は、真と偽陽性(TP/FP)の例のいくつかの違いを露呈した。 これらの結果から着想を得た本論文では,病変特異的な塩分濃度マップの特性を利用してセグメンテーションと検出スコアを洗練させる方法について検討する。 72例(トレーニングセット)のTP/FP病変から約21000点,検査セット中の37例から4868点の地図を作成した。 第1組の地図から抽出した93個の放射能特性を用いて,ロジスティック回帰モデルを訓練し,TPとFPの分類を行った。 テストセットでは, F1スコアとPPVは, 初期モデルと比較して, 0.7450, 0.7817, 95%信頼区間 [0.7358, 0.7547] と [0.7679, 0.7962] で大きく改善した。 これらの結果から, 精度マップを用いて予測スコアを改良し, モデルの性能を向上させることが示唆された。

To date, several methods have been developed to explain deep learning algorithms for classification tasks. Recently, an adaptation of two of such methods has been proposed to generate instance-level explainable maps in a semantic segmentation scenario, such as multiple sclerosis (MS) lesion segmentation. In the mentioned work, a 3D U-Net was trained and tested for MS lesion segmentation, yielding an F1 score of 0.7006, and a positive predictive value (PPV) of 0.6265. The distribution of values in explainable maps exposed some differences between maps of true and false positive (TP/FP) examples. Inspired by those results, we explore in this paper the use of characteristics of lesion-specific saliency maps to refine segmentation and detection scores. We generate around 21000 maps from as many TP/FP lesions in a batch of 72 patients (training set) and 4868 from the 37 patients in the test set. 93 radiomic features extracted from the first set of maps were used to train a logistic regression model and classify TP versus FP. On the test set, F1 score and PPV were improved by a large margin when compared to the initial model, reaching 0.7450 and 0.7817, with 95% confidence intervals of [0.7358, 0.7547] and [0.7679, 0.7962], respectively. These results suggest that saliency maps can be used to refine prediction scores, boosting a model's performances.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-21
# CoPRA:タンパク質-RNA結合親和性予測のための複雑な構造を持つクロスドメイン事前訓練配列モデル

CoPRA: Bridging Cross-domain Pretrained Sequence Models with Complex Structures for Protein-RNA Binding Affinity Prediction ( http://arxiv.org/abs/2409.03773v1 )

ライセンス: Link先を確認
Rong Han, Xiaohong Liu, Tong Pan, Jing Xu, Xiaoyu Wang, Wuyang Lan, Zhenyu Li, Zixuan Wang, Jiangning Song, Guangyu Wang, Ting Chen, (参考訳) 正確なタンパク質-RNA結合親和性の測定は多くの生物学的プロセスや薬物設計において重要である。 タンパク質-RNA結合親和性予測のこれまでの計算方法は、配列または構造の特徴に依存しており、結合機構を包括的に捉えることができない。 近年、タンパク質とRNAの大規模な教師なし配列に基づいて訓練された事前学習言語モデルは、結合部位の予測を含む様々なドメイン内の下流タスクに対して強力な表現能力を示している。 しかし、複雑なタスクに対して異なるドメイン言語モデルを協調的に適用することは、まだ未検討である。 本稿では,タンパク質-RNA結合親和性予測のための複雑構造を用いて,生物ドメインから事前学習した言語モデルをブリッジするCoPRAを提案する。 生物間モーダル言語モデルが結合親和性予測を改善するために協調できることを初めて実証する。 クロスモーダルシーケンスと構造情報を組み合わせたCo-Formerと、Co-Formerのインタラクション理解を改善するためのバイスコープ事前学習戦略を提案する。 一方,タンパク質-RNA結合親和性データセットPRA310を構築,性能評価を行った。 また、変異効果予測のために、我々のモデルを公開データセット上でテストする。 CoPRAはすべてのデータセットで最先端のパフォーマンスに達する。 我々は,(1)タンパク質-RNA結合親和性,(2)変異による結合親和性の変化を正確に予測できること,(3)データのスケーリングとモデルサイズによるメリットを広く分析し,検証する。

Accurately measuring protein-RNA binding affinity is crucial in many biological processes and drug design. Previous computational methods for protein-RNA binding affinity prediction rely on either sequence or structure features, unable to capture the binding mechanisms comprehensively. The recent emerging pre-trained language models trained on massive unsupervised sequences of protein and RNA have shown strong representation ability for various in-domain downstream tasks, including binding site prediction. However, applying different-domain language models collaboratively for complex-level tasks remains unexplored. In this paper, we propose CoPRA to bridge pre-trained language models from different biological domains via Complex structure for Protein-RNA binding Affinity prediction. We demonstrate for the first time that cross-biological modal language models can collaborate to improve binding affinity prediction. We propose a Co-Former to combine the cross-modal sequence and structure information and a bi-scope pre-training strategy for improving Co-Former's interaction understanding. Meanwhile, we build the largest protein-RNA binding affinity dataset PRA310 for performance evaluation. We also test our model on a public dataset for mutation effect prediction. CoPRA reaches state-of-the-art performance on all the datasets. We provide extensive analyses and verify that CoPRA can (1) accurately predict the protein-RNA binding affinity; (2) understand the binding affinity change caused by mutations; and (3) benefit from scaling data and model size.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-21
# ウォーターウェイステージの緩和のためのフェデレートラーニングアプローチ

Federated Learning Approach to Mitigate Water Wastage ( http://arxiv.org/abs/2409.03776v1 )

ライセンス: Link先を確認
Sina Hajer Ahmadi, Amruta Pranadika Mahashabde, (参考訳) 北米における住宅用屋外水の使用は毎日90億ガロン近くを占めており、この水の約50%は過剰な水が原因で、特に芝生や庭園では無駄になっている。 この非効率さは、スマートでデータ駆動型灌水システムの必要性を強調している。 水の無駄を減らす従来のアプローチは、中央集権的なデータ収集と処理に焦点を合わせてきたが、そのような手法はプライバシーの懸念を高め、異なる地域における多様な環境条件を考慮しないかもしれない。 本稿では,住宅・農業環境における水利用を最適化するフェデレート学習に基づくアプローチを提案する。 湿式センサとアクチュエータをエッジデバイスの分散ネットワークに統合することにより,各ユーザは,モデル更新のみを中央サーバと共有しながら,特定の環境データに基づいてモデルをローカルにトレーニングすることができる。 これにより、ユーザのプライバシを保護し、さまざまな条件に適応可能なグローバルモデルの作成が可能になる。 本実装では,Arduino Unoマイクロコントローラや土壌水分センサなど,低コストなハードウェアを活用して,効率的な作物生産を維持しつつ,排水の無駄を削減するためのフェデレート学習の適用方法を示す。 提案システムは水質保全の必要性に対処するだけでなく,多様な環境に適用可能な,スケーラブルでプライバシ保護のソリューションも提供する。

Residential outdoor water use in North America accounts for nearly 9 billion gallons daily, with approximately 50\% of this water wasted due to over-watering, particularly in lawns and gardens. This inefficiency highlights the need for smart, data-driven irrigation systems. Traditional approaches to reducing water wastage have focused on centralized data collection and processing, but such methods can raise privacy concerns and may not account for the diverse environmental conditions across different regions. In this paper, we propose a federated learning-based approach to optimize water usage in residential and agricultural settings. By integrating moisture sensors and actuators with a distributed network of edge devices, our system allows each user to locally train a model on their specific environmental data while sharing only model updates with a central server. This preserves user privacy and enables the creation of a global model that can adapt to varying conditions. Our implementation leverages low-cost hardware, including an Arduino Uno microcontroller and soil moisture sensors, to demonstrate how federated learning can be applied to reduce water wastage while maintaining efficient crop production. The proposed system not only addresses the need for water conservation but also provides a scalable, privacy-preserving solution adaptable to diverse environments.
翻訳日:2024-09-15 05:41:23 公開日:2024-08-21
# SORSA:大言語モデルの特異値と正規化正規化特異ベクトル適応

SORSA: Singular Values and Orthonormal Regularized Singular Vectors Adaptation of Large Language Models ( http://arxiv.org/abs/2409.00055v1 )

ライセンス: Link先を確認
Yang Cao, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、パラメータサイズが大幅に増加し、適応と微調整の課題が提示される。 パラメータ効率のよい微調整(PEFT)法は、下流タスクにLLMを効率的に適応するために広く用いられている。 本稿では,新しいPEFT法であるSORSA(Singular Values and Orthonormal Regularized Singular Vectors Adaptation)を提案する。 本研究では,重みに対する特異値分解(SVD)を行うことによりパラメータの変動を分析する手法を提案し,SORSAが事前学習した重みからの偏差を最小限に抑える上での優位性について議論する。 各SORSA層は、トレーニング可能な原理特異重量$W_p = U_p \Sigma_p V^\top_p$と、凍結された残留重量$W_r = U_r \Sigma_r V^\top_r$とからなる。 これらの部分は、事前訓練された重量に対してSVDを実行することで初期化される。 さらに,正規正規化正規化器を実装し,その重要性を勾配解析により解析する。 この分析は、正規化器がスケーリング情報を$\Sigma_p$に効果的に転送し、SORSA層のパラメータ更新が$U_p$と$V^\top_p$で等しく最小化されることを保証していることを示している。 SORSA層は推論中にマージすることができ、推論遅延を排除できる。 結局のところ、SORSAは我々の実験において、PiSSAやLoRAよりも高速な収束速度を示している。 MATHベンチマークでは、SORSAを使用したLlama 2 7Bの精度は10.36%で、LoRA(5.50%)、全FT(7.22%)、PiSSA(7.44%)を上回った。 GSM-8Kベンチマークでは、SORSAは56.03%の精度を達成し、LoRA (42.30%)、全FT (49.05%)、PiSSA (53.07%)を上回った。 コードはhttps://github.com/Gunale0926/SORSAで公開されている。

The rapid advancement in large language models (LLMs) comes with a significant increase in their parameter size, presenting challenges for adaptation and fine-tuning. Parameter-efficient fine-tuning (PEFT) methods are widely used to adapt LLMs for downstream tasks efficiently. In this paper, we propose Singular Values and Orthonormal Regularized Singular Vectors Adaptation, or SORSA, a novel PEFT method. We introduce a method to analyze the variation of the parameters by performing singular value decomposition (SVD) on weights and discuss SORSA's superiority in minimizing the deviation from the pre-trained weight. Each SORSA layer consists of two main parts: trainable principle singular weights $W_p = U_p \Sigma_p V^\top_p$, and frozen residual weights $W_r = U_r \Sigma_r V^\top_r$. These parts are initialized by performing SVD on pre-trained weights. Moreover, we implement an orthonormal regularizer and analyze its importance by performing gradient analysis. The analysis shows that the regularizer could effectively transfer the scaling information into $\Sigma_p$, which ensures the parameter updating of SORSA layers is evenly and minimized on $U_p$ and $V^\top_p$. SORSA layers could be merged during inference, thus eliminating inference latency. After all, SORSA shows a faster convergence speed than PiSSA and LoRA in our experiments. On the MATH benchmark, Llama 2 7B adapted using SORSA achieved 10.36% accuracy, outperforming LoRA (5.50%), Full FT (7.22%), and PiSSA (7.44%). On the GSM-8K benchmark, SORSA achieved 56.03% accuracy, surpassing LoRA (42.30%), Full FT (49.05%), and PiSSA (53.07%) We conclude that SORSA offers a new perspective on parameter-efficient fine-tuning, demonstrating remarkable performance. The code is available at https://github.com/Gunale0926/SORSA.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-21
# コロンビアにおける量子生態系研究と分析

Quantum Ecosystem Research and Analysis in Colombia ( http://arxiv.org/abs/2409.00059v1 )

ライセンス: Link先を確認
Cristian E. Bello, Benjamin Harper, Camilo A. Castro, Alcides Montoya C, (参考訳) 近年の量子コンピューティングの急速な成長により、多くの国がこの分野に関連性のある公的投資を行っている。 しかしコロンビアは、この地域にいかなる投資や法律も欠落している。 これまでのほとんどの研究は他国に焦点を合わせており、この地域の著しい遅れに寄与している。 本稿では,コロンビア開発計画の基本柱として量子コンピューティングを取り入れることを提案する。 この調査では、アカデミア(コロンビア国立大学)、産業(アリアンザチーム)、政府(デジタルトランスフォーメーション省)の3つの利害関係者を巻き込んだ。 我々は、我が国における量子技術への公的投資に関わるすべての利害関係者のつながりを提供し、その法律の推進を期待する。

The rapid growth of quantum computing in the last few years has led many countries to make relevant public investments in that field. However, Colombia lacks any investment or legislation in this area. Most previous studies have focused on other countries, contributing to the region's significant lag. In this paper, we propose efforts to include quantum computing as a fundamental pillar of Colombia's development plan. In this research we involved three stakeholders: academia (Universidad Nacional de Colombia), industry (Alianza Team), and government (Vice Ministry of Digital Transformation). We anticipate that our work will provide a connection between all stakeholders involved in public investments in quantum technology in the country and will facilitate its legislation.
翻訳日:2024-09-08 15:31:02 公開日:2024-08-21
# AttDiCNN: Visibility GraphとForce-directed Layoutを用いた自動睡眠停止のための注意的拡張畳み込みニューラルネットワーク

AttDiCNN: Attentive Dilated Convolutional Neural Network for Automatic Sleep Staging using Visibility Graph and Force-directed Layout ( http://arxiv.org/abs/2409.01962v1 )

ライセンス: Link先を確認
Md Jobayer, Md. Mehedi Hasan Shawon, Tasfin Mahmud, Md. Borhan Uddin Antor, Arshad M. Chowdhury, (参考訳) 睡眠段階は、睡眠パターンの同定と睡眠障害の診断において重要な役割を果たす。 本研究では、深層学習手法を用いて、データ不均一性、計算複雑性、信頼性の高い自動睡眠ステージングに関する課題に対処する、Attentive Dilated Convolutional Neural Network (AttDiCNN) と呼ばれる自動睡眠ステージ分類器を提案する。 脳波信号から最も重要な情報を捉え,空間的特徴を表わすために,可視性グラフに基づく力方向レイアウトを用いた。 提案ネットワークは,地域空間特徴抽出ネットワーク(LSFE),時空間長期保持ネットワーク(S2TLR),グローバル平均注意ネットワーク(G2A)の3つのコンポータから構成される。 LSFEは、睡眠データから空間情報を捕捉し、S2TLRは、長期的文脈において最も関連する情報を抽出するように設計され、G2Aは、LSFEおよびS2TLRからの情報を集約することにより、計算オーバーヘッドを低減する。 我々は,3つの包括的かつ一般にアクセス可能なデータセットに対して,EDFX,HMC,NCHデータセットに対して,最先端の精度98.56%,99.66%,99.08%を達成しながら,1.4Mパラメータによる低計算量を維持しながら,モデルの性能を評価した。 その結果,提案手法がいくつかの評価基準で既存の手法を上回り,臨床現場での自動化ツールとしての可能性が確認された。

Sleep stages play an essential role in the identification of sleep patterns and the diagnosis of sleep disorders. In this study, we present an automated sleep stage classifier termed the Attentive Dilated Convolutional Neural Network (AttDiCNN), which uses deep learning methodologies to address challenges related to data heterogeneity, computational complexity, and reliable automatic sleep staging. We employed a force-directed layout based on the visibility graph to capture the most significant information from the EEG signals, representing the spatial-temporal features. The proposed network consists of three compositors: the Localized Spatial Feature Extraction Network (LSFE), the Spatio-Temporal-Temporal Long Retention Network (S2TLR), and the Global Averaging Attention Network (G2A). The LSFE is tasked with capturing spatial information from sleep data, the S2TLR is designed to extract the most pertinent information in long-term contexts, and the G2A reduces computational overhead by aggregating information from the LSFE and S2TLR. We evaluated the performance of our model on three comprehensive and publicly accessible datasets, achieving state-of-the-art accuracy of 98.56%, 99.66%, and 99.08% for the EDFX, HMC, and NCH datasets, respectively, yet maintaining a low computational complexity with 1.4 M parameters. The results substantiate that our proposed architecture surpasses existing methodologies in several performance metrics, thus proving its potential as an automated tool in clinical settings.
翻訳日:2024-09-08 14:53:30 公開日:2024-08-21
# STEAM教育の可能性と課題

Possibilities and challenges of STEAM pedagogies ( http://arxiv.org/abs/2408.15282v1 )

ライセンス: Link先を確認
Iván Sánchez Milara, Marta Cortés Orduña, (参考訳) 本稿では,STEAM(Science, Technology, Engineering, Arts, Mathematics)の教育への統合について検討し,従来のSTEMスキルと並行して創造性を育成するためのアーツの導入を強調した。 STEAMは、プロジェクトベースや調査ベースの学習のような、複数の学際的で学生中心のアプローチを奨励し、現実世界の問題解決を促進する。 しかし、特に学際訓練を欠いたり、堅固な学校構造に直面している教師にとって、STEAMの実装において重大な課題が生じる。 STEAMの結果を評価することも複雑である。 本論文は、高等教育における「学際的エゴセンチュリズム」への取り組みとともに、学際的教育を支援するための教員教育の改革の必要性を強調した。 これらの課題にもかかわらず、STEAMは学生のエンゲージメント、創造性、批判的思考を高めることを約束している。 その潜在能力を最大限に活用するためには、カリキュラム設計、教育実践、教員養成の体系的な変更が不可欠である。

This paper examines the integration of STEAM (Science, Technology, Engineering, Arts, and Mathematics) into education, emphasizing the inclusion of the Arts to foster creativity alongside traditional STEM skills. STEAM encourages multidisciplinary, student-centered approaches like project-based and inquiry-based learning, promoting real-world problem-solving. However, significant challenges arise in implementing STEAM, particularly for teachers who often lack interdisciplinary training and face rigid school structures. Assessing STEAM outcomes also remains complex. The paper highlights the need for reforms in teacher education to support interdisciplinary teaching, along with addressing "disciplinary egocentrism" in higher education. Despite these challenges, STEAM has shown promise in enhancing student engagement, creativity, and critical thinking. To unlock its full potential, systemic changes in curriculum design, educational practices, and teacher training are essential.
翻訳日:2024-09-01 16:32:17 公開日:2024-08-21
# エネルギー材料特性のマルチタスク多面的学習

Multi-Task Multi-Fidelity Learning of Properties for Energetic Materials ( http://arxiv.org/abs/2408.14488v1 )

ライセンス: Link先を確認
Robert J. Appleton, Daniel Klinger, Brian H. Lee, Michael Taylor, Sohee Kim, Samuel Blankenship, Brian C. Barnes, Steven F. Son, Alejandro Strachan, (参考訳) データサイエンスと人工知能は、物理科学においてますます重要な役割を担っている。 残念なことに、エネルギー的なデータ不足の分野では、MLツールの正確性や適用性さえ制限されている。 データ制限に対処するため、複数の特性に対する実験結果と計算結果の2つのマルチモーダルデータをコンパイルした。 マルチタスクニューラルネットワークは、マルチモーダルデータから学習でき、特定の特性のために訓練されたシングルタスクモデルより優れている。 予想通り、データスカースプロパティでは改善がより重要になります。 これらのモデルは、単純な分子情報から構築された記述子を用いて訓練され、大規模材料スクリーニングに容易に適用でき、同時に複数の特性を探索することができる。 このアプローチは、エネルギー材料以外の分野にも広く適用できる。

Data science and artificial intelligence are playing an increasingly important role in the physical sciences. Unfortunately, in the field of energetic materials data scarcity limits the accuracy and even applicability of ML tools. To address data limitations, we compiled multi-modal data: both experimental and computational results for several properties. We find that multi-task neural networks can learn from multi-modal data and outperform single-task models trained for specific properties. As expected, the improvement is more significant for data-scarce properties. These models are trained using descriptors built from simple molecular information and can be readily applied for large-scale materials screening to explore multiple properties simultaneously. This approach is widely applicable to fields outside energetic materials.
翻訳日:2024-08-28 18:11:54 公開日:2024-08-21
# 波動関数崩壊に基づく時間理論

A theory of time based on wavefunction collapse ( http://arxiv.org/abs/2408.11905v1 )

ライセンス: Link先を確認
Sung-Sik Lee, (参考訳) 時間モーメントは時相微分同相をゲージ対称性として表すのに失敗し、時間経過はゲージ不変状態に向かって崩壊する瞬間状態の連続過程であることを示す。 結果として生じる時間進化のユニタリティと指向性は、宇宙論のミニスーパースペースモデルとして実証される。

We propose that moments of time arise through the failed emergence of the temporal diffeomorphism as gauge symmetry, and that the passage of time is a continual process of an instantaneous state collapsing toward a gauge-invariant state. Unitarity and directedness of the resulting time evolution are demonstrated for a minisuperspace model of cosmology.
翻訳日:2024-08-27 20:20:40 公開日:2024-08-21
# 位相符号化オーディオステレオグラフィーアルゴリズムの改良

An Improved Phase Coding Audio Steganography Algorithm ( http://arxiv.org/abs/2408.13277v1 )

ライセンス: Link先を確認
Guang Yang, (参考訳) AI技術の進歩により、音声のクローンはますますアクセスしやすくなり、AI生成オーディオ偽造による不正行為の増加につながった。 これは、情報を隠蔽的に埋め込み、オーディオの信頼性と完全性を検証する必要性を強調している。 デジタルオーディオ透かしはこの文脈において重要な役割を果たす。 本研究では,中間位相成分にデータを埋め込んで動的に音声信号を分割する位相符号化型オーディオステガノグラフィーアルゴリズムを提案する。 このアプローチはステガナリシスに対する耐性を高め、計算を単純化し、セキュアなオーディオ完全性を保証する。

Advances in AI technology have made voice cloning increasingly accessible, leading to a rise in fraud involving AI-generated audio forgeries. This highlights the need to covertly embed information and verify the authenticity and integrity of audio. Digital Audio Watermarking plays a crucial role in this context. This study presents an improved Phase Coding audio steganography algorithm that segments the audio signal dynamically, embedding data into the mid-frequency phase components. This approach enhances resistance to steganalysis, simplifies computation, and ensures secure audio integrity.
翻訳日:2024-08-27 20:20:40 公開日:2024-08-21
# 著作権侵害のリスク軽減のためのランダム化手法

Randomization Techniques to Mitigate the Risk of Copyright Infringement ( http://arxiv.org/abs/2408.13278v1 )

ライセンス: Link先を確認
Wei-Ning Chen, Peter Kairouz, Sewoong Oh, Zheng Xu, (参考訳) 本稿では、著作権保護のための入力ベース手法(ライセンスデータやプロンプトフィルタリングなど)や出力ベース手法(リサイクリングチェッカー、ライセンスチェッカー、モデルベース類似度スコアなど)の現在の実践を補完する潜在的なランダム化手法について検討する。 これは、著作権の先例において実質的な類似性を決定する規則の固有の曖昧さによって動機付けられている。 合意された相当な類似性の定量的な尺度が存在しないことを考えると、補完的なアプローチは負債をさらに減少させる可能性がある。 差分プライバシーのような同様にランダム化されたアプローチは、プライバシーリスクを軽減することに成功している。 本文書は著作権侵害の緩和に関する技術的・研究的な視点に焦点を当てているため、機密性はない。 潜在的な解決策を調査し,数値実験を行った結果,NAF(Near Access-Freeness)の概念を用いて実質的な類似度を測定することは困難であり,NAFを確実にするために差分プライベート(DP)モデルをトレーニングする標準的なアプローチは著しくコストがかかると結論付けた。 検索モデルのような別のアプローチは、相当な類似性を緩和するためのより制御可能なスキームを提供するかもしれない。

In this paper, we investigate potential randomization approaches that can complement current practices of input-based methods (such as licensing data and prompt filtering) and output-based methods (such as recitation checker, license checker, and model-based similarity score) for copyright protection. This is motivated by the inherent ambiguity of the rules that determine substantial similarity in copyright precedents. Given that there is no quantifiable measure of substantial similarity that is agreed upon, complementary approaches can potentially further decrease liability. Similar randomized approaches, such as differential privacy, have been successful in mitigating privacy risks. This document focuses on the technical and research perspective on mitigating copyright violation and hence is not confidential. After investigating potential solutions and running numerical experiments, we concluded that using the notion of Near Access-Freeness (NAF) to measure the degree of substantial similarity is challenging, and the standard approach of training a Differentially Private (DP) model costs significantly when used to ensure NAF. Alternative approaches, such as retrieval models, might provide a more controllable scheme for mitigating substantial similarity.
翻訳日:2024-08-27 20:20:40 公開日:2024-08-21
# 合成特徴サンプリングによるデータ自由クラスインクリメンタルジェスチャ認識

Data-Free Class Incremental Gesture Recognition via Synthetic Feature Sampling ( http://arxiv.org/abs/2408.12629v1 )

ライセンス: Link先を確認
Zhenyu Lu, Hao Tang, (参考訳) Data-Free Class Incremental Learning (DFCIL)は、古いクラスの学習データが利用できない場合でも、古いクラスの知識を再トレーニングしながら、モデルが新しいクラスを継続的に学習できるようにすることを目的としている。 本研究は、主に研究者による画像データセットを用いて検討されているが、特にジェスチャが制御と相互作用の主要な手段となるVR/ARヘッドセットの出現率の増大を考慮し、骨格に基づくジェスチャー分類のためのDFCILの研究に焦点をあてる。 本研究では,基礎クラスで訓練された骨格モデル(非常に限定的でも)が,追加の訓練を必要とせず,未確認クラスに対して強力な一般化能力を示す。 そこで我々はSFR(Synthetic Feature Replay)を開発した。これは、クラスプロトタイプから合成機能をサンプリングし、古いクラスをリプレイし、新しいクラスを(数ショット設定で)拡張することができる。 提案手法は,すべてのステップの平均精度を最大15%向上させ,基本クラスと新クラスの精度不均衡を軽減し,最先端技術に対する大幅な進歩を示す。

Data-Free Class Incremental Learning (DFCIL) aims to enable models to continuously learn new classes while retraining knowledge of old classes, even when the training data for old classes is unavailable. Although explored primarily with image datasets by researchers, this study focuses on investigating DFCIL for skeleton-based gesture classification due to its significant real-world implications, particularly considering the growing prevalence of VR/AR headsets where gestures serve as the primary means of control and interaction. In this work, we made an intriguing observation: skeleton models trained with base classes(even very limited) demonstrate strong generalization capabilities to unseen classes without requiring additional training. Building on this insight, we developed Synthetic Feature Replay (SFR) that can sample synthetic features from class prototypes to replay for old classes and augment for new classes (under a few-shot setting). Our proposed method showcases significant advancements over the state-of-the-art, achieving up to 15% enhancements in mean accuracy across all steps and largely mitigating the accuracy imbalance between base classes and new classes.
翻訳日:2024-08-26 16:59:27 公開日:2024-08-21
# 不安定性内における局所乱流渦の同定

Identifying Locally Turbulent Vortices within Instabilities ( http://arxiv.org/abs/2408.12662v1 )

ライセンス: Link先を確認
Fabien Vivodtzev, Florent Nauleau, Jean-Philippe Braeunig, Julien Tierny, (参考訳) 本研究では, 不安定岩などの乱流2次元流れにおける局所乱流渦の自動検出手法を提案する。 まず, 流れの時間ステップを考慮し, トポロジカルデータ解析(TDA)の手法を用いて渦の形状を抽出する。 具体的には、流れのエントロフィは、トポロジカルな持続によって単純化され、単純化されたエントロフィのモース複合体の盆地を採取して渦を抽出する。 次に、各渦に対して局所運動エネルギーパワースペクトルを算出する。 本研究では, 渦の挙動と理想的な乱流渦との相関を推定するために, 運動エネルギースペクトルに基づく指標セットを導入する。 予備実験では, 乱流状態に達していない渦と乱流状態に到達していない渦を区別するための指標としての有用性が示された。

This work presents an approach for the automatic detection of locally turbulent vortices within turbulent 2D flows such as instabilites. First, given a time step of the flow, methods from Topological Data Analysis (TDA) are leveraged to extract the geometry of the vortices. Specifically, the enstrophy of the flow is simplified by topological persistence, and the vortices are extracted by collecting the basins of the simplified enstrophy's Morse complex. Next, the local kinetic energy power spectrum is computed for each vortex. We introduce a set of indicators based on the kinetic energy power spectrum to estimate the correlation between the vortex's behavior and that of an idealized turbulent vortex. Our preliminary experiments show the relevance of these indicators for distinguishing vortices which are turbulent from those which have not yet reached a turbulent state and thus known as laminar.
翻訳日:2024-08-26 16:59:27 公開日:2024-08-21
# Schur変換のための実用的な量子アルゴリズム

A Practical Quantum Algorithm for the Schur Transform ( http://arxiv.org/abs/1709.07119v6 )

ライセンス: Link先を確認
William M. Kirby, Frederick W. Strauch, (参考訳) 量子シュア変換のための効率的な量子アルゴリズムについて述べる。 シュール変換は、標準計算基底をユニタリ群と対称群の既約表現からなる基底にマッピングする量子コンピュータ上の演算である。 我々はBacon, Chuang, Harrowのアルゴリズムを単純化し、拡張し、新しい実用的な構造と鋭い理論的および実用的な分析を提供する。 我々のアルゴリズムは、$n$ qubits 上の Schur 変換を $O\left(n^4\log\left(\frac{n}{\epsilon}\right)\right)$ Clifford+T のフォールトトレラントゲートの演算子に分解し、正確に $2\lfloor\log_2(n)\rfloor-1$ ancillary qubits を使用する。 我々は qubit アルゴリズムを拡張して、次元 $d$ の $n$ qudits を $O\left(n^{d^2+2}\log^p\left(\frac{n^{d^2+1}}{\epsilon}\right)\right) に分解する。

We describe an efficient quantum algorithm for the quantum Schur transform. The Schur transform is an operation on a quantum computer that maps the standard computational basis to a basis composed of irreducible representations of the unitary and symmetric groups. We simplify and extend the algorithm of Bacon, Chuang, and Harrow, and provide a new practical construction as well as sharp theoretical and practical analyses. Our algorithm decomposes the Schur transform on $n$ qubits into $O\left(n^4\log\left(\frac{n}{\epsilon}\right)\right)$ operators in the Clifford+T fault-tolerant gate set and uses exactly $2\lfloor\log_2(n)\rfloor-1$ ancillary qubits. We extend our qubit algorithm to decompose the Schur transform on $n$ qudits of dimension $d$ into $O\left(n^{d^2+2}\log^p\left(\frac{n^{d^2+1}}{\epsilon}\right)\right)$ primitive operators from any universal gate set, for $p\approx3.97$.
翻訳日:2024-08-25 14:35:18 公開日:2024-08-21
# リモートセンシングデータのための自己教師付き視覚情報表現学習

Self-supervised Audiovisual Representation Learning for Remote Sensing Data ( http://arxiv.org/abs/2108.00688v2 )

ライセンス: Link先を確認
Konrad Heidler, Lichao Mou, Di Hu, Pu Jin, Guangyao Li, Chuang Gan, Ji-Rong Wen, Xiao Xiang Zhu, (参考訳) 現在のディープラーニングアプローチの多くは、ImageNetのような大規模なデータセットで事前トレーニングされたバックボーンネットワークを広範囲に使用して、特定のタスクを実行するように微調整されている。 リモートセンシングでは、比較可能な大きな注釈付きデータセットの欠如と、さまざまなセンシングプラットフォームが、同様の開発を妨げる。 リモートセンシングにおける事前学習されたバックボーンネットワークの実現に寄与するため,我々は,深層ニューラルネットワークを事前学習するための自己教師型アプローチを考案した。 ジオタグ付きオーディオ記録とリモートセンシング画像との対応を利用して、これは完全にラベルのない方法で行われ、面倒な手作業によるアノテーションは不要である。 この目的のために、世界中の空中画像とオーディオサンプルを同時配置したSoundingEarthデータセットを紹介した。 このデータセットを用いて、私たちはResNetモデルをトレーニングし、両方のモダリティから共通の埋め込み空間にサンプルをマッピングする。 提案手法の有効性を検証するため,他の手法により得られた重みに対して得られた事前学習重みの伝達学習性能を評価する。 一般的なリモートセンシングデータセットでモデルを微調整することにより、我々のアプローチは、リモートセンシング画像のための既存の事前学習戦略よりも優れていることを示す。 データセット、コード、事前トレーニングされたモデルの重み付けはhttps://github.com/khdlr/SoundingEarth.comで入手できる。

Many current deep learning approaches make extensive use of backbone networks pre-trained on large datasets like ImageNet, which are then fine-tuned to perform a certain task. In remote sensing, the lack of comparable large annotated datasets and the wide diversity of sensing platforms impedes similar developments. In order to contribute towards the availability of pre-trained backbone networks in remote sensing, we devise a self-supervised approach for pre-training deep neural networks. By exploiting the correspondence between geo-tagged audio recordings and remote sensing imagery, this is done in a completely label-free manner, eliminating the need for laborious manual annotation. For this purpose, we introduce the SoundingEarth dataset, which consists of co-located aerial imagery and audio samples all around the world. Using this dataset, we then pre-train ResNet models to map samples from both modalities into a common embedding space, which encourages the models to understand key properties of a scene that influence both visual and auditory appearance. To validate the usefulness of the proposed approach, we evaluate the transfer learning performance of pre-trained weights obtained against weights obtained through other means. By fine-tuning the models on a number of commonly used remote sensing datasets, we show that our approach outperforms existing pre-training strategies for remote sensing imagery. The dataset, code and pre-trained model weights will be available at https://github.com/khdlr/SoundingEarth.
翻訳日:2024-08-23 20:22:50 公開日:2024-08-21
# 地球の季節性気候の特徴--コッペン・ガイガー気候と大陸における特徴と比較

Features of the Earth's seasonal hydroclimate: Characterizations and comparisons across the Koppen-Geiger climates and across continents ( http://arxiv.org/abs/2204.06544v2 )

ライセンス: Link先を確認
Georgia Papacharalampous, Hristos Tyralis, Yannis Markonis, Petr Maca, Martin Hanel, (参考訳) 気候、大陸、変種にまたがる時系列の特徴に関する詳細な調査は、地球の温暖な気候とその力学の理解とモデリング能力を向上させることができる。 また、コアに現れる気候分類システムの理解を深めることも可能です。 しかし, 季節性気候の時間的依存, 変動性, 変化に関する調査は, 現在文献から欠落している。 本稿では,このギャップを埋めるための方法論的枠組みをグローバルスケールで提案し,適用する。 我々は, 約1千万の地温, 降水量, 河川流量時系列を分析した。 我々は,コッペン・ガイガー気候分類システムを採用し,季節的な気候の特徴をまとめるために大陸規模の地理的地域を定義した。 分析は,3つの自己相関特徴,時間変動特徴,スペクトルエントロピー特徴,ハースト特徴,トレンド強度特徴,季節強度特徴に依存した。 コッペン・ガイガー気候層と大陸規模の地理的地域の間で,これらの特徴の規模を特徴付けるために,顕著な違いを見出した。 したがって,水資源工学の文脈において,比較要約の考察が有用であると考えられる。 最後に,コッペン・ガイガーの主要な気候と大陸規模地域を区別する上で,それらがどの程度有益であるかを,機械学習を用いて比較する。 この点において, サンプル自己相関, 時間変動, 季節強度特性は, 季節スケールのスペクトルエントロピー, ハースト, トレンド強度特性よりも有意であることがわかった。

Detailed investigations of time series features across climates, continents and variable types can progress our understanding and modelling ability of the Earth's hydroclimate and its dynamics. They can also improve our comprehension of the climate classification systems appearing in their core. Still, such investigations for seasonal hydroclimatic temporal dependence, variability and change are currently missing from the literature. Herein, we propose and apply at the global scale a methodological framework for filling this specific gap. We analyse over 13 000 earth-observed quarterly temperature, precipitation and river flow time series. We adopt the Koppen-Geiger climate classification system and define continental-scale geographical regions for conducting upon them seasonal hydroclimatic feature summaries. The analyses rely on three sample autocorrelation features, a temporal variation feature, a spectral entropy feature, a Hurst feature, a trend strength feature and a seasonality strength feature. We find notable differences to characterize the magnitudes of these features across the various Koppen-Geiger climate classes, as well as between continental-scale geographical regions. We, therefore, deem that the consideration of the comparative summaries could be beneficial in water resources engineering contexts. Lastly, we apply explainable machine learning to compare the investigated features with respect to how informative they are in distinguishing either the main Koppen-Geiger climates or the continental-scale regions. In this regard, the sample autocorrelation, temporal variation and seasonality strength features are found to be more informative than the spectral entropy, Hurst and trend strength features at the seasonal time scale.
翻訳日:2024-08-23 20:22:50 公開日:2024-08-21
# マヨナデデモレータの解釈可能な昇降木解析

Interpretable Boosted Decision Tree Analysis for the Majorana Demonstrator ( http://arxiv.org/abs/2207.10710v5 )

ライセンス: Link先を確認
I. J. Arnquist, F. T. Avignone III, A. S. Barabash, C. J. Barton, K. H. Bhimani, E. Blalock, B. Bos, M. Busch, M. Buuck, T. S. Caldwell, Y -D. Chan, C. D. Christofferson, P. -H. Chu, M. L. Clark, C. Cuesta, J. A. Detwiler, Yu. Efremenko, S. R. Elliott, G. K. Giovanetti, M. P. Green, J. Gruszko, I. S. Guinn, V. E. Guiseppe, C. R. Haufe, R. Henning, D. Hervas Aguilar, E. W. Hoppe, A. Hostiuc, M. F. Kidd, I. Kim, R. T. Kouzes, T. E. Lannen V, A. Li, J. M. Lopez-Castano, E. L. Martin, R. D. Martin, R. Massarczyk, S. J. Meijer, T. K. Oli, G. Othman, L. S. Paudel, W. Pettus, A. W. P. Poon, D. C. Radford, A. L. Reine, K. Rielage, N. W. Ruof, D. C. Schaper, D. Tedeschi, R. L. Varner, S. Vasilyev, J. F. Wilkerson, C. Wiseman, W. Xu, C. -H. Yu, (参考訳) マヨラナ・デモレーター(Majorana Demonstrator)は、高純度ゲルマニウム検出器(HPGe)でニュートリノのない二重ベータ崩壊を探索する主要な実験である。 機械学習は、これらの検出器が提供する情報量を最大化する新しい方法を提供するが、データ駆動型の性質は従来の分析に比べて解釈しにくくする。 解釈可能性に関する研究では、マシンの意思決定ロジックを明らかにし、マシンから学習して従来の分析にフィードバックすることができる。 本研究では,Majorana Demonstratorから得られたデータの機械学習解析を初めて行ったが,これはゲルマニウム検出器実験の解釈可能な機械学習解析としては初めてのものである。 データから学習するために2つの勾配向上決定木モデルを訓練し、分類力の起源を理解するためにゲーム理論に基づくモデル解釈可能性の研究を行った。 データから学習することにより、再構成パラメータ間の相関を認識し、背景拒絶性能をさらに高める。 マシンから学習することで、標準的なMajorana分析を相互に活用するために、新しい背景カテゴリの重要性が明らかになる。 このモデルは、多数の検出器で同時に訓練できるため、LEGENDのような次世代のゲルマニウム検出器実験と高い互換性がある。

The Majorana Demonstrator is a leading experiment searching for neutrinoless double-beta decay with high purity germanium detectors (HPGe). Machine learning provides a new way to maximize the amount of information provided by these detectors, but the data-driven nature makes it less interpretable compared to traditional analysis. An interpretability study reveals the machine's decision-making logic, allowing us to learn from the machine to feedback to the traditional analysis. In this work, we have presented the first machine learning analysis of the data from the Majorana Demonstrator; this is also the first interpretable machine learning analysis of any germanium detector experiment. Two gradient boosted decision tree models are trained to learn from the data, and a game-theory-based model interpretability study is conducted to understand the origin of the classification power. By learning from data, this analysis recognizes the correlations among reconstruction parameters to further enhance the background rejection performance. By learning from the machine, this analysis reveals the importance of new background categories to reciprocally benefit the standard Majorana analysis. This model is highly compatible with next-generation germanium detector experiments like LEGEND since it can be simultaneously trained on a large number of detectors.
翻訳日:2024-08-23 20:17:08 公開日:2024-08-21
# パラメータ化MMSE推定のための変分オートエンコーダの活用

Leveraging Variational Autoencoders for Parameterized MMSE Estimation ( http://arxiv.org/abs/2307.05352v3 )

ライセンス: Link先を確認
Michael Baur, Benedikt Fesl, Wolfgang Utschick, (参考訳) 本稿では,条件付き線形平均二乗誤差推定器のパラメータ化のために,変分オートエンコーダに基づくフレームワークを提案する。 変分オートエンコーダは、基礎となる未知のデータ分布を条件付きガウスとしてモデル化し、雑音の観測により、推定値の第1モーメントと第2モーメントを生成する。 導出した推定器は、推定問題の生成前として変分オートエンコーダを用いて最小平均2乗誤差推定器を近似する。 そこで本研究では,トレーニングおよび推定フェーズにおいて,地下構造データへのアクセスに異なる3つの推定器変種を提案する。 ノイズの観測のみに基づいて訓練された推定器の変種は、特に、訓練や推定中に地平線データにアクセスする必要がなくなるため、注目すべきである。 提案手法と最小平均二乗誤差推定器の差分を限定して厳密な解析を行い,学習目標と得られた推定性能を接続する。 さらに,提案した推定器にはバイアス分散トレードオフが伴っており,推定文献でよく知られている。 例として、チャネル推定を記述し、構造化された共分散行列のパラメータ化と低複雑さの実装を可能にする。 しかし,提案手法はチャネル推定に限らず,広い範囲の推定問題に適用可能である。 大規模数値シミュレーションは,提案した変分オートエンコーダに基づく推定器の理論解析をまず検証し,関連する古典的および機械学習に基づく推定器と比較して優れた推定性能を示す。

In this manuscript, we propose to use a variational autoencoder-based framework for parameterizing a conditional linear minimum mean squared error estimator. The variational autoencoder models the underlying unknown data distribution as conditionally Gaussian, yielding the conditional first and second moments of the estimand, given a noisy observation. The derived estimator is shown to approximate the minimum mean squared error estimator by utilizing the variational autoencoder as a generative prior for the estimation problem. We propose three estimator variants that differ in their access to ground-truth data during the training and estimation phases. The proposed estimator variant trained solely on noisy observations is particularly noteworthy as it does not require access to ground-truth data during training or estimation. We conduct a rigorous analysis by bounding the difference between the proposed and the minimum mean squared error estimator, connecting the training objective and the resulting estimation performance. Furthermore, the resulting bound reveals that the proposed estimator entails a bias-variance tradeoff, which is well-known in the estimation literature. As an example application, we portray channel estimation, allowing for a structured covariance matrix parameterization and low-complexity implementation. Nevertheless, the proposed framework is not limited to channel estimation but can be applied to a broad class of estimation problems. Extensive numerical simulations first validate the theoretical analysis of the proposed variational autoencoder-based estimators and then demonstrate excellent estimation performance compared to related classical and machine learning-based state-of-the-art estimators.
翻訳日:2024-08-23 20:07:24 公開日:2024-08-21
# 学習ICP重みを用いたレーダーライダー位置推定

Pointing the Way: Refining Radar-Lidar Localization Using Learned ICP Weights ( http://arxiv.org/abs/2309.08731v3 )

ライセンス: Link先を確認
Daniil Lisus, Johann Laconte, Keenan Burnett, Ziyu Zhang, Timothy D. Barfoot, (参考訳) 本稿では,ライダーマップに対するレーダー計測の局所化を改善するための,ディープラーニングに基づく新しいアプローチを提案する。 このレーダーライダーの局部化は両方のセンサーの利点を生かし、レーダーは悪天候に対して弾力性があり、ライダーは明確な条件下で高品質の地図を生成する。 しかし、レーダー・ライダーの局部化はレーダー・ライダーシステムに匹敵する性能を達成するのに苦戦しており、自律走行では不可能である。 この研究は、ICPベースのレーダーライダーのローカライゼーションに基づいて、高レベルのスキャン情報に基づいてレーダーポイントを重み付けする学習前処理ステップを含む。 重み付けネットワークをトレーニングするために,新しい,スタンドアローンでオープンソースの差別化可能なICPライブラリを提案する。 学習した重量は、道路上の人工物、騒音、さらには車両に関する有害なレーダーポイントをフィルタリングすることでICPを促進する。 解析的アプローチと学習重量を組み合わせることで、全体のローカライゼーションエラーを低減し、レーダライダーICP結果の収束性を向上させることができる。 私たちのコードベースは、再現性と拡張を容易にするために公開されています。

This paper presents a novel deep-learning-based approach to improve localizing radar measurements against lidar maps. This radar-lidar localization leverages the benefits of both sensors; radar is resilient against adverse weather, while lidar produces high-quality maps in clear conditions. However, owing in part to the unique artefacts present in radar measurements, radar-lidar localization has struggled to achieve comparable performance to lidar-lidar systems, preventing it from being viable for autonomous driving. This work builds on ICP-based radar-lidar localization by including a learned preprocessing step that weights radar points based on high-level scan information. To train the weight-generating network, we present a novel, stand-alone, open-source differentiable ICP library. The learned weights facilitate ICP by filtering out harmful radar points related to artefacts, noise, and even vehicles on the road. Combining an analytical approach with a learned weight reduces overall localization errors and improves convergence in radar-lidar ICP results run on real-world autonomous driving data. Our code base is publicly available to facilitate reproducibility and extensions.
翻訳日:2024-08-23 20:07:24 公開日:2024-08-21
# FedAIoT - 物の人工知能のためのフェデレーションラーニングベンチマーク

FedAIoT: A Federated Learning Benchmark for Artificial Intelligence of Things ( http://arxiv.org/abs/2310.00109v3 )

ライセンス: Link先を確認
Samiul Alam, Tuo Zhang, Tiantian Feng, Hui Shen, Zhichao Cao, Dong Zhao, JeongGil Ko, Kiran Somasundaram, Shrikanth S. Narayanan, Salman Avestimehr, Mi Zhang, (参考訳) AIoT(Artificial Intelligence of Things)の世界には、連邦学習(FL)が大きな関連性を持っている。 しかしながら、既存のFL作業の多くは、本物のIoTデバイスから収集されたデータセットを使用しないので、IoTデータのユニークなモダリティや固有の課題をキャプチャしない。 この重要なギャップを埋めるために、本稿では、AIoTのFLベンチマークであるFedAIoTを紹介します。 FedAIoTには、幅広いIoTデバイスから収集された8つのデータセットが含まれている。 これらのデータセットは、AIoTのユニークなIoTモダリティとターゲット代表アプリケーションをカバーする。 FedAIoTには、データセットのパフォーマンスのベンチマークを簡単にする、AIoT用の統合エンドツーエンドFLフレームワークも含まれている。 ベンチマークの結果は、AIoTにおけるFLの機会と課題を浮き彫りにしたものです。 FL for AIoTの重要な分野における進歩を促進するために、FedAIoTが貴重なリソースになることを願っています。 FedAIoTのリポジトリはhttps://github.com/AIoT-MLSys-Lab/FedAIoTで管理されている。

There is a significant relevance of federated learning (FL) in the realm of Artificial Intelligence of Things (AIoT). However, most existing FL works do not use datasets collected from authentic IoT devices and thus do not capture unique modalities and inherent challenges of IoT data. To fill this critical gap, in this work, we introduce FedAIoT, an FL benchmark for AIoT. FedAIoT includes eight datasets collected from a wide range of IoT devices. These datasets cover unique IoT modalities and target representative applications of AIoT. FedAIoT also includes a unified end-to-end FL framework for AIoT that simplifies benchmarking the performance of the datasets. Our benchmark results shed light on the opportunities and challenges of FL for AIoT. We hope FedAIoT could serve as an invaluable resource to foster advancements in the important field of FL for AIoT. The repository of FedAIoT is maintained at https://github.com/AIoT-MLSys-Lab/FedAIoT.
翻訳日:2024-08-23 19:56:46 公開日:2024-08-21
# 衛星データを用いた機械学習空間降水予測の不確かさ推定

Uncertainty estimation of machine learning spatial precipitation predictions from satellite data ( http://arxiv.org/abs/2311.07511v3 )

ライセンス: Link先を確認
Georgia Papacharalampous, Hristos Tyralis, Nikolaos Doulamis, Anastasios Doulamis, (参考訳) 衛星データとゲージデータを機械学習と組み合わせることで、高解像度の降水データセットが生成されるが、不確実性推定はしばしば欠落している。 空間予測設定における予測の不確かさの定量化という,より一般的なタスクであっても,6つのアルゴリズムをベンチマークすることで,そのような推定を最適に行う方法のギャップに対処した。 連続した米国(CONUS)における15年間の月次データでは、量子回帰(QRF)、量子回帰(QRF)、一般化ランダム森林(GRF)、勾配押し上げ機(GBM)、光勾配押し上げ機(LightGBM)、量子回帰ニューラルネットワーク(QRNN)を比較した。 予測降水量計を9つの量子レベル(0.025, 0.050, 0.100, 0.250, 0.500, 0.750, 0.900, 0.950, 0.975)で発行する能力について評価した。 現場の予測値は、PERSIANN(人工ニューラルネットワークを用いたリモートセンシング情報からの降水推定)とIMERG(Integrated Multi-satellitE Retrievals)の2つの衛星降水検索と、サイトの高さから得られた。 従属変数は月平均ゲージ降水量である。 QRに関して、LightGBMはQRF(7.96%)、GRF(7.44%)、GBM(4.64%)、QRNN(1.73%)を上回った。 特に、LightGBMは、機械学習による空間予測における現在の標準である、すべてのランダムな森林変種を上回りました。 そこで本研究では,空間データ予測の不確かさを推定する機械学習アルゴリズムを,スコアリング関数とスコアリングルールに基づく形式的評価フレームワークを用いて提案する。

Merging satellite and gauge data with machine learning produces high-resolution precipitation datasets, but uncertainty estimates are often missing. We addressed the gap of how to optimally provide such estimates by benchmarking six algorithms, mostly novel even for the more general task of quantifying predictive uncertainty in spatial prediction settings. On 15 years of monthly data from over the contiguous United States (CONUS), we compared quantile regression (QR), quantile regression forests (QRF), generalized random forests (GRF), gradient boosting machines (GBM), light gradient boosting machine (LightGBM), and quantile regression neural networks (QRNN). Their ability to issue predictive precipitation quantiles at nine quantile levels (0.025, 0.050, 0.100, 0.250, 0.500, 0.750, 0.900, 0.950, 0.975), approximating the full probability distribution, was evaluated using quantile scoring functions and the quantile scoring rule. Predictors at a site were nearby values from two satellite precipitation retrievals, namely PERSIANN (Precipitation Estimation from Remotely Sensed Information using Artificial Neural Networks) and IMERG (Integrated Multi-satellitE Retrievals), and the site's elevation. The dependent variable was the monthly mean gauge precipitation. With respect to QR, LightGBM showed improved performance in terms of the quantile scoring rule by 11.10%, also surpassing QRF (7.96%), GRF (7.44%), GBM (4.64%) and QRNN (1.73%). Notably, LightGBM outperformed all random forest variants, the current standard in spatial prediction with machine learning. To conclude, we propose a suite of machine learning algorithms for estimating uncertainty in spatial data prediction, supported with a formal evaluation framework based on scoring functions and scoring rules.
翻訳日:2024-08-23 19:56:46 公開日:2024-08-21
# 教師なし特徴抽出と選択のためのグラムシュミット法

Gram-Schmidt Methods for Unsupervised Feature Extraction and Selection ( http://arxiv.org/abs/2311.09386v3 )

ライセンス: Link先を確認
Bahram Yaghooti, Netanel Raviv, Bruno Sinopoli, (参考訳) データ間の非線形依存関係の存在下での特徴抽出と選択は、教師なし学習における根本的な課題である。 本稿では,Gram-Schmidt (GS) 型の関数空間上の直交化プロセスを用いて,そのような依存関係を検出し,マッピングする。 具体的には、ある関数族にGSプロセスを適用することで、新しい大きな分散方向を識別したり、それらの依存を既知の方向から除去するために使用できる一連の共分散行列を構築する。 前者の場合、エントロピー低減の観点から情報理論の保証を提供する。 後者では、選択された関数ファミリーがデータの既存の冗長性を除去する正確な条件を提供する。 各アプローチは、特徴抽出と特徴選択アルゴリズムの両方を提供する。 特徴抽出法は線形であり,主成分分析(PCA)の自然な一般化と見なすことができる。 我々は,最先端(線形)特徴抽出および選択アルゴリズムよりも優れた性能を示す,合成および実世界のベンチマークデータセットの実験結果を提供する。 驚いたことに,我々の線形特徴抽出アルゴリズムは,オートエンコーダやカーネルPCA,UMAPなどの重要な非線形特徴抽出手法よりも優れていることが多い。 さらに、我々の特徴選択アルゴリズムの1つは、最近のフーリエに基づく特徴選択機構(Heidari et al , IEEE Transactions on Information Theory, 2022)を厳密に一般化するが、複雑さは著しく減少する。

Feature extraction and selection at the presence of nonlinear dependencies among the data is a fundamental challenge in unsupervised learning. We propose using a Gram-Schmidt (GS) type orthogonalization process over function spaces to detect and map out such dependencies. Specifically, by applying the GS process over some family of functions, we construct a series of covariance matrices that can either be used to identify new large-variance directions, or to remove those dependencies from known directions. In the former case, we provide information-theoretic guarantees in terms of entropy reduction. In the latter, we provide precise conditions by which the chosen function family eliminates existing redundancy in the data. Each approach provides both a feature extraction and a feature selection algorithm. Our feature extraction methods are linear, and can be seen as natural generalization of principal component analysis (PCA). We provide experimental results for synthetic and real-world benchmark datasets which show superior performance over state-of-the-art (linear) feature extraction and selection algorithms. Surprisingly, our linear feature extraction algorithms are comparable and often outperform several important nonlinear feature extraction methods such as autoencoders, kernel PCA, and UMAP. Furthermore, one of our feature selection algorithms strictly generalizes a recent Fourier-based feature selection mechanism (Heidari et al., IEEE Transactions on Information Theory, 2022), yet at significantly reduced complexity.
翻訳日:2024-08-23 19:56:46 公開日:2024-08-21
# ProtoArgNet: Super-Prototypes and Argumentationによる解釈可能な画像分類 [技術報告]

ProtoArgNet: Interpretable Image Classification with Super-Prototypes and Argumentation [Technical Report] ( http://arxiv.org/abs/2311.15438v2 )

ライセンス: Link先を確認
Hamed Ayoobi, Nico Potyka, Francesca Toni, (参考訳) ProtoArgNetは,ProtoPNetで見られるような,プロトタイプ部分学習の精神における画像分類のための,新しい解釈可能なディープニューラルネットワークである。 以前のアプローチでは、すべてのクラスを複数の原型部分と関連付けるが、ProtoArgNetは、原型部分を統一されたクラス表現に組み合わせた超原型を使用する。 これは、プロトタイプの局所的なアクティベーションをMLP的な方法で組み合わせ、プロトタイプのローカライズと、それらの間の(非線形でない)空間的関係の学習を可能にする。 議論の形式を活用することで、ProtoArgNetはサポート("This look that")とアタック("this differents that')の両方を提供することができる。 我々は、ProtoArgNetが最先端のプロトタイプ・パートラーニングアプローチより優れているいくつかのデータセットを実証する。 さらに、ProtoArgNetの議論コンポーネントは、スパーシフィケーションのプロセスによってユーザの認知的要求に対してカスタマイズ可能であり、最先端のアプローチと比較してよりコンパクトな説明につながる。

We propose ProtoArgNet, a novel interpretable deep neural architecture for image classification in the spirit of prototypical-part-learning as found, e.g., in ProtoPNet. While earlier approaches associate every class with multiple prototypical-parts, ProtoArgNet uses super-prototypes that combine prototypical-parts into a unified class representation. This is done by combining local activations of prototypes in an MLP-like manner, enabling the localization of prototypes and learning (non-linear) spatial relationships among them. By leveraging a form of argumentation, ProtoArgNet is capable of providing both supporting (i.e. `this looks like that') and attacking (i.e. `this differs from that') explanations. We demonstrate on several datasets that ProtoArgNet outperforms state-of-the-art prototypical-part-learning approaches. Moreover, the argumentation component in ProtoArgNet is customisable to the user's cognitive requirements by a process of sparsification, which leads to more compact explanations compared to state-of-the-art approaches.
翻訳日:2024-08-23 19:56:46 公開日:2024-08-21
# SymbolicAI: 生成モデルとソルバを組み合わせた論理的アプローチのためのフレームワーク

SymbolicAI: A framework for logic-based approaches combining generative models and solvers ( http://arxiv.org/abs/2402.00854v4 )

ライセンス: Link先を確認
Marius-Constantin Dinu, Claudiu Leoveanu-Condrei, Markus Holzleitner, Werner Zellinger, Sepp Hochreiter, (参考訳) 生成過程における概念学習とフロー管理に論理的アプローチを取り入れた,汎用的でモジュール化されたフレームワークであるSybolicAIを紹介する。 SymbolicAIは、自然言語とフォーマルな言語命令の両方に基づいてタスクを実行するセマンティックパーザとして、大きな言語モデル(LLM)を扱い、シンボル推論と生成AIのギャップを埋めることによって、さまざまな問題解決者と生成モデルのシームレスな統合を可能にする。 我々は確率的プログラミングの原理を利用して複雑なタスクに取り組み、それぞれの強みで微分可能および古典的なプログラミングパラダイムを利用する。 このフレームワークでは、多段階生成プロセスを接続し、複雑なワークフローにおいて、その出力をユーザ目標と整合させるマルチモーダルデータに対して、多形的、構成的、自己参照的な操作のセットを導入している。 その結果、コンテキスト内学習機能を備えた各種基礎モデルの能力と、特定の問題に対処するのに熟練した専門的、微調整されたモデルや問題解決者との間の移行が可能となった。 文脈内学習に基づくこれらの操作を通じて、我々のフレームワークは説明可能な計算グラフの作成と評価を可能にする。 最後に、これらの計算グラフを評価するための品質指標とその経験的スコアを導入し、複雑なワークフローの集合にまたがる様々な最先端のLCMを比較するベンチマークを提案する。 経験的スコアを「相互相似性による関係軌道評価のためのベクター埋め込み」あるいは略してVERTEXスコアと呼ぶ。 フレームワークのコードベースとベンチマークを以下にリンクする。

We introduce SymbolicAI, a versatile and modular framework employing a logic-based approach to concept learning and flow management in generative processes. SymbolicAI enables the seamless integration of generative models with a diverse range of solvers by treating large language models (LLMs) as semantic parsers that execute tasks based on both natural and formal language instructions, thus bridging the gap between symbolic reasoning and generative AI. We leverage probabilistic programming principles to tackle complex tasks, and utilize differentiable and classical programming paradigms with their respective strengths. The framework introduces a set of polymorphic, compositional, and self-referential operations for multi-modal data that connects multi-step generative processes and aligns their outputs with user objectives in complex workflows. As a result, we can transition between the capabilities of various foundation models with in-context learning capabilities and specialized, fine-tuned models or solvers proficient in addressing specific problems. Through these operations based on in-context learning our framework enables the creation and evaluation of explainable computational graphs. Finally, we introduce a quality measure and its empirical score for evaluating these computational graphs, and propose a benchmark that compares various state-of-the-art LLMs across a set of complex workflows. We refer to the empirical score as the "Vector Embedding for Relational Trajectory Evaluation through Cross-similarity", or VERTEX score for short. The framework codebase and benchmark are linked below.
翻訳日:2024-08-23 19:45:30 公開日:2024-08-21
# 二重共振器を用いた高性能マルチキュービットシステム:スケーラブル超伝導量子コンピュータを目指して

High-performance multiqubit system with double-transmon couplers: Toward scalable superconducting quantum computers ( http://arxiv.org/abs/2402.05361v2 )

ライセンス: Link先を確認
Kentaro Kubo, Yinghao Ho, Hayato Goto, (参考訳) 超伝導量子コンピュータにおけるチューナブルカップラは、高速で正確な2量子ビットゲートを実現し、様々なアーキテクチャやゲートの実装スキームにおいて99%以上の高忠実性が報告されている。 しかし、マルチキュービットシステムの性能が明確化されているチューナブルカプラは少ないが、最も広く使われているのはシングルトランスモンカプラ(STC)である。 分離された2量子ビットシステムと同じような精度を達成することは、様々な望ましくない結合のために依然として困難であるが、スケーラビリティには必要である。 本研究では,2つの二重共振器(DTC)を介して結合された3つの固定周波数キュービットの系を数値解析する。 DTCは、最近提案されたチューナブルカプラであり、2つの固定周波数トランスモンが共有ループを介して結合され、追加のジョセフソン接合が設けられている。 DTCは、望ましくない残余結合を十分に低減できるだけでなく、分離された2量子ビットシステムでも30nsのCZゲートと、99.99%以上の忠実度を持つ10ns$\pi/2$パルスの実装を可能にする。 また, DTC を STC に置き換えるシステムについても検討する。 以上の結果から, DTCは残結合抑制とゲート精度の両方の観点から, STCよりも優れていた。 これらの結果から、DTCアーキテクチャは高性能でスケーラブルな超伝導量子コンピュータの実現に期待できる。

Tunable couplers in superconducting quantum computers have enabled fast and accurate two-qubit gates, with reported high fidelities over 99% in various architectures and gate implementation schemes. However, there are few tunable couplers whose performance in multi-qubit systems is clarified, except for the most widely used one: single-transmon coupler (STC). Achieving similar accuracy to isolated two-qubit systems remains challenging due to various undesirable couplings but is necessary for scalability. In this work, we numerically analyze a system of three fixed-frequency qubits coupled via two double-transmon couplers (DTCs) where nearest-neighbor qubits are highly detuned and also next nearest-neighbor ones are nearly resonant. The DTC is a recently proposed tunable coupler, which consists of two fixed-frequency transmons coupled through a common loop with an additional Josephson junction. We find that the DTC can not only reduce undesired residual couplings sufficiently, as well as in isolated two-qubits systems, but also enables implementations of 30-ns CZ gates and individual and simultaneous 10-ns $\pi/2$ pulses with fidelities over 99.99%. For comparison, we also investigate the system where the DTCs are replaced by the STCs. The results show that the DTC outperforms the STC in terms of both residual coupling suppression and gate accuracy in the above systems. From these results, we expect that the DTC architecture is promising for realizing high-performance, scalable superconducting quantum computers.
翻訳日:2024-08-23 19:45:30 公開日:2024-08-21
# プロンプト・アドバイサル・チューニングによる脱獄対策

Fight Back Against Jailbreaking via Prompt Adversarial Tuning ( http://arxiv.org/abs/2402.06255v3 )

ライセンス: Link先を確認
Yichuan Mo, Yuji Wang, Zeming Wei, Yisen Wang, (参考訳) 大きな言語モデル(LLM)は様々なアプリケーションで大きな成功を収めていますが、Jailbreak攻撃の影響を受けます。 LLMが有害な情報を生み出すのを防ぐために、いくつかの主要な防衛戦略が提案されており、主に有害なコンテンツフィルタリングやヒューリスティックな防御プロンプトの設計に重点を置いている。 しかし、プロンプトを通した本質的な堅牢性を実現する方法は未解決の問題である。 本稿では,ユーザプロンプトにアタッチメントされたプロンプト制御をガードプレフィックスとしてトレーニングする,PAT(Prompt Adversarial Tuning)というアプローチを提案する。 自然性能を維持しながら防衛目標を達成するため、敵と良性の両方のプロンプトで制御プロンプトを最適化する。 包括的実験により,本手法はグレーボックス攻撃とブラックボックス攻撃の両方に対して有効であることが示された。 提案した防衛戦略は無視可能な計算オーバーヘッドのみを生じさせ、将来のLLMセキュリティの探究の新たな視点をグラフ化している。 私たちのコードはhttps://github.com/rain152/PAT.comで公開されています。

While Large Language Models (LLMs) have achieved tremendous success in various applications, they are also susceptible to jailbreak attacks. Several primary defense strategies have been proposed to protect LLMs from producing harmful information, mostly with a particular focus on harmful content filtering or heuristical defensive prompt designs. However, how to achieve intrinsic robustness through the prompts remains an open problem. In this paper, motivated by adversarial training paradigms for achieving reliable robustness, we propose an approach named Prompt Adversarial Tuning (PAT) that trains a prompt control attached to the user prompt as a guard prefix. To achieve our defense goal whilst maintaining natural performance, we optimize the control prompt with both adversarial and benign prompts. Comprehensive experiments show that our method is effective against both grey-box and black-box attacks, reducing the success rate of advanced attacks to nearly 0 while maintaining the model's utility on the benign task. The proposed defense strategy incurs only negligible computational overhead, charting a new perspective for future explorations in LLM security. Our code is available at https://github.com/rain152/PAT.
翻訳日:2024-08-23 19:45:30 公開日:2024-08-21
# 幾何学による波動関数の崩壊

Geometry-induced wavefunction collapse ( http://arxiv.org/abs/2402.13980v2 )

ライセンス: Link先を確認
Li-Li Ye, Chen-Di Han, Liang Huang, Ying-Cheng Lai, (参考訳) 量子粒子が湾曲した空間に移動すると、幾何学的ポテンシャルが生じる。 広範な理論研究の長い歴史にもかかわらず、幾何学的ポテンシャルを実験的に観察することは困難である。 そのような幾何学的ポテンシャルの物理的に観測可能な結果は何ですか。 歪んだ円錐面上でシュロディンガー方程式を解くと、クーロンの不純物に関する原子崩壊に関連した準共鳴状態と強い類似性を持つ量子散乱状態のクラスが発見される。 このような崩壊状態の特徴的な特徴は、境界状態から散乱を分離するゼロエネルギー点に関する状態の局所密度(LDOS)の無限振動である。 曲線(リーマン)空間におけるそのような状態の出現は、相対論的量子機構もクーロンの不純物も必要とせず、角運動量もゼロであり、その起源は純粋に幾何学的である。 零および有限角運動状態と対応する古典図形の両方に対するLDOSの振舞いの詳細な比較分析により、これらの状態の崩壊の性質を確立する。 幾何学によって引き起こされる崩壊状態を実現するための潜在的実験的スキームが具体化される。 我々の研究は、幾何学的ポテンシャルと原子崩壊の本質的な関係を明らかにするだけでなく、物理学の様々なサブフィールドから生じる幾何学的ポテンシャルを実験的に観察し特徴付ける方法も提供する。 例えば、ナノサイエンスやナノテクノロジーでは、曲面幾何学はますます一般的になっている。 ナノデバイスの設計・開発において,波動関数の崩壊が重要な要素となることが示唆された。

When a quantum particle moves in a curved space, a geometric potential can arise. In spite of a long history of extensive theoretical studies, to experimentally observe the geometric potential remains to be a challenge. What are the physically observable consequences of such a geometric potential? Solving the Schrodinger equation on a truncated conic surface, we uncover a class of quantum scattering states that bear a strong resemblance with the quasi-resonant states associated with atomic collapse about a Coulomb impurity, a remarkable quantum phenomenon in which an infinite number of quasi-resonant states emerge. A characteristic defining feature of such collapse states is the infinite oscillations of the local density of states (LDOS) about the zero energy point separating the scattering from the bound states. The emergence of such states in the curved (Riemannian) space requires neither a relativistic quantum mechanism nor any Coulomb impurity: they have zero angular momentum and their origin is purely geometrical - henceforth the term geometry-induced wavefunction collapse. We establish the collapsing nature of these states through a detailed comparative analysis of the behavior of the LDOS for both the zero and finite angular-momentum states as well as the corresponding classical picture. Potential experimental schemes to realize the geometry-induced collapse states are articulated. Not only has our study uncovered an intrinsic connection between the geometric potential and atomic collapse, it also provides a method to experimentally observe and characterize geometric potentials arising from different subfields of physics. For example, in nanoscience and nanotechnology, curved geometry has become increasingly common. Our finding suggests that wavefunction collapse should be an important factor of consideration in designing and developing nanodevices.
翻訳日:2024-08-23 19:35:21 公開日:2024-08-21
# 2次元平板ディラック材料における不規則ブロッホゼンナー振動

Irregular Bloch Zener oscillations in two-dimensional flat-band Dirac materials ( http://arxiv.org/abs/2402.14243v2 )

ライセンス: Link先を確認
Li-Li Ye, Ying-Cheng Lai, (参考訳) 二次元(2D)ディラック材料に静電場が印加されると、ランダウ・ツェナー遷移(LZT)とブロッホ・ツェナー振動が発生する。 幅広い2次元ディラック材料のパラダイムとしてα-T3格子を用いると、2つの現象が明らかになる。 第一に、ディラック点付近の任意の小さなエネルギーギャップにより、ブリルアンゾーンの他の領域よりもLZTの発生率が高くなるため、運動量空間における微分LZT確率の分布は複雑な形態素パターンを形成することができる。 第二に、2つの異なるディラック点の相互スイッチングによって引き起こされるLZT形態の変化は、振動に関連する電流密度の時間進化における非滑らかな挙動を特徴とする不規則なブロッホ・ツェナー振動を引き起こす可能性がある。 これらの現象は、幾何相と動的相によって変調された複数のバンドにおける量子状態の混合干渉によるものである。 本研究では,Landau-Zener-Stuckelbergインターフェロメトリを記述したアディバティック・インパルスモデルを用いて位相を計算できることを実証した。 ブロッホ・ツェナー振動の不規則性の度合いは、おそらく実験的に実現可能な形態パターンを選択することで利用することができる。

When a static electrical field is applied to a two-dimensional (2D) Dirac material, Landau-Zener transition (LZT) and Bloch-Zener oscillations can occur. Employing alpha-T3 lattices as a paradigm for a broad class of 2D Dirac materials, we uncover two phenomena. First, due to the arbitrarily small energy gaps near a Dirac point that make it more likely for LZTs to occur than in other regions of the Brillouin zone, the distribution of differential LZT probability in the momentum space can form a complicated morphological pattern. Second, a change in the LZT morphology as induced by a mutual switching of the two distinct Dirac points can lead to irregular Bloch-Zener oscillations characterized by a non-smooth behavior in the time evolution of the electrical current density associated with the oscillation. These phenomena are due to mixed interference of quantum states in multiple bands modulated by the geometric and dynamic phases. We demonstrate that the adiabatic-impulse model describing Landau-Zener-Stuckelberg interferometry can be exploited to calculate the phases, due to the equivalence between the alpha-T3 lattice subject to a constant electrical field and strongly periodically driven two- or three-level systems. The degree of irregularity of Bloch-Zener oscillations can be harnessed by selecting the morphology pattern, which is potentially experimentally realizable.
翻訳日:2024-08-23 19:35:21 公開日:2024-08-21
# 平面バンドを有する2次元ディラック材料におけるスピン依存エッジ状態

Spin-dependent edge states in two-dimensional Dirac materials with a flat band ( http://arxiv.org/abs/2402.14248v2 )

ライセンス: Link先を確認
Li-Li Ye, Chen-Di Han, Ying-Cheng Lai, (参考訳) 相対論的量子キメラにつながる2次元(2次元)擬スピン-1/2ディラック材料におけるスピン依存量子散乱現象が最近明らかになった。 2次元擬似スピン1型ディラック材料におけるスピン依存型ディラック電子光学について検討し、エネルギーバンド構造は1対のディラック錐体と平らなバンドから構成されることを示した。 特に、外部電場と磁場の適切な組み合わせにより、特定のスピン配向(例えばスピンダウン)を持つ電子は長寿命エッジモードのクラスに閉じ込められ、共鳴散乱が発生する。 スピン依存エッジ状態は、フラットバンドのディラック材料特有の特徴であり、古典的な対応を持たない。 しかし、反対スピン(すなわちスピンアップ)を持つ電子は古典的な対応を持つ従来の量子散乱を受けており、これはディラック電子光学の枠組みで理解することができる。 その結果、スピンダウン電子は近距離領域と遠距離領域の両方で広い散乱角分布を持つ大きな散乱確率を生じ、スピンアップ電子は反対の挙動を示す。 このような反対のスピンを持つ電子の特徴的な振る舞いは、スピン偏極を100%近くも高めることができる。

The phenomenon of spin-dependent quantum scattering in two-dimensional (2D) pseudospin-1/2 Dirac materials leading to a relativistic quantum chimera was recently uncovered. We investigate spin-dependent Dirac electron optics in 2D pseudospin-1 Dirac materials, where the energy-band structure consists of a pair of Dirac cones and a flat band. In particular, with a suitable combination of external electric fields and a magnetic exchange field, electrons with a specific spin orientation (e.g., spin-down) can be trapped in a class of long-lived edge modes, generating resonant scattering. The spin-dependent edge states are a unique feature of flat-band Dirac materials and have no classical correspondence. However, electrons with the opposite spin (i.e., spin up) undergo conventional quantum scattering with a classical correspondence, which can be understood in the framework of Dirac electron optics. A consequence is that the spin-down electrons produce a large scattering probability with broad scattering angle distribution in both near- and far-field regions, while the spin-up electrons display the opposite behavior. Such characteristically different behaviors of the electrons with opposite spins lead to spin polarization that can be as high as nearly 100%.
翻訳日:2024-08-23 19:35:21 公開日:2024-08-21
# Larimar: エピソードメモリ制御を備えた大規模言語モデル

Larimar: Large Language Models with Episodic Memory Control ( http://arxiv.org/abs/2403.11901v4 )

ライセンス: Link先を確認
Payel Das, Subhajit Chaudhury, Elliot Nelson, Igor Melnyk, Sarath Swaminathan, Sihui Dai, Aurélie Lozano, Georgios Kollias, Vijil Chenthamarakshan, Jiří, Navrátil, Soham Dan, Pin-Yu Chen, (参考訳) LLM(Large Language Models)に格納された知識の効率的かつ正確な更新は、今日の最も急進的な研究課題の1つである。 本稿では,Larimarについて述べる。Larimarは,分散エピソードメモリを用いてLLMを拡張するための,脳にインスパイアされた新しいアーキテクチャである。 Larimarのメモリは、計算コストのかかるリトレーニングや微調整を必要とせずに、動的でワンショットの知識更新を可能にする。 複数のファクト編集ベンチマークの実験結果から、Larimarは、挑戦的なシーケンシャルな編集セットアップであっても、最も競争力のあるベースラインに匹敵する精度を達成できただけでなく、ベースLLMに依存して8~10倍のスピードアップを実現している。 さらに,Larimarを用いた情報漏洩防止,入力コンテキスト長の一般化のメカニズムを提案し,その有効性を示す。 私たちのコードはhttps://github.com/IBM/larimarで利用可能です。

Efficient and accurate updating of knowledge stored in Large Language Models (LLMs) is one of the most pressing research challenges today. This paper presents Larimar - a novel, brain-inspired architecture for enhancing LLMs with a distributed episodic memory. Larimar's memory allows for dynamic, one-shot updates of knowledge without the need for computationally expensive re-training or fine-tuning. Experimental results on multiple fact editing benchmarks demonstrate that Larimar attains accuracy comparable to most competitive baselines, even in the challenging sequential editing setup, but also excels in speed - yielding speed-ups of 8-10x depending on the base LLM - as well as flexibility due to the proposed architecture being simple, LLM-agnostic, and hence general. We further provide mechanisms for selective fact forgetting, information leakage prevention, and input context length generalization with Larimar and show their effectiveness. Our code is available at https://github.com/IBM/larimar
翻訳日:2024-08-23 19:25:36 公開日:2024-08-21
# ゼロショットプロンプトによるジェスチャー認識のためのビデオエンコーダ

Zero-shot Prompt-based Video Encoder for Surgical Gesture Recognition ( http://arxiv.org/abs/2403.19786v2 )

ライセンス: Link先を確認
Mingxing Rao, Yinhong Qin, Soheil Kolouri, Jie Ying Wu, Daniel Moyer, (参考訳) 目的:多種多様な手順を支援できる外科的ジェスチャー認識システムを作成するためには、非常に大きな注釈付きデータセットを取得するか、新しいラベルに適合したモデルを一般化する必要がある(いわゆる「ゼロショット」能力)。 本稿では,後者の選択肢の実現可能性について検討する。 方法:Bridge-Promptフレームワークを応用し,手術ビデオにおけるジェスチャー認識のための訓練済み視覚テキストモデル(CLIP)を即時チューニングする。 これはテキストなどの広範囲な外部ビデオデータを利用することができるが、ラベルメタデータも利用でき、コントラスト的損失を弱めている。 結果: プロンプトベースビデオエンコーダは, 外科的ジェスチャー認識タスクにおいて, 標準的なエンコーダよりも優れていた。 特に、ゼロショットのシナリオでは、エンコーダのトレーニングフェーズで提供されなかったジェスチャー/タスクが予測フェーズに含まれる。 さらに,特徴抽出学習スキーマにテキスト記述を含めることの利点を計測する。 Conclusion Bridge-Promptと類似のトレーニング済み+promptチューニングビデオエンコーダモデルは、特にジェスチャー認識タスクにおいて、外科ロボティクスにおいて重要な視覚的表現を示す。 多様な外科的タスク(妊娠)を考慮に入れれば、これらのモデルが特定の作業(妊娠)の訓練を必要とせずにゼロショット転送を行う能力は、これらのモデルに有益である。

Purpose: In order to produce a surgical gesture recognition system that can support a wide variety of procedures, either a very large annotated dataset must be acquired, or fitted models must generalize to new labels (so called "zero-shot" capability). In this paper we investigate the feasibility of latter option. Methods: Leveraging the Bridge-Prompt framework, we prompt-tune a pre-trained vision-text model (CLIP) for gesture recognition in surgical videos. This can utilize extensive outside video data such as text, but also make use of label meta-data and weakly supervised contrastive losses. Results: Our experiments show that prompt-based video encoder outperforms standard encoders in surgical gesture recognition tasks. Notably, it displays strong performance in zero-shot scenarios, where gestures/tasks that were not provided during the encoder training phase are included in the prediction phase. Additionally, we measure the benefit of inclusion text descriptions in the feature extractor training schema. Conclusion Bridge-Prompt and similar pre-trained+prompt-tuned video encoder models present significant visual representation for surgical robotics, especially in gesture recognition tasks. Given the diverse range of surgical tasks (gestures), the ability of these models to zero-shot transfer without the need for any task (gesture) specific retraining makes them invaluable.
翻訳日:2024-08-23 19:25:36 公開日:2024-08-21
# LLM2Vec:大規模言語モデルは秘密裏に強力なテキストエンコーダ

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders ( http://arxiv.org/abs/2404.05961v2 )

ライセンス: Link先を確認
Parishad BehnamGhader, Vaibhav Adlakha, Marius Mosbach, Dzmitry Bahdanau, Nicolas Chapados, Siva Reddy, (参考訳) 大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 しかし、コミュニティは、リッチなコンテキスト化表現を必要とするテキスト埋め込みタスクに対して、これらのモデルを徐々に採用しているだけである。 本研究では,デコーダのみのLLMを強力なテキストエンコーダに変換する,シンプルな教師なしアプローチであるLLM2Vecを紹介する。 LLM2Vecは3つの単純なステップから構成される。 1)双方向の注意を喚起する。 2)次のトークン予測を隠蔽し、 3)教師なしコントラスト学習。 我々は、LLM2Vecの有効性を、1.3Bから8Bまでの4つのLLMに適用し、英語の単語レベルとシーケンスレベルのタスクの変換モデルを評価する。 我々は,単語レベルのタスクにおいて,エンコーダのみのモデルよりも優れた性能を示し,MTEB(Massive Text Embeddings Benchmark)の非教師なしのパフォーマンスを達成した。 さらに,LLM2Vecと教師付きコントラスト学習を組み合わせることで,公開データのみをトレーニングするモデル(2024年5月24日現在)の中でMTEBの最先端性能を実現する。 我々の強力な実験結果と広範囲な分析により、LPMは高価な適応や合成GPT-4生成データを必要とせずに、パラメータ効率の良い方法で、効果的にユニバーサルテキストエンコーダに変換できることを示した。

Large decoder-only language models (LLMs) are the state-of-the-art models on most of today's NLP tasks and benchmarks. Yet, the community is only slowly adopting these models for text embedding tasks, which require rich contextualized representations. In this work, we introduce LLM2Vec, a simple unsupervised approach that can transform any decoder-only LLM into a strong text encoder. LLM2Vec consists of three simple steps: 1) enabling bidirectional attention, 2) masked next token prediction, and 3) unsupervised contrastive learning. We demonstrate the effectiveness of LLM2Vec by applying it to 4 popular LLMs ranging from 1.3B to 8B parameters and evaluate the transformed models on English word- and sequence-level tasks. We outperform encoder-only models by a large margin on word-level tasks and reach a new unsupervised state-of-the-art performance on the Massive Text Embeddings Benchmark (MTEB). Moreover, when combining LLM2Vec with supervised contrastive learning, we achieve state-of-the-art performance on MTEB among models that train only on publicly available data (as of May 24, 2024). Our strong empirical results and extensive analysis demonstrate that LLMs can be effectively transformed into universal text encoders in a parameter-efficient manner without the need for expensive adaptation or synthetic GPT-4 generated data.
翻訳日:2024-08-23 19:25:36 公開日:2024-08-21
# ニューラル量子状態トモグラフィーのためのブートストラップ古典影

Bootstrapping Classical Shadows for Neural Quantum State Tomography ( http://arxiv.org/abs/2405.06864v3 )

ライセンス: Link先を確認
Wirawat Kokaew, Bohdan Kulchytskyy, Shunji Matsuura, Pooya Ronagh, (参考訳) 本研究では, 自己回帰型ニューラル量子状態を用いた古典的影トモグラフィーによる予測能力向上のメリットについて検討する。 本稿では,古典的影を用いたクロスエントロピー損失関数の最適化と,古典的影から収集したスタビライザサンプルを用いてトレーニング中の損失勾配を推定するための新たな重要サンプリング手法を提案する。 この損失関数は、古典的な影の測定に基づいて訓練されたトランスフォーマーベースニューラルネットワークを用いて、GHZ状態の安定な再構成を実現するために利用できることを示す。 この損失関数はまた、混合状態の精製を表す神経量子状態の訓練を可能にする。 以上の結果から, 物理的に明確に定義された密度行列を表す自己回帰モデルの本質的な能力は, 純粋および混合状態の純度などの高次観測値と非線形観測値の両方を予測する上で, パウリをベースとした古典的シャドウトモグラフィーの弱点を克服できることが示唆された。

We investigate the advantages of using autoregressive neural quantum states as ansatze for classical shadow tomography to improve its predictive power. We introduce a novel estimator for optimizing the cross-entropy loss function using classical shadows, and a new importance sampling strategy for estimating the loss gradient during training using stabilizer samples collected from classical shadows. We show that this loss function can be used to achieve stable reconstruction of GHZ states using a transformer-based neural network trained on classical shadow measurements. This loss function also enables the training of neural quantum states representing purifications of mixed states. Our results show that the intrinsic capability of autoregressive models in representing physically well-defined density matrices allows us to overcome the weakness of Pauli-based classical shadow tomography in predicting both high-weight observables and nonlinear observables such as the purity of pure and mixed states.
翻訳日:2024-08-23 19:15:36 公開日:2024-08-21
# 学習促進のための目標到達保証型エージェント設計

An agent design with goal reaching guarantees for enhancement of learning ( http://arxiv.org/abs/2405.18118v3 )

ライセンス: Link先を確認
Pavel Osinenko, Grigory Yaremenko, Georgiy Malaniya, Anton Bolychev, Alexander Gepperth, (参考訳) 強化学習は、マルコフ決定過程における累積報酬の最大化の問題に一般的に関係している。 しばしば、ある目標状態または状態空間の部分集合が最大報酬を得る。 そのような場合、目標に達すると環境が解決される可能性がある。 学習や非学習に基づく多くのテクニックが環境解決のために存在するのに対して、最適に行うことが最大の課題です。 例えば、アクションの努力を罰する報酬率を選択することができる。 現在、強化学習は、蓄積された報酬を最大化することで最適な環境を解決するための最も活発なフレームワークの1つである。 しかし、チューニングエージェントは、一連の研究で報告されているように、非常に難しいタスクである。 本研究の目的は,環境問題にのみ対応可能な基本方針の目標を達成しつつ,エージェントが最適に近い政策を効率的に学習できるようにすることである。 我々は、かなり柔軟で、批判者を構成する限り、事実上あらゆるエージェントを増強するために使用できるアルゴリズムを提案する。 目標到達特性の正式な証明が提供される。 一般的なベースラインエージェントによるいくつかの問題に対する比較実験は、学習が実際に向上し、目標を達成することを確実にする実証的な証拠となった。

Reinforcement learning is commonly concerned with problems of maximizing accumulated rewards in Markov decision processes. Oftentimes, a certain goal state or a subset of the state space attain maximal reward. In such a case, the environment may be considered solved when the goal is reached. Whereas numerous techniques, learning or non-learning based, exist for solving environments, doing so optimally is the biggest challenge. Say, one may choose a reward rate which penalizes the action effort. Reinforcement learning is currently among the most actively developed frameworks for solving environments optimally by virtue of maximizing accumulated reward, in other words, returns. Yet, tuning agents is a notoriously hard task as reported in a series of works. Our aim here is to help the agent learn a near-optimal policy efficiently while ensuring a goal reaching property of some basis policy that merely solves the environment. We suggest an algorithm, which is fairly flexible, and can be used to augment practically any agent as long as it comprises of a critic. A formal proof of a goal reaching property is provided. Comparative experiments on several problems under popular baseline agents provided an empirical evidence that the learning can indeed be boosted while ensuring goal reaching property.
翻訳日:2024-08-23 19:15:36 公開日:2024-08-21
# TSB: NVCIMアクセラレータ上での効率的なDNNデプロイのためのTiny Shared Block

TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators ( http://arxiv.org/abs/2406.06544v2 )

ライセンス: Link先を確認
Yifan Qin, Zheyu Yan, Zixuan Pan, Wujie Wen, Xiaobo Sharon Hu, Yiyu Shi, (参考訳) 非揮発性メモリ(NVM)デバイスを使用したCIM(Compute-in-Memory)アクセラレータは、エネルギー効率と低レイテンシのDeep Neural Network(DNN)推論実行のための有望なソリューションを提供する。 しかし、実際には、非揮発性コンピューティングインメモリ(NVCIM)アクセラレーターにおける固有のデバイス変異の影響を受け、大量のモデルウェイトパラメータを扱うという課題によって、しばしば障害となる。 この問題は、トレーニングオーバーヘッドの増加、重みをデバイス状態にマッピングするために必要な時間とエネルギー、推論精度の低下によって、彼らの利点を著しく相殺する。 これらの課題を軽減するために,小さな共有1x1畳み込みブロックをDNNアーキテクチャに統合した"Tiny Shared Block (TSB)"手法を提案する。 このブロックは、ネットワーク全体の機能処理を安定化し、デバイスの変動の影響を効果的に低減するように設計されている。 実験の結果,TSBは20倍以上の推論精度のギャップ改善,5倍以上のトレーニングスピードアップ,デバイス間マッピングコストの削減を実現し,プログラミング中に記述されたウェイトの0.4%未満を必要とせず,最先端のベースラインソリューションと比較した。 我々のアプローチは、NVCIMアクセラレーターに堅牢なDNNモデルをデプロイするための実用的で効率的なソリューションを提供する。

Compute-in-memory (CIM) accelerators using non-volatile memory (NVM) devices offer promising solutions for energy-efficient and low-latency Deep Neural Network (DNN) inference execution. However, practical deployment is often hindered by the challenge of dealing with the massive amount of model weight parameters impacted by the inherent device variations within non-volatile computing-in-memory (NVCIM) accelerators. This issue significantly offsets their advantages by increasing training overhead, the time and energy needed for mapping weights to device states, and diminishing inference accuracy. To mitigate these challenges, we propose the "Tiny Shared Block (TSB)" method, which integrates a small shared 1x1 convolution block into the DNN architecture. This block is designed to stabilize feature processing across the network, effectively reducing the impact of device variation. Extensive experimental results show that TSB achieves over 20x inference accuracy gap improvement, over 5x training speedup, and weights-to-device mapping cost reduction while requiring less than 0.4% of the original weights to be write-verified during programming, when compared with state-of-the-art baseline solutions. Our approach provides a practical and efficient solution for deploying robust DNN models on NVCIM accelerators, making it a valuable contribution to the field of energy-efficient AI hardware.
翻訳日:2024-08-23 19:05:52 公開日:2024-08-21
# 教育用微調整言語モデルにおけるバックドアの検討

A Study of Backdoors in Instruction Fine-tuned Language Models ( http://arxiv.org/abs/2406.07778v2 )

ライセンス: Link先を確認
Jayaram Raghuram, George Kesidis, David J. Miller, (参考訳) バックドアデータ中毒は、下流タスク(\textit{e g ,} 感情予測)のための基礎となるLarge Language Model(LLM)を微調整するために使用される命令例に挿入される。 中毒は通常、標的クラスからの微調整サンプルのごく一部に挿入される(一見無害な)トリガーワードまたはフレーズの形で起こる。 このようなバックドア攻撃は、反応の感情を変えたり、検閲に違反したり(合法的なクエリに対する検閲を呼び起こしたり)、偽のコンテンツを注入したり、ナンセンスな応答(幻覚)を引き起こす。 本研究は,「ハイパーパラメータ」攻撃としての指示微調整バックドアアタックの有効性について,各種シナリオで検討し,毒物中のトリガー位置,トリガー位置の変化に対する堅牢性,部分トリガー,テスト時の同義語置換性,1ドメイン(微調整)から関連するテストドメインへのアタック移行,クリーンラベル対汚れラベル中毒などを検討した。 そこで我々は,これらの攻撃に対する2つの防御策を提案し,評価した。 一 バックドアトリガートークンを識別し、(潜在的に有毒である可能性のある)微調整データセットが利用可能であると仮定した単語周波数数に基づく「textit{during-fine-tuning Defense」 二 バックドア式LDMの下流清浄な微調整に基づく「textit{post-fine-tuning Defense」を小さな防衛データセットで作成すること。 最後に,バックドア攻撃と防衛に関する簡単な研究について報告する。

Backdoor data poisoning, inserted within instruction examples used to fine-tune a foundation Large Language Model (LLM) for downstream tasks (\textit{e.g.,} sentiment prediction), is a serious security concern due to the evasive nature of such attacks. The poisoning is usually in the form of a (seemingly innocuous) trigger word or phrase inserted into a very small fraction of the fine-tuning samples from a target class. Such backdoor attacks can: alter response sentiment, violate censorship, over-refuse (invoke censorship for legitimate queries), inject false content, or trigger nonsense responses (hallucinations). In this work we investigate the efficacy of instruction fine-tuning backdoor attacks as attack "hyperparameters" are varied under a variety of scenarios, considering: the trigger location in the poisoned examples; robustness to change in the trigger location, partial triggers, and synonym substitutions at test time; attack transfer from one (fine-tuning) domain to a related test domain; and clean-label vs. dirty-label poisoning. Based on our observations, we propose and evaluate two defenses against these attacks: i) a \textit{during-fine-tuning defense} based on word-frequency counts that assumes the (possibly poisoned) fine-tuning dataset is available and identifies the backdoor trigger tokens; and ii) a \textit{post-fine-tuning defense} based on downstream clean fine-tuning of the backdoored LLM with a small defense dataset. Finally, we provide a brief survey of related work on backdoor attacks and defenses.
翻訳日:2024-08-23 19:05:52 公開日:2024-08-21
# MegaScenes:Scene-Level View Synthesis at Scale

MegaScenes: Scene-Level View Synthesis at Scale ( http://arxiv.org/abs/2406.11819v2 )

ライセンス: Link先を確認
Joseph Tung, Gene Chou, Ruojin Cai, Guandao Yang, Kai Zhang, Gordon Wetzstein, Bharath Hariharan, Noah Snavely, (参考訳) NVS (Scene-level novel view synthesis) は多くの視覚やグラフィックスの応用に基礎を置いている。 近年,ポーズ条件付き拡散モデルでは2次元基礎モデルから3次元情報を抽出することで大きな進歩を遂げている。 一般的なデータセットの選択は、孤立したオブジェクト(Objaverse)または、限られたポーズ分布(DTU、CO3D)を持つオブジェクト中心のシーンから成っている。 本稿では,世界からの100K以上の動き(SfM)再構成を含むインターネット写真コレクションから,大規模なシーンレベルのデータセットを作成した。 インターネット写真はスケーラブルなデータソースだが、照明や一時的なオブジェクトといった課題が伴う。 これらの課題に対処し、NVSのタスクに適したサブセットをさらに作成します。 さらに、最先端NVS手法の故障事例を分析し、生成一貫性を大幅に改善する。 広範にわたる実験を通して,本手法とデータセットの有効性を検証した。 データセットとコードの詳細については、プロジェクトのページ(https://megascenes.github.io.)を参照してください。

Scene-level novel view synthesis (NVS) is fundamental to many vision and graphics applications. Recently, pose-conditioned diffusion models have led to significant progress by extracting 3D information from 2D foundation models, but these methods are limited by the lack of scene-level training data. Common dataset choices either consist of isolated objects (Objaverse), or of object-centric scenes with limited pose distributions (DTU, CO3D). In this paper, we create a large-scale scene-level dataset from Internet photo collections, called MegaScenes, which contains over 100K structure from motion (SfM) reconstructions from around the world. Internet photos represent a scalable data source but come with challenges such as lighting and transient objects. We address these issues to further create a subset suitable for the task of NVS. Additionally, we analyze failure cases of state-of-the-art NVS methods and significantly improve generation consistency. Through extensive experiments, we validate the effectiveness of both our dataset and method on generating in-the-wild scenes. For details on the dataset and code, see our project page at https://megascenes.github.io.
翻訳日:2024-08-23 19:05:52 公開日:2024-08-21
# スロット状態空間モデル

Slot State Space Models ( http://arxiv.org/abs/2406.12272v5 )

ライセンス: Link先を確認
Jindong Jiang, Fei Deng, Gautam Singh, Minseung Lee, Sungjin Ahn, (参考訳) S4、S5、Mambaのような最近の状態空間モデル(SSM)は、長距離時間依存性モデリングにおいて顕著な計算上の利点を示している。 しかし、多くのシーケンスモデリング問題において、基礎となるプロセスは本質的にモジュラーであり、このモジュラー構造を模倣する帰納的バイアスを持つことは興味深い。 本稿では,情報分離の維持・促進を目的として,独立したメカニズムをSSMに組み込む新しいフレームワークであるSlotSSMを紹介する。 モノリシックな状態ベクトルを保持する従来のSSMとは異なり、SlotSSMはスロットと呼ばれる複数のベクトルの集合として状態を維持する。 重要なことは、状態遷移はスロットごとに独立に行われ、自己注意のボトルネックを通じて実装されたスロット間の疎相互作用である。 実験では,オブジェクト中心の映像理解,3次元視覚推論,映像予測タスクにおいて,複数のオブジェクトとその長距離時間依存性のモデル化を含むモデルを評価する。 提案手法は,既存のシーケンス・モデリング手法に比べて性能が大幅に向上することがわかった。 プロジェクトページはhttps://slotssms.github.io/で公開されている。

Recent State Space Models (SSMs) such as S4, S5, and Mamba have shown remarkable computational benefits in long-range temporal dependency modeling. However, in many sequence modeling problems, the underlying process is inherently modular and it is of interest to have inductive biases that mimic this modular structure. In this paper, we introduce SlotSSMs, a novel framework for incorporating independent mechanisms into SSMs to preserve or encourage separation of information. Unlike conventional SSMs that maintain a monolithic state vector, SlotSSMs maintains the state as a collection of multiple vectors called slots. Crucially, the state transitions are performed independently per slot with sparse interactions across slots implemented via the bottleneck of self-attention. In experiments, we evaluate our model in object-centric video understanding, 3D visual reasoning, and video prediction tasks, which involve modeling multiple objects and their long-range temporal dependencies. We find that our proposed design offers substantial performance gains over existing sequence modeling methods. Project page is available at https://slotssms.github.io/
翻訳日:2024-08-23 19:05:52 公開日:2024-08-21
# 事象地平線のない蒸発ブラックホールにおける絡み合った対

Entangled pairs in evaporating black holes without event horizons ( http://arxiv.org/abs/2407.03031v2 )

ライセンス: Link先を確認
Ivan Agullo, Paula Calizaya Cabrera, Beatriz Elizaga Navascués, (参考訳) ホーキング放射の研究は、このような因果構造が自然界に存在しないという意見の高まりにもかかわらず、事象の地平線を特徴とするブラックホールモデルを想定していることが多い。 この仮定は、将来の無限遠点における放射線の局所的性質の導出には不可欠ではないが、ホーキングパートナー(ホーキング放射を浄化する場モード)に関する議論において重要な役割を果たす。 本稿では、ホーキング放射による半古典的質量損失を考慮したブラックホールのシナリオにおけるホーキングパートナーの定義と運命について考察する。 我々の分析では、事象の地平線の仮定を回避し、動的地平線に拘束された領域を特徴付ける崩壊過程に焦点を当てている。 後方散乱の効果を考慮したパートナーの形式を導出する。 さらに、これらの結果と穏やかな仮定を用いて、一般相対性理論が量子場理論と半古典的に共存する状態において、ホーキングパートナーは、ホーキング放射を部分的に浄化するために動的地平線から「漏れ出せない」ことが分かる。 この発見は、情報の最終的な運命を解決するために、量子重力のような新しい物理学の必要性を強調している。

Investigations into Hawking radiation often assume a black hole model featuring an event horizon, despite the growing consensus that such causal structures may not exist in nature. While this assumption is not crucial for deriving the local properties of radiation at future null infinity, it plays a significant role in discussions about Hawking partners -- the field modes that purify Hawking radiation. This article aims to explore the definition and fate of Hawking partners in black hole scenarios where semiclassical mass loss due to Hawking radiation is considered. Our analysis avoids the assumption of event horizons and instead focuses on collapse processes that feature a trapped region bounded by a dynamical horizon. We derive the form of the partners, accounting for the effects of back-scattering. Furthermore, using these results and mild assumptions, we find that Hawking partners cannot "leak" out of the dynamical horizon to partially purify the Hawking radiation in the regime where general relativity coexists semiclassically with quantum field theory. This finding emphasizes the necessity for new physics, such as quantum gravity, to resolve the final fate of information.
翻訳日:2024-08-23 18:56:04 公開日:2024-08-21
# 細胞と組織の微細生体力学的イメージングのためのハーネス量子光

Harnessing quantum light for microscopic biomechanical imaging of cells and tissues ( http://arxiv.org/abs/2407.08160v2 )

ライセンス: Link先を確認
Tian Li, Vsevolod Cheburkanov, Vladislav V. Yakovlev, Girish S. Agarwal, Marlan O. Scully, (参考訳) 細胞と組織の生体力学的性質は、細胞および細胞内レベルでの生体系の構造と機能に対する根本的な理解において重要な役割を担っている。 近年,生体内における粘弾性特性を評価するためのラベルのない分光分析手段であるブリルアン顕微鏡が,生体組織の顕微鏡レベルでこれらの特性を検査する強力な方法として出現している。 しかし、特にブリルアン散乱を誘導するために高強度レーザービームを使用する場合、光損傷や光漂白への感受性は重大な課題となる。 本稿では,生物・生物医学研究における光損傷を軽減し,生体試料中の非破壊的,ラベルなしの機械的特性の評価を可能にするための変換的アプローチを提案する。 量子光励起ブリルアン散乱(SBS)イメージングコントラストを活用することにより、信号対雑音比が著しく上昇し、生体試料の完全性を損なうことなく、試料の生存可能性を高め、尋問時間を延長する。 この手法の具体的な影響は、従来のコヒーレント光ベースのアプローチを超越して、試料を連続的に3時間に絞った後に観察された試料の生存率の顕著な3倍の上昇によって証明される。 量子化SBSイメージングは、がん生物学や神経科学などの様々な分野において、サンプルの活力を維持することが最も重要な分野である。 高強度レーザーによる光損傷や光漂白に関する懸念を緩和することにより、この技術は生体システムの力学的性質を探求し、新たな研究と臨床応用の道を開くための地平を広げる。

The biomechanical properties of cells and tissues play an important role in our fundamental understanding of the structures and functions of biological systems at both the cellular and subcellular levels. Recently, Brillouin microscopy, which offers a label-free spectroscopic means of assessing viscoelastic properties in vivo, has emerged as a powerful way to interrogate those properties on a microscopic level in living tissues. However, susceptibility to photo-damage and photo-bleaching, particularly when high-intensity laser beams are used to induce Brillouin scattering, poses a significant challenge. This article introduces a transformative approach designed to mitigate photo-damage in biological and biomedical studies, enabling non-destructive, label-free assessments of mechanical properties in live biological samples. By leveraging quantum-light-enhanced stimulated Brillouin scattering (SBS) imaging contrast, the signal-to-noise ratio is significantly elevated, thereby increasing sample viability and extending interrogation times without compromising the integrity of living samples. The tangible impact of this novel methodology is evidenced by a notable three-fold increase in sample viability observed after subjecting the samples to three hours of continuous squeezed-light illumination, surpassing the traditional coherent light-based approaches. The quantum-enhanced SBS imaging holds promise across diverse fields, such as cancer biology and neuroscience where preserving sample vitality is of paramount significance. By mitigating concerns regarding photo-damage and photo-bleaching associated with high-intensity lasers, this technological breakthrough expands our horizons for exploring the mechanical properties of live biological systems, paving the way for a new era of research and clinical applications.
翻訳日:2024-08-23 18:56:04 公開日:2024-08-21
# 強化学習におけるハミルトン・ヤコビの到達可能性に関する調査

Hamilton-Jacobi Reachability in Reinforcement Learning: A Survey ( http://arxiv.org/abs/2407.09645v2 )

ライセンス: Link先を確認
Milan Ganai, Sicun Gao, Sylvia Herbert, (参考訳) 近年の文献では、安全保証を維持しつつ、高い性能で制御ポリシーを学習するアプローチが提案されている。 ハミルトン・ヤコビ・リーチブル・セット(HJ)の合成は、複雑な高次元システムに対する強化学習に基づく制御ポリシーの訓練の安全性を検証し、監督するための有効なツールとなっている。 以前は、HJの到達性は低次元の動的システムの検証に限られていたが、それは主に、それが依存する動的プログラミング手法の計算複雑性が、システム状態の数とともに指数関数的に増加するためである。 近年,提案手法のいくつかは,HJ到達可能性分析をスケールするための学習制御ポリシと同時に到達可能性値関数を計算し,真の到達可能性集合の信頼性を保ちながら,この制限に対処している。 これらのHJ到達可能性近似は、学習された制御ポリシーの安全性の向上や、報酬のパフォーマンス向上に利用され、動的障害やライダーベースや視覚に基づく観察といった課題を解決することができる。 本稿では,高次元システムにおける信頼性のさらなる研究の基盤となる強化学習におけるHJ到達可能性評価の分野における最近の展開を概観する。

Recent literature has proposed approaches that learn control policies with high performance while maintaining safety guarantees. Synthesizing Hamilton-Jacobi (HJ) reachable sets has become an effective tool for verifying safety and supervising the training of reinforcement learning-based control policies for complex, high-dimensional systems. Previously, HJ reachability was restricted to verifying low-dimensional dynamical systems primarily because the computational complexity of the dynamic programming approach it relied on grows exponentially with the number of system states. In recent years, a litany of proposed methods addresses this limitation by computing the reachability value function simultaneously with learning control policies to scale HJ reachability analysis while still maintaining a reliable estimate of the true reachable set. These HJ reachability approximations are used to improve the safety, and even reward performance, of learned control policies and can solve challenging tasks such as those with dynamic obstacles and/or with lidar-based or vision-based observations. In this survey paper, we review the recent developments in the field of HJ reachability estimation in reinforcement learning that would provide a foundational basis for further research into reliability in high-dimensional systems.
翻訳日:2024-08-23 18:56:04 公開日:2024-08-21
# LLMの持続的不純物挙動に対する頑健性の改善

Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs ( http://arxiv.org/abs/2407.15549v2 )

ライセンス: Link先を確認
Abhay Sheshadri, Aidan Ewart, Phillip Guo, Aengus Lynch, Cindy Wu, Vivek Hebbar, Henry Sleight, Asa Cooper Stickland, Ethan Perez, Dylan Hadfield-Menell, Stephen Casper, (参考訳) 大きな言語モデル(LLM)は、しばしば望ましくない方法で振る舞うように、明示的に微調整されないようにすることができる。 例えば、LLMのレッドチーム文学は、有害なテキストを無害とするために微調整されたモデルから引き出す「ジェイルブレイク」テクニックを多種多様に作り出している。 レッドチーム、モデル編集、解釈可能性に関する最近の研究は、この課題が(逆)微調整がLLMから望ましくない能力を除去するよりも、どのように抑制するかに起因していることを示唆している。 従来の作業では、幅広い障害のクラスに対する堅牢性を改善する手段として、潜在敵訓練(LAT)が導入されていた。 これらの先行研究は、敵の摂動が望ましい行動の例における損失を最大化するために、非標的の潜時空間攻撃を検討した。 Untargeted LATは汎用的な堅牢性を提供するが、特定の障害モードに関する情報を活用できない。 ここでは、特定の競合タスクにおける損失を最小限に抑えるために、LATを対象とする実験を行う。 さまざまな最先端の手法を拡張できることがわかりました。 まず、ターゲットのLATを使用してジェイルブレイクの堅牢性を向上し、R2D2ベースラインを桁違いの計算量で上回ります。 第2に,トリガの知識のないバックドアをより効果的に除去するために,それを使用します。 最後に、より効果的に、特定の望ましくないタスクの知識を、再学習にもより堅牢な方法で解き放つために使用します。 以上の結果から, LLMの有害行動に対する防御手段として, LATが有効であることが示唆された。

Large language models (LLMs) can often be made to behave in undesirable ways that they are explicitly fine-tuned not to. For example, the LLM red-teaming literature has produced a wide variety of 'jailbreaking' techniques to elicit harmful text from models that were fine-tuned to be harmless. Recent work on red-teaming, model editing, and interpretability suggests that this challenge stems from how (adversarial) fine-tuning largely serves to suppress rather than remove undesirable capabilities from LLMs. Prior work has introduced latent adversarial training (LAT) as a way to improve robustness to broad classes of failures. These prior works have considered untargeted latent space attacks where the adversary perturbs latent activations to maximize loss on examples of desirable behavior. Untargeted LAT can provide a generic type of robustness but does not leverage information about specific failure modes. Here, we experiment with targeted LAT where the adversary seeks to minimize loss on a specific competing task. We find that it can augment a wide variety of state-of-the-art methods. First, we use targeted LAT to improve robustness to jailbreaks, outperforming a strong R2D2 baseline with orders of magnitude less compute. Second, we use it to more effectively remove backdoors with no knowledge of the trigger. Finally, we use it to more effectively unlearn knowledge for specific undesirable tasks in a way that is also more robust to re-learning. Overall, our results suggest that targeted LAT can be an effective tool for defending against harmful behaviors from LLMs.
翻訳日:2024-08-23 18:56:04 公開日:2024-08-21
# BIV-Priv-Seg:視覚障害者が撮影した画像中のプライベートコンテンツ

BIV-Priv-Seg: Locating Private Content in Images Taken by People With Visual Impairments ( http://arxiv.org/abs/2407.18243v2 )

ライセンス: Link先を確認
Yu-Yun Tseng, Tanusree Sharma, Lotus Zhang, Abigale Stangl, Leah Findlater, Yang Wang, Danna Gurari, (参考訳) 盲目または低視力(BLV)を持つ個人は、撮影した写真を共有する場合、プライベート情報を共有するリスクが高くなる。 BIV-Priv-Segは、プライベートコンテンツを表示する視覚障害を持つ人々から生まれた、最初のローカライゼーションデータセットである。 16のプライベートオブジェクトカテゴリ用のセグメンテーションアノテーションを備えた1,028のイメージが含まれている。 まず、BIV-Priv-Segを特徴付けるとともに、データセット内のプライベートコンテンツを特定するためのモダンモデルの性能を評価する。 現代モデルは、画像からプライベートコンテンツが欠落していることを認識できるだけでなく、健全で小さく、テキストが欠けているプライベートオブジェクトの発見に最も苦労している。 我々は、新しいデータセットをhttps://vizwiz.org/tasks-and-datasets/object-localizationで評価サーバと共有することで、将来の拡張を容易にする。

Individuals who are blind or have low vision (BLV) are at a heightened risk of sharing private information if they share photographs they have taken. To facilitate developing technologies that can help preserve privacy, we introduce BIV-Priv-Seg, the first localization dataset originating from people with visual impairments that shows private content. It contains 1,028 images with segmentation annotations for 16 private object categories. We first characterize BIV-Priv-Seg and then evaluate modern models' performance for locating private content in the dataset. We find modern models struggle most with locating private objects that are not salient, small, and lack text as well as recognizing when private content is absent from an image. We facilitate future extensions by sharing our new dataset with the evaluation server at https://vizwiz.org/tasks-and-datasets/object-localization.
翻訳日:2024-08-23 18:46:20 公開日:2024-08-21
# 多体局在系の位相位相:固有状態次数を超えて

Topological Phases of Many-Body Localized Systems: Beyond Eigenstate Order ( http://arxiv.org/abs/2408.00825v2 )

ライセンス: Link先を確認
David M. Long, Dominic V. Else, (参考訳) 多体局在(MBL)は物質の非平衡相に顕著な堅牢性を与える。 このような位相は、その基底状態と励起状態において位相的および対称性の破れ秩序を示すことができるが、異常な局所位相位相(ALT相)に属することもある。 ALT 相のすべての固有状態は、積状態に変形できるという点で自明であるが、ハミルトニアン全体は非局在化遷移を経ることなく自明な局所化モデルに変形することはできない。 量子セルオートマトン(QCA)と呼ばれる短距離エンタングルメントを持つMBL位相と局所保存ユニタリ(英語版)の対応を利用して、ALT位相の分類をQCAに還元する。 この手法は周期的に(Floquet)と準周期的に駆動されるALT位相に拡張し、静的位相と同じフレームワーク内で異常なFloquet位相をキャプチャする。 QCAフレームワークはさらに対称性に富んだALT相(SALT相)を包含するように一般化し、量子シミュレータにおける実現に適した可溶性モデルの大規模なクラスを提供する。 ALT相の研究の体系化において、相互作用する非平衡系の分類を大幅に拡張し、非自明なハミルトン群と非自明な基底状態とを暗黙的に同一視する文献の混乱を明らかにする。

Many-body localization (MBL) lends remarkable robustness to nonequilibrium phases of matter. Such phases can show topological and symmetry breaking order in their ground and excited states, but they may also belong to an anomalous localized topological phase (ALT phase). All eigenstates in an ALT phase are trivial, in that they can be deformed to product states, but the entire Hamiltonian cannot be deformed to a trivial localized model without going through a delocalization transition. Using a correspondence between MBL phases with short-ranged entanglement and locality preserving unitaries - called quantum cellular automata (QCA) - we reduce the classification of ALT phases to that of QCA. This method extends to periodically (Floquet) and quasiperiodically driven ALT phases, and captures anomalous Floquet phases within the same framework as static phases. The QCA framework further generalizes to include symmetry-enriched ALT phases (SALT phases), and provides a large class of soluble models suitable for realization in quantum simulators. In systematizing the study of ALT phases, we both greatly extend the classification of interacting nonequilibrium systems and clarify a confusion in the literature which implicitly equates nontrivial Hamiltonians with nontrivial ground states.
翻訳日:2024-08-23 18:46:20 公開日:2024-08-21
# Polyp SAM 2: 大腸癌検出におけるゼロショットポリープセグメンテーションの促進

Polyp SAM 2: Advancing Zero shot Polyp Segmentation in Colorectal Cancer Detection ( http://arxiv.org/abs/2408.05892v2 )

ライセンス: Link先を確認
Mobina Mansoori, Sajjad Shahabodini, Jamshid Abouei, Konstantinos N. Plataniotis, Arash Mohammadi, (参考訳) ポリープ分画は大腸癌の早期発見と診断において重要な役割を担っている。 しかし、正確なセグメンテーションを得るには、しばしば労働集約的なアノテーションと専門的なモデルが必要である。 最近、Meta AI Researchは、いくつかのセグメンテーションタスクで有望なパフォーマンスを示す一般的なセグメンテーションモデル2(SAM2)をリリースした。 そこで本研究では,各種刺激条件下でのセグメンテーションポリプにおけるSAM2の性能評価を行った。 このレポートは,ポリプセグメンテーションの分野を前進させ,将来より興味深い研究を促進するための洞察を提供することを期待している。 このプロジェクトはhttps://github.com/sajjad-sh33/Polyp-SAM-2で公開されている。

Polyp segmentation plays a crucial role in the early detection and diagnosis of colorectal cancer. However, obtaining accurate segmentations often requires labor-intensive annotations and specialized models. Recently, Meta AI Research released a general Segment Anything Model 2 (SAM 2), which has demonstrated promising performance in several segmentation tasks. In this work, we evaluate the performance of SAM 2 in segmenting polyps under various prompted settings. We hope this report will provide insights to advance the field of polyp segmentation and promote more interesting work in the future. This project is publicly available at https://github.com/ sajjad-sh33/Polyp-SAM-2.
翻訳日:2024-08-23 18:36:08 公開日:2024-08-21
# ST-USleepNet:マルチチャネル睡眠安定のための時空間結合プロミネンスネットワーク

ST-USleepNet: A Spatial-Temporal Coupling Prominence Network for Multi-Channel Sleep Staging ( http://arxiv.org/abs/2408.11884v1 )

ライセンス: Link先を確認
Jingying Ma, Qika Lin, Ziyu Jia, Mengling Feng, (参考訳) 睡眠ステージングは、睡眠の質を評価し、障害を診断するために重要である。 人工知能の最近の進歩は、自動睡眠ステージングモデルの開発を加速させ、依然として2つの大きな課題に直面している。 1) 特徴的な睡眠波形や空間的ネットワークを含む多チャンネル生信号から時間的・空間的睡眠の特徴を同時に抽出する。 2) 正確な睡眠準備に必要な空間的・時間的結合パターンの把握。 これらの課題に対処するため、時空間グラフ構築モジュール(ST)とU字型睡眠ネットワーク(USleepNet)からなるST-USleepNetという新しいフレームワークを提案する。 STモジュールは、生信号を時空間グラフに変換し、時空間結合をモデル化する。 USleepNetは元々イメージセグメンテーション用に設計されたU字型構造を使用している。 イメージセグメンテーションが重要なターゲットを分離する方法と同様に、生の睡眠信号とSTモジュール生成グラフデータの両方に適用すると、USleepNetはこれらの入力をセグメント化し、時間的および空間的な睡眠の特徴を同時に抽出する。 3つのデータセットでテストしたところ、ST-USleepNetは既存のベースラインよりも優れており、モデルビジュアライゼーションは、様々な睡眠段階における顕著な睡眠特徴と時間空間結合パターンの抽出における有効性を確認している。 コードは、https://github.com/Majy-Yuji/ST-USleepNet.gitで入手できる。

Sleep staging is critical for assessing sleep quality and diagnosing disorders. Recent advancements in artificial intelligence have driven the development of automated sleep staging models, which still face two significant challenges. 1) Simultaneously extracting prominent temporal and spatial sleep features from multi-channel raw signals, including characteristic sleep waveforms and salient spatial brain networks. 2) Capturing the spatial-temporal coupling patterns essential for accurate sleep staging. To address these challenges, we propose a novel framework named ST-USleepNet, comprising a spatial-temporal graph construction module (ST) and a U-shaped sleep network (USleepNet). The ST module converts raw signals into a spatial-temporal graph to model spatial-temporal couplings. The USleepNet utilizes a U-shaped structure originally designed for image segmentation. Similar to how image segmentation isolates significant targets, when applied to both raw sleep signals and ST module-generated graph data, USleepNet segments these inputs to extract prominent temporal and spatial sleep features simultaneously. Testing on three datasets demonstrates that ST-USleepNet outperforms existing baselines, and model visualizations confirm its efficacy in extracting prominent sleep features and temporal-spatial coupling patterns across various sleep stages. The code is available at: https://github.com/Majy-Yuji/ST-USleepNet.git.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# タバコによる口腔病変の診断ツールとしてのバイオインダプタンス : 混合モデルを用いた横断的研究

Bioimpedance a Diagnostic Tool for Tobacco Induced Oral Lesions: a Mixed Model cross-sectional study ( http://arxiv.org/abs/2408.11886v1 )

ライセンス: Link先を確認
Vaibhav Gupta, Poonam Goel, Usha Agrawal, Neena Chaudhary, Garima Jain, Deepak Gupta, (参考訳) 紹介:電気インピーダンス分光法(EIS)は、頚部異形成症、前立腺癌、乳癌、基底細胞癌をスクリーニングし評価するための新しい診断装置として最近開発された。 本研究は, タバコによる口腔病変の診断ツールとして, バイオインダプタンスを評価し, 評価することを目的とした。 方法: 本研究は, 生体内試験用OSCCおよびOPMD組織標本50例, 生体内試験用320例からなる。 生体インピーダンス装置の調製と校正。 EIS測定は, 習慣および対照群に対して行われ, 比較した。 結果: OPMD群およびOSCC群と比較して, 制御群のインピーダンス値が有意に高かった。 BIS測定に基づく診断では、感度は95.9%、特異性は86.7%である。 結論: バイオインダプタンスデバイスは, OPMD と OSCC の患者とその管理, 特にプライマリ医療環境において, 意思決定に有効である。 キーワード:インピーダンス、癌、診断、デバイス、コミュニティ

Introduction: Electrical impedance spectroscopy (EIS) has recently developed as a novel diagnostic device for screening and evaluating cervical dysplasia, prostate cancer, breast cancer and basal cell carcinoma. The current study aimed to validate and evaluate bioimpedance as a diagnostic tool for tobacco-induced oral lesions. Methodology: The study comprised 50 OSCC and OPMD tissue specimens for in-vitro study and 320 subjects for in vivo study. Bioimpedance device prepared and calibrated. EIS measurements were done for the habit and control groups and were compared. Results: The impedance value in the control group was significantly higher compared to the OPMD and OSCC groups. Diagnosis based on BIS measurements has a sensitivity of 95.9% and a specificity of 86.7%. Conclusion: Bioimpedance device can help in decision-making for differentiating OPMD and OSCC cases and their management, especially in primary healthcare settings. Keywords: Impedance, Cancer, Diagnosis, Device, Community
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# 古典的オルンシュタイン-ウレンベック過程としての第三量子マスター方程式とそのエントロピー生成速度

Third-Quantized Master Equations as a classical Ornstein-Uhlenbeck Process and its Entropy Production Rate ( http://arxiv.org/abs/2408.11893v1 )

ライセンス: Link先を確認
Léonce Dupays, (参考訳) 第3の量子化は開量子系において、2次リンドブレディアンを正規形式に変換する超作用素基底を構成するために用いられる。 そこから、固有値や固有ベクトルを含むリンドブラディアンのスペクトル特性に従う。 しかし、三次量子化と半古典的表現の結びつきは通常、開量子系の力学を得るために使われる。 我々は、第3量子化と$Q$表現の間のこのギャップを、マスター方程式を超作用素コヒーレントな状態基底に投影することによって埋める第3量子化の新しい基底を導入する。 運動方程式は多次元のOrnstein-Uhlenbeck過程に還元され、量子系のエントロピー生成と熱散逸速度を明確に定義する。 例として,圧縮熱浴における高調波発振器のエントロピー発生率について検討した。

Third quantization is used in open quantum systems to construct a superoperator basis in which quadratic Lindbladians can be turned into a normal form. From it follows the spectral properties of the Lindbladian, including eigenvalues and eigenvectors. However, the connection between third quantization and the semiclassical representations usually employed to obtain the dynamics of open quantum systems remains opaque. We introduce a new basis for third quantization that bridges this gap between third quantization and the $Q$ representation by projecting the master equation onto a superoperator coherent state basis. The equation of motion reduces to a multidimensional complex Ornstein-Uhlenbeck process, which facilitates a clear definition of the entropy production and heat dissipation rate in quantum systems. As an example, we investigate the entropy production rate of a harmonic oscillator in a squeezed thermal bath.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# 量子誤り訂正符号のためのフォールトトレラント状態準備回路の自動合成

Automated Synthesis of Fault-Tolerant State Preparation Circuits for Quantum Error Correction Codes ( http://arxiv.org/abs/2408.11894v1 )

ライセンス: Link先を確認
Tom Peham, Ludwig Schmid, Lucas Berent, Markus Müller, Robert Wille, (参考訳) フォールトトレラント量子アルゴリズムの主要な要素は、与えられた量子誤り訂正符号に対する論理状態の初期化である。 現在利用可能なハードウェア上で実現可能な小さなコードインスタンスの有望な結果を実証したスキームは、エラーの拡散をチェックする検証ステップを備えた、フォールトトレラントな状態準備ステップを構成する。 この方式の既知の回路構成は、主に手動で得られ、深さ最適化回路やゲート最適化回路を構築するアルゴリズム技術は存在しない。 結果として、現在の最先端技術はこのスキームを特定のコードインスタンスにのみ利用し、主に距離3コードの特殊なケースに利用している。 本研究では,任意のCSSコードに対してフォールトトレラントな状態準備回路を合成するための自動アプローチを提案する。 本研究では,SAT法を応用して,深度・ゲート最適準備・検証回路からなる耐故障状態準備回路を構築する。 また,適切な時間枠で最適解が得られないコードインスタンスに対して,フォールトトレラントな状態準備回路を合成できるヒューリスティックスも提供する。 さらに、距離3を超える非決定論的状態準備回路の一般的な構成を与える。 $d=3$および$d=5$符号を用いた数値評価により、生成された回路が論理誤差率の望ましいスケーリングを示すことを確認した。 得られたメソッドは、 https://github.com/cda-tum/mqt-qecc.com/mqt-qeccのミュンヘン量子ツールキット(MQT)の一部として公開されている。 このような手法は、フォールトトレラントな量子コンピューティングの短期的な実証に役立つ、フォールトトレラントな回路構成を提供するための重要なステップである。

A central ingredient in fault-tolerant quantum algorithms is the initialization of a logical state for a given quantum error-correcting code from a set of noisy qubits. A scheme that has demonstrated promising results for small code instances that are realizable on currently available hardware composes a non-fault-tolerant state preparation step with a verification step that checks for spreading errors. Known circuit constructions of this scheme are mostly obtained manually, and no algorithmic techniques for constructing depth- or gate-optimal circuits exist. As a consequence, the current state of the art exploits this scheme only for specific code instances and mostly for the special case of distance 3 codes. In this work, we propose an automated approach for synthesizing fault-tolerant state preparation circuits for arbitrary CSS codes. We utilize methods based on satisfiability solving (SAT) techniques to construct fault-tolerant state preparation circuits consisting of depth- and gate-optimal preparation and verification circuits. We also provide heuristics that can synthesize fault-tolerant state preparation circuits for code instances where no optimal solution can be obtained in an adequate timeframe. Moreover, we give a general construction for non-deterministic state preparation circuits beyond distance 3. Numerical evaluations using $d=3$ and $d=5$ codes confirm that the generated circuits exhibit the desired scaling of the logical error rates. The resulting methods are publicly available as part of the Munich Quantum Toolkit (MQT) at https://github.com/cda-tum/mqt-qecc. Such methods are an important step in providing fault-tolerant circuit constructions that can aid in near-term demonstration of fault-tolerant quantum computing.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# アベリアン・エノン、フラックス量子化M5ブレーンについて語る

Abelian Anyons on Flux-Quantized M5-Branes ( http://arxiv.org/abs/2408.11896v1 )

ライセンス: Link先を確認
Hisham Sati, Urs Schreiber, (参考訳) 分数量子ホール系は、将来のフォールトトレラント量子計算に必要な(アーベル的な)エビデンスとして、最も優れた実験的な証拠を提供するが、強い結合を持つ全ての量子系と同様に、それらの物理は深く理解されていない。 しかし、一般に有望なアプローチは、弦/M-理論におけるブレーン上のそのような系を(ホログラフィック的に)実現することであり、具体的には、Hellerman & Susskind による古い議論は、M5/M9-ブレーン交叉の離散光錐量子化によって生じる分数量子ホール状態のスケッチを与える。 ここでは、離散光円錐上のM5$\perp$MO9-branes ("open M5-branes") 上のアーベルエノン量子状態の厳密な導出を示す。 証明の第一段階は、奥山の定理を用いて、荷電終点を持つ弦の構成空間を持つコホモトピーモジュライ空間を同定し、それらのループ空間を、トポロジカル光錐量子化の下でアーベル・チャーン・サイモンズ理論の正規化されたウィルソンループと同一視するフレーム付きリンクのコボルディズムで同定する。

While fractional quantum Hall systems provide the best experimental evidence yet of (abelian) anyons plausibly necessary for future fault-tolerant quantum computation, like all strongly-coupled quantum systems their physics is not deeply understood. However, generally a promising approach is to (holographically) realize such systems on branes in string/M-theory; and specifically an old argument by Hellerman & Susskind gives a sketch of fractional quantum Hall states arising via discrete light cone quantization of M5/M9-brane intersections. Here we present a rigorous derivation of abelian anyon quantum states on M5$\perp$MO9-branes ("open M5-branes") on the discrete light cone, after globally completing the traditional local field content on the M5-worldvolume via a flux-quantization law compatible with the ambient 11d supergravity, specifically taken to be in the unstable co-Homotopy cohomology ("Hypothesis H"). The main step in the proof uses a theorem of Okuyama to identify co-Homotopy moduli spaces with configuration spaces of strings with charged endpoints, and identifies their loop spaces with cobordism of framed links that, under topological light cone quantization, turn out to be identified with the regularized Wilson loops of abelian Chern-Simons theory.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# 量子期待値推定における測定ショット削減のための非クリフォード対角化

Non-Clifford diagonalization for measurement shot reduction in quantum expectation value estimation ( http://arxiv.org/abs/2408.11898v1 )

ライセンス: Link先を確認
Nicolas PD Sawaya, Daan Camps, Norm M. Tubman, Grant M. Rotskoff, Ryan LaRose, (参考訳) 短期量子コンピュータ上での期待値を推定するには、しばしば非常に多くの測定を必要とする。 この問題を緩和するために広く使われている戦略の1つは、作用素のパウリ項を相互に通勤する作用素の集合に分割することである。 本稿では,この可換性の制約を緩和する手法を提案する。 鍵となる考え方は、作用素を有界なテンソルサイズを持つ任意のテンソル積に分解し、パウリの可換関係を無視して考えることである。 この手法は (k$-NoCliD (k$-local non-Clifford diagonalization) と呼ばれ、ほとんどの場合において、回路深度を増大させるコストで(常にではないが)はるかに少ないベースで測定することができる。 フェルミオンおよびボソニックハミルトニアンに合わせたいくつかのパーティショニングアルゴリズムを導入する。 電子構造、振動構造、Fermi-Hubbard、Bose-Hubbard Hamiltonians の場合、$k$-NoCliD は回路ショットの数を非常に大きなマージンで減少させる。

Estimating expectation values on near-term quantum computers often requires a prohibitively large number of measurements. One widely-used strategy to mitigate this problem has been to partition an operator's Pauli terms into sets of mutually commuting operators. Here, we introduce a method that relaxes this constraint of commutativity, instead allowing for entirely arbitrary terms to be grouped together, save a locality constraint. The key idea is that we decompose the operator into arbitrary tensor products with bounded tensor size, ignoring Pauli commuting relations. This method -- named $k$-NoCliD ($k$-local non-Clifford diagonalization) -- allows one to measure in far fewer bases in most cases, often (though not always) at the cost of increasing the circuit depth. We introduce several partitioning algorithms tailored to both fermionic and bosonic Hamiltonians. For electronic structure, vibrational structure, Fermi-Hubbard, and Bose-Hubbard Hamiltonians, we show that $k$-NoCliD reduces the number of circuit shots, often by a very large margin.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# 量子ハイウェイ:少数・多体状態における最小・最大速度制限の観測

Quantum highway: Observation of minimal and maximal speed limits for few and many-body states ( http://arxiv.org/abs/2408.11900v1 )

ライセンス: Link先を確認
Zitian Zhu, Lei Gao, Zehang Bao, Liang Xiang, Zixuan Song, Shibo Xu, Ke Wang, Jiachen Chen, Feitong Jin, Xuhao Zhu, Yu Gao, Yaozu Wu, Chuanyu Zhang, Ning Wang, Yiren Zou, Ziqi Tan, Aosai Zhang, Zhengyi Cui, Fanhao Shen, Jiarun Zhong, Tingting Li, Jinfeng Deng, Xu Zhang, Hang Dong, Pengfei Zhang, Zhen Wang, Chao Song, Chen Cheng, Qiujiang Guo, Hekang Li, H. Wang, Haiqing Lin, Rubem Mondaini, (参考訳) 量子状態の時間進化を追跡することで、一般的な量子系における相関系の熱化速度や伝播速度を検証することができる。 エネルギー時間不確実性原理にインスパイアされた境界は、量子状態が変化しうる最大速度で示され、即時および実用的なタスクが導かれる。 プログラム可能な超伝導量子プロセッサを用いて、単体および多体状態を含む様々なエミュレートされた量子力学系の力学を検証した。 既知の量子速度限界をテストすることができ、単一のハミルトンパラメータを変更することで、力学上の異なる境界の交叉を観測できることが示される。 また、より一般的な最大値、すなわち、単位的に進化した量子状態の変化率の最低値に加えて、最小限の量子速度制限の観測も明らかにした。 本研究は, 量子速度限界の包括的実験特性を確立し, 工学的非単位条件下での研究の道を開くものである。

Tracking the time evolution of a quantum state allows one to verify the thermalization rate or the propagation speed of correlations in generic quantum systems. Inspired by the energy-time uncertainty principle, bounds have been demonstrated on the maximal speed at which a quantum state can change, resulting in immediate and practical tasks. Based on a programmable superconducting quantum processor, we test the dynamics of various emulated quantum mechanical systems encompassing single- and many-body states. We show that one can test the known quantum speed limits and that modifying a single Hamiltonian parameter allows the observation of the crossover of the different bounds on the dynamics. We also unveil the observation of minimal quantum speed limits in addition to more common maximal ones, i.e., the lowest rate of change of a unitarily evolved quantum state. Our results establish a comprehensive experimental characterization of quantum speed limits and pave the way for their subsequent study in engineered non-unitary conditions.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# 量子ニューラルネットワークの統一理論は景観を損なう

A Unified Theory of Quantum Neural Network Loss Landscapes ( http://arxiv.org/abs/2408.11901v1 )

ライセンス: Link先を確認
Eric R. Anschuetz, (参考訳) ランダム初期化を持つ古典的ニューラルネットワークは、多くのニューロンの極限においてガウス過程として振る舞うことで有名であり、ネットワークのアーキテクチャは関連するプロセスの共分散を決定する。 この制限により、そのようなネットワークのトレーニング動作を完全に特徴付けることができ、一般的には、古典的ニューラルネットワークが勾配降下によって効率的にトレーニングできることが示される。 量子ニューラルネットワーク(QNN)に対するそのような一般的な理解は存在しないが、特定の特別な場合以外では、ランダムに初期化されるとガウス過程として振る舞わないことが知られている。 ここでは、QNNとその最初の2つの導関数が一般にウィッシュアート過程(Wishart process)と呼ばれるものを形成し、現在ではネットワークの代数的性質がプロセスのハイパーパラメータを決定することを証明している。 1. QNNアーキテクチャがガウス的なプロセス制限を持つために必要な十分な条件を与える。 2) 全勾配分布を計算し, 既知バレン高原を統一した。 3.代数的に制約されたQNNの局所最小分布を計算する。 トレーニング容易性からトレーニング不可能性への移行は、ネットワークアーキテクチャの“自由度”と呼ばれる単一のパラメータによって管理されます。 そこで我々は、この実験的に利用可能な量を用いて、与えられたQNNアーキテクチャの「トレーニング可能性」に関する公式な定義を提案する。

Classical neural networks with random initialization famously behave as Gaussian processes in the limit of many neurons, with the architecture of the network determining the covariance of the associated process. This limit allows one to completely characterize the training behavior of such networks and show that, generally, classical neural networks train efficiently via gradient descent. No such general understanding exists for quantum neural networks (QNNs), which -- outside of certain special cases -- are known to not behave as Gaussian processes when randomly initialized. We here prove that instead QNNs and their first two derivatives generally form what we call Wishart processes, where now certain algebraic properties of the network determine the hyperparameters of the process. This Wishart process description allows us to, for the first time: 1. Give necessary and sufficient conditions for a QNN architecture to have a Gaussian process limit. 2. Calculate the full gradient distribution, unifying previously known barren plateau results. 3. Calculate the local minima distribution of algebraically constrained QNNs. The transition from trainability to untrainability in each of these contexts is governed by a single parameter we call the "degrees of freedom" of the network architecture. We thus end by proposing a formal definition for the "trainability" of a given QNN architecture using this experimentally accessible quantity.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# 決定論的ポートベーステレポーテーションと単元推定の1対1対応性

One-to-one Correspondence between Deterministic Port-Based Teleportation and Unitary Estimation ( http://arxiv.org/abs/2408.11902v1 )

ライセンス: Link先を確認
Satoshi Yoshida, Yuki Koizumi, Michał Studziński, Marco Túlio Quintino, Mio Murao, (参考訳) ポートベースのテレポーテーションは量子テレポーテーションの変種であり、受信機は送信者と共有される絡み合った状態のポートの1つを選択できるが、他のリカバリ操作は適用できない。 我々は,$n=n+1$ポートを用いた決定論的ポートベーステレポーテーション(dPBT)の最適忠実度が,入力ユニタリ演算の$n$コールを用いた$d$次元ユニタリ推定の最適忠実度に等しいことを示す。 任意のdPBTから、同じ最適忠実度を達成するための対応するユニタリ推定プロトコルを明示的に構築できます。 1-O(d^5 N^{-2}) \leq F \leq 1-\Omega(d^2 N^{-2})$.f=1-\Theta(d^4 N^{-2})$.f=1-\Theta(d^4 N^{-2})$.f=1-O(d^5 N^{-2})$.f=1-\Omega(d^2 N^{-2})$.f=1-\Theta(d^4 N^{-2})$.f=1-\Omega(d^2 N^{-2})$. また、$n\leq d-1$が$F = {n+1 \over d^2}$である場合のユニタリ推定の最適忠実度が$n\leq d-1$コールのユニタリ反転の最適忠実度と等しいことを示す。

Port-based teleportation is a variant of quantum teleportation, where the receiver can choose one of the ports in his part of the entangled state shared with the sender, but cannot apply other recovery operations. We show that the optimal fidelity of deterministic port-based teleportation (dPBT) using $N=n+1$ ports to teleport a $d$-dimensional state is equivalent to the optimal fidelity of $d$-dimensional unitary estimation using $n$ calls of the input unitary operation. From any given dPBT, we can explicitly construct the corresponding unitary estimation protocol achieving the same optimal fidelity, and vice versa. Using the obtained one-to-one correspondence between dPBT and unitary estimation, we derive the asymptotic optimal fidelity of port-based teleportation given by $F = 1-\Theta(d^4 N^{-2})$, which improves the previously known result given by $1-O(d^5 N^{-2}) \leq F \leq 1-\Omega(d^2 N^{-2})$. We also show that the optimal fidelity of unitary estimation for the case $n\leq d-1$ is $F = {n+1 \over d^2}$, and this fidelity is equal to the optimal fidelity of unitary inversion with $n\leq d-1$ calls of the input unitary operation even if we allow indefinite causal order among the calls.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# 古代の知恵、近代の道具:古代インド哲学のための検索可能なLLMを探る

Ancient Wisdom, Modern Tools: Exploring Retrieval-Augmented LLMs for Ancient Indian Philosophy ( http://arxiv.org/abs/2408.11903v1 )

ライセンス: Link先を確認
Priyanka Mandikal, (参考訳) LLMは情報検索と知識の普及の展望に革命をもたらした。 しかし、専門分野におけるそれらの応用は、特にロングテールの知識分布において、事実的不正確さや幻覚によって妨げられることが多い。 専門知識領域におけるLong-form Question answering(LFQA)に対する検索強化生成(RAG)モデルの可能性について検討する。 本稿では、古代インドの哲学であるAdvaita Vedantaの広範な公開談話から得られたデータセットであるVedantaNY-10Mを紹介する。 我々は、転写、検索、生成性能に重点を置いた標準のRAG LLMに対してRAGモデルを開発し、ベンチマークする。 計算言語学者とドメインエキスパートによる人間による評価は、RAGモデルは幻覚の少ない事実的かつ包括的な応答を生成する上で、標準モデルよりも著しく優れていることを示している。 さらに、ユニークな低周波項を強調するキーワードベースのハイブリッド検索器により、結果がさらに改善される。 本研究は,現代の大規模言語モデルと古代の知識システムとを効果的に統合するための知見を提供する。 データセットとコードによるプロジェクトページ: https://sites.google.com/view/vedantany-10m

LLMs have revolutionized the landscape of information retrieval and knowledge dissemination. However, their application in specialized areas is often hindered by factual inaccuracies and hallucinations, especially in long-tail knowledge distributions. We explore the potential of retrieval-augmented generation (RAG) models for long-form question answering (LFQA) in a specialized knowledge domain. We present VedantaNY-10M, a dataset curated from extensive public discourses on the ancient Indian philosophy of Advaita Vedanta. We develop and benchmark a RAG model against a standard, non-RAG LLM, focusing on transcription, retrieval, and generation performance. Human evaluations by computational linguists and domain experts show that the RAG model significantly outperforms the standard model in producing factual and comprehensive responses having fewer hallucinations. In addition, a keyword-based hybrid retriever that emphasizes unique low-frequency terms further improves results. Our study provides insights into effectively integrating modern large language models with ancient knowledge systems. Project page with dataset and code: https://sites.google.com/view/vedantany-10m
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# スピン依存力と逆高調波電位によるマクロ量子重ね合わせの迅速創製

Spin-Dependent Force and Inverted Harmonic Potential for Rapid Creation of Macroscopic Quantum Superpositions ( http://arxiv.org/abs/2408.11909v1 )

ライセンス: Link先を確認
Run Zhou, Qian Xiang, Anupam Mazumdar, (参考訳) 物質波干渉測定と量子センサ技術の進歩には, マクロ空間重畳状態の生成が不可欠である。 現在、この目的を達成するための2つの方法が存在する。 第一に、逆調和ポテンシャル (inverted harmonic potential, IHP) を用いて、コヒーレントインフレーション[1]を介して量子状態を空間的に非局在化する。 第2の方法は、スピン依存力を用いて2つの大きな波のパケットを空間的に[2]に分離する。 前者の手法の欠点は、初期コヒーレントなインフレーションが遅いことであり、後者はスピン埋め込みナノ結晶の反磁性によって妨げられ、空間的分離が抑制される。 本研究では、まず、スピン依存力を用いて初期空間分離を発生させ、次に、IPPを用いてウェーブパケットのコヒーレントな膨張軌道を達成する方法を統合する。 このアプローチにより、極小時間で大規模な空間重畳が達成できる。 例えば、質量が 10^{-15}$ kg で大きさが 50$\mu$m の空間重ね合わせは、0.1$秒で実現される。 また、経路積分法を用いて、高調波電位(HP)とIPPの波動パケットの進化を計算した。

Creating macroscopic spatial superposition states is crucial for investigating matter-wave interferometry and advancing quantum sensor technology. Currently, two potential methods exist to achieve this objective. The first involves using inverted harmonic potential (IHP) to spatially delocalize quantum states through coherent inflation [1]. The second method employs a spin-dependent force to separate two massive wave packets spatially [2]. The disadvantage of the former method is the slow initial coherent inflation, while the latter is hindered by the diamagnetism of spin-embedded nanocrystals, which suppresses spatial separation. In this study, we integrate two methods: first, we use the spin-dependent force to generate initial spatial separation, and second, we use IHP to achieve coherent inflating trajectories of the wavepackets. This approach enables the attainment of massive large spatial superposition in minimal time. For instance, a spatial superposition with a mass of $10^{-15}$ kg and a size of 50 $\mu$m is realized in $0.1$ seconds. We also calculate the evolution of wave packets in both harmonic potential (HP) and IHP using path integral approach.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# EU AI法と国際標準間の概念と要求のマッピングのためのオープン知識グラフに基づくアプローチ

An Open Knowledge Graph-Based Approach for Mapping Concepts and Requirements between the EU AI Act and International Standards ( http://arxiv.org/abs/2408.11925v1 )

ライセンス: Link先を確認
Julio Hernandez, Delaram Golpayegani, Dave Lewis, (参考訳) 信頼できるAIに関する多くのイニシアチブは、流動的かつ複雑な国際的バリューチェーンの中で活動する組織が、信頼できるAIを追求するためにナビゲートしなければならない、混乱した多極的状況をもたらす。 EUのAI法は、規制の遵守に関する技術的要件に適合するように、そのような組織の焦点を移す。 法律の要求に対する高レベルのマッピングは、このような調和の一部となるだろうが、標準の適合性がAI法に規制準拠をもたらす程度を決定することは、依然として複雑な課題である。 概念の定義のばらつきとギャップ 法律と調和された標準の間の要件の中でそれらがどのように使用されるかは、組織、セクター、アプリケーション間でのコンプライアンス要求の整合性に影響を与える可能性がある。 これは規制の不確実性を示す可能性があり、特に中小企業や公共セクターは、コンプライアンスに適合するハイリスクなAIシステムを開発し、展開するためのプロプライエタリな同等品ではなく、標準に準拠している。 この課題に対処するために,本論文では,規則や標準における規範文に関連する用語と要件,例えばAI法やISO管理システムの標準,テキストをオープンナレッジグラフにマッピングする,シンプルかつ反復的なメカニズムを提案する。 この表現は、規制コンプライアンスに準拠する標準の適合性を評価するために使用され、それによって、信頼できるAIバリューチェーンのさらなる技術的コンセンサス開発が規制コンプライアンスを達成するために必要となる領域を特定するための基盤を提供する。

The many initiatives on trustworthy AI result in a confusing and multipolar landscape that organizations operating within the fluid and complex international value chains must navigate in pursuing trustworthy AI. The EU's AI Act will now shift the focus of such organizations toward conformance with the technical requirements for regulatory compliance, for which the Act relies on Harmonized Standards. Though a high-level mapping to the Act's requirements will be part of such harmonization, determining the degree to which standards conformity delivers regulatory compliance with the AI Act remains a complex challenge. Variance and gaps in the definitions of concepts and how they are used in requirements between the Act and harmonized standards may impact the consistency of compliance claims across organizations, sectors, and applications. This may present regulatory uncertainty, especially for SMEs and public sector bodies relying on standards conformance rather than proprietary equivalents for developing and deploying compliant high-risk AI systems. To address this challenge, this paper offers a simple and repeatable mechanism for mapping the terms and requirements relevant to normative statements in regulations and standards, e.g., AI Act and ISO management system standards, texts into open knowledge graphs. This representation is used to assess the adequacy of standards conformance to regulatory compliance and thereby provide a basis for identifying areas where further technical consensus development in trustworthy AI value chains is required to achieve regulatory compliance.
翻訳日:2024-08-23 18:16:33 公開日:2024-08-21
# なぜ私はこれを見るのか:AIを利用した広告ターゲティングシステムにおける広告制御と説明の有効性の測定

Why am I Still Seeing This: Measuring the Effectiveness Of Ad Controls and Explanations in AI-Mediated Ad Targeting Systems ( http://arxiv.org/abs/2408.11910v1 )

ライセンス: Link先を確認
Jane Castleman, Aleksandra Korolova, (参考訳) 最近Metaは、AIによる広告ターゲティングメカニズムに移行し、広告主が詳細なターゲティング基準を提供する必要はない。 同時にMetaは、ユーザーが見る広告をコントロールするための効果的なメカニズムとして、広告設定コントロールを宣伝している。 さらにMetaは、ターゲティングの説明を透明性ツールとして売り込み、ユーザーがなぜ特定の広告を見たのかを理解し、将来の広告を制御するためのアクションを通知する。 本研究は,AIによるターゲティングへの移行に伴うMetaの"See less"広告コントロールの有効性と広告ターゲティング説明の有効性を評価する。 我々は大規模研究を行い、参加者に「See less」をボディーウェイトコントロールやペアリングのトピックにランダムに割り当て、広告を収集し、介入前後にメタショーを参加者に提示する。 調査対象のトピックに対する"See less"広告コントロールの利用は,Metaがこれらのトピックに示す広告の数を著しく減少させるものではないこと,また,そのトピックに関連性があるユーザに対しては,そのコントロールが効果的でないことが確認された。 さらに,地域広告に対する広告ターゲティング説明の大多数は,地域別ターゲティング基準に言及せず,また,「より少ない」とマークしたトピックに関連する広告が配信され続けている理由をユーザーに通知しなかった。 説明における制御の有効性の欠如と行動可能性の欠如は、説明可能性と透明性ツールがまだ開発されていないAIによるターゲティングへのシフトの結果である、という仮説を立てる。 弊社の研究は、透明性とユーザコントロールのための新しい方法の必要性を示す証拠であり、ますます複雑なAIによる広告配信システムに適している。

Recently, Meta has shifted towards AI-mediated ad targeting mechanisms that do not require advertisers to provide detailed targeting criteria, likely driven by excitement over AI capabilities as well as new data privacy policies and targeting changes agreed upon in civil rights settlements. At the same time, Meta has touted their ad preference controls as an effective mechanism for users to control the ads they see. Furthermore, Meta markets their targeting explanations as a transparency tool that allows users to understand why they saw certain ads and inform actions to control future ads. Our study evaluates the effectiveness of Meta's "See less" ad control and the actionability of ad targeting explanations following the shift to AI-mediated targeting. We conduct a large-scale study, randomly assigning participants to mark "See less" to Body Weight Control or Parenting topics, and collecting the ads and targeting explanations Meta shows to participants before and after the intervention. We find that utilizing the "See less" ad control for the topics we study does not significantly reduce the number of ads shown by Meta on these topics, and that the control is less effective for some users whose demographics are correlated with the topic. Furthermore, we find that the majority of ad targeting explanations for local ads made no reference to location-specific targeting criteria, and did not inform users why ads related to the topics they marked to "See less" of continued to be delivered. We hypothesize that the poor effectiveness of controls and lack of actionability in explanations are the result of the shift to AI-mediated targeting, for which explainability and transparency tools have not yet been developed. Our work thus provides evidence for the need of new methods for transparency and user control, suitable and reflective of increasingly complex AI-mediated ad delivery systems.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# Video-Foley:フォリー音の時間的イベント条件による2段階のビデオ音声生成

Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound ( http://arxiv.org/abs/2408.11915v1 )

ライセンス: Link先を確認
Junwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam, (参考訳) 音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。 ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。 明示的な時間的特徴を欠いたシステムは制御性やアライメントの低下に悩まされ、タイムスタンプベースのモデルは高価で主観的な人間のアノテーションを必要とする。 音声やテキストによる意味音のプロンプトを伴う時間的事象条件として,Root Mean Square (RMS) を用いたビデオ・ツー・サウンドシステムである Video-Foley を提案する。 フレームレベルのインテンシティエンベロープ機能であるRMSは、音声セマンティクスと密接に関連しており、高い制御性と同期性を保証する。 アノテーションなしの自己教師型学習フレームワークは、ビデオ2RMSとRMS2Soundの2つの段階で構成され、RMSの離散化やRMS-ControlNetなどの新しいアイデアを事前訓練されたテキスト・音声モデルに取り入れている。 広範に評価した結果,Voice-Foleyは音のタイミング,強度,音色,ニュアンスに対して,映像のアライメントと制御性の向上を実現している。 コード、モデルウェイト、デモは、付随するウェブサイトで公開されている。 (https://jnwnlee.github.io/video-foley-demo)

Foley sound synthesis is crucial for multimedia production, enhancing user experience by synchronizing audio and video both temporally and semantically. Recent studies on automating this labor-intensive process through video-to-sound generation face significant challenges. Systems lacking explicit temporal features suffer from poor controllability and alignment, while timestamp-based models require costly and subjective human annotation. We propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a temporal event condition with semantic timbre prompts (audio or text). RMS, a frame-level intensity envelope feature closely related to audio semantics, ensures high controllability and synchronization. The annotation-free self-supervised learning framework consists of two stages, Video2RMS and RMS2Sound, incorporating novel ideas including RMS discretization and RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation shows that Video-Foley achieves state-of-the-art performance in audio-visual alignment and controllability for sound timing, intensity, timbre, and nuance. Code, model weights, and demonstrations are available on the accompanying website. (https://jnwnlee.github.io/video-foley-demo)
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 解釈型学習のためのニューラルシンボリック論理則学習器

Neural Symbolic Logical Rule Learner for Interpretable Learning ( http://arxiv.org/abs/2408.11918v1 )

ライセンス: Link先を確認
Bowen Wei, Ziwei Zhu, (参考訳) ルールベースのニューラルネットワークは、予測と解釈の両方の論理ルールを学ぶことによって、解釈可能な分類を可能にする。 しかし、既存のモデルは、固定されたモデル構造のためにしばしば柔軟性を欠いている。 これに対応するために,重みパラメータをハードセレクタとして扱う選択的離散ニューラルネットワークを用いた正規形規則学習アルゴリズム(NFRL)を導入し,整合正規形(CNF)と整合正規形(DNF)の両方で規則を学習し,精度と解釈性を向上する。 深い複雑な構造を採用する代わりに、NFRLは2つの特殊なノーマルフォーム層(NFL)と適応可能なAND/ORニューロン、入力否定のためのネゲーション層、ニューロン接続を合理化するためのノーマルフォーム拘束層(NFC)を組み込んでいる。 また,新たなネットワークアーキテクチャを適応的勾配更新とStraight-Through Estimatorと組み合わせて最適化することで,勾配の消滅を克服できることを示す。 11のデータセットに関する広範な実験を通じて、NFRLは12の最先端の代替品と比較して、優れた分類性能、学習ルールの品質、効率と解釈性を示す。 コードとデータは \url{https://anonymous.4open.science/r/NFRL-27B4/} で公開されている。

Rule-based neural networks stand out for enabling interpretable classification by learning logical rules for both prediction and interpretation. However, existing models often lack flexibility due to the fixed model structure. Addressing this, we introduce the Normal Form Rule Learner (NFRL) algorithm, leveraging a selective discrete neural network, that treat weight parameters as hard selectors, to learn rules in both Conjunctive Normal Form (CNF) and Disjunctive Normal Form (DNF) for enhanced accuracy and interpretability. Instead of adopting a deep, complex structure, the NFRL incorporates two specialized Normal Form Layers (NFLs) with adaptable AND/OR neurons, a Negation Layer for input negations, and a Normal Form Constraint (NFC) to streamline neuron connections. We also show the novel network architecture can be optimized using adaptive gradient update together with Straight-Through Estimator to overcome the gradient vanishing challenge. Through extensive experiments on 11 datasets, NFRL demonstrates superior classification performance, quality of learned rules, efficiency and interpretability compared to 12 state-of-the-art alternatives. Code and data are available at \url{https://anonymous.4open.science/r/NFRL-27B4/}.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 境界の定義: ドメイン仕様が機械翻訳におけるクロスランゲージとクロスドメイン転送に与える影響

Defining Boundaries: The Impact of Domain Specification on Cross-Language and Cross-Domain Transfer in Machine Translation ( http://arxiv.org/abs/2408.11926v1 )

ライセンス: Link先を確認
Lia Shahnazaryan, Meriem Beloucif, (参考訳) ニューラルマシン翻訳(NMT)の最近の進歩はこの分野に革命をもたらしたが、大規模な並列コーパスへの依存は低リソース言語の進歩を制限する。 言語間変換学習は、高ソース言語からのデータを活用することで有望なソリューションを提供するが、しばしばドメイン内のNMTと競合する。 本稿では,異なる言語ペアからドメイン関連データを微調整することでNMTのドメイン特質を高めること,ゼロショットシナリオでどのドメインを転送可能かを特定すること,言語特化要因とドメイン特化要因が適応性に与える影響を評価すること,の3つの重要な側面について検討する。 ポルトガル語,イタリア語,フランス語,チェコ語,ポーランド語,ギリシャ語など,複数の対象言語を評価する。 本研究は,特に医学,法学,ITなどの専門分野において,ドメイン固有の翻訳品質が著しく向上していることを明らかにする。

Recent advancements in neural machine translation (NMT) have revolutionized the field, yet the dependency on extensive parallel corpora limits progress for low-resource languages. Cross-lingual transfer learning offers a promising solution by utilizing data from high-resource languages but often struggles with in-domain NMT. In this paper, we investigate three pivotal aspects: enhancing the domain-specific quality of NMT by fine-tuning domain-relevant data from different language pairs, identifying which domains are transferable in zero-shot scenarios, and assessing the impact of language-specific versus domain-specific factors on adaptation effectiveness. Using English as the source language and Spanish for fine-tuning, we evaluate multiple target languages including Portuguese, Italian, French, Czech, Polish, and Greek. Our findings reveal significant improvements in domain-specific translation quality, especially in specialized fields such as medical, legal, and IT, underscoring the importance of well-defined domain data and transparency of the experiment setup in in-domain transfer learning.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 大型シュレーディンガー猫の知覚・絡み合いに対する指数展開

Exponential Expansion of Massive Schrödinger Cats for Sensing and Entanglement ( http://arxiv.org/abs/2408.11930v1 )

ライセンス: Link先を確認
Lorenzo Braccini, Alessio Serafini, Sougato Bose, (参考訳) Schr\"{o}dinger cat state of levitated masses" は、重力によって引き起こされる絡み合い(GIE)を通じて、重力の基本的な性質(古典的、非古典的)を探索する手段を提供する。 量子ビットと浮遊質量との相互作用は、そのような猫の状態を作るのに便利な方法である。 重ね合わせのサイズは、弱い質量-量子相互作用によって制限される。 この制限を克服するために、ガウス力学を用いて初期小さな重ね合わせを指数関数的に拡張し、干渉計を完成させるためにそれを再結合するプロトコルを提案する。 未知の力は、膨張時間において指数関数的に速く重ね合わせによって感知することができる。 量子力を介して相互作用する2つの干渉計間の絡み合いは、量子ビットベースの非ガウス的プロトコルにおいて初めて、ガウス的手法を用いて完全な量子力学を解くことによって得られる。 GIEは指数関数的に成長し、実験可能な状態に近づく。 実験精度とデコヒーレンスが要求される。

Schr\"{o}dinger cat states of levitated masses have several applications in sensing and, offer an avenue to explore the fundamental nature -- classical vs nonclassical -- of gravity, eg, through gravitationally induced entanglement (GIE). The interaction between a qubit and a levitated mass is a convenient method to create such a cat state. The size of the superpositions is limited by weak mass-qubit interactions. To overcome this limitation, we propose a protocol that exponentially expands an initially small superposition via Gaussian dynamics and successfully recombines it to complete an interferometry. An unknown force can be sensed by the superposition exponentially fast in the expansion time. The entanglement between two such interferometers interacting via a quantum force is -- for the first time in qubit-based non-Gaussian protocols -- obtained by solving the full quantum dynamics using Gaussian techniques. GIE grows exponentially, thereby making it closer to experimental feasibility. Requirements of experimental precision and decoherence are obtained.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# Thomas-Fermi-von Weiszackerモデルを用いた平面欠陥の解析

Analysis of nearly planar defects using the Thomas--Fermi--von Weiszacker model ( http://arxiv.org/abs/2408.11933v1 )

ライセンス: Link先を確認
Dharamveer Kumar, Amuthan A. Ramabathiran, (参考訳) 我々は、トーマス・フェルミ・ヴォン・ワイザッカー(TFW)モデルを用いて、一方の方向に沿ってコンパクトに保持される体積欠陥のクラスの完全結晶に対する電子密度と相対エネルギーの収束を解析する。 我々は、TFW設定における熱力学的限界と安定性の推定に関する先行研究を生かし、ほぼ平面的欠陥の場合に特化する。 特に、完全結晶に関して、欠陥結晶の相対エネルギーが有限であることが証明され、実際は十分に仮定された最小化問題に適合する。 また、ほぼ平面的な欠陥に起因する摂動への電子場の収束も確立する。 我々の主な発見は、TFWモデルの既知の局所性特性に則って、ほぼ平面的欠陥が欠陥から指数関数的に離れていることによる密度と静電ポテンシャルの両面への摂動である。 これらの結果を用いて、一般化された積層断層エネルギー、特にこのエネルギーの有限性を推定し、数値計算におけるその意味を議論する。 一般関数におけるディラック交換を含む(非凸)トーマス・フェルミ・ヴォン・ワイザッカー・ディラック(TFWD)モデルに関する数値結果の簡単なプレゼンテーションを行い、今後の研究にその意味について論じる。

We analyze the convergence of the electron density and relative energy with respect to a perfect crystal of a class of volume defects that are compactly contained along one direction while being of infinite extent along the other two using the Thomas-Fermi-von Weiszacker (TFW) model. We take advantage of prior work on the thermodynamic limit and stability estimates in the TFW setting, and specialize it to the case of nearly planar defects. In particular, we prove that the relative energy of the defective crystal, with respect to a perfect crystal, is finite, and in fact conforms to a well-posed minimization problem. We also establish convergence of the electronic fields to the perturbation caused by the nearly planar defect. Our main finding is that perturbations to both the density and electrostatic potential due to the presence of the nearly planar defect decay exponentially away from the defect, in agreement with the known locality property of the TFW model. We use these results to infer bounds on the generalized stacking fault energy, in particular the finiteness of this energy, and discuss its implications for numerical calculations. We conclude with a brief presentation of numerical results on the (non-convex) Thomas-Fermi-von Weiszacker-Dirac (TFWD) model that includes the Dirac exchange in the universal functional, and discuss its implications for future work.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 説明可能な異常検出: 事実駆動型What-If解析

Explainable Anomaly Detection: Counterfactual driven What-If Analysis ( http://arxiv.org/abs/2408.11935v1 )

ライセンス: Link先を確認
Logan Cummins, Alexander Sommers, Sudip Mittal, Shahram Rahimi, Maria Seale, Joseph Jaboure, Thomas Arnold, (参考訳) 予測維持の分野には, 異常検出, 故障診断, 有用寿命予測の3つの研究領域がある。 特に異常検出は、異常が発生していることをステークホルダーに警告する。 これは2つの根本的な疑問を提起する。 説明可能な人工知能の分野の中で、反実的な説明は、データポイントを反対のクラスに配置するためにどのような変化をもたらすかという形で、その情報を与える。 提案が常に実行可能なわけではないため、"代わりにこれをしたらどうするか"という質問への関心が高まる可能性がある。 本研究では, 対実的説明を「何」分析として活用するための概念実証を行う。 本稿では, 時間的畳み込みネットワークを異常検出器として, PRONOSTIAデータセット上でこれを実行する。 提案手法は, より複雑なシステムやシナリオの今後の研究を促すために, 基本問題に対するWhat-if分析の形で, カウンターファクトルを提示する。

There exists three main areas of study inside of the field of predictive maintenance: anomaly detection, fault diagnosis, and remaining useful life prediction. Notably, anomaly detection alerts the stakeholder that an anomaly is occurring. This raises two fundamental questions: what is causing the fault and how can we fix it? Inside of the field of explainable artificial intelligence, counterfactual explanations can give that information in the form of what changes to make to put the data point into the opposing class, in this case "healthy". The suggestions are not always actionable which may raise the interest in asking "what if we do this instead?" In this work, we provide a proof of concept for utilizing counterfactual explanations as what-if analysis. We perform this on the PRONOSTIA dataset with a temporal convolutional network as the anomaly detector. Our method presents the counterfactuals in the form of a what-if analysis for this base problem to inspire future work for more complex systems and scenarios.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 大規模言語モデルを用いたオンライン討論におけるコントリビューション品質の推定

Estimating Contribution Quality in Online Deliberations Using a Large Language Model ( http://arxiv.org/abs/2408.11936v1 )

ライセンス: Link先を確認
Lodewijk Gelauff, Mohak Goyal, Bhargav Dindukurthi, Ashish Goel, Alice Siu, (参考訳) 議論には、知識、議論、視点を交換する参加者が含まれており、偏極に対処するのに効果的であることが示されている。 スタンフォードオンライン審議プラットフォームは大規模な審議を促進する。 人間のモデレーターを必要とせずに、小さなグループのための構造化アジェンダに関するビデオベースのオンラインディスカッションを可能にする。 本稿は,32か国でMetaと共同で実施されているものや,米国の中等教育機関38か国と共同で実施されているものなど,さまざまな議論イベントから得られたデータである。 会話におけるコントリビューションの質を評価することは、機能や介入の影響を評価する上で非常に重要です。 伝統的に、これは人間のアノテーションによって行われ、時間と費用がかかる。 8人のアノテータとともに大きな言語モデル(LLM)を使用して、正当化、新規性、会話の拡張、さらなる拡張の可能性に基づいて貢献度を評価する。 アノテーションは、評価に関する簡単な正当化も提供する。 他のアノテータからの平均評価を根拠として、モデルが個々のアノテータより優れていることを発見した。 人間のアノテータのペアは、評価の正当性においてモデルより優れており、4つの指標すべてにおいて3つのグループよりも優れていますが、モデルはまだ競争力があります。 本研究は,ナッジが検討の質に与える影響を評価することによって,自動品質評価の有用性について述べる。 まず, 長時間の無活動化後の個々のナッジが極めて有効であることが確認され, 今後30秒間, 65%の発話が要求される可能性が高まった。 自動品質評価を用いて、ヌードによって引き起こされる文の品質評価が、ヌードなしで行われるものと類似していることを示し、ヌードによって全体的な品質を損なうことなく、会話の中でより多くのアイデアが生み出されることを示す。

Deliberation involves participants exchanging knowledge, arguments, and perspectives and has been shown to be effective at addressing polarization. The Stanford Online Deliberation Platform facilitates large-scale deliberations. It enables video-based online discussions on a structured agenda for small groups without requiring human moderators. This paper's data comes from various deliberation events, including one conducted in collaboration with Meta in 32 countries, and another with 38 post-secondary institutions in the US. Estimating the quality of contributions in a conversation is crucial for assessing feature and intervention impacts. Traditionally, this is done by human annotators, which is time-consuming and costly. We use a large language model (LLM) alongside eight human annotators to rate contributions based on justification, novelty, expansion of the conversation, and potential for further expansion, with scores ranging from 1 to 5. Annotators also provide brief justifications for their ratings. Using the average rating from other human annotators as the ground truth, we find the model outperforms individual human annotators. While pairs of human annotators outperform the model in rating justification and groups of three outperform it on all four metrics, the model remains competitive. We illustrate the usefulness of the automated quality rating by assessing the effect of nudges on the quality of deliberation. We first observe that individual nudges after prolonged inactivity are highly effective, increasing the likelihood of the individual requesting to speak in the next 30 seconds by 65%. Using our automated quality estimation, we show that the quality ratings for statements prompted by nudging are similar to those made without nudging, signifying that nudging leads to more ideas being generated in the conversation without losing overall quality.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 1ビットLDM時代のマツマルかノーマツマルか

Matmul or No Matmal in the Era of 1-bit LLMs ( http://arxiv.org/abs/2408.11939v1 )

ライセンス: Link先を確認
Jinendra Malekar, Mohammed E. Elbtity, Ramtin Zand Co, (参考訳) 1ビットの大規模言語モデル(LLM)の出現は注目され、新たな研究機会が開かれた。 しかし、1ビット LLM は射影層に極端に量子化を施し、注意を向けることなく少数のモデルを改善するだけである。 したがって、将来の研究における目標の根本的な誤った選択を避けるためには、1ビットのLLMがもたらす計算とメモリ使用量の実際の改善を理解することが不可欠である。 本研究では,1ビットLLMの文脈に適合したアムダールの法則を適応させ,1ビットLLMの部分的改善がモデル全体の性能に与える影響を示す。 大規模な実験を通じて、異なるモデルアーキテクチャとハードウェア構成にまたがる重要なニュアンスを明らかにし、1ビットLLMの時代における将来の研究のロードマップを提供する。

The advent of 1-bit large language models (LLMs) has attracted considerable attention and opened up new research opportunities. However, 1-bit LLMs only improve a fraction of models by applying extreme quantization to the projection layers while leaving attention heads unchanged. Therefore, to avoid fundamentally wrong choices of goals in future research, it is crucial to understand the actual improvements in computation and memory usage that 1-bit LLMs can deliver. In this work, we present an adaptation of Amdahl's Law tailored for the 1-bit LLM context, which illustrates how partial improvements in 1-bit LLMs impact overall model performance. Through extensive experiments, we uncover key nuances across different model architectures and hardware configurations, offering a roadmap for future research in the era of 1-bit LLMs.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 商用フランス法定音声認識システムの現状と裁判所報告者等への影響

The State of Commercial Automatic French Legal Speech Recognition Systems and their Impact on Court Reporters et al ( http://arxiv.org/abs/2408.11940v1 )

ライセンス: Link先を確認
Nicolad Garneau, Olivier Bolduc, (参考訳) ケベック州とカナダの裁判所では、裁判所手続の書き起こしは上訴の目的にとって重要な課題であり、公式の裁判所記者によって認証されなければならない。 資格のあるレポーターの可用性の制限と手書き文字起こしに伴う高コストは、より効率的なソリューションの必要性を浮き彫りにした。 本稿では,裁判所記者の法的手続きの翻訳を支援するための自動音声認識(ASR)システムの可能性について検討する。 商用およびオープンソースオプションを含む3つのASRモデルを、キュレートされたデータセットを使用して、フランス語の法的発話を認識する能力についてベンチマークする。 本研究では,単語誤り率(WER)測定値を用いてこれらのシステムの性能評価を行い,音韻精度を考慮したSonnex Distanceを導入する。 また、裁判所の記者、写実家、法体系、訴訟員に対するASR導入の広範な影響について検討し、肯定的および否定的な影響の両方を特定した。 この結果は、現在のASRシステムは将来性を示すが、法域の特定のニーズを満たすためにさらなる改良が必要であることを示唆している。

In Quebec and Canadian courts, the transcription of court proceedings is a critical task for appeal purposes and must be certified by an official court reporter. The limited availability of qualified reporters and the high costs associated with manual transcription underscore the need for more efficient solutions. This paper examines the potential of Automatic Speech Recognition (ASR) systems to assist court reporters in transcribing legal proceedings. We benchmark three ASR models, including commercial and open-source options, on their ability to recognize French legal speech using a curated dataset. Our study evaluates the performance of these systems using the Word Error Rate (WER) metric and introduces the Sonnex Distance to account for phonetic accuracy. We also explore the broader implications of ASR adoption on court reporters, copyists, the legal system, and litigants, identifying both positive and negative impacts. The findings suggest that while current ASR systems show promise, they require further refinement to meet the specific needs of the legal domain.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 嗜好に基づく強化学習の進歩 : レビュー

Advances in Preference-based Reinforcement Learning: A Review ( http://arxiv.org/abs/2408.11943v1 )

ライセンス: Link先を確認
Youssef Abdelkareem, Shady Shehata, Fakhri Karray, (参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは、必要なタスクを行うための学習エージェントを適切に導くために、正確に設計された報酬関数に依存する。 嗜好に基づく強化学習(PbRL)は、人間の嗜好を数値的な報酬ではなく専門家からのフィードバックとして利用する。 従来のRLよりも有望な優位性のため、PbRLは近年、多くの大きな進歩で注目されている。 本稿では,PbRLのスケーラビリティと効率を向上させる新しいアプローチを含む統一的なPbRLフレームワークを提案する。 さらに,この分野における理論的保証とベンチマーク作業について概説するとともに,最近の実世界の複雑なタスクにおける応用について述べる。 最後に、現在のアプローチの限界と今後の研究方向性について検討する。

Reinforcement Learning (RL) algorithms suffer from the dependency on accurately engineered reward functions to properly guide the learning agents to do the required tasks. Preference-based reinforcement learning (PbRL) addresses that by utilizing human preferences as feedback from the experts instead of numeric rewards. Due to its promising advantage over traditional RL, PbRL has gained more focus in recent years with many significant advances. In this survey, we present a unified PbRL framework to include the newly emerging approaches that improve the scalability and efficiency of PbRL. In addition, we give a detailed overview of the theoretical guarantees and benchmarking work done in the field, while presenting its recent applications in complex real-world tasks. Lastly, we go over the limitations of the current approaches and the proposed future research directions.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 脳のトポロジカルな表現的類似性解析

Topological Representational Similarity Analysis in Brains and Beyond ( http://arxiv.org/abs/2408.11948v1 )

ライセンス: Link先を確認
Baihan Lin, (参考訳) 脳が情報をどのように表現し、処理するかを理解することは、神経科学と人工知能の進歩に不可欠である。 表現類似性分析(Representational similarity analysis、RSA)は神経表現の特徴付けに役立っているが、従来のRSAは幾何学的特性にのみ依存し、重要な位相情報を見渡す。 この論文は、神経表現の幾何学的および位相的特性を組み合わせた新しいフレームワークであるトポロジカルRSA(tRSA)を紹介する。 tRSAは非線型単調変換を表現上の相似性に適用し、中間スケールの幾何学を維持しながら局所位相を強調する。 結果として生じる地形行列は、ノイズや個々の慣用性に頑健なモデル比較を可能にする。 本論文は,(1)計算シグネチャの同定とトポロジカル仮説の検証のためのトポロジカルRSA(tRSA),(2)複雑な多変量関係を検出するための適応的ジオトポロジカル依存性尺度(AGTDM),(3)神経計算の段階を明らかにするためのプロクリストリーな多次元スケーリング(pMDS),(4)発達軌跡を明らかにするための時間的トポロジカルデータ解析(tTDA),(5)細胞集団の複雑さを特徴付けるためのシングルセルトポロジカルSimplicial Analysis(scTSA)など,主要な方法論の進歩を紹介する。 この論文は、神経記録、生物学的データ、ニューラルネットワークシミュレーションの分析を通じて、脳、計算モデル、複雑な生物学的システムを理解するためのこれらの手法のパワーと汎用性を実証している。 競合するモデル間での適応のための堅牢なアプローチを提供するだけでなく、ニューラル計算の性質に関する新たな理論的洞察も明らかにしている。 この研究は、トポロジー、神経科学、時系列分析の交差点における将来の研究の基礎を築き、脳機能と機能不全のより微妙な理解の道を開いた。

Understanding how the brain represents and processes information is crucial for advancing neuroscience and artificial intelligence. Representational similarity analysis (RSA) has been instrumental in characterizing neural representations, but traditional RSA relies solely on geometric properties, overlooking crucial topological information. This thesis introduces Topological RSA (tRSA), a novel framework combining geometric and topological properties of neural representations. tRSA applies nonlinear monotonic transforms to representational dissimilarities, emphasizing local topology while retaining intermediate-scale geometry. The resulting geo-topological matrices enable model comparisons robust to noise and individual idiosyncrasies. This thesis introduces several key methodological advances: (1) Topological RSA (tRSA) for identifying computational signatures and testing topological hypotheses; (2) Adaptive Geo-Topological Dependence Measure (AGTDM) for detecting complex multivariate relationships; (3) Procrustes-aligned Multidimensional Scaling (pMDS) for revealing neural computation stages; (4) Temporal Topological Data Analysis (tTDA) for uncovering developmental trajectories; and (5) Single-cell Topological Simplicial Analysis (scTSA) for characterizing cell population complexity. Through analyses of neural recordings, biological data, and neural network simulations, this thesis demonstrates the power and versatility of these methods in understanding brains, computational models, and complex biological systems. They not only offer robust approaches for adjudicating among competing models but also reveal novel theoretical insights into the nature of neural computation. This work lays the foundation for future investigations at the intersection of topology, neuroscience, and time series analysis, paving the way for more nuanced understanding of brain function and dysfunction.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 部品の総和より大きいのは、感情の変動を捉えるために個々のアノテーションをモデル化する

The Whole Is Bigger Than the Sum of Its Parts: Modeling Individual Annotators to Capture Emotional Variability ( http://arxiv.org/abs/2408.11956v1 )

ライセンス: Link先を確認
James Tavernor, Yara El-Tawil, Emily Mower Provost, (参考訳) 感情表現と知覚はニュアンスがあり、複雑で、非常に主観的なプロセスである。 複数のアノテータが感情データをラベル付けすると、結果のラベルは高い変数を含む。 ほとんどの音声感情認識タスクは、アノテータラベルを基底真理として平均化することでこの問題に対処する。 しかし、このプロセスは、キャプチャーの重要な信号である感情とアノテーション間の変動のニュアンスを省略する。 従来の研究は感情の多様性を捉えるために分布を学習しようとしたが、これらの手法は個々のアノテータに関する情報も失っている。 我々は,個々のアノテータの予測を学習し,モデル学習中に感情分布の学習を可能にする連続モデル出力から分布を生成する新しい手法を導入することにより,これらの制限に対処する。 この組み合わせのアプローチは、企業内と企業内の両方で、以前の作業で見られたものよりも正確な感情分布をもたらす可能性があることを示す。

Emotion expression and perception are nuanced, complex, and highly subjective processes. When multiple annotators label emotional data, the resulting labels contain high variability. Most speech emotion recognition tasks address this by averaging annotator labels as ground truth. However, this process omits the nuance of emotion and inter-annotator variability, which are important signals to capture. Previous work has attempted to learn distributions to capture emotion variability, but these methods also lose information about the individual annotators. We address these limitations by learning to predict individual annotators and by introducing a novel method to create distributions from continuous model outputs that permit the learning of emotion distributions during model training. We show that this combined approach can result in emotion distributions that are more accurate than those seen in prior work, in both within- and cross-corpus settings.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# CARLAドローン:異なる視点から単眼で3D物体を検出する

CARLA Drone: Monocular 3D Object Detection from a Different Perspective ( http://arxiv.org/abs/2408.11958v1 )

ライセンス: Link先を確認
Johannes Meier, Luca Scalerandi, Oussema Dhaouadi, Jacques Kaiser, Nikita Araslanov, Daniel Cremers, (参考訳) 既存のモノクル3D検出技術には深刻な制約がある。 それらは限られたベンチマークでしかうまく機能せず、エゴ中心のカービューやトラフィックカメラビューでうまく機能するが、両方ではあまり機能しない。 進歩を促すために、この研究は異なるカメラ視点で3D検出フレームワークを拡張評価することを提唱している。 私たちは2つの重要な貢献をします。 まず、CARLA Drone data, CDroneを紹介する。 ドローンのビューをシミュレートすることで、既存のベンチマークにおけるカメラの視点の多様性を大幅に拡大する。 合成性にもかかわらず、CDroneは現実世界の挑戦である。 これを示すために、従来の手法がCDroneと現実世界の3Dドローンデータセットの両方でうまく機能することが困難であったことを確認した。 第2に、GroundMixと呼ばれる効果的なデータ拡張パイプラインを開発する。 その特徴的要素は、トレーニング画像の3D一貫性増強のためのグラウンドの使用である。 GroundMixは軽量の1段検出器の検出精度を大幅に向上させる。 拡張された評価では、テスト対象のデータセットの平均精度は、テスト対象のデータセットの平均値と同等か、それよりもかなり高い。

Existing techniques for monocular 3D detection have a serious restriction. They tend to perform well only on a limited set of benchmarks, faring well either on ego-centric car views or on traffic camera views, but rarely on both. To encourage progress, this work advocates for an extended evaluation of 3D detection frameworks across different camera perspectives. We make two key contributions. First, we introduce the CARLA Drone dataset, CDrone. Simulating drone views, it substantially expands the diversity of camera perspectives in existing benchmarks. Despite its synthetic nature, CDrone represents a real-world challenge. To show this, we confirm that previous techniques struggle to perform well both on CDrone and a real-world 3D drone dataset. Second, we develop an effective data augmentation pipeline called GroundMix. Its distinguishing element is the use of the ground for creating 3D-consistent augmentation of a training image. GroundMix significantly boosts the detection accuracy of a lightweight one-stage detector. In our expanded evaluation, we achieve the average precision on par with or substantially higher than the previous state of the art across all tested datasets.
翻訳日:2024-08-23 18:06:47 公開日:2024-08-21
# 安定化FIRコントローラの設計について

On the design of stabilizing FIR controllers ( http://arxiv.org/abs/2408.11959v1 )

ライセンス: Link先を確認
Janis Adamek, Nils Schlüter, Moritz Schulze Darup, (参考訳) 近年,有限インパルス応答制御が暗号化制御の優れた基盤となり,特殊な暗号システムによるプライバシ保護制御が重要視されている。 FIRフィルタの利点はデジタル信号処理でもよく知られており、多くのアプリケーションにおいて無限インパルス応答フィルタよりも好ましい。 彼らの魅力はフィードバックコントロールにまで拡張され、出力測定のみに基づく設計の柔軟性を提供する。 しかし、FIRコントローラの設計は困難であり、この作業の動機となっている。 設計課題に対処するため、まず線形システムのFIRコントローラ設計は静的あるいは動的な出力フィードバック問題として等価に記述できることを示す。 植物に対するFIRコントローラの安定化に焦点をあてた上で、FIRコントローラの場合の出力フィードバックのための2つの一般的な設計アプローチをカスタマイズする。 残念ながら、FIR特性はLMIベースのアプローチにさらなる制限を加えることになる。 したがって、我々は最終的に非凸最適化に基づく設計に転換し、ベンチマークシステムの選択に十分な結果を提供する。

Recently, it has been observed that finite impulse response controllers are an excellent basis for encrypted control, where privacy-preserving controller evaluations via special cryptosystems are the main focus. Beneficial properties of FIR filters are also well-known from digital signal processing, which makes them preferable over infinite impulse response filters in many applications. Their appeal extends to feedback control, offering design flexibility grounded solely on output measurements. However, designing FIR controllers is challenging, which motivates this work. To address the design challenge, we initially show that FIR controller designs for linear systems can equivalently be stated as static or dynamic output feedback problems. After focusing on the existence of stabilizing FIR controllers for a given plant, we tailor two common design approaches for output feedback to the case of FIR controllers. Unfortunately, it will turn out that the FIR characteristics add further restrictions to the LMI-based approaches. Hence, we finally turn to designs building on non-convex optimization, which provide satisfactory results for a selection of benchmark systems.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# SECアクションのデコード: LLMに基づくテーマファクターマッピングを用いたブロックチェーン訴訟の分析による実施動向

Decoding SEC Actions: Enforcement Trends through Analyzing Blockchain litigation using LLM-based Thematic Factor Mapping ( http://arxiv.org/abs/2408.11961v1 )

ライセンス: Link先を確認
Junliang Luo, Xihan Xiong, William Knottenbelt, Xue Liu, (参考訳) ブロックチェーンエンティティ(個人または企業)の拡散は、規制当局による潜在的規制措置(例:訴訟)にそれらを公開する。 暗号資産の規制フレームワークは積極的に開発され、洗練され、そのような行動の可能性が高まっている。 ブロックチェーンのエンティティに対する訴訟を誘発する要因の体系的な分析が欠如しているため、企業はコンプライアンスのリスクをナビゲートするための明確さを必要としている。 この洞察の欠如は、情報決定のための情報を投資家から奪っている。 この研究は、グローバル暗号規制に影響を及ぼすとして、特に米国証券取引委員会(SEC)によるブロックチェーン企業に対する米国の訴訟に焦点を当てている。 2012年から2024年までのブロックチェーン企業に対するSECのすべての苦情を、フロンティア事前訓練された言語モデルと大規模言語モデルを活用して、当社の研究によって概念化されたテーマ要因に体系的にマッピングし、SECアクションを駆動する要因を明確にします。 本論では, 主題的要因を定量化し, 苦情の中で引用される特定の法的行為に対する影響を年次的に評価することにより, 規制の重点, パターン, 傾向分析を識別することができる。

The proliferation of blockchain entities (persons or enterprises) exposes them to potential regulatory actions (e.g., being litigated) by regulatory authorities. Regulatory frameworks for crypto assets are actively being developed and refined, increasing the likelihood of such actions. The lack of systematic analysis of the factors driving litigation against blockchain entities leaves companies in need of clarity to navigate compliance risks. This absence of insight also deprives investors of the information for informed decision-making. This study focuses on U.S. litigation against blockchain entities, particularly by the U.S. Securities and Exchange Commission (SEC) given its influence on global crypto regulation. Utilizing frontier pretrained language models and large language models, we systematically map all SEC complaints against blockchain companies from 2012 to 2024 to thematic factors conceptualized by our study to delineate the factors driving SEC actions. We quantify the thematic factors and assess their influence on specific legal Acts cited within the complaints on an annual basis, allowing us to discern the regulatory emphasis, patterns and conduct trend analysis.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# 2022年Mpoxアウトブレイク時のオンライン毒性の特徴:トピックとネットワークのダイナミクスの計算解析

Characterizing Online Toxicity During the 2022 Mpox Outbreak: A Computational Analysis of Topical and Network Dynamics ( http://arxiv.org/abs/2408.11962v1 )

ライセンス: Link先を確認
Lizhou Fan, Lingyao Li, Libby Hemphill, (参考訳) 背景:ハラスメント、いじめ、ヘイトスピーチ、誤報の拡散などの行動を含むオンライン毒性は、デジタル時代において社会的関心事となっている。 2022年のムポックスの流行は、当初は「モンキーポックス」と呼ばれていたが、その後、関連するスティグマや社会的懸念を緩和するために改名された。 目的:本研究では,2022年のMpox流行を取り巻く有害なオンライン談話の包括的分析を行う。 我々の目的は、その起源を解明し、その性質と内容を特徴づけ、その拡散パターンを辿り、そのより広範な社会的含意を評価し、将来の危機においてそのような毒性を緩和するための戦略を示すための洞察を提供することである。 メソッド: 我々は660万以上のユニークなツイートを収集し、コンテキスト、範囲、コンテンツ、話者、意図を含む5つの次元から分析した。 BERTベースのトピックモデリングとソーシャルネットワークコミュニティのクラスタリングを活用して、Twitter上で有害なダイナミックスを強調した。 結果:Twitter上での有害なオンライン談話では,病気(46.6%),健康政策と医療(19.3%),ホモフォビア(23.9%),政治(6.0%),人種差別(4.1%)の5つの高い話題カテゴリーを特定した。 言及やリツイート、トップユーザーによる毒性拡散ネットワークを通じて、有害コンテンツのリツイートが広まっていたのに対して、影響力のあるユーザはリツイートを通じてこの毒性に関わったり対抗したりすることはめったにないことがわかった。 結論: トピックのダイナミクスを追跡することで、有害なコンテンツの人気の変化をオンラインで追跡することができ、社会的課題の理解を深めることができます。 ネットワークのダイナミクスは、重要なソーシャルメディアインフルエンサーとその意図を浮き彫りにし、有害な談話におけるこれらの中心人物に対処することで危機コミュニケーションを高め、政策決定を通知できることを示している。

Background: Online toxicity, encompassing behaviors such as harassment, bullying, hate speech, and the dissemination of misinformation, has become a pressing social concern in the digital age. The 2022 Mpox outbreak, initially termed "Monkeypox" but subsequently renamed to mitigate associated stigmas and societal concerns, serves as a poignant backdrop to this issue. Objective: In this research, we undertake a comprehensive analysis of the toxic online discourse surrounding the 2022 Mpox outbreak. Our objective is to dissect its origins, characterize its nature and content, trace its dissemination patterns, and assess its broader societal implications, with the goal of providing insights that can inform strategies to mitigate such toxicity in future crises. Methods: We collected more than 1.6 million unique tweets and analyzed them from five dimensions, including context, extent, content, speaker, and intent. Utilizing BERT-based topic modeling and social network community clustering, we delineated the toxic dynamics on Twitter. Results: We identified five high-level topic categories in the toxic online discourse on Twitter, including disease (46.6%), health policy and healthcare (19.3%), homophobia (23.9%), politics (6.0%), and racism (4.1%). Through the toxicity diffusion networks of mentions, retweets, and the top users, we found that retweets of toxic content were widespread, while influential users rarely engaged with or countered this toxicity through retweets. Conclusions: By tracking topical dynamics, we can track the changing popularity of toxic content online, providing a better understanding of societal challenges. Network dynamics spotlight key social media influencers and their intents, indicating that addressing these central figures in toxic discourse can enhance crisis communication and inform policy-making.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# 物体検出のための実時間インクリメンタル説明法

Real-Time Incremental Explanations for Object Detectors ( http://arxiv.org/abs/2408.11963v1 )

ライセンス: Link先を確認
Santiago Calderón-Peña, Hana Chockler, David A. Kelly, (参考訳) 既存のオブジェクト検出器のブラックボックス説明可能性ツールはモデルへの複数の呼び出しに依存しており、リアルタイムで説明を計算できない。 本稿では,サリエンシマップの線形変換に基づく実時間インクリメンタルな説明近似アルゴリズムであるIncXを紹介する。 我々はオブジェクト検出器のための最先端のブラックボックス説明可能性ツールであるD-RISE上にIncXを実装した。 InXの説明はD-RISEの説明に匹敵するもので、挿入曲線は8%以内であり、D-RISEの説明よりも2桁早く計算されている。

Existing black box explainability tools for object detectors rely on multiple calls to the model, which prevents them from computing explanations in real time. In this paper we introduce IncX, an algorithm for real-time incremental approximations of explanations, based on linear transformations of saliency maps. We implement IncX on top of D-RISE, a state-of-the-art black-box explainability tool for object detectors. We show that IncX's explanations are comparable in quality to those of D-RISE, with insertion curves being within 8%, and are computed two orders of magnitude faster that D-RISE's explanations.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# CT-AGRG : 3次元胸部CTボリュームから自動異常ガイド作成

CT-AGRG: Automated Abnormality-Guided Report Generation from 3D Chest CT Volumes ( http://arxiv.org/abs/2408.11965v1 )

ライセンス: Link先を確認
Theo Di Piazza, (参考訳) CT(Computerd tomography)スキャンの急激な増加と,その時間を要する手作業による分析は,臨床現場での堅牢な自動解析技術の必要性を突発的に生み出している。 これらは、放射線学者を支援し、成長するワークロードの管理を支援することを目的としている。 既存の方法では、観察された異常に明示的に焦点をあてることなく、3D CT画像から直接レポートを生成するのが一般的である。 このガイドなしのアプローチは、しばしば反復的な内容や不完全な報告をもたらし、異常固有の記述の優先順位付けに失敗する。 本稿では,まず異常を予測し,それぞれが対象とする記述を生成する,新たな異常誘導型レポート生成モデルを提案する。 パブリックデータセットの評価は、レポートの品質と臨床関連性を大幅に改善したことを示している。 我々はその効果を実証するためにアブレーション研究を行うことで研究を拡大する。

The rapid increase of computed tomography (CT) scans and their time-consuming manual analysis have created an urgent need for robust automated analysis techniques in clinical settings. These aim to assist radiologists and help them managing their growing workload. Existing methods typically generate entire reports directly from 3D CT images, without explicitly focusing on observed abnormalities. This unguided approach often results in repetitive content or incomplete reports, failing to prioritize anomaly-specific descriptions. We propose a new anomaly-guided report generation model, which first predicts abnormalities and then generates targeted descriptions for each. Evaluation on a public dataset demonstrates significant improvements in report quality and clinical relevance. We extend our work by conducting an ablation study to demonstrate its effectiveness.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# 3Dマップにおける視覚的位置決め:ポイントクラウド,メッシュ,NeRF表現の比較

Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations ( http://arxiv.org/abs/2408.11966v1 )

ライセンス: Link先を確認
Lintong Zhang, Yifu Tao, Jiarong Lin, Fu Zhang, Maurice Fallon, (参考訳) 本稿では,視覚とライダーの両方のセンシングを用いて構築されたカラー3Dマップ表現内にカメライメージをローカライズ可能な,グローバルなグローバルな位置決めシステムを紹介し,評価する。 我々は,点雲,メッシュ,ニューラル放射場(NeRF)の3種類のカラー3Dマップを作成する方法を提案する。 これらの表現から合成RGBと深度画像ペアのデータベースを構築する。 このデータベースはグローバルなローカライゼーションの基礎となる。 シーンの新たなイメージを合成し、異なる表現に符号化された3D構造を活用することで、このデータベースを構築する自動手法を提案する。 次に,合成画像データベースを利用したグローバルなローカライゼーションシステムを提案し,モノクル検索画像の6DFカメラのポーズを正確に推定する。 我々のローカライゼーションアプローチは、(実際の)クエリカメラ画像と合成データベース画像とのドメインギャップにもかかわらず、堅牢な画像検索とマッチングを可能にする、学習ベースのグローバルディスクリプタと特徴検出器に依存しています。 本研究では,屋内および屋外の両方での広範囲な実環境実験を通じてシステムの性能評価を行い,各地図表現の有効性と従来の構造間ローカライゼーション手法に対する利点を評価する。 以上の結果から,3つの地図表現がそれぞれ55%以上の一貫した局所化成功率を達成できることが示唆された。 NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。 さらに,本データベースは,地図作成データと局所化シーケンスが反対方向に移動する際にも,グローバルなローカライズが可能であることを実証した。 当社のシステムは,GPUを搭載したモバイルラップトップ上でリアルタイムに動作し,処理速度が1Hzに達する。

This paper introduces and assesses a cross-modal global visual localization system that can localize camera images within a color 3D map representation built using both visual and lidar sensing. We present three different state-of-the-art methods for creating the color 3D maps: point clouds, meshes, and neural radiance fields (NeRF). Our system constructs a database of synthetic RGB and depth image pairs from these representations. This database serves as the basis for global localization. We present an automatic approach that builds this database by synthesizing novel images of the scene and exploiting the 3D structure encoded in the different representations. Next, we present a global localization system that relies on the synthetic image database to accurately estimate the 6 DoF camera poses of monocular query images. Our localization approach relies on different learning-based global descriptors and feature detectors which enable robust image retrieval and matching despite the domain gap between (real) query camera images and the synthetic database images. We assess the system's performance through extensive real-world experiments in both indoor and outdoor settings, in order to evaluate the effectiveness of each map representation and the benefits against traditional structure-from-motion localization approaches. Our results show that all three map representations can achieve consistent localization success rates of 55% and higher across various environments. NeRF synthesized images show superior performance, localizing query images at an average success rate of 72%. Furthermore, we demonstrate that our synthesized database enables global localization even when the map creation data and the localization sequence are captured when travelling in opposite directions. Our system, operating in real-time on a mobile laptop equipped with a GPU, achieves a processing rate of 1Hz.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# 大規模動的因果モデルによるエンゲージメント面の評価

Valuing an Engagement Surface using a Large Scale Dynamic Causal Model ( http://arxiv.org/abs/2408.11967v1 )

ライセンス: Link先を確認
Abhimanyu Mukerji, Sushant More, Ashwin Viswanathan Kannan, Lakshmi Ravi, Hua Chen, Naman Kohli, Chris Khawand, Dinesh Mandalapu, (参考訳) オンラインショッピングの急速な成長に伴い、AIを活用したエンゲージメントサーフェス(ES)は小売サービス全体で広く普及している。 これらのエンゲージメントサーフェスは、購入のための新製品の推奨、顧客への注文のリマインダー、配送通知の提供など、さまざまな機能を実行する。 顧客や企業にとっての価値にエンゲージメントサーフェスの因果関係が及ぼす影響を理解することは、未解決の科学的問題である。 本稿では,ESに起因する値の分散化と,その有効性を評価するために,大規模に動的因果モデルを構築した。 我々は、ESへの投資に対するリターンを理解し、ESが最も価値を付加する製品ラインや特徴を特定することで、ビジネス上の意思決定にこのモデルを適用することを実証する。

With recent rapid growth in online shopping, AI-powered Engagement Surfaces (ES) have become ubiquitous across retail services. These engagement surfaces perform an increasing range of functions, including recommending new products for purchase, reminding customers of their orders and providing delivery notifications. Understanding the causal effect of engagement surfaces on value driven for customers and businesses remains an open scientific question. In this paper, we develop a dynamic causal model at scale to disentangle value attributable to an ES, and to assess its effectiveness. We demonstrate the application of this model to inform business decision-making by understanding returns on investment in the ES, and identifying product lines and features where the ES adds the most value.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# DrivAerML:ロードカー外空力のための高速数値流体力学データセット

DrivAerML: High-Fidelity Computational Fluid Dynamics Dataset for Road-Car External Aerodynamics ( http://arxiv.org/abs/2408.11969v1 )

ライセンス: Link先を確認
Neil Ashton, Charles Mockett, Marian Fuchs, Louis Fliessbach, Hendrik Hetmann, Thilo Knacke, Norbert Schonwald, Vangelis Skaperdas, Grigoris Fotiadis, Astrid Walle, Burkhard Hupertz, Danielle Maddix, (参考訳) 機械学習(ML)は、自動車空力学の分野に革命をもたらす可能性を秘めており、設計プロセスの早い段階で秒単位のフロー予測を可能にする。 しかし、高忠実度CFD手法を用いたリアルな路面車のオープンソーストレーニングデータが欠如していることは、彼らの発展の障壁となっている。 これを解決するために、広く使われているDrivAerノッチバックの500のパラメトリックな変形版に基づいて、自動車空気力学のための高忠実なオープンソースデータセット(CC-BY-SA)が作成されている。 メッシュ生成とスケール解決のCFDは、産業状態を表す一貫した検証済みの自動ワークフローを使用して実行された。 ジオメトリとリッチな空力データはオープンソース形式で公開されている。 我々の知る限り、これは、高忠実度CFDを用いて生成された複雑な自動車構成のための、最初の大規模なパブリックドメインデータセットである。

Machine Learning (ML) has the potential to revolutionise the field of automotive aerodynamics, enabling split-second flow predictions early in the design process. However, the lack of open-source training data for realistic road cars, using high-fidelity CFD methods, represents a barrier to their development. To address this, a high-fidelity open-source (CC-BY-SA) public dataset for automotive aerodynamics has been generated, based on 500 parametrically morphed variants of the widely-used DrivAer notchback generic vehicle. Mesh generation and scale-resolving CFD was executed using consistent and validated automatic workflows representative of the industrial state-of-the-art. Geometries and rich aerodynamic data are published in open-source formats. To our knowledge, this is the first large, public-domain dataset for complex automotive configurations generated using high-fidelity CFD.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# 非凸ミニマックス最適化のための2時間勾配勾配昇華アルゴリズム

Two-Timescale Gradient Descent Ascent Algorithms for Nonconvex Minimax Optimization ( http://arxiv.org/abs/2408.11974v1 )

ライセンス: Link先を確認
Tianyi Lin, Chi Jin, Michael. I. Jordan, (参考訳) 目的関数 $f(\textbf{x}, \textbf{y})$ は $\textbf{x}$ の非凸であり、$\textbf{y}$ の凹凸であり、$\textbf{y}$ の制約セット $Y \subseteq \mathbb{R}^n}$ は凸で有界である。 凸凹の環境では、単一時間スケールのGDAは強い収束保証を達成し、オペレーションリサーチやコンピュータサイエンスから生じるアプリケーション問題の解決に利用されてきた。 しかし、より一般的な設定では収束できない。 本稿では,関数 $\Phi(\cdot) := \max_{\textbf{y} \in Y} f(\cdot, \textbf{y})$ の1つの定常点を効率的に検出する,単純な決定論的かつ確率的TTGDAアルゴリズムの設計を行う。 具体的には、スムーズかつ非滑らかな非凸凹極小最適化問題を解くことの複雑さに関する理論的境界を証明している。 我々の知る限り、これは非凸最小値最適化のためのTTGDAを初めて体系的に解析し、GAN(Generative Adversarial Network)のトレーニングや、他の現実世界のアプリケーション問題の解決において、その優れた性能に光を当てるものである。

We provide a unified analysis of two-timescale gradient descent ascent (TTGDA) for solving structured nonconvex minimax optimization problems in the form of $\min_\textbf{x} \max_{\textbf{y} \in Y} f(\textbf{x}, \textbf{y})$, where the objective function $f(\textbf{x}, \textbf{y})$ is nonconvex in $\textbf{x}$ and concave in $\textbf{y}$, and the constraint set $Y \subseteq \mathbb{R}^n$ is convex and bounded. In the convex-concave setting, the single-timescale GDA achieves strong convergence guarantees and has been used for solving application problems arising from operations research and computer science. However, it can fail to converge in more general settings. Our contribution in this paper is to design the simple deterministic and stochastic TTGDA algorithms that efficiently find one stationary point of the function $\Phi(\cdot) := \max_{\textbf{y} \in Y} f(\cdot, \textbf{y})$. Specifically, we prove the theoretical bounds on the complexity of solving both smooth and nonsmooth nonconvex-concave minimax optimization problems. To our knowledge, this is the first systematic analysis of TTGDA for nonconvex minimax optimization, shedding light on its superior performance in training generative adversarial networks (GANs) and in solving other real-world application problems.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# 歴史資料からの自動知識グラフ作成:チリ独裁を事例として

Automatic knowledge-graph creation from historical documents: The Chilean dictatorship as a case study ( http://arxiv.org/abs/2408.11975v1 )

ライセンス: Link先を確認
Camila Díaz, Jocelyn Dunstan, Lorena Etcheverry, Antonia Fonck, Alejandro Grez, Domingo Mery, Juan Reutter, Hugo Rojas, (参考訳) 本稿では,チリ独裁時代(1973-1990)に関する歴史資料から知識グラフの自動構築について述べる。 提案手法は,LLMを用いてエンティティとエンティティ間の関係を自動的に認識し,それらの値集合間の解決を行う。 幻覚を防ぐために、LLMとの相互作用は4種類の実体と7種類の関係を持つ単純なオントロジーに基礎を置いている。 アーキテクチャを評価するために、文書の小さな部分集合を用いて構築された金標準グラフを使用し、これを同じ文書集合を処理する際に、我々のアプローチから得られたグラフと比較する。 以上の結果から, 自動構築法は, 金本位制におけるすべての実体のかなりの部分を認識することができ, 認識されていないものは, 情報構造がグラフ上に存在する粒度のレベルによって主に説明され, 自動的なアプローチがグラフ内の重要な実体を欠いているためではない。 今後は、人文科学や社会科学の研究の充実に焦点をあてた同様のプロジェクトへの取り組みが期待されているが、これらのタイプのアーキテクチャを正確に調整するためには、より良い評価指標が必要である。

We present our results regarding the automatic construction of a knowledge graph from historical documents related to the Chilean dictatorship period (1973-1990). Our approach consists on using LLMs to automatically recognize entities and relations between these entities, and also to perform resolution between these sets of values. In order to prevent hallucination, the interaction with the LLM is grounded in a simple ontology with 4 types of entities and 7 types of relations. To evaluate our architecture, we use a gold standard graph constructed using a small subset of the documents, and compare this to the graph obtained from our approach when processing the same set of documents. Results show that the automatic construction manages to recognize a good portion of all the entities in the gold standard, and that those not recognized are mostly explained by the level of granularity in which the information is structured in the graph, and not because the automatic approach misses an important entity in the graph. Looking forward, we expect this report will encourage work on other similar projects focused on enhancing research in humanities and social science, but we remark that better evaluation metrics are needed in order to accurately fine-tune these types of architectures.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# 感情認識型多基準ファジィグループ意思決定システム

Sentiment and Emotion-aware Multi-criteria Fuzzy Group Decision Making System ( http://arxiv.org/abs/2408.11976v1 )

ライセンス: Link先を確認
Adilet Yerkin, Pakizar Shamoi, Elnara Kadyrgali, (参考訳) 今日の世界では、レストランを選ぶか、休日の目的地を決めるかにかかわらず、グループとして決定を下すことが一般的である。 グループ意思決定(GDM)システムは、様々な好みを持つ参加者間の合意を促進することで重要な役割を果たす。 議論は人々が意思決定に使用する主要なツールの1つです。 代替案について議論する際には、自然言語を使って意見を表明する。 従来のGDMシステムでは、参加者がシステムに明確な意見値を提供する必要がある。 しかし、現実のシナリオでは、参加者はテキスト(コメント、ソーシャルメディア、メッセンジャーなど)を通じて意見を表現することが多い。 本稿では,グループ設定におけるコンセンサス取得の有効性を高めるために,感情と感情を意識した多基準ファジィGDMシステムを提案する。 本システムでは、自然言語処理を用いて、テキストデータに表される感情や感情を分析し、明示的な数値的嗜好入力に加えて、参加者の意見の理解を可能にする。 すべての専門家が選択肢を選好すると、個々の選好は単一の集団選好行列に集約される。 この行列は、他の選択肢に関する集合的専門家の意見を表す。 そして、感情、感情、嗜好のスコアがファジィ推論システムに入力され、全体のスコアを得る。 提案システムは、友人のグループによる休暇のためのホテルの選択という、小さな意思決定プロセスに使用された。 以上の結果から,感情分析と感情分析をGDMシステムに統合することで,参加者の意見や感情を議論中に考慮し,参加者間のコンセンサスを大幅に改善できることがわかった。

In today's world, making decisions as a group is common, whether choosing a restaurant or deciding on a holiday destination. Group decision-making (GDM) systems play a crucial role by facilitating consensus among participants with diverse preferences. Discussions are one of the main tools people use to make decisions. When people discuss alternatives, they use natural language to express their opinions. Traditional GDM systems generally require participants to provide explicit opinion values to the system. However, in real-life scenarios, participants often express their opinions through some text (e.g., in comments, social media, messengers, etc.). This paper introduces a sentiment and emotion-aware multi-criteria fuzzy GDM system designed to enhance consensus-reaching effectiveness in group settings. This system incorporates natural language processing to analyze sentiments and emotions expressed in textual data, enabling an understanding of participant opinions besides the explicit numerical preference inputs. Once all the experts have provided their preferences for the alternatives, the individual preferences are aggregated into a single collective preference matrix. This matrix represents the collective expert opinion regarding the other options. Then, sentiments, emotions, and preference scores are inputted into a fuzzy inference system to get the overall score. The proposed system was used for a small decision-making process - choosing the hotel for a vacation by a group of friends. Our findings demonstrate that integrating sentiment and emotion analysis into GDM systems allows everyone's feelings and opinions to be considered during discussions and significantly improves consensus among participants.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# ガウスモデルからベイズネットワークを学習するための漸近的最適座標決定アルゴリズム

An Asymptotically Optimal Coordinate Descent Algorithm for Learning Bayesian Networks from Gaussian Models ( http://arxiv.org/abs/2408.11977v1 )

ライセンス: Link先を確認
Tong Xu, Armeen Taeb, Simge Küçükyavuz, Ali Shojaie, (参考訳) 本稿では,線形ガウス構造方程式モデルに基づいて連続観測データからベイズネットワークを学習する問題を考察する。 我々は,この問題に対する$\ell_0$-penalized max max estimatorを考える。 アルゴリズムは, 損失関数の非凸性に対して, サンプルサイズが無限大になる傾向にあるにもかかわらず, 座標降下解の目的値は, $\ell_0$-penalized maximum max max estimatorの最適目的値に収束する。 有限サンプル最適性と統計的整合性の保証も確立されている。 我々の知る限りでは、ベイズネットワーク学習の文脈において最適性と統計的保証が与えられた最初の座標降下手順である。 合成および実データに関する数値実験により,我々の座標降下法は,スケーラビリティを保ちながらほぼ最適解が得られることを示した。

This paper studies the problem of learning Bayesian networks from continuous observational data, generated according to a linear Gaussian structural equation model. We consider an $\ell_0$-penalized maximum likelihood estimator for this problem which is known to have favorable statistical properties but is computationally challenging to solve, especially for medium-sized Bayesian networks. We propose a new coordinate descent algorithm to approximate this estimator and prove several remarkable properties of our procedure: the algorithm converges to a coordinate-wise minimum, and despite the non-convexity of the loss function, as the sample size tends to infinity, the objective value of the coordinate descent solution converges to the optimal objective value of the $\ell_0$-penalized maximum likelihood estimator. Finite-sample optimality and statistical consistency guarantees are also established. To the best of our knowledge, our proposal is the first coordinate descent procedure endowed with optimality and statistical guarantees in the context of learning Bayesian networks. Numerical experiments on synthetic and real data demonstrate that our coordinate descent method can obtain near-optimal solutions while being scalable.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# 予測符号化ネットワークのエネルギー景観における厳密なサドルのみ?

Only Strict Saddles in the Energy Landscape of Predictive Coding Networks? ( http://arxiv.org/abs/2408.11979v1 )

ライセンス: Link先を確認
Francesco Innocenti, El Mehdi Achour, Ryan Singh, Christopher L. Buckley, (参考訳) 予測符号化(英: Predictive coding, PC)は、重み更新前のネットワーク活動に対して反復推論を行うエネルギーベースの学習アルゴリズムである。 近年の研究では、PCは推論手順により、バックプロパゲーションよりも学習ステップが少ないことが示唆されている。 しかし、これらの利点は必ずしも観察されず、PC推論が学習に与える影響は理論的にはよく理解されていない。 本稿では,ネットワーク活動の(参照)平衡におけるPCエネルギーランドスケープの幾何について検討する。 深い線形ネットワークの場合、平衡エネルギーは単に重みに依存した再スケーリングによる平均2乗誤差損失であることを示す。 そして、原点を含む多くの高度に縮退した(非制限的)サドルが、平衡エネルギーにおいてより容易に(制限的)脱出できることを証明した。 我々の理論は線形ネットワークと非線形ネットワークの両方の実験によって検証される。 これらの結果に基づき、平衡エネルギーのすべてのサドルは厳密であると予想する。 全体として、この研究は、PC推論が損失の景観をより良質にし、グラデーションを消滅させる一方で、大規模モデルにおけるPC推論のスピードアップという課題を浮き彫りにすることを示している。

Predictive coding (PC) is an energy-based learning algorithm that performs iterative inference over network activities before weight updates. Recent work suggests that PC can converge in fewer learning steps than backpropagation thanks to its inference procedure. However, these advantages are not always observed, and the impact of PC inference on learning is theoretically not well understood. Here, we study the geometry of the PC energy landscape at the (inference) equilibrium of the network activities. For deep linear networks, we first show that the equilibrated energy is simply a rescaled mean squared error loss with a weight-dependent rescaling. We then prove that many highly degenerate (non-strict) saddles of the loss including the origin become much easier to escape (strict) in the equilibrated energy. Our theory is validated by experiments on both linear and non-linear networks. Based on these results, we conjecture that all the saddles of the equilibrated energy are strict. Overall, this work suggests that PC inference makes the loss landscape more benign and robust to vanishing gradients, while also highlighting the challenge of speeding up PC inference on large-scale models.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# ページストリームセグメンテーションのための大規模言語モデル

Large Language Models for Page Stream Segmentation ( http://arxiv.org/abs/2408.11981v1 )

ライセンス: Link先を確認
Hunter Heidenreich, Ratish Dalvi, Rohith Mukku, Nikhil Verma, Neven Pičuljan, (参考訳) ページストリームセグメンテーション(PSS)は、大規模に自動化されたドキュメント処理に必要な必須条件である。 しかし、現実的な公開ベンチマークが欠如しているため、研究の進展は制限されている。 本稿では,商用光文字認識(OCR)アノテーションを特徴とする拡張ベンチマークであるTABME++を導入することで,このギャップに対処する。 我々は,パラメータ効率のよいデコーダモデルに着目し,大規模言語モデル(LLM)の性能評価を行った。 以上の結果から,デコーダベースのLLMはより小型のマルチモーダルエンコーダよりも優れていた。 既存のPSS研究とデータセットのレビューを通じて、この分野における重要な課題と進歩を特定します。 本研究は、より効率的な文書処理システムの開発に有用な知見を提供するとともに、ロバストなOCRの重要さを強調した。

Page Stream Segmentation (PSS) is an essential prerequisite for automated document processing at scale. However, research progress has been limited by the absence of realistic public benchmarks. This paper works towards addressing this gap by introducing TABME++, an enhanced benchmark featuring commercial Optical Character Recognition (OCR) annotations. We evaluate the performance of large language models (LLMs) on PSS, focusing on decoder-based models fine-tuned with parameter-efficient methods. Our results show that decoder-based LLMs outperform smaller multimodal encoders. Through a review of existing PSS research and datasets, we identify key challenges and advancements in the field. Our findings highlight the key importance of robust OCR, providing valuable insights for the development of more effective document processing systems.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# AIM 2024 圧縮映像品質評価への挑戦:方法と結果

AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results ( http://arxiv.org/abs/2408.11982v1 )

ライセンス: Link先を確認
Maksim Smirnov, Aleksandr Gushchin, Anastasia Antsiferova, Dmitry Vatolin, Radu Timofte, Ziheng Jia, Zicheng Zhang, Wei Sun, Jiaying Qian, Yuqin Cao, Yinan Sun, Yuxin Zhu, Xiongkuo Min, Guangtao Zhai, Kanjar De, Qing Luo, Ao-Xiang Zhang, Peng Zhang, Haibo Lei, Linyan Jiang, Yaqing Li, Wenhui Meng, Xiaoheng Tan, Haiqiang Wang, Xiaozhong Xu, Shan Liu, Zhenzhong Chen, Zhengxue Cheng, Jiahao Xiao, Jun Xu, Chenlong He, Qi Zheng, Ruoxi Zhu, Min Li, Yibo Fan, Zhengzhong Tu, (参考訳) 映像品質評価(VQA)は、視聴者体験に直接影響を与えるため、映像圧縮標準の開発において重要な課題である。 本稿では,ECCV 2024における画像操作の進歩(AIM)ワークショップと共同で開催されている圧縮映像品質評価の課題について述べる。 この課題は、様々な圧縮標準(AVC/H.264、HEVC/H.265、AV1、VVC/H.266)の14のコーデックでエンコードされ、圧縮アーティファクトの包括的なコレクションを含む、459のビデオの多様なデータセット上でのVQAメソッドのパフォーマンスを評価することを目的としていた。 提案手法の性能評価には,大規模クラウドソーシングによる対人比較によって収集した予測値と主観的スコアとの相関係数を用いた。 トレーニングのために参加者は、以前開発された1022ビデオのデータセットであるCompressed Video Quality Assessment Dataset (CVQAD)が提供された。 6つのチームの結果を報告し、その結果を再現するための有効な最終ソリューションとコードを提出しました。 さらに,開発データセット上での最先端VQA手法の性能を計算,提示し,今後の研究のための総合的なベンチマークを提供する。 データセット、結果、オンラインのリーダーボードはhttps://challenges.processprocessing.ai/challenges/compressed-video-quality-assesment.htmlで公開されている。

Video quality assessment (VQA) is a crucial task in the development of video compression standards, as it directly impacts the viewer experience. This paper presents the results of the Compressed Video Quality Assessment challenge, held in conjunction with the Advances in Image Manipulation (AIM) workshop at ECCV 2024. The challenge aimed to evaluate the performance of VQA methods on a diverse dataset of 459 videos, encoded with 14 codecs of various compression standards (AVC/H.264, HEVC/H.265, AV1, and VVC/H.266) and containing a comprehensive collection of compression artifacts. To measure the methods performance, we employed traditional correlation coefficients between their predictions and subjective scores, which were collected via large-scale crowdsourced pairwise human comparisons. For training purposes, participants were provided with the Compressed Video Quality Assessment Dataset (CVQAD), a previously developed dataset of 1022 videos. Up to 30 participating teams registered for the challenge, while we report the results of 6 teams, which submitted valid final solutions and code for reproducing the results. Moreover, we calculated and present the performance of state-of-the-art VQA methods on the developed dataset, providing a comprehensive benchmark for future research. The dataset, results, and online leaderboard are publicly available at https://challenges.videoprocessing.ai/challenges/compressed-video-quality-assessment.html.
翻訳日:2024-08-23 17:54:29 公開日:2024-08-21
# 加速速度カロリメトリーデータに適合する化学反応ニューラルネットワーク

Chemical Reaction Neural Networks for Fitting Accelerated Rate Calorimetry Data ( http://arxiv.org/abs/2408.11984v1 )

ライセンス: Link先を確認
Saakaar Bhatnagar, Andrew Comerford, Zelu Xu, Davide Berti Polato, Araz Banaeizadeh, Alessandro Ferraris, (参考訳) リチウムイオン電池の需要が急速に増加するにつれて、熱流出を緩和するために安全な方法でこれらの電池を設計する必要がある。 バッテリーの熱流出は、制御不能な温度上昇と潜在的な火災を引き起こし、これは大きな安全上の懸念である。 典型的には、熱流出熱量測定データ(例えば、加速速度熱量測定(ARC))の化学動力学をモデル化する必要がある。 Arrhenius Ordinary Differential Equation (ODE) thermal runaway model to Accelerated Rate Calorimetry (ARC) data makes several assumptions that reduce the fidelity and generalizability of the obtained model。 本稿では,N方程式 Arrhenius ODE の運動パラメータをモリセル21700 P45Bから得られたARCデータに適合させるために,化学反応ニューラルネットワーク(CRNN)を訓練する。 モデルは実験データのより良い近似であることが判明した。 この手法の柔軟性は、2方程式と4方程式のモデルを用いて実験することによって実証される。 得られた運動パラメータを用いて3次元で熱流出シミュレーションを行い, 得られた熱流出モデルの大規模シミュレーションへの適用性を示した。

As the demand for lithium-ion batteries rapidly increases there is a need to design these cells in a safe manner to mitigate thermal runaway. Thermal runaway in batteries leads to an uncontrollable temperature rise and potentially fires, which is a major safety concern. Typically, when modelling the chemical kinetics of thermal runaway calorimetry data ( e.g. Accelerated Rate Calorimetry (ARC)) is needed to determine the temperature-driven decomposition kinetics. Conventional methods of fitting Arrhenius Ordinary Differential Equation (ODE) thermal runaway models to Accelerated Rate Calorimetry (ARC) data make several assumptions that reduce the fidelity and generalizability of the obtained model. In this paper, Chemical Reaction Neural Networks (CRNNs) are trained to fit the kinetic parameters of N-equation Arrhenius ODEs to ARC data obtained from a Molicel 21700 P45B. The models are found to be better approximations of the experimental data. The flexibility of the method is demonstrated by experimenting with two-equation and four-equation models. Thermal runaway simulations are conducted in 3D using the obtained kinetic parameters, showing the applicability of the obtained thermal runaway models to large-scale simulations.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# SimBench: LLMのディジタルツイン生成能力を評価するためのルールベースのマルチターンインタラクションベンチマーク

SimBench: A Rule-Based Multi-Turn Interaction Benchmark for Evaluating an LLM's Ability to Generate Digital Twins ( http://arxiv.org/abs/2408.11987v1 )

ライセンス: Link先を確認
Jingquan Wang, Harry Zhang, Huzaifa Mustafa Unjhawala, Peter Negrut, Shu Wang, Khailanii Slaton, Radu Serban, Jin-Long Wu, Dan Negrut, (参考訳) シムベンチ(SimBench)は、学生大言語モデル(S-LLM)が仮想テストのシミュレータで使用できるデジタルツイン(DT)を生成する能力を評価するために設計されたベンチマークである。 S-LLMのコレクションを与えられたこのベンチマークは、高品質なDTを生成する能力に基づいて、S-LLMのランク付けを可能にする。 我々は、20以上のオープンソースおよびクローズドソースS-LLMを比較してこれを実証する。 マルチターンインタラクションを使用して、SimBenchは、事前定義されたルールとHuman-in-the-loopガイダンスの両方を活用して、S-LLMが生成したDTのスコアを割り当てるルールベースの判断 LLM (J-LLM) を採用する。 J-LLM はシミュレータに特有であり,Chrono multi-physics シミュレータと組み合わせたベンチマーク手法が提案されている。 クロノはS-LLMの評価に使われた背景を、マルチボディダイナミクス、有限要素解析、車両ダイナミクス、ロボットダイナミクス、センサーシミュレーションのためのデジタルツインを作成する能力に関連して提供した。 提案するベンチマーク原理は広く適用可能であり,S-LLMが他のシミュレーションパッケージに対してディジタルツインを生成する能力を評価することができる。 すべてのコードとデータはhttps://github.com/uwsbel/SimBench.comで入手できる。

We introduce SimBench, a benchmark designed to evaluate the proficiency of student large language models (S-LLMs) in generating digital twins (DTs) that can be used in simulators for virtual testing. Given a collection of S-LLMs, this benchmark enables the ranking of the S-LLMs based on their ability to produce high-quality DTs. We demonstrate this by comparing over 20 open- and closed-source S-LLMs. Using multi-turn interactions, SimBench employs a rule-based judge LLM (J-LLM) that leverages both predefined rules and human-in-the-loop guidance to assign scores for the DTs generated by the S-LLM, thus providing a consistent and expert-inspired evaluation protocol. The J-LLM is specific to a simulator, and herein the proposed benchmarking approach is demonstrated in conjunction with the Chrono multi-physics simulator. Chrono provided the backdrop used to assess an S-LLM in relation to the latter's ability to create digital twins for multibody dynamics, finite element analysis, vehicle dynamics, robotic dynamics, and sensor simulations. The proposed benchmarking principle is broadly applicable and enables the assessment of an S-LLM's ability to generate digital twins for other simulation packages. All code and data are available at https://github.com/uwsbel/SimBench.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# 強化学習による量子多体系の非エルゴディディティ制御

Controlling nonergodicity in quantum many-body systems by reinforcement learning ( http://arxiv.org/abs/2408.11989v1 )

ライセンス: Link先を確認
Li-Li Ye, Ying-Cheng Lai, (参考訳) 任意の初期状態に対する量子熱化を抑制するための最適制御戦略を見つけることは、量子情報科学や技術にとって重要である。 従来の制御方法は、主にターゲットの量子系の理論的モデルに依存していたが、可逆的なモデル近似と不正確さは制御の失敗に繋がる可能性がある。 量子非エルゴディティ制御のためのモデルフリー・ディープ強化学習(DRL)フレームワークを開発した。 長期にわたる時間依存の非エルゴディックメトリクスにおける初期記憶を維持するために、累積的な報酬を最大化するために、探索と搾取戦略のバランスにユニークな焦点をあてた機械学習手法である。 我々は,一次元傾斜したフェルミ・ハバード系を用いて,DRLエージェントが環境との相互作用のみで量子多体系を効率的に学習できることを実証した。 DRLによって得られた最適ポリシーは、ワニエ・スターク局所化の特定のプロトコルである、例えば、位相図における非エルゴディディティを管理するためのより広範な制御シナリオを提供する。 連続制御プロトコルと観測は実験的に実現可能である。 DRLのモデル自由性とその制御関数に対する汎用探索空間は、より複雑な量子多体系において有望な非エルゴディディティ制御を与える。

Finding optimal control strategies to suppress quantum thermalization for arbitrarily initial states, the so-called quantum nonergodicity control, is important for quantum information science and technologies. Previous control methods largely relied on theoretical model of the target quantum system, but invertible model approximations and inaccuracies can lead to control failures. We develop a model-free and deep-reinforcement learning (DRL) framework for quantum nonergodicity control. It is a machine-learning method with the unique focus on balancing exploration and exploitation strategies to maximize the cumulative rewards so as to preserve the initial memory in the time-dependent nonergodic metrics over a long stretch of time. We use the paradigmatic one-dimensional tilted Fermi-Hubbard system to demonstrate that the DRL agent can efficiently learn the quantum many-body system solely through the interactions with the environment. The optimal policy obtained by the DRL provides broader control scenarios for managing nonergodicity in the phase diagram as compared to, e.g., the specific protocol for Wannier-Stark localization. The continuous control protocols and observations are experimentally feasible. The model-free nature of DRL and its versatile search space for control functions render promising nonergodicity control in more complex quantum many-body systems.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# 時系列基礎モデルと地震時空間放送のためのディープラーニングアーキテクチャ

Time Series Foundation Models and Deep Learning Architectures for Earthquake Temporal and Spatial Nowcasting ( http://arxiv.org/abs/2408.11990v1 )

ライセンス: Link先を確認
Alireza Jafari, Geoffrey Fox, John B. Rundle, Andrea Donnellan, Lisa Grant Ludwig, (参考訳) 地震報知能力の向上に伴い、地震活動のリアルタイム予測は依然として死傷者を減らすことを目的とした重要かつ永続的な目標である。 この多面的課題は、大規模な長期地震データセットの利用可能化により、最近、ディープラーニング領域内で注目を集めている。 大規模な進展にもかかわらず、既存文献では、事前訓練された基礎モデルと近代的なディープラーニングアーキテクチャの包括的な評価が欠如している。 トランスフォーマーやグラフニューラルネットワークのようなこれらのアーキテクチャは、空間的関係、時間的パターン、マルチスケールの依存関係など、データのさまざまな側面に特化している。 本稿では,異なるアーキテクチャを解析し,MultiFoundationQuakeとGNNCoderという2つのイノベーションアプローチを導入することで,そのギャップを解消する。 我々は1986年から2024年までの南カリフォルニアの0.1度空間ビン内における14日間の時系列予測問題として,地震の流況を定式化した。 地震によって放出される対数エネルギーの関数として地震時系列が予測される。 包括的評価では,特にNash-Sutcliffe efficiency と Mean Squared Error の2つの重要なパフォーマンス指標を空間領域毎の時間とともに採用している。 その結果, 地震データに固有の時間空間的関係を効果的に捉えることにより, 導入したモデルは, 他のカスタムアーキテクチャよりも優れていることがわかった。 既存のファンデーションモデルのパフォーマンスは、トレーニング済みのデータセットに基づいて大きく異なり、慎重にデータセットを選択する必要性を強調している。 しかし,本研究では,マルチファウンデーションパターンと,補助ストリームとして扱われる基礎モデル結果を組み合わせた,MultiFoundationPatternというアプローチを提案する。 地震の場合、結果のMultiFoundationQuakeモデルは、全体的なパフォーマンスを最高のものにします。

Advancing the capabilities of earthquake nowcasting, the real-time forecasting of seismic activities remains a crucial and enduring objective aimed at reducing casualties. This multifaceted challenge has recently gained attention within the deep learning domain, facilitated by the availability of extensive, long-term earthquake datasets. Despite significant advancements, existing literature on earthquake nowcasting lacks comprehensive evaluations of pre-trained foundation models and modern deep learning architectures. These architectures, such as transformers or graph neural networks, uniquely focus on different aspects of data, including spatial relationships, temporal patterns, and multi-scale dependencies. This paper addresses the mentioned gap by analyzing different architectures and introducing two innovation approaches called MultiFoundationQuake and GNNCoder. We formulate earthquake nowcasting as a time series forecasting problem for the next 14 days within 0.1-degree spatial bins in Southern California, spanning from 1986 to 2024. Earthquake time series is forecasted as a function of logarithm energy released by quakes. Our comprehensive evaluation employs several key performance metrics, notably Nash-Sutcliffe Efficiency and Mean Squared Error, over time in each spatial region. The results demonstrate that our introduced models outperform other custom architectures by effectively capturing temporal-spatial relationships inherent in seismic data. The performance of existing foundation models varies significantly based on the pre-training datasets, emphasizing the need for careful dataset selection. However, we introduce a new general approach termed MultiFoundationPattern that combines a bespoke pattern with foundation model results handled as auxiliary streams. In the earthquake case, the resultant MultiFoundationQuake model achieves the best overall performance.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# 局所高調波Hagedorn波束ダイナミクスを用いた単一ビブロニックレベル蛍光スペクトルの無調波効果の捕捉

Capturing anharmonic effects in single vibronic level fluorescence spectra using local harmonic Hagedorn wavepacket dynamics ( http://arxiv.org/abs/2408.11991v1 )

ライセンス: Link先を確認
Zhan Tong Zhang, Máté Visegrádi, Jiří J. L. Vaníček, (参考訳) Hagedorn Wavepacket dynamicsは、Duschinskyが回転させたグローバル・ハーモニック・モデルにおいて、任意の初期振動レベルから正確な単一ビブロニック・レベル(SVL)蛍光スペクトルを得る。 しかし、実際の分子は非調和ポテンシャルエネルギー表面を持つ。 スペクトルに対する非調和性の影響を部分的に説明するために、スペクトルに対するハゲゴルンのアプローチとポテンシャルの局所的調和近似を組み合わせる。 我々は,数個の非調和モース型ポテンシャルのSVLスペクトルを1次元,2次元,20次元で計算し,それらを大域的調和近似の結果,可能であれば正確な量子計算の結果と比較する。 局所高調波法は, 大域高調波近似よりも精度が高く, 特に初期振動レベルからの放射スペクトルについて検討した。

Hagedorn wavepacket dynamics yields exact single vibronic level (SVL) fluorescence spectra from any initial vibrational level in displaced, squeezed, and Duschinsky-rotated global harmonic models. Real molecules, however, have anharmonic potential energy surfaces. To partially describe effects of anharmonicity on the spectra, we combine the Hagedorn approach to spectroscopy with the local harmonic approximation of the potential. We compute the SVL spectra for several anharmonic Morse-type potentials in one, two, and twenty dimensions and compare them to the results of global harmonic approximations and, where possible, of exact quantum calculations. We show that the local harmonic approach yields more accurate results than global harmonic approximations, especially for the emission spectra from higher initial vibrational levels.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# MBSS-T1:ロバスト心臓T1マッピングのためのモデルベース自己監督運動補正

MBSS-T1: Model-Based Self-Supervised Motion Correction for Robust Cardiac T1 Mapping ( http://arxiv.org/abs/2408.11992v1 )

ライセンス: Link先を確認
Eyal Hanania, Ilya Volovik, Daphna Link-Sourani, Israel Cohen, Moti Freiman, (参考訳) T1マッピングは、拡散性心筋疾患の診断に有用な定量的MRI技術である。 従来の方法では、呼吸ホールドシーケンスとエコートリガーを頼りにしており、患者のコンプライアンスと不整脈による課題に直面し、その効果を制限している。 画像の登録は、モーションロバストなT1マッピングを可能にするが、時間点間の固有の強度差は困難である。 心臓T1マッピングにおける運動補正の自己制御モデルMBSS-T1を導入する。 物理的制約は期待される信号減衰挙動を保証し、解剖学的制約は現実的な変形を維持する。 これらの制約のユニークな組み合わせは、縦方向緩和軸に沿った正確なT1マッピングを保証する。 MBSS-T1は210例のパブリックデータセット(STONEシークエンス)と19例の社内データセット(MOLLIシークエンス)の5倍の実験において、ベースライン深層学習に基づく画像登録のアプローチよりも優れていた。 MBSS-T1はモデル適合性(R2:0.974 vs. 0.941, 0.946)、解剖学的アライメント(Dice score:0.921 vs. 0.984, 0.988)、視覚的品質評価(4.33 vs. 3.34, 3.62)に優れていた。 MBSS-T1は、広範囲の患者に対してモーションローバストT1マッピングを可能にする可能性があり、不整脈や準最適コンプライアンスといった課題を克服し、大規模なトレーニングデータセットを必要とせずに、自由呼吸T1マッピングを可能にする。

T1 mapping is a valuable quantitative MRI technique for diagnosing diffuse myocardial diseases. Traditional methods, relying on breath-hold sequences and echo triggering, face challenges with patient compliance and arrhythmias, limiting their effectiveness. Image registration can enable motion-robust T1 mapping, but inherent intensity differences between time points pose a challenge. We introduce MBSS-T1, a self-supervised model for motion correction in cardiac T1 mapping, constrained by physical and anatomical principles. The physical constraints ensure expected signal decay behavior, while the anatomical constraints maintain realistic deformations. The unique combination of these constraints ensures accurate T1 mapping along the longitudinal relaxation axis. MBSS-T1 outperformed baseline deep-learning-based image registration approaches in a 5-fold experiment on a public dataset of 210 patients (STONE sequence) and an internal dataset of 19 patients (MOLLI sequence). MBSS-T1 excelled in model fitting quality (R2: 0.974 vs. 0.941, 0.946), anatomical alignment (Dice score: 0.921 vs. 0.984, 0.988), and expert visual quality assessment for the presence of visible motion artifacts (4.33 vs. 3.34, 3.62). MBSS-T1 has the potential to enable motion-robust T1 mapping for a broader range of patients, overcoming challenges such as arrhythmias, and suboptimal compliance, and allowing for free-breathing T1 mapping without requiring large training datasets.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# 量子ネットワークモデリングのためのシミュレータ

Simulators for Quantum Network Modelling: A Comprehensive Review ( http://arxiv.org/abs/2408.11993v1 )

ライセンス: Link先を確認
Oceane Bel, Mariam Kiran, (参考訳) 量子ネットワークの研究は、新しいネットワークプロトコル、物理ベースのハードウェア、そして量子分布が広範囲にわたってどのように機能するかを示す新しい実験を検討している。 現在の研究は、量子ネットワークがどのように構築され、研究者が仮想的に実験できるかを理解するために開発されたシミュレーションにおいて、これらの概念の多くを探求している。 持続不可能なトポロジのようなネットワーク設計の欠陥を露呈したり、ネットワークリソースを効率的に活用するプロトコルを開発することで、シミュレータはネットワーク内の仮想マシン間でワークロードがバランスしているかどうかを評価するのにも役立ちます。 しかしながら、これらのシミュレーションモデルの多くは、実際のデプロイメントのパフォーマンスをテストするための信頼性の高い検証方法を持っていない。 本稿では,量子ネットワークのモデリングに現在使われているツールキットについて概観する。 これらのツールキットと標準化されたバリデーション技術により、より正確で信頼性の高い量子ネットワークシミュレータの基礎を構築できる。

Quantum network research, is exploring new networking protocols, physics-based hardware and novel experiments to demonstrate how quantum distribution will work over large distances. Current work explores much of these concepts in simulations, that are developed to understand how quantum networking will be set up and researchers can experiment virtually. Exposing flaws in network designs, like unsustainable topologies, or develop protocols that efficiently utilize network resources, simulators can also help assess whether workloads are balanced across virtual machines in the network. However, much of these simulation models come without reliable verification methods, for testing performance in real deployments. In this paper, we present a review of, to the best of our knowledge, currently used toolkits for modeling quantum networks. With these toolkits and standardized validation techniques, we can lay down the foundations for more accurate and reliable quantum network simulators.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# RAG最適化チベット観光LLMの精度向上とパーソナライゼーション

RAG-Optimized Tibetan Tourism LLMs: Enhancing Accuracy and Personalization ( http://arxiv.org/abs/2408.12003v1 )

ライセンス: Link先を確認
Jinhu Qi, Shuai Yan, Yibo Zhang, Wentao Zhang, Rong Jin, Yuwei Hu, Ke Wang, (参考訳) 近代社会経済の発展に伴い、観光は人々の精神的なニーズを満たす重要な手段となり、観光産業に発展の機会をもたらした。 しかし、既存の大規模言語モデル(LLM)は、パーソナライズされたレコメンデーション機能と、時に幻覚を引き起こす可能性のあるコンテンツの生成において、課題に直面している。 本研究では,検索強化世代(RAG)技術に基づくチベット観光LLMの最適化手法を提案する。 観光名所のデータベースを構築し,ベクトル化手法を用いてデータを処理することにより,検索精度を大幅に向上させた。 RAG技術の応用は、コンテンツ生成における幻覚問題に効果的に対処する。 最適化されたモデルは、コンテンツ生成の流速、正確性、および関連性を著しく改善している。 本研究は、文化観光情報の標準化とデータ分析におけるRAG技術の可能性を示し、インテリジェントな文化観光サービスシステムの開発に理論的、技術的支援を提供する。

With the development of the modern social economy, tourism has become an important way to meet people's spiritual needs, bringing development opportunities to the tourism industry. However, existing large language models (LLMs) face challenges in personalized recommendation capabilities and the generation of content that can sometimes produce hallucinations. This study proposes an optimization scheme for Tibet tourism LLMs based on retrieval-augmented generation (RAG) technology. By constructing a database of tourist viewpoints and processing the data using vectorization techniques, we have significantly improved retrieval accuracy. The application of RAG technology effectively addresses the hallucination problem in content generation. The optimized model shows significant improvements in fluency, accuracy, and relevance of content generation. This research demonstrates the potential of RAG technology in the standardization of cultural tourism information and data analysis, providing theoretical and technical support for the development of intelligent cultural tourism service systems.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# CSPI-MT:Threshold Policiesの複数テストによる安全性向上の校正

CSPI-MT: Calibrated Safe Policy Improvement with Multiple Testing for Threshold Policies ( http://arxiv.org/abs/2408.12004v1 )

ライセンス: Link先を確認
Brian M Cho, Ana-Roxana Pop, Kyra Gan, Sam Corbett-Davies, Israel Nir, Ariel Evnine, Nathan Kallus, (参考訳) リスクの高い設定で既存のポリシーを変更する場合、新しいポリシーがベースライン、例えばステータス・クオで改善されることを確実にする必要があることが多い。 本研究は,安全政策改善の課題を考察するものであり,少なくとも予め特定された確率で,特定の基準線よりも優れたと判断された場合にのみ,新しい方針を採用する。 我々は、経済、医療、デジタル広告の応用に関する、ユビキタスなポリシーであるしきい値ポリシーに焦点を当てている。 既存の方法は、潜在的に低出力の安全チェックに頼り、安全な改善を見つける機会を制限しているため、安全を維持するためにベースラインに戻らなければならないことが多い。 我々は、この問題を解決するために、無症候性体制における最も強力な安全テストを活用し、複数の候補をベースラインの改善のためにテストできるようにする。 本手法は, 逆条件下では, 中程度のサンプルサイズであっても, 基準値から所定の誤差レベルまで, 基準値よりも悪いポリシーを採用する確率を制御できることが示唆された。 CSPI と CSPI-MT は,ベースラインからの政策改善を最大化するためにカットオフを選択するための2つの新しいヒューリスティックである。 我々は,安全なポリシの検出率と実現された改善,特に厳密な安全要件と低信号対雑音条件下での達成率の向上を,合成と外部両方のデータセットを通じて実証する。

When modifying existing policies in high-risk settings, it is often necessary to ensure with high certainty that the newly proposed policy improves upon a baseline, such as the status quo. In this work, we consider the problem of safe policy improvement, where one only adopts a new policy if it is deemed to be better than the specified baseline with at least pre-specified probability. We focus on threshold policies, a ubiquitous class of policies with applications in economics, healthcare, and digital advertising. Existing methods rely on potentially underpowered safety checks and limit the opportunities for finding safe improvements, so too often they must revert to the baseline to maintain safety. We overcome these issues by leveraging the most powerful safety test in the asymptotic regime and allowing for multiple candidates to be tested for improvement over the baseline. We show that in adversarial settings, our approach controls the rate of adopting a policy worse than the baseline to the pre-specified error level, even in moderate sample sizes. We present CSPI and CSPI-MT, two novel heuristics for selecting cutoff(s) to maximize the policy improvement from baseline. We demonstrate through both synthetic and external datasets that our approaches improve both the detection rates of safe policies and the realized improvement, particularly under stringent safety requirements and low signal-to-noise conditions.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# ラストマイル電気自動車路線のエネルギー推定

Energy Estimation of Last Mile Electric Vehicle Routes ( http://arxiv.org/abs/2408.12006v1 )

ライセンス: Link先を確認
André Snoeck, Aniruddha Bhargava, Daniel Merchan, Josiah Davis, Julian Pachon, (参考訳) ラストマイルのキャリアは、サステナビリティの目標を達成するために、電気自動車(EV)を配達船に組み入れている。 このゴールは、EVルートの計画方法を含む、複数の計画領域にまたがる多くの課題を提示する。 本稿では,ディープラーニングを用いた最終マイル配送経路におけるEVのエネルギー消費予測の問題に対処する。 我々は、範囲についての考えから離れる必要性を実証し、分析の基本単位としてエネルギーを用いることを提案する。 我々は、フィードフォワードニューラルネットワーク(NN)とリカレントニューラルネットワーク(RNN)から始まる、さまざまなディープラーニングソリューションを共有し、純粋な物理ベースのアプローチや距離ベースのアプローチと比較して、大幅な精度の向上を示す。 最後に, チェンチラスケーリング法に準じたデコーダのみの変圧器モデルとして, Route Energy Transformer (RET) を提案する。 RETは、フィードフォワードNNに対する平均絶対パーセンテージエラー(MAPE)における+217ベーシポイント(bps)の改善と、RNNに対する+105bpsの改善をもたらす。

Last-mile carriers increasingly incorporate electric vehicles (EVs) into their delivery fleet to achieve sustainability goals. This goal presents many challenges across multiple planning spaces including but not limited to how to plan EV routes. In this paper, we address the problem of predicting energy consumption of EVs for Last-Mile delivery routes using deep learning. We demonstrate the need to move away from thinking about range and we propose using energy as the basic unit of analysis. We share a range of deep learning solutions, beginning with a Feed Forward Neural Network (NN) and Recurrent Neural Network (RNN) and demonstrate significant accuracy improvements relative to pure physics-based and distance-based approaches. Finally, we present Route Energy Transformer (RET) a decoder-only Transformer model sized according to Chinchilla scaling laws. RET yields a +217 Basis Points (bps) improvement in Mean Absolute Percentage Error (MAPE) relative to the Feed Forward NN and a +105 bps improvement relative to the RNN.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# QuaCK-TSF:量子古典化された時系列予測

QuaCK-TSF: Quantum-Classical Kernelized Time Series Forecasting ( http://arxiv.org/abs/2408.12007v1 )

ライセンス: Link先を確認
Abdallah Aaraba, Soumaya Cherkaoui, Ola Ahmad, Jean-Frédéric Laprade, Olivier Nahman-Lévesque, Alexis Vieloszynski, Shengrui Wang, (参考訳) 確率的時系列の予測は、将来の値を予測することを超えて、これらの予測に固有の不確実性を定量化する複雑な試みである。 ガウス過程の回帰は、この多面的課題に対処するのに適したベイズ機械学習技術として際立っている。 本稿では,このベイズ手法のロバスト性と,量子化確率予測の進展を目的とした量子モデル上でのカーネルパースペクティブによる微妙な洞察とを融合した新しいアプローチを提案する。 我々はIsingの相互作用にインスパイアされた量子特徴写像を組み込み、正確な予測に不可欠な時間的依存関係のキャプチャーの有効性を実証する。 モデルハイパーパラメータの最適化は、勾配のないベイズ最適化を用いることで、計算集約的な勾配降下を回避できる。 確立された古典的カーネルモデルとの比較ベンチマークが提供され、我々の量子化アプローチが競合性能を達成することを確認した。

Forecasting in probabilistic time series is a complex endeavor that extends beyond predicting future values to also quantifying the uncertainty inherent in these predictions. Gaussian process regression stands out as a Bayesian machine learning technique adept at addressing this multifaceted challenge. This paper introduces a novel approach that blends the robustness of this Bayesian technique with the nuanced insights provided by the kernel perspective on quantum models, aimed at advancing quantum kernelized probabilistic forecasting. We incorporate a quantum feature map inspired by Ising interactions and demonstrate its effectiveness in capturing the temporal dependencies critical for precise forecasting. The optimization of our model's hyperparameters circumvents the need for computationally intensive gradient descent by employing gradient-free Bayesian optimization. Comparative benchmarks against established classical kernel models are provided, affirming that our quantum-enhanced approach achieves competitive performance.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# シークエンシャルに見えるか? : シークエンシャルレコメンデーション評価のためのデータセットの分析

Does It Look Sequential? An Analysis of Datasets for Evaluation of Sequential Recommendations ( http://arxiv.org/abs/2408.12008v1 )

ライセンス: Link先を確認
Anton Klenitskiy, Anna Volodkevich, Anton Pembek, Alexey Vasilev, (参考訳) シークエンシャル・レコメンダ・システムは重要かつ要求された研究領域である。 このようなシステムは、ユーザの歴史におけるインタラクションの順序を利用して、将来のインタラクションを予測することを目的としている。 相互作用の順序とシーケンシャルなパターンが重要な役割を果たすという前提がある。 したがって、シーケンシャルな構造を示すデータセットを使用して、シーケンシャルなレコメンデータを適切に評価することが重要である。 本稿では,ユーザ同士の対話のランダムなシャッフルに基づくいくつかの手法を適用し,トップ層会議における最近の研究論文でしばしば推奨システム評価に使用される15データセット間の逐次構造の強度を評価する。 シャッフルはデータセット固有のシーケンシャルな依存関係を明示的に破壊するので、シャッフルされたデータセットとオリジナルのバージョンのメトリクスを比較することで、シーケンシャルなパターンの強度を推定する。 その結果、いくつかの一般的なデータセットは、かなり弱いシーケンシャルな構造を持つことがわかった。

Sequential recommender systems are an important and demanded area of research. Such systems aim to use the order of interactions in a user's history to predict future interactions. The premise is that the order of interactions and sequential patterns play an essential role. Therefore, it is crucial to use datasets that exhibit a sequential structure to evaluate sequential recommenders properly. We apply several methods based on the random shuffling of the user's sequence of interactions to assess the strength of sequential structure across 15 datasets, frequently used for sequential recommender systems evaluation in recent research papers presented at top-tier conferences. As shuffling explicitly breaks sequential dependencies inherent in datasets, we estimate the strength of sequential patterns by comparing metrics for shuffled and original versions of the dataset. Our findings show that several popular datasets have a rather weak sequential structure.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# CaRDiff: 拡散による塩分濃度予測のための思考推論の映像有能な物体ランク付けチェーン

CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion ( http://arxiv.org/abs/2408.12009v1 )

ライセンス: Link先を確認
Yunlong Tang, Gen Zhan, Li Yang, Yiting Liao, Chenliang Xu, (参考訳) ビデオのサリエンシ予測は、ビデオのボトムアップ機能や、記憶や認知などのトップダウンプロセスによって、人間の注意を引き、視線を惹きつけるビデオ内の領域を特定することを目的としている。 これらのトップダウンの影響の中で、言語は視覚情報がどのように解釈されるかを形成することによって注意を誘導する上で重要な役割を担っている。 既存の手法は主に知覚情報のモデリングに重点を置いているが、言語による推論プロセスは無視されている。 本稿では,マルチモーダルな大言語モデル(MLLM)と接地モジュール,拡散モデルを統合することで,映像の塩分率予測を向上する手法であるCaRDiff(Caption, Rank, generate with Diffusion)を提案する。 具体的には,映像コンテンツをキャプションし,そのランクと位置を推定するために,グラウンドモジュールを備えたMLLMを用いた新しいプロンプト手法VSOR-CoT(Video Salient Object Ranking Chain of Thought)を提案する。 このプロセスは、拡散モデルによって十分に活用できるランキングマップを導出し、与えられたビデオの精度マップを正確に復号する。 広汎な実験は、VSOR-CoTがビデオサリエンシ予測の性能向上に有効であることを示す。 提案したCaRDiffは、MVSデータセットの最先端モデルよりも優れたパフォーマンスを示し、ゼロショット評価を通じてDHF1kデータセット上のクロスデータセット機能を示す。

Video saliency prediction aims to identify the regions in a video that attract human attention and gaze, driven by bottom-up features from the video and top-down processes like memory and cognition. Among these top-down influences, language plays a crucial role in guiding attention by shaping how visual information is interpreted. Existing methods primarily focus on modeling perceptual information while neglecting the reasoning process facilitated by language, where ranking cues are crucial outcomes of this process and practical guidance for saliency prediction. In this paper, we propose CaRDiff (Caption, Rank, and generate with Diffusion), a framework that imitates the process by integrating a multimodal large language model (MLLM), a grounding module, and a diffusion model, to enhance video saliency prediction. Specifically, we introduce a novel prompting method VSOR-CoT (Video Salient Object Ranking Chain of Thought), which utilizes an MLLM with a grounding module to caption video content and infer salient objects along with their rankings and positions. This process derives ranking maps that can be sufficiently leveraged by the diffusion model to decode the saliency maps for the given video accurately. Extensive experiments show the effectiveness of VSOR-CoT in improving the performance of video saliency prediction. The proposed CaRDiff performs better than state-of-the-art models on the MVS dataset and demonstrates cross-dataset capabilities on the DHF1k dataset through zero-shot evaluation.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# プライバシと逆合成の融合

Confounding Privacy and Inverse Composition ( http://arxiv.org/abs/2408.12010v1 )

ライセンス: Link先を確認
Tao Zhang, Bradley A. Malin, Netanel Raviv, Yevgeniy Vorobeychik, (参考訳) 我々は、差分プライバシーとPufferfishプライバシーの両方を一般化する新しいプライバシー概念(\epsilon, \delta$)を導入する。 差分プライバシーでは、センシティブな情報がデータセットに含まれ、Pufferfishのプライバシでは、センシティブな情報がデータの配布を決定する。 その結果、両者は機密情報とプライバシメカニズムの出力との間の連鎖ルール関係を仮定する。 対照的にプライバシーの相違は、データセットと機密情報の間の一般的な因果関係を考察する。 差分プライバシーの重要な特性の1つは、プライベートデータを公開共有情報にマッピングするメカニズムと複数のインタラクションで簡単に構成できることである。 対照的に、独立系(\epsilon, \delta$)の合成によるプライバシー損失の定量化は、差分プライバシーの最適構成を用いた私的メカニズムと矛盾していることが示される。 これを解決するために、逆合成フレームワークを特徴付け、個々のメカニズムを独立かつプライベートに保ちながら、対象とするグローバルな(\epsilon_{g}, \delta_{g}$)コンバウンディングプライバシを厳格に実装する。 特に,(1)各メカニズム$i$が対象のローカル(\epsilon_{i}, \delta_{i}$)のコンパウンドプライバシーを満足し,(2)対象のグローバル(\epsilon_{g}, \delta_{g}$)のコンパウンドプライバシを最適化問題の解決によって厳密に実装することを保証する新しいコプラ摂動法を提案する。 最後に,実データセット上での逆合成を実証的に研究する。

We introduce a novel privacy notion of ($\epsilon, \delta$)-confounding privacy that generalizes both differential privacy and Pufferfish privacy. In differential privacy, sensitive information is contained in the dataset while in Pufferfish privacy, sensitive information determines data distribution. Consequently, both assume a chain-rule relationship between the sensitive information and the output of privacy mechanisms. Confounding privacy, in contrast, considers general causal relationships between the dataset and sensitive information. One of the key properties of differential privacy is that it can be easily composed over multiple interactions with the mechanism that maps private data to publicly shared information. In contrast, we show that the quantification of the privacy loss under the composition of independent ($\epsilon, \delta$)-confounding private mechanisms using the optimal composition of differential privacy \emph{underestimates} true privacy loss. To address this, we characterize an inverse composition framework to tightly implement a target global ($\epsilon_{g}, \delta_{g}$)-confounding privacy under composition while keeping individual mechanisms independent and private. In particular, we propose a novel copula-perturbation method which ensures that (1) each individual mechanism $i$ satisfies a target local ($\epsilon_{i}, \delta_{i}$)-confounding privacy and (2) the target global ($\epsilon_{g}, \delta_{g}$)-confounding privacy is tightly implemented by solving an optimization problem. Finally, we study inverse composition empirically on real datasets.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# MR画像からの脳腫瘍分離のための動的バッチトレーニングによる下画像サンプルの検出

Detection of Under-represented Samples Using Dynamic Batch Training for Brain Tumor Segmentation from MR Images ( http://arxiv.org/abs/2408.12013v1 )

ライセンス: Link先を確認
Subin Sahayam, John Michael Sujay Zakkam, Yoga Sri Varshan V, Umarani Jayaraman, (参考訳) 磁気共鳴イメージング(MR)における脳腫瘍は困難であり、時間を要する。 これらの課題は、MR画像から自動脳腫瘍分割法を開発することで解決できる。 U-Netに基づく様々なディープラーニングモデルが提案されている。 これらのディープラーニングモデルは、腫瘍画像のデータセットに基づいてトレーニングされ、マスクのセグメント化に使用される。 ミニバッチトレーニングは、ディープラーニングのトレーニングで広く使われている方法である。 しかし、このアプローチに関連する重要な課題の1つは、トレーニングデータセットが未表現のサンプルや複雑な潜在表現を持つサンプルを持っている場合、モデルはこれらのサンプルに対してうまく一般化できないことである。 この問題はデータの歪んだ学習につながります。そこではモデルは、不足しているサンプルを過小評価しながら、大多数の表現に適合するように学習します。 提案した動的バッチ・トレーニング手法は、表現不足のデータポイント、複雑な潜在表現を持つデータポイント、クラス内の不均衡によって引き起こされる課題に対処する。 このようなサンプルの粗悪な性能は、訓練終了後にのみ識別でき、計算資源の浪費につながる。 また、各エポック後の簡単なサンプルのトレーニングは、計算資源の非効率な利用である。 これらの課題を克服するために、BraTS2020データセットのサンプルに比べて、ハードサンプルを識別し、より多くのイテレーションのためにそのようなサンプルを訓練する。 さらに、複数回トレーニングされたサンプルが識別され、BraTS2020データセットでハードサンプルを識別する方法を提供する。 論文の中で提案するトレーニングアプローチとU-Netや他のモデルとの比較は,提案したトレーニングアプローチの能力を強調している。

Brain tumors in magnetic resonance imaging (MR) are difficult, time-consuming, and prone to human error. These challenges can be resolved by developing automatic brain tumor segmentation methods from MR images. Various deep-learning models based on the U-Net have been proposed for the task. These deep-learning models are trained on a dataset of tumor images and then used for segmenting the masks. Mini-batch training is a widely used method in deep learning for training. However, one of the significant challenges associated with this approach is that if the training dataset has under-represented samples or samples with complex latent representations, the model may not generalize well to these samples. The issue leads to skewed learning of the data, where the model learns to fit towards the majority representations while underestimating the under-represented samples. The proposed dynamic batch training method addresses the challenges posed by under-represented data points, data points with complex latent representation, and imbalances within the class, where some samples may be harder to learn than others. Poor performance of such samples can be identified only after the completion of the training, leading to the wastage of computational resources. Also, training easy samples after each epoch is an inefficient utilization of computation resources. To overcome these challenges, the proposed method identifies hard samples and trains such samples for more iterations compared to easier samples on the BraTS2020 dataset. Additionally, the samples trained multiple times are identified and it provides a way to identify hard samples in the BraTS2020 dataset. The comparison of the proposed training approach with U-Net and other models in the literature highlights the capabilities of the proposed training approach.
翻訳日:2024-08-23 17:44:43 公開日:2024-08-21
# 反射光子による量子レーダ

Quantum radar with unreflected photons ( http://arxiv.org/abs/2408.12016v1 )

ライセンス: Link先を確認
T. J. Volkoff, (参考訳) 対象物が散乱する光子の測定を伴わない反射率推定・検出手法として, 2つの記述を導入, 解析した。 1つの説明は、フル送信機/受信機光学系のハミルトン力学によって提供され、所定の推定感度の送信機強度の指数的なコストを発生させるが、熱背景の強度によって線形的に改善される。 その他の説明は、光学量子回路に基づくもので、最適絡み合いアシスト方式の1/2の係数の感度を示すが、熱背景の増大に伴う感度の逆線形低下を引き起こす。 その結果,光子不明瞭性に起因するエコーシード型自然パラメトリックダウンコンバージョンと誘導コヒーレンスを組み合わせた光学活性受信機の設計への応用が得られた。

Two descriptions are introduced and analyzed for a reflectivity estimation and detection scheme that does not involve measurement of photons scattered by the target. One description, provided by the Hamiltonian dynamics of the full transmitter/receiver optical system, incurs an exponential cost in transmitter intensity for a given estimation sensitivity but is linearly improved with the intensity of the thermal background. The other description, based on optical quantum circuits, exhibits sensitivity around a factor of 1/2 of the optimal entanglement-assisted scheme, but incurs an inverse linear reduction in sensitivity with increasing thermal background. The results have applications for the design of optically active receivers based on combining echo-seeded spontaneous parametric downconversion and induced coherence due to photon indistinguishability.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# R-STELLAR: 内蔵アタックオンカウンタ検出によるAES-256上のレジリエントシンセサイザブルシグナチューションSCA保護

R-STELLAR: A Resilient Synthesizable Signature Attenuation SCA Protection on AES-256 with built-in Attack-on-Countermeasure Detection ( http://arxiv.org/abs/2408.12021v1 )

ライセンス: Link先を確認
Archisman Ghosh, Dong-Hyun Seo, Debayan Das, Santosh Ghosh, Shreyas Sen, (参考訳) サイドチャネル攻撃(SCA)は、現代の組み込みデバイスにおける暗号システムのセキュリティに対する重大な脅威である。 数学的に安全な暗号アルゴリズムでさえ、ハードウェアに実装されると、電力消費、電磁波(EM)、発光、音響エマニュエーションなどの物理チャネルシグネチャを通じて不注意に情報を漏洩する。 これらのサイドチャネルのエクスプロイトは、攻撃者の検索スペースを大幅に削減する。 近年、物理的対策により、開示までの最小トレース(MTD)は10億に大幅に増加している。 そのうちの1つは、このマークを達成するための最初の方法であるシグネチャ減衰である。 信号減衰はアナログ技術に依存することが多く、デジタル信号減衰はMTDを2000万に減らし、高いレジリエンスのための追加の手法を必要とする。 我々はデジタル署名の減衰を桁違いに改善することに注力する(MTD 200M)。 さらに,信号減衰対策の可能性を探る。 MTDを従来の閾値の2000倍以上に低減する電圧降下リニア領域バイアス(VLB)アタック手法を提案する。 これは、物理的サイドチャネル攻撃(SCA)に対する最初の攻撃である。 このような攻撃を検知するための応答時間0.8ミリ秒のアタック検出器を実装し、SCAリークウィンドウをサブmsに制限し、攻撃を成功させるには不十分である。

Side channel attacks (SCAs) remain a significant threat to the security of cryptographic systems in modern embedded devices. Even mathematically secure cryptographic algorithms, when implemented in hardware, inadvertently leak information through physical side channel signatures such as power consumption, electromagnetic (EM) radiation, light emissions, and acoustic emanations. Exploiting these side channels significantly reduces the search space of the attacker. In recent years, physical countermeasures have significantly increased the minimum traces to disclosure (MTD) to 1 billion. Among them, signature attenuation is the first method to achieve this mark. Signature attenuation often relies on analog techniques, and digital signature attenuation reduces MTD to 20 million, requiring additional methods for high resilience. We focus on improving the digital signature attenuation by an order of magnitude (MTD 200M). Additionally, we explore possible attacks against signature attenuation countermeasure. We introduce a Voltage drop Linear region Biasing (VLB) attack technique that reduces the MTD to over 2000 times less than the previous threshold. This is the first known attack against a physical side-channel attack (SCA) countermeasure. We have implemented an attack detector with a response time of 0.8 milliseconds to detect such attacks, limiting SCA leakage window to sub-ms, which is insufficient for a successful attack.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# ベイズ的心の理論によるてんかんの理解

Understanding Epistemic Language with a Bayesian Theory of Mind ( http://arxiv.org/abs/2408.12022v1 )

ライセンス: Link先を確認
Lance Ying, Tan Zhi-Xuan, Lionel Wong, Vikash Mansinghka, Joshua B. Tenenbaum, (参考訳) これらの信念は直接観察できないが、他人の信念に対する主張を理解して評価するにはどうすればよいのか。 本稿では,他のエージェントの目標,信念,意図に関するベイズ的推論を基礎とした,認識論的言語解釈モデルについて紹介する。 自然言語を「考えの言語」に翻訳し、合理的な行動と知覚の確率的生成モデルを逆転させることによって生成された推論に対してこれらの翻訳を評価することで、LaBToMは、認識的主張に関する段階的な可視性判断をキャプチャする。 実験では,エージェントが迷路をナビゲートして,目標達成に必要な箱に隠されたキーを見つけ,エージェントの信念を判断する。 マルチモーダル LLM (GPT-4o, Gemini Pro) や短縮モデルとは対照的に,本モデルは,モーダル言語,不確実性表現,知識主張,可能性比較,偽信念の帰属など,幅広い表現に対する人間の判断と高い相関関係を持つ。

How do people understand and evaluate claims about others' beliefs, even though these beliefs cannot be directly observed? In this paper, we introduce a cognitive model of epistemic language interpretation, grounded in Bayesian inferences about other agents' goals, beliefs, and intentions: a language-augmented Bayesian theory-of-mind (LaBToM). By translating natural language into an epistemic ``language-of-thought'', then evaluating these translations against the inferences produced by inverting a probabilistic generative model of rational action and perception, LaBToM captures graded plausibility judgments about epistemic claims. We validate our model in an experiment where participants watch an agent navigate a maze to find keys hidden in boxes needed to reach their goal, then rate sentences about the agent's beliefs. In contrast with multimodal LLMs (GPT-4o, Gemini Pro) and ablated models, our model correlates highly with human judgments for a wide range of expressions, including modal language, uncertainty expressions, knowledge claims, likelihood comparisons, and attributions of false belief.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# センサによる人間活動認識における自然言語スーパービジョンの活用の限界と克服方法

Limitations in Employing Natural Language Supervision for Sensor-Based Human Activity Recognition -- And Ways to Overcome Them ( http://arxiv.org/abs/2408.12023v1 )

ライセンス: Link先を確認
Harish Haresamudram, Apoorva Beedu, Mashfiqui Rabbi, Sankalita Saha, Irfan Essa, Thomas Ploetz, (参考訳) 自然言語と他のモダリティ(例えば視覚と音声)の相互に比較した事前学習は、様々なタスクや領域において、驚くほどの性能と有効性を示してきた。 本稿では,ウェアラブルセンサを用いたヒューマンアクティビティ認識(HAR)において,そのような自然言語の監視が利用できるかを検討する。 センサの不均一性と、アクティビティのリッチで多様なテキスト記述の欠如である。 また,その影響を軽減するため,広範囲な実験評価を通じて戦略を開発し,その効果を評価する。 これらの戦略は、アクティビティ認識の大幅な増加をもたらし、パフォーマンスを教師付きおよび自己教師付きトレーニングに近づけると同時に、見えないアクティビティの認識とビデオのクロスモーダル検索を可能にする。 全体として、私たちの研究はセンサー言語学習の改善の道を切り開いており、最終的にはウェアラブルを用いたHARの基礎モデルの開発につながります。

Cross-modal contrastive pre-training between natural language and other modalities, e.g., vision and audio, has demonstrated astonishing performance and effectiveness across a diverse variety of tasks and domains. In this paper, we investigate whether such natural language supervision can be used for wearable sensor based Human Activity Recognition (HAR), and discover that-surprisingly-it performs substantially worse than standard end-to-end training and self-supervision. We identify the primary causes for this as: sensor heterogeneity and the lack of rich, diverse text descriptions of activities. To mitigate their impact, we also develop strategies and assess their effectiveness through an extensive experimental evaluation. These strategies lead to significant increases in activity recognition, bringing performance closer to supervised and self-supervised training, while also enabling the recognition of unseen activities and cross modal retrieval of videos. Overall, our work paves the way for better sensor-language learning, ultimately leading to the development of foundational models for HAR using wearables.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# ダブル量子ドットにおけるマイクロ波誘起冷却:スピン量子ビット付近の熱雑音低減のためのミルライルビン温度の達成

Microwave-Induced Cooling in Double Quantum Dots: Achieving Millikelvin Temperatures to Reduce Thermal Noise around Spin Qubits ( http://arxiv.org/abs/2408.12024v1 )

ライセンス: Link先を確認
Daryoosh Vashaee, Jahanfar Abouie, (参考訳) ゲート定義量子ドットにおけるスピン量子ビットは、そのスケーラビリティと長いコヒーレンス時間のために、主要な技術として出現している。 しかし、これらの量子ビットを極低温に保つには、通常複雑な低温システムが必要である。 本稿では,マイクロ波誘起状態分解とフォノン濾過を併用した新しい二重量子ドット(DQD)冷却システムを提案する。このシステムはマイクロ波誘起状態分解とフォノンフィルタリングを利用し,量子ドットのオンサイトエネルギーとラビ振動を高速に循環分解することで,熱集団を地中へ効率よく移動させ,自然熱遷移速度を超過する。 冷却サイクルは、特定のエネルギーレベルの違いに共鳴するマイクロ波パルスによって補う、断熱的および双葉的遷移を通じてシステムを駆動するゲート電位を調整することを含む。 この機構は、励起状態から基底状態へと人口を継続的に汲み上げ、システムの温度を効果的に下げる。 数値計算により, 冷却性能が劣化エネルギー, 磁場強度, ダイアバティック・リターン時間に敏感であることを示す。

Spin qubits in gate-defined quantum dots are emerging as a leading technology due to their scalability and long coherence times. However, maintaining these qubits at ultra-low temperatures typically requires complex cryogenic systems. This paper proposes a novel gate-defined double quantum dot (DQD) cooling system using microwave-induced state depopulation and phonon filtering to achieve local temperatures below 10 mK at a bath temperature of 1 K. The system utilizes microwave-induced state depopulation and phonon filtering, combined with fast cyclic detuning of the quantum dot on-site energies and Rabi oscillations, to efficiently transfer thermal populations to the ground state, thereby surpassing natural thermal transition rates. The cooling cycle involves adjusting gate potentials to drive the system through adiabatic and diabatic transitions, complemented by microwave pulses resonant with specific energy level differences. This mechanism continuously pumps the population from excited states into the ground state, effectively reducing the system's temperature. Numerical calculations demonstrate the feasibility of achieving these low local temperatures, with detailed analysis showing the sensitivity of cooling performance to detuning energy, magnetic field strength, and diabatic return time.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# 機能選択のための大規模言語モデル探索:データ中心の視点

Exploring Large Language Models for Feature Selection: A Data-centric Perspective ( http://arxiv.org/abs/2408.12025v1 )

ライセンス: Link先を確認
Dawei Li, Zhen Tan, Huan Liu, (参考訳) LLM(Large Language Models)の急速な進歩は様々な領域に大きく影響を与え、例外的な少数ショットとゼロショットの学習能力を活用している。 本研究では,データ中心の観点からLLMに基づく特徴選択手法を探索し,理解することを目的としている。 まず, LLM を用いた既存の特徴選択手法を, 統計的推測を行うためにサンプル値を必要とするデータ駆動的特徴選択と, 記述的文脈を用いた意味的関連付けを行うために LLM の事前知識を利用するテキストベースの特徴選択の2つのグループに分類することから始める。 我々は, LLMの分類と回帰作業において, 様々なサイズ(例えば, GPT-4, ChatGPT, LLaMA-2)で広範囲に実験を行った。 本研究は,テキストベースの特徴選択手法の有効性とロバスト性を強調し,実世界の医療応用を用いてその可能性を示す。 また,LLMを機能選択に活用する上での課題と今後の可能性についても論じ,この新興分野におけるさらなる研究・開発のための洞察を提供する。

The rapid advancement of Large Language Models (LLMs) has significantly influenced various domains, leveraging their exceptional few-shot and zero-shot learning capabilities. In this work, we aim to explore and understand the LLMs-based feature selection methods from a data-centric perspective. We begin by categorizing existing feature selection methods with LLMs into two groups: data-driven feature selection which requires samples values to do statistical inference and text-based feature selection which utilizes prior knowledge of LLMs to do semantical associations using descriptive context. We conduct extensive experiments in both classification and regression tasks with LLMs in various sizes (e.g., GPT-4, ChatGPT and LLaMA-2). Our findings emphasize the effectiveness and robustness of text-based feature selection methods and showcase their potentials using a real-world medical application. We also discuss the challenges and future opportunities in employing LLMs for feature selection, offering insights for further research and development in this emerging field.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# リアルワールドクロスプロビンスプライマリケアデータを用いたカナダ成人のフェデレーション糖尿病予測

Federated Diabetes Prediction in Canadian Adults Using Real-world Cross-Province Primary Care Data ( http://arxiv.org/abs/2408.12029v1 )

ライセンス: Link先を確認
Guojun Tang, Jason E. Black, Tyler S. Williamson, Steve H. Drew, (参考訳) EHR(Electronic Health Records)の統合と機械学習の適用により、データ駆動型糖尿病予測の精度とアクセシビリティを高めることができる。 特に、データ駆動機械学習モデルの開発は、糖尿病のリスクが高い患者の早期発見を可能にし、より効果的な治療戦略と医療費の削減につながる可能性がある。 しかし、規制は中央集権的な予測モデルを開発するための障壁を生み出している。 本稿では,集中型データストレージや処理を使わずに予測モデルをマッチングするフェデレート学習アプローチを導入することで,プライバシの問題を回避することによる課題に対処する。 これは、カナダプライマリケアセンチネル監視ネットワーク(CPCSSN)から抽出された実際の臨床データセットを使用して、患者データを共有することなく糖尿病を予測するためのフェデレーションラーニングの最初の応用である。 我々は、ダウンサンプリング手法を用いてクラスバランスの問題に対処し、フェデレーション学習のパフォーマンスを州ベースおよび中央集権モデルと比較する。 実験結果から,連合型MLPモデルは集中型アプローチで訓練したモデルと同等あるいは高い性能を示した。 しかし, フェデレートロジスティック回帰モデルでは, 中央値に比べて性能が劣った。

Integrating Electronic Health Records (EHR) and the application of machine learning present opportunities for enhancing the accuracy and accessibility of data-driven diabetes prediction. In particular, developing data-driven machine learning models can provide early identification of patients with high risk for diabetes, potentially leading to more effective therapeutic strategies and reduced healthcare costs. However, regulation restrictions create barriers to developing centralized predictive models. This paper addresses the challenges by introducing a federated learning approach, which amalgamates predictive models without centralized data storage and processing, thus avoiding privacy issues. This marks the first application of federated learning to predict diabetes using real clinical datasets in Canada extracted from the Canadian Primary Care Sentinel Surveillance Network (CPCSSN) without crossprovince patient data sharing. We address class-imbalance issues through downsampling techniques and compare federated learning performance against province-based and centralized models. Experimental results show that the federated MLP model presents a similar or higher performance compared to the model trained with the centralized approach. However, the federated logistic regression model showed inferior performance compared to its centralized peer.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# 公正な高校課程スケジューリングのための制約プログラミング手法

A Constraint Programming Approach to Fair High School Course Scheduling ( http://arxiv.org/abs/2408.12032v1 )

ライセンス: Link先を確認
Mitsuka Kiyohara, Masakazu Ishihata, (参考訳) 合衆国の高校の授業スケジュールの不平等に関する問題は、これまで存在しなかった。 しかし,近年,学生数やコースの多様性の増大に伴い,コーススケジューリング法が不公平であるとの認識が高まっている。 高校スケジューリング問題(HSSP)に対する現在の整数プログラミング(IP)手法は、これらの公平性に対処するには不十分である。 本研究の目的は,学生の好みを利用して,実現可能で公平な授業スケジュールを生成する手法を開発することである。 市場設計でよく研究されている公正性の原理を利用して、HSSPの新たな拡張であるフェアスクールスケジューリング問題(FHSSP)を定義し、FHSSPを解くための整数プログラミングに基づく対応するアルゴリズムを考案する。 我々は,米国カリフォルニア州の高校における実学要求データセットを用いて,本手法を検証した。 その結果,本アルゴリズムは実行可能かつ公平なスケジュールを生成することができることがわかった。 本稿では,我々のIPアルゴリズムが米国におけるHSSPとFHSSPを解くだけでなく,様々な実世界のスケジューリング問題に適用できる可能性を実証する。 さらに,人間の感情を数学的モデリングに組み込むことの可能性を示した。

Issues of inequity in U.S. high schools' course scheduling did not previously exist. However, in recent years, with the increase in student population and course variety, students perceive that the course scheduling method is unfair. Current integer programming (IP) methods to the high school scheduling problem (HSSP) fall short in addressing these fairness concerns. The purpose of this research is to develop a solution methodology that generates feasible and fair course schedules using student preferences. Utilizing principles of fairness, which have been well studied in market design, we define the fair high school scheduling problem (FHSSP), a novel extension to the HSSP, and devise a corresponding algorithm based on integer programming to solve the FHSSP. We test our approach on a real course request dataset from a high school in California, USA. Results show that our algorithm can generate schedules that are both feasible and fair. In this paper, we demonstrate that our IP algorithm not only solves the HSSP and FHSSP in the United States but has the potential to be applied to various real-world scheduling problems. Additionally, we show the feasibility of integrating human emotions into mathematical modeling.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# 共鳴面と相互作用する原子列からの協調原子放出

Cooperative atomic emission from a line of atoms interacting with a resonant plane surface ( http://arxiv.org/abs/2408.12033v1 )

ライセンス: Link先を確認
Michelle O. Araujo, Joao Carlos de Aquino Carvalho, Philippe W. Courteille, Athanasios Laliotis, (参考訳) レーザービームと相互作用した後、真空中のN原子系によって放出される蛍光において、スーパーやサブ放射のような協調効果が観察される。 誘電体または金属表面の近傍では、カシミール・ポルダー効果は集合的な原子周波数シフトと崩壊率を変化させることができる。 本研究では,共振器近傍の共振器面に共振する蛍光放射について,結合ダイポールモデルを用いて検討する。 偏光子共鳴が支配的な原子双極子カップリングと一致する表面に近い原子では、自由空間で期待される協調効果が欠如していることが示される。 この場合、協調効果は、原子蛍光の非常に高速な表面モードへの崩壊によって隠蔽される。 サファイア表面の前にあるセシウム6D3/2原子の線を考慮し、我々の形式と結果を説明する。 最後に, 共振形地表面の前にあるセシウム6P3/2原子の研究を, 実験結果を示す上で最も有望なシナリオとして提案する。

Cooperative effects such as super- and subradiance can be observed in the fluorescence emitted by a system of N atoms in vacuum, after interaction with a laser beam. In the vicinity of a dielectric or metallic surface, Casimir-Polder effects can modify collective atomic frequency shifts and decay rates. In this work, we study cooperative fluorescent emission next to resonant surfaces using the coupled dipoles model. We show that cooperative effects, expected in free space, are absent when the atoms are close to a surface whose polariton resonances coincide with the dominant atomic dipole coupling. In this case, cooperative effects are overshadowed by the very fast decay of the atomic fluorescence into surface modes. We illustrate our formalism and our results by considering a line of cesium 6D3/2 atoms in front of a sapphire surface. Finally, we propose the study of Cesium 6P3/2 atoms in front of a resonant metasurface as the most promising scenario for experimentally demonstrating the results of our study.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# オンラインコンテンツモデレーションにおけるコミュニティルールの反映

Let Community Rules Be Reflected in Online Content Moderation ( http://arxiv.org/abs/2408.12035v1 )

ライセンス: Link先を確認
Wangjiaxuan Xin, Kanlun Wang, Zhe Fu, Lina Zhou, (参考訳) コンテンツモデレーションは、ソーシャルメディアプラットフォーム上の不規則な情報の拡散を防ぐために広く利用されている戦略である。 コンテンツモデレーションにおける意思決定を支援するための自動モデルの開発に関する広範な研究にもかかわらず、オンラインコミュニティのルールをコンテンツモデレーションに統合する研究はほとんどない。 本研究では,コミュニティルールをユーザ生成コンテンツのモデレーションに直接統合するコミュニティルールベースのコンテンツモデレーションフレームワークを提案することにより,このギャップを解消する。 本実験は,2つの領域から収集したデータセットを用いて,フレームワークに基づくモデルの優れた性能と,評価指標全体のベースラインモデルを示す。 特に、コミュニティルールを取り入れることで、コンテンツモデレーションにおけるモデルパフォーマンスが大幅に向上する。 本研究は,オンラインコミュニティにおけるコンテンツモデレーションモデルの有効性と一般化性向上に重要な研究と実践的意味を持っている。

Content moderation is a widely used strategy to prevent the dissemination of irregular information on social media platforms. Despite extensive research on developing automated models to support decision-making in content moderation, there remains a notable scarcity of studies that integrate the rules of online communities into content moderation. This study addresses this gap by proposing a community rule-based content moderation framework that directly integrates community rules into the moderation of user-generated content. Our experiment results with datasets collected from two domains demonstrate the superior performance of models based on the framework to baseline models across all evaluation metrics. In particular, incorporating community rules substantially enhances model performance in content moderation. The findings of this research have significant research and practical implications for improving the effectiveness and generalizability of content moderation models in online communities.
翻訳日:2024-08-23 15:43:40 公開日:2024-08-21
# ヒューマンレベル予測のための推論とツール

Reasoning and Tools for Human-Level Forecasting ( http://arxiv.org/abs/2408.12036v1 )

ライセンス: Link先を確認
Elvis Hsieh, Preston Fu, Jonathan Chen, (参考訳) Webスケールのデータセットでトレーニングされた言語モデル(LM)は、たとえいくつかの例にしか存在しないとしても、大量のトレーニングデータを記憶する能力により、大きな成功を収めている。 これらの能力は、質問応答のようなタスクの評価において望ましいが、これらのモデルが真の推論を示すか、トレーニングデータからパターンを模倣するだけに成功するかという疑問を提起する。 この区別は、トレーニングデータに答えが存在しないタスクを予測するのに特に有益であり、モデルが論理的推論を行う理由が必要である。 本稿では,Reasoning and Tools for Forecasting(RTF)について紹介する。Reasoning-acting(ReAct)エージェントのフレームワークで,更新情報を動的に取得し,装備ツールを用いて数値シミュレーションを行うことができる。 我々は,競争予測プラットフォームからの質問でモデルを評価し,本手法が人間の予測に勝るものであることを実証した。 これは、LMが正しいツールを使って、実際に人間のように考え、適応でき、現実世界の意思決定に貴重な洞察を与えることを示唆している。

Language models (LMs) trained on web-scale datasets are largely successful due to their ability to memorize large amounts of training data, even if only present in a few examples. These capabilities are often desirable in evaluation on tasks such as question answering but raise questions about whether these models can exhibit genuine reasoning or succeed only at mimicking patterns from the training data. This distinction is particularly salient in forecasting tasks, where the answer is not present in the training data, and the model must reason to make logical deductions. We present Reasoning and Tools for Forecasting (RTF), a framework of reasoning-and-acting (ReAct) agents that can dynamically retrieve updated information and run numerical simulation with equipped tools. We evaluate our model with questions from competitive forecasting platforms and demonstrate that our method is competitive with and can outperform human predictions. This suggests that LMs, with the right tools, can indeed think and adapt like humans, offering valuable insights for real-world decision-making.
翻訳日:2024-08-23 15:43:39 公開日:2024-08-21
# FUSELOC: ビジュアルローカライゼーションにおける2D-3Dマッチングの曖昧化のためのグローバルおよびローカルディスクリプタの融合

FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization ( http://arxiv.org/abs/2408.12037v1 )

ライセンス: Link先を確認
Son Tung Nguyen, Alejandro Fontan, Michael Milford, Tobias Fischer, (参考訳) 階層的手法は最先端のビジュアルローカライゼーションを表現し、グローバルな記述子を用いて検索効率を最適化し、関連する地図領域にフォーカスする。 しかし、この最先端のパフォーマンスは、機能マッチングのためにすべてのデータベースイメージを格納する必要があるため、かなりのメモリ要件のコストがかかる。 対照的に、直接2D-3Dマッチングアルゴリズムではメモリが大幅に削減されるが、より大きくあいまいな検索空間のために精度が低下する。 本研究では,2次元3次元探索フレームワーク内の重み付き平均演算子を用いて局所的およびグローバルな記述子を融合させることにより,この曖昧さに対処する。 この融合は局所記述子空間を、地理的に近傍の局所記述子は、グローバル記述子に従って特徴空間に近づくように再配置する。 したがって、地理的に離れた場合、関係のない競合する記述子の数は減少し、クエリ記述子を正しくマッチングする可能性が高まる。 ローカルのみのシステムの精度を常に改善し、メモリ要求を半減させながら階層的な手法に近い性能を達成する。 4つの異なるデータセットにまたがって、最先端のローカルおよびグローバルな記述子を用いた大規模な実験により、我々のアプローチの有効性が示された。 提案手法により,メモリ効率を維持しつつ,グローバルな記述子による直接マッチングアルゴリズムの活用が可能となった。 本論文のコードは \href{https://github.com/sontung/descriptor-disambiguation}{github.com/sontung/descriptor-disambiguation} で公開される。

Hierarchical methods represent state-of-the-art visual localization, optimizing search efficiency by using global descriptors to focus on relevant map regions. However, this state-of-the-art performance comes at the cost of substantial memory requirements, as all database images must be stored for feature matching. In contrast, direct 2D-3D matching algorithms require significantly less memory but suffer from lower accuracy due to the larger and more ambiguous search space. We address this ambiguity by fusing local and global descriptors using a weighted average operator within a 2D-3D search framework. This fusion rearranges the local descriptor space such that geographically nearby local descriptors are closer in the feature space according to the global descriptors. Therefore, the number of irrelevant competing descriptors decreases, specifically if they are geographically distant, thereby increasing the likelihood of correctly matching a query descriptor. We consistently improve the accuracy over local-only systems and achieve performance close to hierarchical methods while halving memory requirements. Extensive experiments using various state-of-the-art local and global descriptors across four different datasets demonstrate the effectiveness of our approach. For the first time, our approach enables direct matching algorithms to benefit from global descriptors while maintaining memory efficiency. The code for this paper will be published at \href{https://github.com/sontung/descriptor-disambiguation}{github.com/sontung/descriptor-disambiguation}.
翻訳日:2024-08-23 15:43:39 公開日:2024-08-21
# 非線形多スケール状態空間モデルにおけるベイズ学習

Bayesian Learning in a Nonlinear Multiscale State-Space Model ( http://arxiv.org/abs/2408.06425v4 )

ライセンス: Link先を確認
Nayely Vélez-Cruz, Manfred D. Laubichler, (参考訳) 複雑なシステムにおけるマルチスケール相互作用の普遍性はよく認識されており、発達と遺伝性は、異なる時間スケールのプロセスが相互にどのように影響するかを示す主要な例である。 この研究は、異なる時間スケールで相互作用するシステム間の動的相互作用を、各スケール間のフィードバックで探索する、新しいマルチスケール状態空間モデルを導入している。 本稿では,このマルチスケールモデルにおける未知のプロセスノイズ共分散を学習することにより,未知の状態の推定を行うためのベイズ学習フレームワークを提案する。 本研究では,提案手法の有効性をシミュレーションし,提案手法の有効性を実証するPGASアルゴリズムを開発した。

The ubiquity of multiscale interactions in complex systems is well-recognized, with development and heredity serving as a prime example of how processes at different temporal scales influence one another. This work introduces a novel multiscale state-space model to explore the dynamic interplay between systems interacting across different time scales, with feedback between each scale. We propose a Bayesian learning framework to estimate unknown states by learning the unknown process noise covariances within this multiscale model. We develop a Particle Gibbs with Ancestor Sampling (PGAS) algorithm for inference and demonstrate through simulations the efficacy of our approach.
翻訳日:2024-08-23 12:42:26 公開日:2024-08-21
# 焦点を絞る:事前学習モデルのための学習最適化

Narrowing the Focus: Learned Optimizers for Pretrained Models ( http://arxiv.org/abs/2408.09310v2 )

ライセンス: Link先を確認
Gus Kristiansen, Mark Sandler, Andrey Zhmoginov, Nolan Miller, Anirudh Goyal, Jihwan Lee, Max Vladymyrov, (参考訳) 現代のディープラーニングでは、モデルはオプティマイザを使用して勾配更新を適用することで学習され、様々な統計に基づいて更新を変換する。 最適化者は手作業で設計されることが多く、ハイパーパラメータをチューニングすることがトレーニングプロセスの重要な部分です。 学習されたオプティマイザはいくつかの最初の約束を示してきたが、一般にあらゆる問題に適用可能な一般的な最適化メカニズムとして失敗している。 一般的なオプティマイザを学ぶ代わりに、特定のトレーニング環境に専門化します。 ベースオプティマイザの集合によって提供される更新方向の層特異的な線形結合を学習し,その戦略を特定のモデルとデータセットに効果的に適応させる,新しいオプティマイザ手法を提案する。 画像分類タスクで評価すると、この特殊オプティマイザはAdamのような従来のオフ・ザ・シェルフ手法と既存の一般的な学習オプティマイザの両方よりも大幅に優れている。 さらに、モデル初期化に関する堅牢な一般化、目に見えないデータセットの評価、メタトレーニングの地平線を超えたトレーニング期間を示す。

In modern deep learning, the models are learned by applying gradient updates using an optimizer, which transforms the updates based on various statistics. Optimizers are often hand-designed and tuning their hyperparameters is a big part of the training process. Learned optimizers have shown some initial promise, but are generally unsuccessful as a general optimization mechanism applicable to every problem. In this work we explore a different direction: instead of learning general optimizers, we instead specialize them to a specific training environment. We propose a novel optimizer technique that learns a layer-specific linear combination of update directions provided by a set of base optimizers, effectively adapting its strategy to the specific model and dataset. When evaluated on image classification tasks, this specialized optimizer significantly outperforms both traditional off-the-shelf methods such as Adam, as well as existing general learned optimizers. Moreover, it demonstrates robust generalization with respect to model initialization, evaluating on unseen datasets, and training durations beyond its meta-training horizon.
翻訳日:2024-08-23 12:42:26 公開日:2024-08-21
# NeuFlow v2:エッジデバイス上での高効率光フロー推定

NeuFlow v2: High-Efficiency Optical Flow Estimation on Edge Devices ( http://arxiv.org/abs/2408.10161v2 )

ライセンス: Link先を確認
Zhiyong Zhang, Aniket Gupta, Huaizu Jiang, Hanumant Singh, (参考訳) リアルタイムの高精度光フロー推定は,様々な実世界の応用に不可欠である。 最近の学習ベース光学フロー法は精度が高いが、計算コストがかなり高い場合が多い。 本稿では,高い精度と計算負荷の低減を両立させる高効率光流法を提案する。 NeuFlow v1に基づいて、より軽量なバックボーンと高速リファインメントモジュールを含む新しいコンポーネントを導入します。 これらのモジュールはどちらも、最先端の精度に近づきながら、計算要求を軽く保つのに役立つ。 他の最先端手法と比較して、我々のモデルは合成データと実世界のデータに匹敵する性能を維持しながら10x-70xの高速化を実現している。 これはJetson Orin Nanoで512x384解像度の画像を20FPS以上で実行することができる。 完全なトレーニングと評価のコードはhttps://github.com/neufieldrobotics/NeuFlow_v2で公開されている。

Real-time high-accuracy optical flow estimation is crucial for various real-world applications. While recent learning-based optical flow methods have achieved high accuracy, they often come with significant computational costs. In this paper, we propose a highly efficient optical flow method that balances high accuracy with reduced computational demands. Building upon NeuFlow v1, we introduce new components including a much more light-weight backbone and a fast refinement module. Both these modules help in keeping the computational demands light while providing close to state of the art accuracy. Compares to other state of the art methods, our model achieves a 10x-70x speedup while maintaining comparable performance on both synthetic and real-world data. It is capable of running at over 20 FPS on 512x384 resolution images on a Jetson Orin Nano. The full training and evaluation code is available at https://github.com/neufieldrobotics/NeuFlow_v2.
翻訳日:2024-08-23 12:32:33 公開日:2024-08-21
# MER2024におけるSZTU-CMU:マルチモーダル感情認識のためのconv-Attentionによる感情ララマの改善

SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition ( http://arxiv.org/abs/2408.10500v2 )

ライセンス: Link先を確認
Zebang Cheng, Shuyuan Tu, Dawei Huang, Minghan Li, Xiaojiang Peng, Zhi-Qi Cheng, Alexander G. Hauptmann, (参考訳) 本稿では,マルチモーダル感情認識におけるMER2024チャレンジのMER-NOISEとMER-OVトラックに対する勝利のアプローチについて述べる。 Emotion-LLaMAの高度な感情理解機能を利用して、ラベルなしサンプルの高品質なアノテーションを生成し、限定ラベル付きデータの課題に対処する。 モーダリティ固有の雑音を緩和しながらマルチモーダル融合を強化するために,軽量で効率的なハイブリッドフレームワークであるConv-Attentionを導入する。 大規模な実験は我々のアプローチの有効性を判断する。 MER-NOISEトラックでは,2位と3位にそれぞれ1.47%,1.65%を上回り,最先端の重み付き平均Fスコア85.30%を達成した。 MER-OVトラックでは,オープンボキャブラリアノテーションに対する感情-LLaMAの利用により,GPT-4Vと比較して平均精度とリコールが8.52%向上し,参加する大規模マルチモーダルモデルの中で最も高いスコアが確保された。 Emotion-LLaMAのコードとモデルはhttps://github.com/ZebangCheng/Emotion-LLaMAで公開されている。

This paper presents our winning approach for the MER-NOISE and MER-OV tracks of the MER2024 Challenge on multimodal emotion recognition. Our system leverages the advanced emotional understanding capabilities of Emotion-LLaMA to generate high-quality annotations for unlabeled samples, addressing the challenge of limited labeled data. To enhance multimodal fusion while mitigating modality-specific noise, we introduce Conv-Attention, a lightweight and efficient hybrid framework. Extensive experimentation vali-dates the effectiveness of our approach. In the MER-NOISE track, our system achieves a state-of-the-art weighted average F-score of 85.30%, surpassing the second and third-place teams by 1.47% and 1.65%, respectively. For the MER-OV track, our utilization of Emotion-LLaMA for open-vocabulary annotation yields an 8.52% improvement in average accuracy and recall compared to GPT-4V, securing the highest score among all participating large multimodal models. The code and model for Emotion-LLaMA are available at https://github.com/ZebangCheng/Emotion-LLaMA.
翻訳日:2024-08-23 12:32:33 公開日:2024-08-21
# マルチヘッド共同学習による半教師付き学習

Semi-Supervised Learning with Multi-Head Co-Training ( http://arxiv.org/abs/2107.04795v3 )

ライセンス: Link先を確認
Mingcai Chen, Yuntao Du, Yi Zhang, Shuwei Qian, Chongjun Wang, (参考訳) 自己学習から拡張されたコトレーニングは、半教師付き学習のフレームワークの1つである。 機能の自然な分割がなければ、シングルビューのコトレーニングは、個別の分類器同士が衝突しないようにアルゴリズムを微妙に設計する余分な分類器を訓練するコストがかかる。 単一視点協調学習の導入を阻害するこれらの障害を取り除くために, 単純かつ効率的なマルチヘッド協調学習アルゴリズムを提案する。 ベースラーナーをマルチヘッド構造に統合することにより、モデルは最小限の余分なパラメータに収まる。 統一モデルのすべての分類ヘッドは、強いデータ拡張によって自然に多様性がもたらされる「弱強増強」戦略を通じて、その仲間と相互作用する。 そこで本提案手法は,1) による一視点協調学習を容易にする。 多様性を暗黙的に推進し、2 計算オーバーヘッドが少なすぎるだけです 標準的な半教師付き学習ベンチマークにおいて,マルチヘッド・コレーニングの有効性を実証した。

Co-training, extended from self-training, is one of the frameworks for semi-supervised learning. Without natural split of features, single-view co-training works at the cost of training extra classifiers, where the algorithm should be delicately designed to prevent individual classifiers from collapsing into each other. To remove these obstacles which deter the adoption of single-view co-training, we present a simple and efficient algorithm Multi-Head Co-Training. By integrating base learners into a multi-head structure, the model is in a minimal amount of extra parameters. Every classification head in the unified model interacts with its peers through a "Weak and Strong Augmentation" strategy, in which the diversity is naturally brought by the strong data augmentation. Therefore, the proposed method facilitates single-view co-training by 1). promoting diversity implicitly and 2). only requiring a small extra computational overhead. The effectiveness of Multi-Head Co-Training is demonstrated in an empirical study on standard semi-supervised learning benchmarks.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# FairBalance: データ前処理で平等なオッドを実現する方法

FairBalance: How to Achieve Equalized Odds With Data Pre-processing ( http://arxiv.org/abs/2107.08310v5 )

ライセンス: Link先を確認
Zhe Yu, Joymallya Chakraborty, Tim Menzies, (参考訳) 本研究は、機械学習ソフトウェアにおける等化オッズフェアネスを達成するための、単純で効果的な前処理アプローチを提供することにより、ソフトウェア工学社会の利益を目指している。 機械学習ソフトウェアがハイテイクやハイリスクな判断にますます使われているため、公平性の問題が注目を集めている。 既存のフェアネスの概念の中で、この研究は「等化奇数」を特に対象としており、常に完全分類器を許容する利点がある。 平等なオッズは、すべての人口集団のメンバーが異なる不当な扱いを受けないように要求する。 事前の作業は、ブラックボックスのような学習プロセス中に、等化オッズ関連メトリックを最適化するか、直感によってトレーニングデータを操作するかのどちらかだ。 この研究は、等化確率の違反の根本原因とそれに取り組む方法を研究する。 その結果,各人口集団におけるクラス分布と標本重量の等化は,通常のトレーニングプロセスを変更することなく,等化オッズを達成するために必要な条件であることが判明した。 さらに、等化奇数(ゼロ平均奇数差)に対する重要な部分条件は、クラス分布が等式であるだけでなく、バランスが取れている場合(1:1)を保証することができる。 これらの分析に基づいて,各階層群におけるクラス分布のバランスをとる前処理アルゴリズムであるFairBalanceを提案し,計算した重みをトレーニングデータに割り当てた。 実世界の8つのデータセットにおいて,提案したFairBalanceは,計算オーバーヘッドが低かった場合,ユーティリティにダメージを与えることなく,オッズが大幅に改善できることが実証された。 FairBalanceは、同じオッズの観点から、既存の最先端アプローチよりも優れています。 再利用、再現、検証を容易にするため、スクリプトはhttps://github.com/hil-se/FairBalance.comで公開しました。

This research seeks to benefit the software engineering society by providing a simple yet effective pre-processing approach to achieve equalized odds fairness in machine learning software. Fairness issues have attracted increasing attention since machine learning software is increasingly used for high-stakes and high-risk decisions. Amongst all the existing fairness notions, this work specifically targets "equalized odds" given its advantage in always allowing perfect classifiers. Equalized odds requires that members of every demographic group do not receive disparate mistreatment. Prior works either optimize for an equalized odds related metric during the learning process like a black-box, or manipulate the training data following some intuition. This work studies the root cause of the violation of equalized odds and how to tackle it. We found that equalizing the class distribution in each demographic group with sample weights is a necessary condition for achieving equalized odds without modifying the normal training process. In addition, an important partial condition for equalized odds (zero average odds difference) can be guaranteed when the class distributions are weighted to be not only equal but also balanced (1:1). Based on these analyses, we proposed FairBalance, a pre-processing algorithm which balances the class distribution in each demographic group by assigning calculated weights to the training data. On eight real-world datasets, our empirical results show that, at low computational overhead, the proposed pre-processing algorithm FairBalance can significantly improve equalized odds without much, if any damage to the utility. FairBalance also outperforms existing state-of-the-art approaches in terms of equalized odds. To facilitate reuse, reproduction, and validation, we made our scripts available at https://github.com/hil-se/FairBalance.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# ディープラーニングフレームワークバグの理解に向けて

Toward Understanding Deep Learning Framework Bugs ( http://arxiv.org/abs/2203.04026v4 )

ライセンス: Link先を確認
Junjie Chen, Yihua Liang, Qingchao Shen, Jiajun Jiang, Shuochuan Li, (参考訳) DLフレームワークは、全てのDLプログラムとモデルを構築する基盤であり、それらのバグは、DLプログラムやモデルに依存しているあらゆるDLプログラムやモデルの予期せぬ振舞いを引き起こす可能性がある。 このような大きな影響は、DLフレームワークの品質を保証する必要性と重要性を示している。 DLフレームワークのバグの特徴を理解することは、この品質保証タスクの基本的なステップであり、効果的なバグ検出とデバッグのアプローチを設計することを容易にする。 したがって、この作業では、人気のある4つのDLフレームワーク(TensorFlow、PyTorch、MXNet、DL4J)から1,000のバグについて、最も大規模な調査を行います。 DLフレームワークから分解された5つのコンポーネントに関連するDLフレームワークバグの根本原因と症状を解析し、3つの最先端のテスト技術によって達成されたテストカバレッジを測定することにより、DLフレームワークバグの包括的理解と既存のDLフレームワークテストプラクティスの現状に関する12の大きな発見を得るとともに、DLフレームワークバグの検出とデバッグを改善するための一連の実行可能なガイドラインを提供する。 最後に、このガイドラインに基づいて、TenFuzzと呼ばれるプロトタイプのDLフレームワークテストツールを設計、実装し、有効であると評価し、最新のTensorFlowフレームワークに3つの未知のバグを発見し、ガイドラインの重要性を示している。

DL frameworks are the basis of constructing all DL programs and models, and thus their bugs could lead to the unexpected behaviors of any DL program or model relying on them. Such a wide effect demonstrates the necessity and importance of guaranteeing DL frameworks' quality. Understanding the characteristics of DL framework bugs is a fundamental step for this quality assurance task, facilitating designing effective bug detection and debugging approaches. Hence, in this work we conduct the most large-scale study on 1,000 bugs from four popular and diverse DL frameworks (i.e., TensorFlow, PyTorch, MXNet, and DL4J). By analyzing the root causes and symptoms of DL framework bugs associated with 5 components decomposed from DL frameworks, as well as measuring test coverage achieved by three state-of-the-art testing techniques, we obtain 12 major findings for the comprehensive understanding of DL framework bugs and the current status of existing DL framework testing practice, and then provide a series of actionable guidelines for better DL framework bug detection and debugging. Finally, based on the guidelines, we design and implement a prototype DL-framework testing tool, called TenFuzz, which is evaluated to be effective and finds 3 unknown bugs on the latest TensorFlow framework in a preliminary study, indicating the significance of our guidelines.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# ハイパーグラフ製品コードのための高速消去デコーダ

Fast erasure decoder for hypergraph product codes ( http://arxiv.org/abs/2208.01002v3 )

ライセンス: Link先を確認
Nicholas Connolly, Vivien Londe, Anthony Leverrier, Nicolas Delfosse, (参考訳) 本稿では,ハイパーグラフ製品符号による消去の訂正のためのデコーダを提案し,量子LDPC符号の最も一般的なファミリの1つである。 数値シミュレーションにより, このデコーダは, N が量子符号の長さである O(N^2) ビット演算で実装可能な最大極大デコーダの近似値を与えることを示した。 このデコーダの確率バージョンはO(N^1.5)ビット演算で実装できる。

We propose a decoder for the correction of erasures with hypergraph product codes, which form one of the most popular families of quantum LDPC codes. Our numerical simulations show that this decoder provides a close approximation of the maximum likelihood decoder that can be implemented in O(N^2) bit operations where N is the length of the quantum code. A probabilistic version of this decoder can be implemented in O(N^1.5) bit operations.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# 抽象目標のモデル化による次の行動予測

Predicting the Next Action by Modeling the Abstract Goal ( http://arxiv.org/abs/2209.05044v5 )

ライセンス: Link先を確認
Debaditya Roy, Basura Fernando, (参考訳) 人間の行動を予測する問題は、本質的に不確実な問題である。 しかし、俳優が達成しようとしているゴールの感覚があれば、この不確実性を減らすことができる。 本稿では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。 我々は、推論中に目標情報や観察された行動を持っていないので、視覚表現を用いて行動と目標の両方に関する情報をカプセル化する。 そこで我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。 本稿では,パラメータを推定する分布として,変動的リカレントネットワークを用いて抽象目標を設計する。 我々は,次の行動に対する複数の候補をサンプリングし,抽象目標から従う最適な候補を決定するための目標整合度尺度を導入する。 提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。 EK55の先行技術(S1)と比較して,Top-1動詞,Top-1名詞,Top-1行動予測精度の絶対改善が得られた。 同様に、トップ1動詞(+10.75)、名詞(+5.84)、行動(+2.87)に設定された未確認キッチン(S2)の大幅な改善も得られる。 EGTEA Gaze+データセットでも同様の傾向が見られ、名詞、動詞、行動予測に対して+9.9、+13.1、+6.8の絶対的な改善が得られる。 EK55 と EGTEA Gaze+ https://competitions.codalab.org/competitions/20071#results Code available at https://github.com/debadityaroy/Abstract_Goal

The problem of anticipating human actions is an inherently uncertain one. However, we can reduce this uncertainty if we have a sense of the goal that the actor is trying to achieve. Here, we present an action anticipation model that leverages goal information for the purpose of reducing the uncertainty in future predictions. Since we do not possess goal information or the observed actions during inference, we resort to visual representation to encapsulate information about both actions and goals. Through this, we derive a novel concept called abstract goal which is conditioned on observed sequences of visual features for action anticipation. We design the abstract goal as a distribution whose parameters are estimated using a variational recurrent network. We sample multiple candidates for the next action and introduce a goal consistency measure to determine the best candidate that follows from the abstract goal. Our method obtains impressive results on the very challenging Epic-Kitchens55 (EK55), EK100, and EGTEA Gaze+ datasets. We obtain absolute improvements of +13.69, +11.24, and +5.19 for Top-1 verb, Top-1 noun, and Top-1 action anticipation accuracy respectively over prior state-of-the-art methods for seen kitchens (S1) of EK55. Similarly, we also obtain significant improvements in the unseen kitchens (S2) set for Top-1 verb (+10.75), noun (+5.84) and action (+2.87) anticipation. Similar trend is observed for EGTEA Gaze+ dataset, where absolute improvement of +9.9, +13.1 and +6.8 is obtained for noun, verb, and action anticipation. It is through the submission of this paper that our method is currently the new state-of-the-art for action anticipation in EK55 and EGTEA Gaze+ https://competitions.codalab.org/competitions/20071#results Code available at https://github.com/debadityaroy/Abstract_Goal
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# コントラスト学習を用いたバイナリコードの事前学習表現

Pre-Training Representations of Binary Code Using Contrastive Learning ( http://arxiv.org/abs/2210.05102v3 )

ライセンス: Link先を確認
Yifan Zhang, Chen Huang, Kevin Cao, Yueke Zhang, Scott Thomas Andersen, Huajie Shao, Kevin Leach, Yu Huang, (参考訳) コンパイルされたソフトウェアは実行可能なバイナリコードとして配信される。 開発者は、ソフトウェアセマンティクスを表現するためにソースコードを書くが、コンパイラはそれを、CPUが直接実行できるバイナリフォーマットに変換する。 したがって、バイナリコード解析は、ソースコードが利用できないリバースエンジニアリングやコンピュータセキュリティタスクのアプリケーションには不可欠である。 しかしながら、リッチなセマンティック情報を含むソースコードや自然言語とは異なり、バイナリコードは一般的に、人間のエンジニアが理解し分析することが困難である。 既存の研究では、ソースコード分析にAIモデルを使用しているが、バイナリコードを検討する研究はほとんどない。 本稿では、表現学習中にソースコードとコメント情報をバイナリコードに組み込んだ、バイナリcOde分析のためのContrastive Learning Model(COMBO)を提案する。 具体的には,(1)コールドスタート事前学習のための主要なコントラスト学習法,(2)ソースコード,コメント,バイナリコードを組み込む単純な補間法,(3)バイナリコード埋め込みを提供する中間表現学習アルゴリズム,の3つのコンポーネントをCOMBOに提示する。 最後に,COMBOが生成する事前学習された表現の有効性を,アルゴリズム機能分類,バイナリコード類似性,脆弱性検出という,バイナリコードに関連する3つの指示的下流タスクを用いて評価する。 実験の結果、COMBOは分布解析により可視化されたバイナリコードの表現学習を容易にし、最先端の大規模言語表現モデルと比較して3つの下流タスク全体のパフォーマンスを平均5.45%向上させることがわかった。 我々の知る限り、COMBOはソースコード、バイナリコード、コメントを対照的なコード表現学習に組み込んだ最初の言語表現モデルであり、バイナリコード解析のために複数のタスクを統合する。

Compiled software is delivered as executable binary code. Developers write source code to express the software semantics, but the compiler converts it to a binary format that the CPU can directly execute. Therefore, binary code analysis is critical to applications in reverse engineering and computer security tasks where source code is not available. However, unlike source code and natural language that contain rich semantic information, binary code is typically difficult for human engineers to understand and analyze. While existing work uses AI models to assist source code analysis, few studies have considered binary code. In this paper, we propose a COntrastive learning Model for Binary cOde Analysis, or COMBO, that incorporates source code and comment information into binary code during representation learning. Specifically, we present three components in COMBO: (1) a primary contrastive learning method for cold-start pre-training, (2) a simplex interpolation method to incorporate source code, comments, and binary code, and (3) an intermediate representation learning algorithm to provide binary code embeddings. Finally, we evaluate the effectiveness of the pre-trained representations produced by COMBO using three indicative downstream tasks relating to binary code: algorithmic functionality classification, binary code similarity, and vulnerability detection. Our experimental results show that COMBO facilitates representation learning of binary code visualized by distribution analysis, and improves the performance on all three downstream tasks by 5.45% on average compared to state-of-the-art large-scale language representation models. To the best of our knowledge, COMBO is the first language representation model that incorporates source code, binary code, and comments into contrastive code representation learning and unifies multiple tasks for binary code analysis.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# グラフニューラルネットワークによる最適潮流の最適化

Proximal Policy Optimization with Graph Neural Networks for Optimal Power Flow ( http://arxiv.org/abs/2212.12470v2 )

ライセンス: Link先を確認
Ángela López-Cardona, Guillermo Bernárdez, Pere Barlet-Ros, Albert Cabellos-Aparicio, (参考訳) 最適電力流(Optimal Power Flow、OPF)は、発電所の最適運転点を求める、電力システム分野における非常に伝統的な研究分野であり、現実世界のシナリオでは数分ごとに解決する必要がある。 しかし、発電システムに発生する非凸性のため、完全な交流電流最適電力流(ACOPF)のための高速で堅牢な解法がまだ存在しない。 過去数十年間、電力グリッドは電力システムとして知られる典型的な動的で非線形で大規模な制御システムへと進化してきたため、より高速なACOPFソリューションの探索が重要になっている。 グラフニューラルネットワーク(GNN)の出現により、電力ネットワークなどのグラフデータに機械学習(ML)アルゴリズムを自然に使用できるようになった。 一方、Deep Reinforcement Learning(DRL)は、複雑な意思決定問題を解決する強力な能力で知られている。 この2つの手法を別々に用いた解法は文献に現れ始めているが、両者の利点を組み合わさってはいない。 本稿では,グラフニューラルネットワークを用いた近似ポリシ最適化アルゴリズムに基づく新しいアーキテクチャを提案し,最適潮流の解法を提案する。 目的は最適化問題を解決する方法を学ぶアーキテクチャを設計することであり、同時に、目に見えないシナリオに一般化することができる。 IEEE 30バスシステム上でDRLエージェントを訓練し,そのベースネットワーク上でOPFをトポロジ変更で計算した後,コスト面でDCOPFと比較した。

Optimal Power Flow (OPF) is a very traditional research area within the power systems field that seeks for the optimal operation point of electric power plants, and which needs to be solved every few minutes in real-world scenarios. However, due to the nonconvexities that arise in power generation systems, there is not yet a fast, robust solution technique for the full Alternating Current Optimal Power Flow (ACOPF). In the last decades, power grids have evolved into a typical dynamic, non-linear and large-scale control system, known as the power system, so searching for better and faster ACOPF solutions is becoming crucial. Appearance of Graph Neural Networks (GNN) has allowed the natural use of Machine Learning (ML) algorithms on graph data, such as power networks. On the other hand, Deep Reinforcement Learning (DRL) is known for its powerful capability to solve complex decision-making problems. Although solutions that use these two methods separately are beginning to appear in the literature, none has yet combined the advantages of both. We propose a novel architecture based on the Proximal Policy Optimization algorithm with Graph Neural Networks to solve the Optimal Power Flow. The objective is to design an architecture that learns how to solve the optimization problem and that is at the same time able to generalize to unseen scenarios. We compare our solution with the DCOPF in terms of cost after having trained our DRL agent on IEEE 30 bus system and then computing the OPF on that base network with topology changes
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# ソーシャルネットワークにおける話題検出のためのヒューマンワードアソシエーションに基づくモデル

A Human Word Association based model for topic detection in social networks ( http://arxiv.org/abs/2301.13066v3 )

ライセンス: Link先を確認
Mehrdad Ranjbar Khadivi, Shahin Akbarpour, Mohammad-Reza Feizi-Derakhshi, Babak Anari, (参考訳) ソーシャルネットワークの普及に伴い、これらのプラットフォーム上で議論されているトピックを検出することは大きな課題となっている。 現在のアプローチは主に頻繁なパターンマイニングやセマンティックな関係に依存しており、言語の構造を無視することが多い。 言語構造的手法は、単語間の関係と人間がそれらを理解する方法を見つけることを目的としている。 そこで本稿では,単語連想の精神能力の模倣という概念に基づく,ソーシャルネットワークの話題検出フレームワークを提案する。 このフレームワークは、ヒューマンワードアソシエーション法を採用し、特別に設計された抽出アルゴリズムを含んでいる。 トピック検出の分野におけるベンチマークであるFA-CUPデータセットを用いて,本手法の性能を評価する。 その結果,提案手法はトピックリコールやキーワードF1測定によって実証されるように,他の手法と比較してトピック検出を著しく改善することがわかった。 さらに,提案手法の適用性と一般化性を評価するために,ペルシャ語におけるテレグラムポストのデータセットを用いる。 その結果,本手法は他のトピック検出法よりも優れていることがわかった。

With the widespread use of social networks, detecting the topics discussed on these platforms has become a significant challenge. Current approaches primarily rely on frequent pattern mining or semantic relations, often neglecting the structure of the language. Language structural methods aim to discover the relationships between words and how humans understand them. Therefore, this paper introduces a topic detection framework for social networks based on the concept of imitating the mental ability of word association. This framework employs the Human Word Association method and includes a specially designed extraction algorithm. The performance of this method is evaluated using the FA-CUP dataset, a benchmark in the field of topic detection. The results indicate that the proposed method significantly improves topic detection compared to other methods, as evidenced by Topic-recall and the keyword F1 measure. Additionally, to assess the applicability and generalizability of the proposed method, a dataset of Telegram posts in the Persian language is used. The results demonstrate that this method outperforms other topic detection methods.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# オンライン広告コスト予測のための解釈可能なディープラーニング:競争力のある入札景観からの考察

Interpretable Deep Learning for Forecasting Online Advertising Costs: Insights from the Competitive Bidding Landscape ( http://arxiv.org/abs/2302.05762v2 )

ライセンス: Link先を確認
Fynn Oldenburg, Qiwei Han, Maximilian Kaiser, (参考訳) 広告主が予算をデジタル広告にシフトするにつれて、マーケティングキャンペーンのリターンを最適化するためには、広告コストを正確に予測することが不可欠である。 本稿では,オンライン広告市場における日平均CPCの予測に様々な時系列予測手法を用いた総合的研究について述べる。 本稿では,TFT(Temporal Fusion Transformer)を含む統計モデル,機械学習技術,深層学習手法の性能を評価する。 時系列クラスタリングにより,競合のCPCパターンから派生した共変量に富んだ多変量モデルを導入することにより,予測精度が大幅に向上した。 特徴重要度と時間的注目度を分析し,広告主のデータと競争環境からの洞察の両方をモデルがどのように活用するかを示す。 さらに、新型コロナウイルス(COVID-19)のパンデミックなど、主要な市場シフトの間、当社の手法は、個々の広告主のデータにのみ依存するモデルよりも一貫して優れています。 本研究は,デジタル広告における予算配分と競争力に関する,より正確な長期予測と戦略的洞察を提供するとともに,広告主の幅広いプールから関連する共変量を選択するためのスケーラブルな手法を提案する。

As advertisers increasingly shift their budgets toward digital advertising, accurately forecasting advertising costs becomes essential for optimizing marketing campaign returns. This paper presents a comprehensive study that employs various time-series forecasting methods to predict daily average CPC in the online advertising market. We evaluate the performance of statistical models, machine learning techniques, and deep learning approaches, including the Temporal Fusion Transformer (TFT). Our findings reveal that incorporating multivariate models, enriched with covariates derived from competitors' CPC patterns through time-series clustering, significantly improves forecasting accuracy. We interpret the results by analyzing feature importance and temporal attention, demonstrating how the models leverage both the advertiser's data and insights from the competitive landscape. Additionally, our method proves robust during major market shifts, such as the COVID-19 pandemic, consistently outperforming models that rely solely on individual advertisers' data. This study introduces a scalable technique for selecting relevant covariates from a broad pool of advertisers, offering more accurate long-term forecasts and strategic insights into budget allocation and competitive dynamics in digital advertising.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# コンピテンスに基づく言語モデルの解析

Competence-Based Analysis of Language Models ( http://arxiv.org/abs/2303.00333v4 )

ライセンス: Link先を確認
Adam Davies, Jize Jiang, ChengXiang Zhai, (参考訳) 大規模で事前訓練されたニューラルネットワークモデル(LLM)が最近成功したにもかかわらず、事前訓練中に学習する言語構造の表現についてはあまり知られていない。 これらのモデルと振舞いをよりよく理解するために、人間の解釈可能な言語特性の表現と使用に関してLLMを研究するための一般的なモデル解析フレームワークを導入する。 本研究のフレームワークであるCALM (Competence-based Analysis of Language Models) は,言語特性の異なるモデルの内部表現を因果探索を用いて介入することにより,特定のタスクの文脈におけるLCM能力について検討し,これらの介入下でのモデルのアライメントを与えられた基礎的因果モデルを用いて測定することを目的としている。 我々はまた,従来の手法よりも幅広い特性や表現をターゲットとした,勾配に基づく敵攻撃による因果探索介入を行うための新しい手法を開発した。 最後に、これらの介入を用いたCALMのケーススタディを行い、様々な語彙推論タスクにおけるLCM能力の分析と比較を行い、CALMがこれらのタスクの振る舞いを説明し、予測できることを示す。

Despite the recent successes of large, pretrained neural language models (LLMs), comparatively little is known about the representations of linguistic structure they learn during pretraining, which can lead to unexpected behaviors in response to prompt variation or distribution shift. To better understand these models and behaviors, we introduce a general model analysis framework to study LLMs with respect to their representation and use of human-interpretable linguistic properties. Our framework, CALM (Competence-based Analysis of Language Models), is designed to investigate LLM competence in the context of specific tasks by intervening on models' internal representations of different linguistic properties using causal probing, and measuring models' alignment under these interventions with a given ground-truth causal model of the task. We also develop a new approach for performing causal probing interventions using gradient-based adversarial attacks, which can target a broader range of properties and representations than prior techniques. Finally, we carry out a case study of CALM using these interventions to analyze and compare LLM competence across a variety of lexical inference tasks, showing that CALM can be used to explain and predict behaviors across these tasks.
翻訳日:2024-08-22 23:35:54 公開日:2024-08-21
# Heuristic Contextual Constraints による血管駆動型OCTからOCTA画像への変換

Vessel-Promoted OCT to OCTA Image Translation by Heuristic Contextual Constraints ( http://arxiv.org/abs/2303.06807v2 )

ライセンス: Link先を確認
Shuhan Li, Dong Zhang, Xiaomeng Li, Chubin Ou, Lin An, Yanwu Xu, Kwang-Ting Cheng, (参考訳) 光コヒーレンス・トモグラフィー(OCTA)は網膜疾患の臨床的スクリーニングにおいて重要なツールであり、非侵襲的スキャンによる血管の正確な3Dイメージングを可能にする。 しかし、OCTA画像を取得するためのハードウェアベースのアプローチは、特殊なセンサーや高価なデバイスを必要とするため、課題を呈している。 本稿では,手軽に利用できる3D光コヒーレンス・トモグラフィ(OCT)画像から3D OCTA画像に変換できるTransProという新しい手法を提案する。 当社のTransProメソッドは,従来から見過ごされてきた2つの新しいアイデアが中心です。 最初のアイデアは、OCTAプロジェクションマップが対応するBスキャンからZ軸に沿ったピクセル値の平均化によって生成されるという批判的な観察から導かれる。 そこで,我々は,3次元ボリュームと投影マップ間のOCTA画像の一貫性を効果的に維持する,新しいHuuristic Contextual Guidance (HCG)モジュールと3次元逆生成ネットワークを組み込んだハイブリッドアーキテクチャを提案する。 第2のアイデアは、翻訳されたOCTAプロジェクションマップの船体品質を改善することである。 その結果,新しい血管拡張誘導モジュール(VPG)が提案され,網膜血管のネットワークの注目度が向上した。 2つのデータセットの実験結果から、TransProは最先端のアプローチよりも優れており、MAEは11.4%、PSNRは2.7%、SSIMは2%、VDEは40%、VDCは9.1%である。 コードは、https://github.com/ustlsh/TransPro.comで入手できる。

Optical Coherence Tomography Angiography (OCTA) is a crucial tool in the clinical screening of retinal diseases, allowing for accurate 3D imaging of blood vessels through non-invasive scanning. However, the hardware-based approach for acquiring OCTA images presents challenges due to the need for specialized sensors and expensive devices. In this paper, we introduce a novel method called TransPro, which can translate the readily available 3D Optical Coherence Tomography (OCT) images into 3D OCTA images without requiring any additional hardware modifications. Our TransPro method is primarily driven by two novel ideas that have been overlooked by prior work. The first idea is derived from a critical observation that the OCTA projection map is generated by averaging pixel values from its corresponding B-scans along the Z-axis. Hence, we introduce a hybrid architecture incorporating a 3D adversarial generative network and a novel Heuristic Contextual Guidance (HCG) module, which effectively maintains the consistency of the generated OCTA images between 3D volumes and projection maps. The second idea is to improve the vessel quality in the translated OCTA projection maps. As a result, we propose a novel Vessel Promoted Guidance (VPG) module to enhance the attention of network on retinal vessels. Experimental results on two datasets demonstrate that our TransPro outperforms state-of-the-art approaches, with relative improvements around 11.4% in MAE, 2.7% in PSNR, 2% in SSIM, 40% in VDE, and 9.1% in VDC compared to the baseline method. The code is available at: https://github.com/ustlsh/TransPro.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 高速GNNトレーニングのための確率収束サブグラフワイドサンプリング

Provably Convergent Subgraph-wise Sampling for Fast GNN Training ( http://arxiv.org/abs/2303.11081v2 )

ライセンス: Link先を確認
Jie Wang, Zhihao Shi, Xize Liang, Defu Lian, Shuiwang Ji, Bin Li, Enhong Chen, Feng Wu, (参考訳) グラフニューラルネットワーク(GNN)のための、有望なミニバッチトレーニングテクニックである、サブグラフワイズサンプリングは、現実世界のアプリケーションには不可欠である。 GNNのメッセージパッシング(MP)の間、サブグラフワイズサンプリングメソッドは、後方のミニバッチの外でメッセージを破棄し、よく知られた隣の爆発問題を避ける。 しかし、メッセージの破棄は勾配推定の精度を犠牲にし、収束解析と収束速度に大きな課題を生じさせる可能性がある。 この課題に対処するために,収束保証,すなわちローカルメッセージ補償(LMC)を備えた新しいサブグラフワイズサンプリング手法を提案する。 我々の知る限り、LCCは証明可能な収束性を持つ最初のサブグラフワイドサンプリング法である。 キーとなるアイデアは、後方パスのメッセージパスの定式化に基づいて、破棄されたメッセージを後方パスで検索することである。 前と後の両方で破棄されたメッセージの効率よく効果的な補償によって、LCCは正確なミニバッチ勾配を計算し、収束を加速する。 さらに、LCCは、畳み込みGNN(異なる層を持つ有限メッセージパッシングイテレーション)や繰り返しGNN(共有層を持つ無限メッセージパッシングイテレーション)など、様々なMPベースのGNNアーキテクチャに適用できる。 大規模ベンチマーク実験により、LCCは最先端のサブグラフワイドサンプリング法よりもはるかに高速であることが示された。

Subgraph-wise sampling -- a promising class of mini-batch training techniques for graph neural networks (GNNs -- is critical for real-world applications. During the message passing (MP) in GNNs, subgraph-wise sampling methods discard messages outside the mini-batches in backward passes to avoid the well-known neighbor explosion problem, i.e., the exponentially increasing dependencies of nodes with the number of MP iterations. However, discarding messages may sacrifice the gradient estimation accuracy, posing significant challenges to their convergence analysis and convergence speeds. To address this challenge, we propose a novel subgraph-wise sampling method with a convergence guarantee, namely Local Message Compensation (LMC). To the best of our knowledge, LMC is the first subgraph-wise sampling method with provable convergence. The key idea is to retrieve the discarded messages in backward passes based on a message passing formulation of backward passes. By efficient and effective compensations for the discarded messages in both forward and backward passes, LMC computes accurate mini-batch gradients and thus accelerates convergence. Moreover, LMC is applicable to various MP-based GNN architectures, including convolutional GNNs (finite message passing iterations with different layers) and recurrent GNNs (infinite message passing iterations with a shared layer). Experiments on large-scale benchmarks demonstrate that LMC is significantly faster than state-of-the-art subgraph-wise sampling methods.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 大規模事前訓練モデルが急激な新進クラス発見において驚くほど強力である

Large-scale Pre-trained Models are Surprisingly Strong in Incremental Novel Class Discovery ( http://arxiv.org/abs/2303.15975v4 )

ライセンス: Link先を確認
Mingxuan Liu, Subhankar Roy, Zhun Zhong, Nicu Sebe, Elisa Ricci, (参考訳) 乱れのないデータセットと連続した方法で新しい概念を発見することは、生涯学習者の重要なデシラタムである。 文献では、そのような問題は、関連するラベル付き集合(eg, NCD)や、教師付き事前学習されたモデル(eg, class-iNCD)にのみアクセスすることで、新しいクラスを学習する、非常に制限された設定の下で部分的に解決されている。 本研究は,クラス-iNCDにおける現状問題に挑戦し,関連するラベル付き集合を必要とせず,クラス発見を継続的に,真に教師なしで行う学習パラダイムを提案する。 本稿では,よりリッチな事前学習モデル(PTM)の活用を提案する。 そこで本研究では,凍結したPTMバックボーンと学習可能な線形分類器からなる単純なベースラインを提案する。 我々は,多数のベンチマークで広範な実証評価を行い,高度な最先端手法と比較して,提案するベースラインの有効性を示す。 コードはオープンソースです。

Discovering novel concepts in unlabelled datasets and in a continuous manner is an important desideratum of lifelong learners. In the literature such problems have been partially addressed under very restricted settings, where novel classes are learned by jointly accessing a related labelled set (e.g., NCD) or by leveraging only a supervisedly pre-trained model (e.g., class-iNCD). In this work we challenge the status quo in class-iNCD and propose a learning paradigm where class discovery occurs continuously and truly unsupervisedly, without needing any related labelled set. In detail, we propose to exploit the richer priors from strong self-supervised pre-trained models (PTM). To this end, we propose simple baselines, composed of a frozen PTM backbone and a learnable linear classifier, that are not only simple to implement but also resilient under longer learning scenarios. We conduct extensive empirical evaluation on a multitude of benchmarks and show the effectiveness of our proposed baselines when compared with sophisticated state-of-the-art methods. The code is open source.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 動的ビュー合成のための動的単眼映像のデカップリング

Decoupling Dynamic Monocular Videos for Dynamic View Synthesis ( http://arxiv.org/abs/2304.01716v5 )

ライセンス: Link先を確認
Meng You, Junhui Hou, (参考訳) 動的モノクラー映像からの動的ビュー合成の課題、すなわち、移動カメラが捉えたダイナミックシーンのモノクラー映像を自由視点で合成することは、主に2次元フレームの制限によりシーンの「textbf{dynamic objects}」を正確にモデル化することにある。 既存の方法では、既処理の2D光流と深度マップをオフザシェルフ方式でネットワークを監視し、2D情報を3Dに持ち上げる際に、前処理の監督の正確さと曖昧さに悩まされる。 本稿では,この課題を教師なしの方法で解決する。 具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。 前者は移動物体の3次元幾何学的表面を時間とともに整合させ、後者は外見を異なる視点で整合させるように規則化させる。 このようなきめ細かい動きの定式化は、ネットワークの学習の難しさを軽減し、品質の高い新しいビューだけでなく、余分な監督を必要とする既存の方法よりも正確なシーンフローと深さを生成することができる。

The challenge of dynamic view synthesis from dynamic monocular videos, i.e., synthesizing novel views for free viewpoints given a monocular video of a dynamic scene captured by a moving camera, mainly lies in accurately modeling the \textbf{dynamic objects} of a scene using limited 2D frames, each with a varying timestamp and viewpoint. Existing methods usually require pre-processed 2D optical flow and depth maps by off-the-shelf methods to supervise the network, making them suffer from the inaccuracy of the pre-processed supervision and the ambiguity when lifting the 2D information to 3D. In this paper, we tackle this challenge in an unsupervised fashion. Specifically, we decouple the motion of the dynamic objects into object motion and camera motion, respectively regularized by proposed unsupervised surface consistency and patch-based multi-view constraints. The former enforces the 3D geometric surfaces of moving objects to be consistent over time, while the latter regularizes their appearances to be consistent across different viewpoints. Such a fine-grained motion formulation can alleviate the learning difficulty for the network, thus enabling it to produce not only novel views with higher quality but also more accurate scene flows and depth than existing methods requiring extra supervision.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 位相材料からの点ギャップ位相の普遍的プラットフォーム

Universal platform of point-gap topological phases from topological materials ( http://arxiv.org/abs/2304.08110v5 )

ライセンス: Link先を確認
Daichi Nakamura, Kazuya Inaka, Nobuyuki Okuma, Masatoshi Sato, (参考訳) 点ギャップ位相は非エルミート系に固有の例外現象の原因であるが、量子材料におけるそれらの実現はいまだ解明されていない。 ここでは、エルミート位相絶縁体と超伝導体から構築された点ギャップ位相の単純で普遍的なプラットフォームを提案する。 そこで, (d-1) 次元の点ギャップ位相は, d次元のトポロジカル絶縁体と超伝導体の境界を逸脱させることによって実現されることを示す。 この提案の重要な観察は、D次元トポロジカル絶縁体と超伝導体において境界モードに崩壊定数を加えることは、(d-1)次元ポイントギャップトポロジカル位相を境界に取り付けることと位相的に等価であるということである。 さらに、散逸的なギャップレスモードを点ギャップ位相数に関連付けるNielsen-Ninomiya定理の拡張版から提案をさらに確立する。 点ギャップ位相のバルク境界対応から、点ギャップ位相は例外的な境界状態または高次非エルミート皮膚効果を示す。

Whereas point-gap topological phases are responsible for exceptional phenomena intrinsic to non-Hermitian systems, their realization in quantum materials is still elusive. Here we propose a simple and universal platform of point-gap topological phases constructed from Hermitian topological insulators and superconductors. We show that (d-1)-dimensional point-gap topological phases are realized by making a boundary in d-dimensional topological insulators and superconductors dissipative. A crucial observation of the proposal is that adding a decay constant to boundary modes in d-dimensional topological insulators and superconductors is topologically equivalent to attaching a (d-1)-dimensional point-gap topological phase to the boundary. We furthermore establish the proposal from the extended version of the Nielsen-Ninomiya theorem, relating dissipative gapless modes to point-gap topological numbers. From the bulk-boundary correspondence of the point-gap topological phases, the resultant point-gap topological phases exhibit exceptional boundary states or in-gap higher-order non-Hermitian skin effects.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# リアルタイム欠陥検出におけるデータ生成におけるX線散乱の影響の定量化

Quantifying the effect of X-ray scattering for data generation in real-time defect detection ( http://arxiv.org/abs/2305.12822v2 )

ライセンス: Link先を確認
Vladyslav Andriiashen, Robert van Liere, Tristan van Leeuwen, K. Joost Batenburg, (参考訳) 背景: コンベアベルト上の工業製品の欠陥の非破壊検出にX線イメージングが広く用いられている。 インライン検出は高度に正確で堅牢で高速なアルゴリズムを必要とする。 ディープ畳み込みニューラルネットワーク(DCNN)は、大量のラベル付きデータが利用可能である場合に、これらの要件を満たす。 これらのデータ収集の課題を克服するために、X線画像生成の異なる方法を検討する。 目的: 実データとの望ましい類似度に応じて、異なる物理効果はシミュレートされるか無視されるべきである。 X線散乱は計算コストがかかることで知られており、この効果は生成されたX線画像の精度に大きな影響を与える。 本研究の目的は,散乱が欠陥検出に与える影響を定量的に評価することである。 方法: モンテカルロシミュレーションを用いてX線散乱分布を生成する。 DCNNは散乱することなくデータをトレーニングし、同じテストデータセットに適用する。 検出の確率(POD)曲線は、最小の検出可能な欠陥の大きさを特徴とする、それらの性能を比較するために計算される。 結果: この手法をシリンダ内の欠陥検出のモデル問題に適用する。 散乱のないデータでトレーニングを行うと、DCNNは1.3mm以上の欠陥を確実に検出し、散乱を伴うデータを使用することで性能を5%以下に向上する。 もし大きな散乱-一次比(1 < SPR < 5$)の場合に分析を行えば、性能の違いは15%(約0.4 mm)に達する可能性がある。 結論: トレーニングデータから散乱信号を除くと, 検出可能な最小の欠陥に対して最大の影響があり, より大きな欠陥に対して差が減少する。 散乱-一次比は、検出性能とデータ生成に必要な精度に有意な影響を及ぼす。

Background: X-ray imaging is widely used for the non-destructive detection of defects in industrial products on a conveyor belt. In-line detection requires highly accurate, robust, and fast algorithms. Deep Convolutional Neural Networks (DCNNs) satisfy these requirements when a large amount of labeled data is available. To overcome the challenge of collecting these data, different methods of X-ray image generation are considered. Objective: Depending on the desired degree of similarity to real data, different physical effects should either be simulated or can be ignored. X-ray scattering is known to be computationally expensive to simulate, and this effect can greatly affect the accuracy of a generated X-ray image. We aim to quantitatively evaluate the effect of scattering on defect detection. Methods: Monte-Carlo simulation is used to generate X-ray scattering distribution. DCNNs are trained on the data with and without scattering and applied to the same test datasets. Probability of Detection (POD) curves are computed to compare their performance, characterized by the size of the smallest detectable defect. Results: We apply the methodology to a model problem of defect detection in cylinders. When trained on data without scattering, DCNNs reliably detect defects larger than 1.3 mm, and using data with scattering improves performance by less than 5%. If the analysis is performed on the cases with large scattering-to-primary ratio ($1 < SPR < 5$), the difference in performance could reach 15% (approx. 0.4 mm). Conclusion: Excluding the scattering signal from the training data has the largest effect on the smallest detectable defects, and the difference decreases for larger defects. The scattering-to-primary ratio has a significant effect on detection performance and the required accuracy of data generation.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# グラフに基づく階層型予測のための時系列クラスタリング

Graph-based Time Series Clustering for End-to-End Hierarchical Forecasting ( http://arxiv.org/abs/2305.19183v2 )

ライセンス: Link先を確認
Andrea Cini, Danilo Mandic, Cesare Alippi, (参考訳) 時系列間の関係は、効果的な予測モデル学習における帰納バイアスとして利用することができる。 階層的時系列では、列のサブセット間の関係は予測された値に厳しい制約(階層的帰納的バイアス)をもたらす。 本稿では,時系列予測におけるディープラーニングの文脈において,関係性および階層的帰納バイアスを統一するグラフベースの手法を提案する。 特に、ピラミッドグラフ構造における依存関係として両方の関係をモデル化し、各ピラミッド層は階層のレベルに対応する。 現代的な-トレーニング可能な-グラフプーリング演算子を利用することで、階層構造が事前で利用できない場合、データから直接学習できることを示し、予測目的に沿ったクラスタ割り当てを取得する。 異なる調整段階が処理アーキテクチャに組み込まれ、階層的制約がアーキテクチャバイアスと予測の正規化要素の両方として機能する。 代表的データセットのシミュレーション結果から,提案手法は最先端の手法と比較して好適に比較できることがわかった。

Relationships among time series can be exploited as inductive biases in learning effective forecasting models. In hierarchical time series, relationships among subsets of sequences induce hard constraints (hierarchical inductive biases) on the predicted values. In this paper, we propose a graph-based methodology to unify relational and hierarchical inductive biases in the context of deep learning for time series forecasting. In particular, we model both types of relationships as dependencies in a pyramidal graph structure, with each pyramidal layer corresponding to a level of the hierarchy. By exploiting modern - trainable - graph pooling operators we show that the hierarchical structure, if not available as a prior, can be learned directly from data, thus obtaining cluster assignments aligned with the forecasting objective. A differentiable reconciliation stage is incorporated into the processing architecture, allowing hierarchical constraints to act both as an architectural bias as well as a regularization element for predictions. Simulation results on representative datasets show that the proposed method compares favorably against the state of the art.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 法則と多言語: 司法支援のための多言語法的推論のベンチマーク

One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support ( http://arxiv.org/abs/2306.09237v3 )

ライセンス: Link先を確認
Ronja Stern, Vishvaksenan Rasiah, Veton Matoshi, Srinanda Brügger Bose, Matthias Stürmer, Ilias Chalkidis, Daniel E. Ho, Joel Niklaus, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、多くの自然言語処理(NLP)ベンチマークを飽和させ、LLM能力を適切に評価するより難しいものの必要性を強調している。 しかし、ドメイン固有の多言語ベンチマークは、開発に詳細な専門知識を必要とするため、まれである。 しかし、ほとんどのパブリックモデルは、イングランドのコーパスに基づいて主に訓練されている一方、他の言語は、特に実践的なドメイン固有のNLPタスクのために研究されていない。 本稿では, LLM に挑戦する新たな NLP ベンチマークを提案する。処理 \emph{long 文書 (最大 50K トークン), 処理 \emph{ domain-specific knowledge} (法的テキストにエンベッドする), \emph{multilingual} 理解 (5つの言語を包含する), \emph{multitasking} (法的文書から文書への情報レトリーバル, コートビュー生成, 先行決定の要約, 引用, 8 つの難しいテキスト分類タスクを含む) および \emph{reasoning} (特に裁判所ビュー生成, テキスト分類タスクも含む) である。 我々のベンチマークにはスイスの法体系からの多様なデータセットが含まれており、基礎となる非英語、本質的には多言語法体系を包括的に研究することができる。 データセットが大きすぎるにも関わらず(数十万の例もある)、既存の公開されている多言語モデルは、ドメイン内での事前トレーニングや微調整の後にも、ほとんどのタスクに苦労しています。 すべてのリソース(ベンチマークスイート、事前訓練済みモデル、コード)を、寛容なオープンCC BY-SAライセンスで公開します。

Recent strides in Large Language Models (LLMs) have saturated many Natural Language Processing (NLP) benchmarks, emphasizing the need for more challenging ones to properly assess LLM capabilities. However, domain-specific and multilingual benchmarks are rare because they require in-depth expertise to develop. Still, most public models are trained predominantly on English corpora, while other languages remain understudied, particularly for practical domain-specific NLP tasks. In this work, we introduce a novel NLP benchmark for the legal domain that challenges LLMs in five key dimensions: processing \emph{long documents} (up to 50K tokens), using \emph{domain-specific knowledge} (embodied in legal texts), \emph{multilingual} understanding (covering five languages), \emph{multitasking} (comprising legal document-to-document Information Retrieval, Court View Generation, Leading Decision Summarization, Citation Extraction, and eight challenging Text Classification tasks) and \emph{reasoning} (comprising especially Court View Generation, but also the Text Classification tasks). Our benchmark contains diverse datasets from the Swiss legal system, allowing for a comprehensive study of the underlying non-English, inherently multilingual legal system. Despite the large size of our datasets (some with hundreds of thousands of examples), existing publicly available multilingual models struggle with most tasks, even after extensive in-domain pre-training and fine-tuning. We publish all resources (benchmark suite, pre-trained models, code) under permissive open CC BY-SA licenses.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# PathMLP: 高次ホモフィリーに向けたスムースパス

PathMLP: Smooth Path Towards High-order Homophily ( http://arxiv.org/abs/2306.13532v2 )

ライセンス: Link先を確認
Jiajun Zhou, Chenxuan Xie, Shengbo Gong, Jiaxu Qian, Shanqing Yu, Qi Xuan, Xiaoniu Yang, (参考訳) 実世界のグラフはヘテロフィリが増加しており、ノードはもはや同じラベルを持つノードに接続されない傾向にあり、古典的なグラフニューラルネットワーク(GNN)のホモフィリな仮定に挑戦し、その性能を阻害する。 興味深いことに、異種データの観測から、ある高次情報が高い相同性を示すことに気づき、ノード表現学習に高次情報を含む動機付けとなる。 しかし、GNNの一般的な実践は、主にモデル深度の増加とメッセージパッシング機構の変更によって高次情報を取得することである。 1)過度のモデル深度及び伝播時間による過度な平滑化 2 高次情報は、十分に活用されていない。 3) 計算効率が低い。 本研究では,高次ホモフィリーを含むスムーズな経路を抽出するための類似性に基づく経路サンプリング戦略を設計する。 そこで我々は,多層パーセプトロン(MLP)に基づく軽量モデルPathMLPを提案する。 大規模な実験により,本手法は20のデータセット中16のベースラインを上回り,ヘテロフィリ問題を緩和する効果と優越性を実証した。 また,本手法は過度に平滑であり,計算効率が高い。 ソースコードはhttps://github.com/Graph4Sec-Team/PathMLPで入手できる。

Real-world graphs exhibit increasing heterophily, where nodes no longer tend to be connected to nodes with the same label, challenging the homophily assumption of classical graph neural networks (GNNs) and impeding their performance. Intriguingly, from the observation of heterophilous data, we notice that certain high-order information exhibits higher homophily, which motivates us to involve high-order information in node representation learning. However, common practices in GNNs to acquire high-order information mainly through increasing model depth and altering message-passing mechanisms, which, albeit effective to a certain extent, suffer from three shortcomings: 1) over-smoothing due to excessive model depth and propagation times; 2) high-order information is not fully utilized; 3) low computational efficiency. In this regard, we design a similarity-based path sampling strategy to capture smooth paths containing high-order homophily. Then we propose a lightweight model based on multi-layer perceptrons (MLP), named PathMLP, which can encode messages carried by paths via simple transformation and concatenation operations, and effectively learn node representations in heterophilous graphs through adaptive path aggregation. Extensive experiments demonstrate that our method outperforms baselines on 16 out of 20 datasets, underlining its effectiveness and superiority in alleviating the heterophily problem. In addition, our method is immune to over-smoothing and has high computational efficiency. The source code will be available in https://github.com/Graph4Sec-Team/PathMLP.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 機械学習のための最適輸送の最近の進歩

Recent Advances in Optimal Transport for Machine Learning ( http://arxiv.org/abs/2306.16156v2 )

ライセンス: Link先を確認
Eduardo Fernandes Montesuma, Fred Ngolè Mboula, Antoine Souloumiac, (参考訳) 近年,確率分布の比較と操作のための機械学習の確率的フレームワークとして最適輸送法が提案されている。 これはその豊かな歴史と理論に根ざし、生成モデリングや伝達学習といった機械学習の様々な問題に対する新しい解決策を提供してきた。 この調査では、2012-2023年の間に機械学習のための最適なトランスポート(Optimal Transport for Machine Learning)のコントリビューションを調査し、機械学習の4つのサブフィールド(教師なし、教師なし、転送、強化学習)に焦点を当てた。 計算最適輸送とその拡張(部分的、不均衡、グロモフ、ニューラル最適輸送)の最近の発展と機械学習の実践との相互作用をさらに強調する。

Recently, Optimal Transport has been proposed as a probabilistic framework in Machine Learning for comparing and manipulating probability distributions. This is rooted in its rich history and theory, and has offered new solutions to different problems in machine learning, such as generative modeling and transfer learning. In this survey we explore contributions of Optimal Transport for Machine Learning over the period 2012 -- 2023, focusing on four sub-fields of Machine Learning: supervised, unsupervised, transfer and reinforcement learning. We further highlight the recent development in computational Optimal Transport and its extensions, such as partial, unbalanced, Gromov and Neural Optimal Transport, and its interplay with Machine Learning practice.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 機械学習を用いた未知の乱れを動的システムに抑制する

Suppressing unknown disturbances to dynamical systems using machine learning ( http://arxiv.org/abs/2307.03690v5 )

ライセンス: Link先を確認
Juan G. Restrepo, Clayton P. Byers, Per Sebastian Skardal, (参考訳) 力学系に対する未知の障害を同定し、抑制することは、多くの異なる分野の応用において問題となる。 本稿では,未知のシステムに対する未知の障害を,既知の強制関数の影響下での以前の観測に基づいて同定し,抑制するモデルフリーな手法を提案する。 トレーニング関数の極めて穏やかな制限の下で,本手法は未知の乱れの大規模な分類と抑制を堅牢に行うことができる。 提案手法は, 決定的および確率的未知の乱れをアナログ電気カオス回路に同定し, カオス力学系に対するカオス的乱れを同定し抑制する数値例で説明する。

Identifying and suppressing unknown disturbances to dynamical systems is a problem with applications in many different fields. Here we present a model-free method to identify and suppress an unknown disturbance to an unknown system based only on previous observations of the system under the influence of a known forcing function. We find that, under very mild restrictions on the training function, our method is able to robustly identify and suppress a large class of unknown disturbances. We illustrate our scheme with the identification of both deterministic and stochastic unknown disturbances to an analog electric chaotic circuit and with numerical examples where a chaotic disturbance to various chaotic dynamical systems is identified and suppressed.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 内陸海域における船舶の2段階強化学習:経路計画と追従

2-Level Reinforcement Learning for Ships on Inland Waterways: Path Planning and Following ( http://arxiv.org/abs/2307.16769v3 )

ライセンス: Link先を確認
Martin Waltz, Niklas Paulig, Ostap Okhrin, (参考訳) 本稿では、深部強化学習(DRL)に基づく内陸水路(IW)における自動表面車両(ASV)の制御のための現実的なモジュール化フレームワークを提案する。 高レベルローカルパス計画(LPP)ユニットと低レベルパス追従(PF)ユニットの2つのレベルから構成され、それぞれDRLエージェントで構成されている。 LPPエージェントは、動的容器を考慮に入れた経路を計画し、現在の研究環境のギャップを埋める役割を担っている。 さらに, LPP エージェントは交通ルールや水路の形状を適切に検討している。 そこで我々は,時空間再帰型ニューラルネットワークアーキテクチャを連続的な行動空間に適用する新しい手法を提案する。 LPPエージェントは、最先端の人工電位場(APF)法を平均65%向上させ、他の容器への最小距離を65%向上させる。 PF剤は、浅い水の影響や環境力の風、波、電流を考慮しつつ、低レベルのアクチュエータ制御を行う。 比例積分微分(PID)コントローラと比較すると、PFエージェントは平均クロストラック誤差(MCTE)の61%しか得られず、必要な絶対舵角の制御労力(CE)は大幅に減少する。 最後に、両方のエージェントはシミュレーションにおいて共同で検証され、北ドイツのエルベを例に挙げ、他の船の挙動をモデル化するために実際の自動識別システム(AIS)トラジェクトリを使用する。

This paper proposes a realistic modularized framework for controlling autonomous surface vehicles (ASVs) on inland waterways (IWs) based on deep reinforcement learning (DRL). The framework improves operational safety and comprises two levels: a high-level local path planning (LPP) unit and a low-level path following (PF) unit, each consisting of a DRL agent. The LPP agent is responsible for planning a path under consideration of dynamic vessels, closing a gap in the current research landscape. In addition, the LPP agent adequately considers traffic rules and the geometry of the waterway. We thereby introduce a novel application of a spatial-temporal recurrent neural network architecture to continuous action spaces. The LPP agent outperforms a state-of-the-art artificial potential field (APF) method by increasing the minimum distance to other vessels by 65% on average. The PF agent performs low-level actuator control while accounting for shallow water influences and the environmental forces winds, waves, and currents. Compared with a proportional-integral-derivative (PID) controller, the PF agent yields only 61% of the mean cross-track error (MCTE) while significantly reducing control effort (CE) in terms of the required absolute rudder angle. Lastly, both agents are jointly validated in simulation, employing the lower Elbe in northern Germany as an example case and using real automatic identification system (AIS) trajectories to model the behavior of other ships.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 頑健な画像ガウス分解のためのアンフォールド近位ニューラルネットワーク

Unfolded proximal neural networks for robust image Gaussian denoising ( http://arxiv.org/abs/2308.03139v2 )

ライセンス: Link先を確認
Hoang Trieu Vy Le, Audrey Repetti, Nelly Pustelnik, (参考訳) 逆イメージング問題を解決するための一般的なアプローチは、最小化問題を解くことにより、元の未知画像の最大後部推定(MAP)を求めることである。 この文脈では、反復的近似アルゴリズムが広く使われ、非滑らかな関数や線形作用素を扱える。 近年,これらのアルゴリズムは,推定品質をさらに向上するために,ディープラーニング戦略と組み合わせられている。 特に近位ニューラルネットワーク(PNN)が導入され、MAP推定値を求めるために近位アルゴリズムをアンロールすることで、学習された線形演算子とパラメータを含む一定回数のイテレーションが実現されている。 PNNは最適化理論に基づいているため、非常に柔軟であり、近位アルゴリズムがそれを解くことができるとすぐに、任意の画像復元タスクに適応できる。 従来のネットワークよりもはるかに軽量なアーキテクチャを持つ。 本稿では,二元FBと二元Chambolle-Pockアルゴリズムの両方に基づいて,ガウス分母タスクのためのPNNを構築する統一フレームワークを提案する。 さらに、これらのアルゴリズムの慣性バージョンを高速化することで、関連するNN層のスキップ接続が可能になることを示す。 我々は,PNNフレームワークに対して異なる学習戦略を提案し,そのロバスト性(Lipschitz特性)とデノイング効率について検討する。 最後に,画像劣化問題に対するフォワードバックアルゴリズムに接続した場合のPNNの堅牢性を評価する。

A common approach to solve inverse imaging problems relies on finding a maximum a posteriori (MAP) estimate of the original unknown image, by solving a minimization problem. In thiscontext, iterative proximal algorithms are widely used, enabling to handle non-smooth functions and linear operators. Recently, these algorithms have been paired with deep learning strategies, to further improve the estimate quality. In particular, proximal neural networks (PNNs) have been introduced, obtained by unrolling a proximal algorithm as for finding a MAP estimate, but over a fixed number of iterations, with learned linear operators and parameters. As PNNs are based on optimization theory, they are very flexible, and can be adapted to any image restoration task, as soon as a proximal algorithm can solve it. They further have much lighter architectures than traditional networks. In this article we propose a unified framework to build PNNs for the Gaussian denoising task, based on both the dual-FB and the primal-dual Chambolle-Pock algorithms. We further show that accelerated inertial versions of these algorithms enable skip connections in the associated NN layers. We propose different learning strategies for our PNN framework, and investigate their robustness (Lipschitz property) and denoising efficiency. Finally, we assess the robustness of our PNNs when plugged in a forward-backward algorithm for an image deblurring problem.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# 構造的に疎いベイズニューラルネットワークのスパイク・アンド・スラブ収縮前駆体

Spike-and-slab shrinkage priors for structurally sparse Bayesian neural networks ( http://arxiv.org/abs/2308.09104v2 )

ライセンス: Link先を確認
Sanket Jantre, Shrijita Bhattacharya, Tapabrata Maiti, (参考訳) ネットワークの複雑さと計算効率は、ディープラーニングの重要な側面になりつつある。 スパースディープラーニングは、過度にパラメータ化されたディープニューラルネットワークを減らし、基礎となるターゲット機能のスパース表現を復元することで、これらの課題に対処する。 具体的には、構造化されたスパーシリティ(例えばノード間隔)を通じて圧縮されたディープニューラルネットワークは、低レイテンシ推論、データスループットの向上、エネルギー消費の削減を提供する。 本稿では,ベイズニューラルネットワークにおけるモデル圧縮のための2つの確立された縮小手法であるLassoとHorthshoeについて検討する。 この目的のために,過剰なノードを体系的に誘発する構造的疎いベイズニューラルネットワークを提案する。 (i)スパイク・アンド・スラブ・グループ・ラスソ(SS-GL)及び (II)Spike-and-Slab Group Horseshoe (SS-GHS) より先行し,ベルヌーイ変数の連続緩和を含む,計算に追従可能な変分推論を開発する。 本稿では,ネットワークトポロジ,層状ノードの濃度,およびネットワーク重みのバウンダリの関数として,提案モデルの後部モデルの収縮率を確立する。 予測精度, モデル圧縮, 推論遅延において, ベースラインモデルと比較して, モデルの競合性能を実証的に示す。

Network complexity and computational efficiency have become increasingly significant aspects of deep learning. Sparse deep learning addresses these challenges by recovering a sparse representation of the underlying target function by reducing heavily over-parameterized deep neural networks. Specifically, deep neural architectures compressed via structured sparsity (e.g. node sparsity) provide low latency inference, higher data throughput, and reduced energy consumption. In this paper, we explore two well-established shrinkage techniques, Lasso and Horseshoe, for model compression in Bayesian neural networks. To this end, we propose structurally sparse Bayesian neural networks which systematically prune excessive nodes with (i) Spike-and-Slab Group Lasso (SS-GL), and (ii) Spike-and-Slab Group Horseshoe (SS-GHS) priors, and develop computationally tractable variational inference including continuous relaxation of Bernoulli variables. We establish the contraction rates of the variational posterior of our proposed models as a function of the network topology, layer-wise node cardinalities, and bounds on the network weights. We empirically demonstrate the competitive performance of our models compared to the baseline models in prediction accuracy, model compression, and inference latency.
翻訳日:2024-08-22 23:25:53 公開日:2024-08-21
# S$^3$-MonoDETR:モノクロ3次元物体検出のための形状・スケール知覚変形型変圧器

S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection ( http://arxiv.org/abs/2309.00928v2 )

ライセンス: Link先を確認
Xuan He, Jin Yuan, Kailun Yang, Zhenchao Zeng, Zhiyong Li, (参考訳) 近年,1枚の2次元画像から3次元特性を予測できるモノクロ3次元物体検出において,トランスフォーマーを用いた手法は例外的な性能を示した。 これらの手法は通常、オブジェクト上のクエリポイントを生成するために視覚的および深度表現を使用し、その品質は検出精度において決定的な役割を果たす。 しかし、トランスの幾何学的外観を意識しない現在の監視されていない注意機構は、クエリポイントのノイズの多い特徴を生じさせるおそれがあり、これはネットワーク性能を著しく制限し、1つのトレーニングプロセスで複数のカテゴリのオブジェクトを検出する能力に欠ける。 そこで本研究では,モノクロ3Dオブジェクト検出のための‘Supervised Shape&Scale-perceptive Deformable Attention’(S$^3$-DA)モジュールを提案する。 具体的には、S$^3$-DAは視覚的特徴と深度的特徴を利用して、様々な形状とスケールを持つ多様な局所特徴を生成し、対応する分布を同時に予測し、各クエリに価値ある形状とスケールの知覚を与える。 これにより、S$^3$-DAは、任意のカテゴリに属するクエリポイントに対する受容的フィールドを効果的に推定し、堅牢なクエリ機能を生成することができる。 さらに、上記のプロセスを監視するために、マルチ分類に基づく形状・スケールマッチング(MSM)の損失を提案する。 KITTIとWaymo Openデータセットの大規模な実験により、S$^3$-DAは検出精度を著しく向上し、既存のアプローチと比較して、単一カテゴリと複数カテゴリの3Dオブジェクト検出の最先端性能が得られることが示された。 ソースコードはhttps://github.com/mikasa3lili/S3-MonoDETRで公開されている。

Recently, transformer-based methods have shown exceptional performance in monocular 3D object detection, which can predict 3D attributes from a single 2D image. These methods typically use visual and depth representations to generate query points on objects, whose quality plays a decisive role in the detection accuracy. However, current unsupervised attention mechanisms without any geometry appearance awareness in transformers are susceptible to producing noisy features for query points, which severely limits the network performance and also makes the model have a poor ability to detect multi-category objects in a single training process. To tackle this problem, this paper proposes a novel ``Supervised Shape&Scale-perceptive Deformable Attention'' (S$^3$-DA) module for monocular 3D object detection. Concretely, S$^3$-DA utilizes visual and depth features to generate diverse local features with various shapes and scales and predict the corresponding matching distribution simultaneously to impose valuable shape&scale perception for each query. Benefiting from this, S$^3$-DA effectively estimates receptive fields for query points belonging to any category, enabling them to generate robust query features. Besides, we propose a Multi-classification-based Shape&Scale Matching (MSM) loss to supervise the above process. Extensive experiments on KITTI and Waymo Open datasets demonstrate that S$^3$-DA significantly improves the detection accuracy, yielding state-of-the-art performance of single-category and multi-category 3D object detection in a single training process compared to the existing approaches. The source code will be made publicly available at https://github.com/mikasa3lili/S3-MonoDETR.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# ChatGPTがスマートコントラクト脆弱性検出と出会う: どこまで?

When ChatGPT Meets Smart Contract Vulnerability Detection: How Far Are We? ( http://arxiv.org/abs/2309.05520v4 )

ライセンス: Link先を確認
Chong Chen, Jianzhong Su, Jiachi Chen, Yanlin Wang, Tingting Bi, Jianxing Yu, Yanli Wang, Xingwei Lin, Ting Chen, Zibin Zheng, (参考訳) ブロックチェーン技術の発展に伴い、スマートコントラクトはブロックチェーンアプリケーションの重要なコンポーネントになっています。 その重要な役割にもかかわらず、スマートコントラクトの開発は脆弱性を導入し、財務的損失など深刻な結果をもたらす可能性がある。 一方、ChatGPTで表される大きな言語モデルは、コード解析タスクにおける優れた機能を示す大きな注目を集めている。 本稿では,スマートコントラクトの脆弱性を特定する上でのChatGPTの性能について,実証的研究を行った。 当初、我々はChatGPTの有効性を、利用可能なスマートコントラクトデータセットを用いて評価した。 以上の結果から,ChatGPTは高いリコール率を達成するが,スマートコントラクトの脆弱性を特定できる精度は限られていることが判明した。 さらに、ChatGPTのパフォーマンスは、異なる脆弱性タイプを検出するときに異なる。 われわれはChatGPTが生成した偽陽性の根本原因を調査し,これらを4つのグループに分類した。 第二に、ChatGPTと最先端のスマートコントラクトの脆弱性検出ツールを比較することで、ChatGPTのFスコアが7つ中3つよりも低いことがわかった。 残りの4つの脆弱性の場合、ChatGPTはこれらのツールに対してわずかに有利である。 最後に、スマートコントラクト脆弱性検出におけるChatGPTの限界を分析し、この分野でのChatGPTの堅牢性は、質問に対する応答の不確実性、検出コードの長さの2つの側面から改善する必要があることを明らかにした。 一般的に、我々の研究は、スマートコントラクトの脆弱性の検出に大規模な言語モデル、特にChatGPTを使用する際の長所と短所に関する洞察を提供する。

With the development of blockchain technology, smart contracts have become an important component of blockchain applications. Despite their crucial role, the development of smart contracts may introduce vulnerabilities and potentially lead to severe consequences, such as financial losses. Meanwhile, large language models, represented by ChatGPT, have gained great attentions, showcasing great capabilities in code analysis tasks. In this paper, we presented an empirical study to investigate the performance of ChatGPT in identifying smart contract vulnerabilities. Initially, we evaluated ChatGPT's effectiveness using a publicly available smart contract dataset. Our findings discover that while ChatGPT achieves a high recall rate, its precision in pinpointing smart contract vulnerabilities is limited. Furthermore, ChatGPT's performance varies when detecting different vulnerability types. We delved into the root causes for the false positives generated by ChatGPT, and categorized them into four groups. Second, by comparing ChatGPT with other state-of-the-art smart contract vulnerability detection tools, we found that ChatGPT's F-score is lower than others for 3 out of the 7 vulnerabilities. In the case of the remaining 4 vulnerabilities, ChatGPT exhibits a slight advantage over these tools. Finally, we analyzed the limitation of ChatGPT in smart contract vulnerability detection, revealing that the robustness of ChatGPT in this field needs to be improved from two aspects: its uncertainty in answering questions; and the limited length of the detected code. In general, our research provides insights into the strengths and weaknesses of employing large language models, specifically ChatGPT, for the detection of smart contract vulnerabilities.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# KOSMOS-2.5:マルチモーダルリテラルモデル

KOSMOS-2.5: A Multimodal Literate Model ( http://arxiv.org/abs/2309.11419v2 )

ライセンス: Link先を確認
Tengchao Lv, Yupan Huang, Jingye Chen, Yuzhong Zhao, Yilin Jia, Lei Cui, Shuming Ma, Yaoyao Chang, Shaohan Huang, Wenhui Wang, Li Dong, Weiyao Luo, Shaoxiang Wu, Guoxin Wang, Cha Zhang, Furu Wei, (参考訳) テキスト集約画像の自動読解は、人工知能(AGI)の実現に向けた大きな進歩を示している。 本稿では,テキスト集約画像の機械読取のためのマルチモーダルリテラルモデルKOSMOS-2.5を提案する。 テキスト集約画像の大規模コーパスに事前トレーニングされた KOSMOS-2.5 は,(1) テキストの各ブロックが画像内の空間座標に割り当てられる空間認識テキストブロックを生成し,(2) マークダウン形式でスタイルと構造をキャプチャする構造化テキスト出力を生成する。 この統合されたマルチモーダルリテラト機能は、共有デコーダのみの自己回帰トランスフォーマーアーキテクチャとタスク固有のプロンプトによって実現される。 この基礎の上に構築され、文書理解タスクにKoSMOS-2.5を微調整し、KoSMOS-2.5-CHATという文書理解ジェネリストを生み出した。 さらに、様々な領域にまたがる357.4百万の文書ページの大規模なコーパスが事前訓練のためにキュレーションされた。 OCREvalとMarkdownEvalという2つの新しいベンチマークで、文書レベルのテキスト認識と画像からマークダウン生成に KOSMOS-2.5 を評価し、GPT-4o に匹敵する優れた文字処理能力を示した。 KOSMOS-2.5-CHATは、9つのテキストリッチな視覚的質問応答ベンチマークの5倍(1.3B vs. 7B)の最先端のジェネラリストに匹敵するパフォーマンスを達成する。 モデルとコードは \url{https://aka.ms/kosmos25} で公開されている。

The automatic reading of text-intensive images represents a significant advancement toward achieving Artificial General Intelligence (AGI). In this paper we present KOSMOS-2.5, a multimodal literate model for machine reading of text-intensive images. Pre-trained on a large-scale corpus of text-intensive images, KOSMOS-2.5 excels in two distinct yet complementary transcription tasks: (1) generating spatially-aware text blocks, where each block of text is assigned spatial coordinates within the image, and (2) producing structured text output that captures both style and structure in markdown format. This unified multimodal literate capability is achieved through a shared decoder-only autoregressive Transformer architecture and task-specific prompts. Building on this foundation, we fine-tune KOSMOS-2.5 for document understanding tasks, resulting in a document understanding generalist named KOSMOS-2.5-CHAT. Additionally, a large corpus of 357.4 million document pages spanning diverse domains was curated for pre-training. We evaluate KOSMOS-2.5 on two newly proposed benchmarks, OCREval and MarkdownEval, for document-level text recognition and image-to-markdown generation, demonstrating impressive literate capabilities comparable to GPT-4o. KOSMOS-2.5-CHAT achieves performance comparable to other state-of-the-art generalists that are five times larger (1.3B vs. 7B) across nine text-rich visual question answering benchmarks. Models and code have been available at \url{https://aka.ms/kosmos25}.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# 光イオン化とパラメトリック励起を持つイオントラップにおける純$^{43}$Ca$^+$サンプルの準備

Preparing pure $^{43}$Ca$^+$ samples in an ion trap with photoionization and parametric excitations ( http://arxiv.org/abs/2309.11809v3 )

ライセンス: Link先を確認
C. -H. Kuo, Y. -C. Hsiao, C. -Y. Jhang, Y. -D. Chen, S. Tung, (参考訳) 本稿では,レーザー冷却した$^{43}$Ca$^+$イオンをイオントラップで効率的に調製するための実用的手法を提案する。 提案手法は, 同位体選択光イオン化法と同位体特異的パラメトリック励起法という, 確立された2つの方法を統合する。 それぞれの手法の個々の利点からインスピレーションを得て、これらの手法をうまく統合して$^{43}$Ca$^+$イオンの長鎖を調製し、天然資源中の0.135\%の低い自然存在によって引き起こされる課題を克服した。 さらに, 浄化過程に異なる要因が及ぼす影響に着目し, その微妙さを考察する。 本研究は,本手法のより広範な理解に寄与し,特定の同位体問題に対処する確立された手法の適応性を強調した。

We present a practical scheme for the efficient preparation of laser-cooled $^{43}$Ca$^+$ ions in an ion trap. Our approach integrates two well-established methods: isotope-selective photoionization and isotope-specific parametric excitation. Drawing inspiration from the individual merits of each method, we have successfully integrated these techniques to prepare extended chains of $^{43}$Ca$^+$ ions, overcoming the challenge posed by their low natural abundance of 0.135\% in a natural source. Furthermore, we explore the subtleties of our scheme, focusing on the influence of different factors on the purification process. Our investigation contributes to a broader understanding of the technique and highlights the adaptability of established methods in addressing specific isotopic challenges.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# InstructERC:マルチタスク検索型大規模言語モデルとの対話における感情認識の改革

InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2309.11911v5 )

ライセンス: Link先を確認
Shanglin Lei, Guanting Dong, Xiaoping Wang, Keheng Wang, Sirui Wang, (参考訳) 会話の感情認識(ERC)の分野は、文の特徴的エンコーディングと文脈モデリングを分離することに注力し、統一設計に基づく生成パラダイムの探索を欠いている。 本研究では,差別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,ERCタスクを再構築するための新しい手法であるインストラクタCを提案する。 InstructERCは、3つの重要な貢献をしている: 1) 単純だが効果的なテンプレートモジュールを導入し、モデルが多言語対話の監督情報を明示的に統合するのに役立つ。 2)会話における対話の役割関係と将来の感情傾向を暗黙的にモデル化するために,話者識別と感情予測という2つの追加的な感情アライメントタスクを導入する。 (3) ピアリング的に、実際のアプリケーションシナリオに合うように、フィールホイールを通じて、ベンチマーク全体で感情ラベルを統一します。 InstructERCは、この統合データセット上でも素晴らしいパフォーマンスを保っています。 LLMベースのプラグインフレームワークは,従来のすべてのモデルより大幅に優れており,一般的に使用されている3つのERCデータセットに対して包括的なSOTAを実現する。 パラメータ効率およびデータスケーリング実験の大規模解析は、実践シナリオに適用するための実証的なガイダンスを提供する。

The field of emotion recognition of conversation (ERC) has been focusing on separating sentence feature encoding and context modeling, lacking exploration in generative paradigms based on unified designs. In this study, we propose a novel approach, InstructERC, to reformulate the ERC task from a discriminative framework to a generative framework based on Large Language Models (LLMs). InstructERC makes three significant contributions: (1) it introduces a simple yet effective retrieval template module, which helps the model explicitly integrate multi-granularity dialogue supervision information. (2) We introduce two additional emotion alignment tasks, namely speaker identification and emotion prediction tasks, to implicitly model the dialogue role relationships and future emotional tendencies in conversations. (3) Pioneeringly, we unify emotion labels across benchmarks through the feeling wheel to fit real application scenarios. InstructERC still perform impressively on this unified dataset. Our LLM-based plugin framework significantly outperforms all previous models and achieves comprehensive SOTA on three commonly used ERC datasets. Extensive analysis of parameter-efficient and data-scaling experiments provides empirical guidance for applying it in practical scenarios.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# Corex: 複数モデルコラボレーションによる複雑な推論の境界を押し上げる

Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration ( http://arxiv.org/abs/2310.00280v3 )

ライセンス: Link先を確認
Qiushi Sun, Zhangyue Yin, Xiang Li, Zhiyong Wu, Xipeng Qiu, Lingpeng Kong, (参考訳) 大規模言語モデル(LLM)は前例のないペースで進化しており、世界的知識を持つ自然言語処理(NLP)の領域でかなりの能力を発揮している。 超大規模トレーニングコーパスの恩恵を受け、単一のLCMは典型的なNLPタスクを能動的に管理できる。 しかしながら、推論タスクの実行時のパフォーマンスは、内部表現の制限によって制限されている。 この境界をさらに推し進めるために、複雑なタスク解決のための多モデルコラボレーションを開拓する自律エージェントにLSMを変換する新しい汎用戦略スイートであるCorexを紹介します。 人間の行動にインスパイアされたコークスは、議論、レビュー、検索モードなどの多様なコラボレーションパラダイムによって構成され、事実性、忠実性、推論プロセスの信頼性の向上に一括して取り組んでいる。 これらのパラダイムは、LCMが「箱の外を考えて」、幻覚を克服し、より良いソリューションを提供できるようなタスクに依存しないアプローチを促進する。 4種類の推論タスクにまたがる広範囲な実験を通して,複数のLDMを協調して協調作業を行うことは,既存の手法に比べてかなり優れた性能を示すことを示した。 さらなる結果と詳細な分析により,提案手法の費用対効果が示され,LLM間の協調が促進され,アノテーション効率が向上した。

Large Language Models (LLMs) are evolving at an unprecedented pace and have exhibited considerable capability in the realm of natural language processing (NLP) with world knowledge. Benefiting from ultra-large-scale training corpora, a single LLM can manage typical NLP tasks competently. However, its performance in executing reasoning tasks is still confined by the limitations of its internal representations. To push this boundary further, we introduce Corex in this paper, a suite of novel general-purpose strategies that transform LLMs into autonomous agents pioneering multi-model collaborations for complex task-solving. Inspired by human behaviors, Corex is constituted by diverse collaboration paradigms including Debate, Review, and Retrieve modes, which collectively work towards enhancing the factuality, faithfulness, and reliability of the reasoning process. These paradigms foster task-agnostic approaches that enable LLMs to ''think outside the box,'' thereby overcoming hallucinations and providing better solutions. Through extensive experiments across four different types of reasoning tasks, we demonstrate that orchestrating multiple LLMs to work in concert yields substantially better performance compared to existing methods. Further results and in-depth analysis demonstrate the cost-effectiveness of our method, facilitating collaboration among different LLMs and promoting annotation efficiency.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# HYVE: ニューラル距離場のためのハイブリッド頂点エンコーダ

HYVE: Hybrid Vertex Encoder for Neural Distance Fields ( http://arxiv.org/abs/2310.06644v3 )

ライセンス: Link先を確認
Stefan Rhys Jeske, Jonathan Klein, Dominik L. Michels, Jan Bender, (参考訳) 神経形状表現は一般的に、ニューラルネットワークを用いて3次元幾何学を表現すること、例えば、特定の空間位置における符号付き距離または占有値を計算することを指す。 本稿では,1つの前方パスにおける3次元形状の正確な符号化に適したニューラルネットワークアーキテクチャを提案する。 我々のアーキテクチャは、グラフベースおよびボクセルベースのコンポーネントを組み込んだマルチスケールハイブリッドシステムと、連続的に微分可能なデコーダに基づいている。 このハイブリッドシステムは、ニューラルネットワークでポイントベースの特徴をボキシライズする新しい方法を含んでおり、よりスムーズでより詳細な再構成を得るために、指向するポイントクラウドと組み合わせて使用することができる。 さらに,ネットワークは偶数方程式を解くために訓練されており,学習と推論にはゼロレベル集合の知識のみを必要とする。 これは、従来の形状エンコーダアーキテクチャとは対照的に、ネットワークは非ゼロ距離値や形状占有率の事前知識を必要とせず、有効な符号付き距離場を出力できることを意味している。 また、自動デコーダメソッドで使用される潜在コード最適化の代わりに、1つのフォワードパスしか必要としない。 さらに, 表面正規化が十分に定義されていない場合, 非水密曲面や非多様体幾何学の文脈で損失関数を修正し, 符号のない距離場を導出する。 全体として、我々のシステムは、トレーニングの計算オーバーヘッドを減らし、ニューラル距離場を評価するのに役立つ。

Neural shape representation generally refers to representing 3D geometry using neural networks, e.g., computing a signed distance or occupancy value at a specific spatial position. In this paper we present a neural-network architecture suitable for accurate encoding of 3D shapes in a single forward pass. Our architecture is based on a multi-scale hybrid system incorporating graph-based and voxel-based components, as well as a continuously differentiable decoder. The hybrid system includes a novel way of voxelizing point-based features in neural networks, which we show can be used in combination with oriented point-clouds to obtain smoother and more detailed reconstructions. Furthermore, our network is trained to solve the eikonal equation and only requires knowledge of the zero-level set for training and inference. This means that in contrast to most previous shape encoder architectures, our network is able to output valid signed distance fields without explicit prior knowledge of non-zero distance values or shape occupancy. It also requires only a single forward-pass, instead of the latent-code optimization used in auto-decoder methods. We further propose a modification to the loss function in case that surface normals are not well defined, e.g., in the context of non-watertight surfaces and non-manifold geometry, resulting in an unsigned distance field. Overall, our system can help to reduce the computational overhead of training and evaluating neural distance fields, as well as enabling the application to difficult geometry.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# S4Sleep:ディープラーニングベースの睡眠ステージ分類モデルの設計空間の解明

S4Sleep: Elucidating the design space of deep-learning-based sleep stage classification models ( http://arxiv.org/abs/2310.06715v2 )

ライセンス: Link先を確認
Tiezhi Wang, Nils Strodthoff, (参考訳) ポリソムノグラフィー記録における睡眠段階は、レーザー間の大きな変動に悩まされる時間を要する課題である。 したがって、機械学習アルゴリズムの適用の恩恵を受ける必要がある。 この目的のために多くのアルゴリズムが提案されているが、いくつかの重要なアーキテクチャ決定は体系的な探索を受けていない。 本研究では,エンコーダ・予測アーキテクチャの幅広いカテゴリにおいて,これらの設計選択を慎重に検討する。 時系列およびスペクトログラム入力表現の両方に適用可能なロバストアーキテクチャを同定する。 これらのアーキテクチャは、構造化された状態空間モデルを統合コンポーネントとして含み、広範な睡眠健康研究データセットの最先端アプローチと比較して統計的に重要なパフォーマンス改善を実現している。 本研究から得られたアーキテクチャ的洞察は,今後の睡眠ステージング研究に有用であるだけでなく,他の時系列アノテーションタスクとの関連性も期待できる。

Scoring sleep stages in polysomnography recordings is a time-consuming task plagued by significant inter-rater variability. Therefore, it stands to benefit from the application of machine learning algorithms. While many algorithms have been proposed for this purpose, certain critical architectural decisions have not received systematic exploration. In this study, we meticulously investigate these design choices within the broad category of encoder-predictor architectures. We identify robust architectures applicable to both time series and spectrogram input representations. These architectures incorporate structured state space models as integral components and achieve statistically significant performance improvements compared to state-of-the-art approaches on the extensive Sleep Heart Health Study dataset. We anticipate that the architectural insights gained from this study along with the refined methodology for architecture search demonstrated herein will not only prove valuable for future research in sleep staging but also hold relevance for other time series annotation tasks.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# UNK-VQA:マルチモーダル大モデルの留意能力に関するデータセットと証明

UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models ( http://arxiv.org/abs/2310.10942v6 )

ライセンス: Link先を確認
Yangyang Guo, Fangkai Jiao, Zhiqi Shen, Liqiang Nie, Mohan Kankanhalli, (参考訳) 信頼できるAIシステムを構築するためには、VQA(Visual Question Answering)モデルに、解決不可能な質問への回答を控えるように教える必要がある。 現存する研究は、VQAの様々な側面を探求してきたが、この特質を幾らか無視した。 本稿では,UNK-VQAと呼ばれる包括的データセットを提供することで,研究ギャップを埋めることを目的とする。 データセットは、モデルが知らない問題に対処するために特別に設計されている。 この目的のために、私たちはまず、画像または疑問に対して意図的に摂動することで既存のデータを拡張します。 具体的には、質問画像のセマンティクスが元の未摂動分布に近いことを慎重に確認する。 これはつまり、解決不可能な質問の識別が難しくなり、単なる画像置換を含む他の問題とデータセットを分離します。 そこで我々は,新たなマルチモーダル大規模モデルのゼロショットと少数ショットのパフォーマンスを広範囲に評価し,データセットに適用した場合に,それらの重要な制限を見いだす。 また,これらの疑問に対処するための簡単な手法も提案する。 このデータセットは、VQAモデルの禁断能力を高めるための貴重なベンチマークとして機能し、それによってAIシステムの信頼性が向上すると考えています。 この分野のさらなる探索を容易にするため、データセット(https://github.com/guoyang9/UNK-VQA)を利用可能にしました。

Teaching Visual Question Answering (VQA) models to refrain from answering unanswerable questions is necessary for building a trustworthy AI system. Existing studies, though have explored various aspects of VQA but somewhat ignored this particular attribute. This paper aims to bridge the research gap by contributing a comprehensive dataset, called UNK-VQA. The dataset is specifically designed to address the challenge of questions that models do not know. To this end, we first augment the existing data via deliberate perturbations on either the image or question. In specific, we carefully ensure that the question-image semantics remain close to the original unperturbed distribution. By this means, the identification of unanswerable questions becomes challenging, setting our dataset apart from others that involve mere image replacement. We then extensively evaluate the zero- and few-shot performance of several emerging multi-modal large models and discover their significant limitations when applied to our dataset. Additionally, we also propose a straightforward method to tackle these unanswerable questions. This dataset, we believe, will serve as a valuable benchmark for enhancing the abstention capability of VQA models, thereby leading to increased trustworthiness of AI systems. We have made the dataset (https://github.com/guoyang9/UNK-VQA) available to facilitate further exploration in this area.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# アンチフェイクプロンプト:プロンプト調整されたビジョンランゲージモデルがフェイク画像検出器

AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors ( http://arxiv.org/abs/2310.17419v3 )

ライセンス: Link先を確認
You-Ming Chang, Chen Yeh, Wei-Chen Chiu, Ning Yu, (参考訳) 深層生成モデルは、深部フェイク脅威として知られる誤情報や著作権侵害に関する懸念を提起しながら、驚くほど写実的な偽画像を作成することができる。 ディープフェイク検出技術は実画像と偽画像とを区別するために開発され、既存の手法では画像領域や様々な特徴領域の分類器を学習する。 しかし、より先進的な生成モデルに対するディープフェイク検出の一般化は依然として困難である。 本稿では、視覚言語モデル(VLM)のゼロショットの利点に着想を得て、VLM(例: InstructBLIP)を用いてアンティフェイクプロンプト(AntifakePrompt)と呼ばれる新しい手法を提案し、未確認データよりもディープフェイク検出精度を向上させるためのチューニング手法を提案する。 本稿では,視覚的質問応答問題としてディープフェイク検出を定式化し,クエリ画像のリアルタイム/フェイク情報に応答するインストラクションBLIPのソフトプロンプトをチューニングする。 我々は,3つの保持領域と20個の保持領域を持つ生成モデルから得られたデータセットの完全なスペクトル実験を行い,現代のテキスト・画像生成,画像編集,および敵画像攻撃を網羅した。 これらのテストデータセットは、さらなる研究のためにディープフェイク検出の領域で有用なベンチマークを提供する。 さらに,(1) 事前学習した視覚言語モデルを用いて,(1) 深度検出精度を大幅に改善し,かつ連続的に(平均で71.06%から92.11%まで) , 即時チューニングを施し, 優れた性能はトレーニングデータとトレーニング可能なパラメータのコストを低減し, 有効かつ効率的な深度検出ソリューションをもたらすことを示した。 コードとモデルはhttps://github.com/nctu-eva-lab/AntifakePrompt.comにある。

Deep generative models can create remarkably photorealistic fake images while raising concerns about misinformation and copyright infringement, known as deepfake threats. Deepfake detection technique is developed to distinguish between real and fake images, where the existing methods typically learn classifiers in the image domain or various feature domains. However, the generalizability of deepfake detection against emerging and more advanced generative models remains challenging. In this paper, being inspired by the zero-shot advantages of Vision-Language Models (VLMs), we propose a novel approach called AntifakePrompt, using VLMs (e.g., InstructBLIP) and prompt tuning techniques to improve the deepfake detection accuracy over unseen data. We formulate deepfake detection as a visual question answering problem, and tune soft prompts for InstructBLIP to answer the real/fake information of a query image. We conduct full-spectrum experiments on datasets from a diversity of 3 held-in and 20 held-out generative models, covering modern text-to-image generation, image editing and adversarial image attacks. These testing datasets provide useful benchmarks in the realm of deepfake detection for further research. Moreover, results demonstrate that (1) the deepfake detection accuracy can be significantly and consistently improved (from 71.06% to 92.11%, in average accuracy over unseen domains) using pretrained vision-language models with prompt tuning; (2) our superior performance is at less cost of training data and trainable parameters, resulting in an effective and efficient solution for deepfake detection. Code and models can be found at https://github.com/nctu-eva-lab/AntifakePrompt.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# ML-Bench:リポジトリレベルのコードに基づく機械学習タスクのための大規模言語モデルとエージェントの評価

ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code ( http://arxiv.org/abs/2311.09835v5 )

ライセンス: Link先を確認
Xiangru Tang, Yuliang Liu, Zefan Cai, Yanjun Shao, Junjie Lu, Yichi Zhang, Zexuan Deng, Helan Hu, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Liang Chen, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yin Fang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein, (参考訳) GPT-4のような大規模言語モデル(LLM)は、関数レベルのコード生成において印象的な結果をもたらすが、リポジトリスケールのコード理解(例えば、ルーチンを呼び出すための正しい引数を思いつく)に苦慮し、複雑なファイルインタラクションのより深い理解を必要としている。 また、最近では、レポジトリコード(例えば、コンパイルと実行の評価)と対話しようとするLLMエージェントも開発され、パフォーマンスを評価する必要性が高まっている。 ML-Benchは、既存のコードリポジトリを利用してタスクを実行する実世界のプログラミングアプリケーションに根ざしたベンチマークです。 LLMが長いコードコンテキストを解釈し、命令を正確に実行可能なスクリプトに変換する必要性に対処するため、ML-Benchは18のGitHubリポジトリに9,641の注釈付きサンプルを含んでいる。 LLMとAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。 以上の結果から, GPT-4oはPass@5を50%以上でリードするが, 幻覚出力やbashスクリプト生成の難しさなど, 改善の余地は大きいことが示唆された。 特に、より要求の高いML-Agent-Benchでは、GPT-4oは76.47%の成功率に達し、複雑なタスク解決における反復的なアクションとフィードバックの有効性を反映している。 私たちのコード、データセット、モデルはhttps://github.com/gersteinlab/ML-bench.orgで公開されています。

Despite Large Language Models (LLMs) like GPT-4 achieving impressive results in function-level code generation, they struggle with repository-scale code understanding (e.g., coming up with the right arguments for calling routines), requiring a deeper comprehension of complex file interactions. Also, recently, people have developed LLM agents that attempt to interact with repository code (e.g., compiling and evaluating its execution), prompting the need to evaluate their performance. These gaps have motivated our development of ML-Bench, a benchmark rooted in real-world programming applications that leverage existing code repositories to perform tasks. Addressing the need for LLMs to interpret long code contexts and translate instructions into precise, executable scripts, ML-Bench encompasses annotated 9,641 examples across 18 GitHub repositories, challenging LLMs to accommodate user-specified arguments and documentation intricacies effectively. To evaluate both LLMs and AI agents, two setups are employed: ML-LLM-Bench for assessing LLMs' text-to-code conversion within a predefined deployment environment, and ML-Agent-Bench for testing autonomous agents in an end-to-end task execution within a Linux sandbox environment. Our findings indicate that while GPT-4o leads with a Pass@5 rate surpassing 50%, there remains significant scope for improvement, highlighted by issues such as hallucinated outputs and difficulties with bash script generation. Notably, in the more demanding ML-Agent-Bench, GPT-4o achieves a 76.47% success rate, reflecting the efficacy of iterative action and feedback in complex task resolution. Our code, dataset, and models are available at https://github.com/gersteinlab/ML-bench.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# 量子開始スコア

Quantum Inception Score ( http://arxiv.org/abs/2311.12163v4 )

ライセンス: Link先を確認
Akira Sone, Akira Tanji, Naoki Yamamoto, (参考訳) 機械学習における古典的生成モデルの成功に触発されて、量子バージョンの熱心な探索が最近始まった。 この旅に出発するためには、量子生成モデルの質を評価するための関連する指標を開発することが重要である。 本稿では,cISの自然な拡張として,量子発生器の量子開始スコア(qIS)を提案する。 重要な点として、QISは、与えられたデータセットを分類する量子チャネルのホレボ情報に品質を関連付ける。 この文脈では、qISのいくつかの特性を示す。 第一に、qISは対応するcISよりも大きいか等しいかであり、システム出力の投影測定によって定義される。 第2に、QISとcISの違いは、非対称性の資源理論によって特徴づけられるように、量子コヒーレンスの存在から生じる。 第3に、絡み合ったジェネレータのセットを用意した場合には、QISのさらなる拡張につながる分類プロセスが存在する。 第4に、量子ゆらぎ定理を利用して、QISの物理的極限を特徴づける。 最後に、量子多体物理学における位相分類問題に対して、量子畳み込みニューラルネットワークを量子分類器として、量子生成モデルとして1次元スピンチェーンモデルの品質を評価するためにqISを適用した。

Motivated by the great success of classical generative models in machine learning, enthusiastic exploration of their quantum version has recently started. To depart on this journey, it is important to develop a relevant metric to evaluate the quality of quantum generative models; in the classical case, one such example is the (classical) inception score (cIS). In this paper, as a natural extension of cIS, we propose the quantum inception score (qIS) for quantum generators. Importantly, qIS relates the quality to the Holevo information of the quantum channel that classifies a given dataset. In this context, we show several properties of qIS. First, qIS is greater than or equal to the corresponding cIS, which is defined through projection measurements on the system output. Second, the difference between qIS and cIS arises from the presence of quantum coherence, as characterized by the resource theory of asymmetry. Third, when a set of entangled generators is prepared, there exists a classifying process leading to the further enhancement of qIS. Fourth, we harness the quantum fluctuation theorem to characterize the physical limitation of qIS. Finally, we apply qIS to assess the quality of the one-dimensional spin chain model as a quantum generative model, with the quantum convolutional neural network as a quantum classifier, for the phase classification problem in the quantum many-body physics.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# 手続き的に定義されたタスクに対する微調整の効果の機械的解析

Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks ( http://arxiv.org/abs/2311.12786v2 )

ライセンス: Link先を確認
Samyak Jain, Robert Kirk, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka, Edward Grefenstette, Tim Rocktäschel, David Scott Krueger, (参考訳) 微調整された大規模な事前学習モデルは、安全なデプロイモデルを含むタスク固有と汎用の両方の機械学習システムの開発において、事実上の戦略となっている。 その明確な重要性にもかかわらず、微調整が事前トレーニング中にモデルによって学習された基礎能力をどのように変えるかを説明する最小限の作業がある。 我々は、モデルの基本機能がどのように変化しているかを理解するために、機械的解釈可能性ツール(例えば、ネットワークプルーニングや探索)を使用できる合成制御された環境において、この疑問に実証的に対処する。 これらの設定における微調整の効果を網羅的に分析し,その有効性を示す。 (i)微調整が基礎となるモデル能力を変えることはめったにない。 (ii)「ラッパー」と呼ばれる最小限の変換は、典型的には基礎となるモデル能力に基づいて学習され、修正されたという錯覚を生み出します。 3)そのような隠れた能力が関係するタスクのさらなる微調整は、その能力のサンプル効率の「復活」につながる。 これは、実践者が故意にモデルのセーフティラッパーを、例えば、表面的に無関係な下流タスクで微調整するだけで取り除くことができることを示している。 さらに、TinyStoriesデータセットでトレーニングされた言語モデルの解析を行い、より現実的な設定でクレームをサポートします。

Fine-tuning large pre-trained models has become the de facto strategy for developing both task-specific and general-purpose machine learning systems, including developing models that are safe to deploy. Despite its clear importance, there has been minimal work that explains how fine-tuning alters the underlying capabilities learned by a model during pretraining: does fine-tuning yield entirely novel capabilities or does it just modulate existing ones? We address this question empirically in synthetic, controlled settings where we can use mechanistic interpretability tools (e.g., network pruning and probing) to understand how the model's underlying capabilities are changing. We perform an extensive analysis of the effects of fine-tuning in these settings, and show that: (i) fine-tuning rarely alters the underlying model capabilities; (ii) a minimal transformation, which we call a 'wrapper', is typically learned on top of the underlying model capabilities, creating the illusion that they have been modified; and (iii) further fine-tuning on a task where such hidden capabilities are relevant leads to sample-efficient 'revival' of the capability, i.e., the model begins reusing these capability after only a few gradient steps. This indicates that practitioners can unintentionally remove a model's safety wrapper merely by fine-tuning it on a, e.g., superficially unrelated, downstream task. We additionally perform analysis on language models trained on the TinyStories dataset to support our claims in a more realistic setup.
翻訳日:2024-08-22 23:15:31 公開日:2024-08-21
# SAR ATRの自己監督型学習と統合組込み予測アーキテクチャ

Predicting Gradient is Better: Exploring Self-Supervised Learning for SAR ATR with a Joint-Embedding Predictive Architecture ( http://arxiv.org/abs/2311.15153v5 )

ライセンス: Link先を確認
Weijie Li, Yang Wei, Tianpeng Liu, Yuenan Hou, Yuxuan Li, Zhen Liu, Yongxiang Liu, Li Liu, (参考訳) 成長するSAR(Synthetic Aperture Radar)データには,SAR自動ターゲット認識(ATR)タスクを大規模未ラベルデータで事前学習し,小さなラベル付きサンプルで微調整することで,自己監視学習(SSL)手法による基礎モデル構築の可能性がある。 SSLはデータから直接監視信号を構築することを目的としており、これは高価な専門家アノテーションの必要性を最小限に抑え、基礎的なモデルのために拡張データプールの使用を最大化する。 本研究では,SAR ATRの基盤モデル構築に有効なSSL方式について検討した。 SAR ATRのSSLで直面する主な障害は、SSLアプローチと信号に対応する、SAR画像のリモートセンシングとスペックルノイズの小さなターゲットである。 これらの課題を克服するために,SAR ATR (SAR-JEPA) のための新しい統合埋め込み予測アーキテクチャを提案する。 SAR-JEPAのキーとなる側面は、SARドメイン機能を統合して、高品質な自己監視シグナルをターゲットとして確保することだ。 さらに、リモートセンシングにおいて、様々な小さなターゲットに対応するために、ローカルマスクとマルチスケール特徴を用いる。 3つの目標認識データセット(車両、船舶、航空機)のフレームワークを事前トレーニングとして微調整し、評価することにより、他のSSLメソッドよりも優れた性能を示し、SARデータの増加による有効性を示す。 この研究は、さまざまなターゲット、シーン、センサーにわたるSARターゲット認識のためのSSLの可能性を示し、我々のコードと重みは \url{https://github.com/waterdisappear/SAR-JEPAで利用可能である。

The growing Synthetic Aperture Radar (SAR) data has the potential to build a foundation model through Self-Supervised Learning (SSL) methods, which can achieve various SAR Automatic Target Recognition (ATR) tasks with pre-training in large-scale unlabeled data and fine-tuning in small labeled samples. SSL aims to construct supervision signals directly from the data, which minimizes the need for expensive expert annotation and maximizes the use of the expanding data pool for a foundational model. This study investigates an effective SSL method for SAR ATR, which can pave the way for a foundation model in SAR ATR. The primary obstacles faced in SSL for SAR ATR are the small targets in remote sensing and speckle noise in SAR images, corresponding to the SSL approach and signals. To overcome these challenges, we present a novel Joint-Embedding Predictive Architecture for SAR ATR (SAR-JEPA), which leverages local masked patches to predict the multi-scale SAR gradient representations of unseen context. The key aspect of SAR-JEPA is integrating SAR domain features to ensure high-quality self-supervised signals as target features. Besides, we employ local masks and multi-scale features to accommodate the various small targets in remote sensing. By fine-tuning and evaluating our framework on three target recognition datasets (vehicle, ship, and aircraft) with four other datasets as pre-training, we demonstrate its outperformance over other SSL methods and its effectiveness with increasing SAR data. This study showcases the potential of SSL for SAR target recognition across diverse targets, scenes, and sensors.Our codes and weights are available in \url{https://github.com/waterdisappear/SAR-JEPA.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# Hopfield Networkのダイナミクスを加速する - 同期アップデートとフォワード・オイラーを超えて

Accelerating Hopfield Network Dynamics: Beyond Synchronous Updates and Forward Euler ( http://arxiv.org/abs/2311.15673v2 )

ライセンス: Link先を確認
Cédric Goemaere, Johannes Deleu, Thomas Demeester, (参考訳) ホップフィールドネットワークは機械学習の基本的なエネルギーベースモデルとして機能し、通常の微分方程式(ODE)を通してメモリ検索のダイナミクスをキャプチャする。 ODEの平衡点であるモデルの出力は、伝統的にフォワード・オイラー法を用いて同期更新によって計算される。 本稿では,このアプローチの欠点を克服することを目的とする。 本稿では, ホップフィールドネットワークをDeep Equilibrium Models (DEQ) のインスタンスとみなす概念シフトを提案する。 DEQフレームワークは、特殊なソルバの使用を可能にするだけでなく、実証的な推論技術に関する新たな洞察をもたらします。 本手法の理論的解析により,従来の同期更新の約2倍の速さで収束する並列化可能な非同期更新方式が明らかになった。 実験的な評価はこれらの知見を検証し、DECフレームワークの利点とホップフィールドネットワークにおけるエネルギー最小化のディジタルシミュレーションにおける偶数分割の利点を示した。 コードはhttps://github.com/cgoemaere/hopdeqで公開されている。

The Hopfield network serves as a fundamental energy-based model in machine learning, capturing memory retrieval dynamics through an ordinary differential equation (ODE). The model's output, the equilibrium point of the ODE, is traditionally computed via synchronous updates using the forward Euler method. This paper aims to overcome some of the disadvantages of this approach. We propose a conceptual shift, viewing Hopfield networks as instances of Deep Equilibrium Models (DEQs). The DEQ framework not only allows for the use of specialized solvers, but also leads to new insights on an empirical inference technique that we will refer to as 'even-odd splitting'. Our theoretical analysis of the method uncovers a parallelizable asynchronous update scheme, which should converge roughly twice as fast as the conventional synchronous updates. Empirical evaluations validate these findings, showcasing the advantages of both the DEQ framework and even-odd splitting in digitally simulating energy minimization in Hopfield networks. The code is available at https://github.com/cgoemaere/hopdeq
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# 通勤運転者によるLCUの低オーバーヘッド並列化

Low-Overhead Parallelisation of LCU via Commuting Operators ( http://arxiv.org/abs/2312.00696v3 )

ライセンス: Link先を確認
Gregory Boyd, (参考訳) リニアコンビネーション・オブ・ユニタリー(LCU)法は演算子のブロック符号化の強力なスキームであるが、高いオーバーヘッドに悩まされている。 本稿では,LCUの並列化,特にLCUのSELECTサブルーチンについて,可観測粒子を通勤演算子の群に分割した上で,必要なクリフォード回路を一定深さで実行可能にする適応回路とテレポーテーションの利用について論じる。 また,本研究の主な事例であるQROM回路の並列化について考察し,制御レジスタ上の多制御ゲートの動作を並列化する手法を提案する。 分子ハミルトニアンの場合、深度保存は$O(n)$であり、約$n/2$であることを示す数値は$O(n)$である。 また, 並列化によって要求されるT$ファクトリ数が増加する場合でも, 並列化が$T$-countを変更することなく, 論理アルゴリズムと同じ係数で$T$-depthを低減し, 計算全体の時空間容積を大幅に削減できることを示す。

The Linear Combination of Unitaries (LCU) method is a powerful scheme for the block encoding of operators but suffers from high overheads. In this work, we discuss the parallelisation of LCU and in particular the SELECT subroutine of LCU based on partitioning of observables into groups of commuting operators, as well as the use of adaptive circuits and teleportation that allow us to perform required Clifford circuits in constant depth. We additionally discuss the parallelisation of QROM circuits which are a special case of our main results, and provide methods to parallelise the action of multi-controlled gates on the control register. We only require an $O(\log n)$ factor increase in the number of qubits in order to produce a significant depth reduction, with prior work suggesting that for molecular Hamiltonians, the depth saving is $O(n)$, and numerics indicating depth savings of a factor approximately $n/2$. The implications of our method in the fault-tolerant setting are also considered, noting that parallelisation reduces the $T$-depth by the same factor as the logical algorithm, without changing the $T$-count, and that our method can significantly reduce the overall space-time volume of the computation, even when including the increased number of $T$ factories required by parallelisation.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# OccNeRF:LiDARフリー環境での3D作業予測の改善

OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments ( http://arxiv.org/abs/2312.09243v3 )

ライセンス: Link先を確認
Chubin Zhang, Juncheng Yan, Yi Wei, Jiaxin Li, Li Liu, Yansong Tang, Yueqi Duan, Jiwen Lu, (参考訳) 活動予測は周囲環境の3次元構造を再構築する。 自動運転計画とナビゲーションに関する詳細な情報を提供する。 しかし、既存のほとんどの手法は、視覚ベースのシステムでは利用できない占領地真実を生成するために、LiDAR点雲に大きく依存している。 本稿では,OccNeRF法を用いて,3次元の監督なしに占有ネットワークを訓練する手法を提案する。 境界シーンを考慮した従来の作業と異なり、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。 ニューラルレンダリングは、被写界をマルチカメラ深度マップに変換するために採用され、多フレーム光度一貫性によって教師される。 さらに,セマンティック占有予測のために,事前学習したオープン語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。 nuScenes と SemanticKITTI データセット上での自己監督深度推定と 3 次元占有予測の両タスクの広範な実験により,本手法の有効性が示された。

Occupancy prediction reconstructs 3D structures of surrounding environments. It provides detailed information for autonomous driving planning and navigation. However, most existing methods heavily rely on the LiDAR point clouds to generate occupancy ground truth, which is not available in the vision-based system. In this paper, we propose an OccNeRF method for training occupancy networks without 3D supervision. Different from previous works which consider a bounded scene, we parameterize the reconstructed occupancy fields and reorganize the sampling strategy to align with the cameras' infinite perceptive range. The neural rendering is adopted to convert occupancy fields to multi-camera depth maps, supervised by multi-frame photometric consistency. Moreover, for semantic occupancy prediction, we design several strategies to polish the prompts and filter the outputs of a pretrained open-vocabulary 2D segmentation model. Extensive experiments for both self-supervised depth estimation and 3D occupancy prediction tasks on nuScenes and SemanticKITTI datasets demonstrate the effectiveness of our method.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# Silent Guardian: 大規模言語モデルによる悪意ある爆発からテキストを保護する

Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models ( http://arxiv.org/abs/2312.09669v5 )

ライセンス: Link先を確認
Jiawei Zhao, Kejiang Chen, Xiaojian Yuan, Yuang Qi, Weiming Zhang, Nenghai Yu, (参考訳) 大規模言語モデル(LLM)の急速な開発は、様々な下流タスクにおいて顕著な成功を収めた。 しかし、LLMの膨大な可能性と目覚ましい能力は、その開放性のために悪用された場合、新たなセキュリティとプライバシの懸念も引き起こす。 例えば、LSMは、文書を盗用したり、模倣したりすることで、オリジナルコンテンツの著作権を侵害したり、特定のソーステキストに基づいて識別できない偽の情報を生成したりすることができる。 場合によっては、LLMは個人のプライバシーを推測するためにインターネットからテキストを分析することもできる。 残念なことに、従来のテキスト保護研究は強力なLSMの出現を予測できなかったため、この新しい文脈ではもはや効果を示さなかった。 このギャップを埋めるために,LLMに対するテキスト保護機構であるSilent Guardian(SG)を導入する。 具体的には,まず,トラニケート保護事例(TPE)の概念を提案する。 保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。 さらに,テキストデータの離散空間においてTPEを効率的に構築するために,高効率であるだけでなく,最適化プロセス中にテキストのセマンティック一貫性を維持できる,Super Tailored Protection (STP)と呼ばれる新しい最適化アルゴリズムを提案する。 総合的な実験評価により、SGは様々な構成下でターゲットテキストを効果的に保護でき、場合によってはほぼ100%の保護成功率を達成できることが示された。 特に、SGは比較的優れた転送性とロバスト性を示しており、現実的なシナリオでも適用可能である。 私たちのコードはhttps://github.com/weiyezhimeng/Silent-Guardian.comで公開されています。

The rapid development of large language models (LLMs) has yielded impressive success in various downstream tasks. However, the vast potential and remarkable capabilities of LLMs also raise new security and privacy concerns if they are exploited for nefarious purposes due to their open-endedness. For example, LLMs may be used to plagiarize or imitate writing, thereby infringing the copyright of the original content, or to create indiscriminate fake information based on a certain source text. In some cases, LLMs can even analyze text from the Internet to infer personal privacy. Unfortunately, previous text protection research could not foresee the emergence of powerful LLMs, rendering it no longer effective in this new context. To bridge this gap, we introduce Silent Guardian (SG), a text protection mechanism against LLMs, which allows LLMs to refuse to generate response when receiving protected text, preventing the malicious use of text from the source. Specifically, we first propose the concept of Truncation Protection Examples (TPE). By carefully modifying the text to be protected, TPE can induce LLMs to first sample the end token, thus directly terminating the interaction. In addition, to efficiently construct TPE in the discrete space of text data, we propose a novel optimization algorithm called Super Tailored Protection (STP), which is not only highly efficient but also maintains the semantic consistency of the text during the optimization process. The comprehensive experimental evaluation demonstrates that SG can effectively protect the target text under various configurations and achieve almost 100% protection success rate in some cases. Notably, SG also exhibits relatively good transferability and robustness, making its application in practical scenarios possible. Our code is available at https://github.com/weiyezhimeng/Silent-Guardian.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# Paraphrasing the Original Text"による学習の長期化

Training With "Paraphrasing the Original Text" Improves Long-Context Performance ( http://arxiv.org/abs/2312.11193v9 )

ライセンス: Link先を確認
Yijiong Yu, Yongfeng Huang, Zhixiao Qi, Zhe Zhou, (参考訳) 大きな言語モデル(LLM)が進化を続けるにつれ、長いコンテキスト入力を扱うように設計されている。 この進歩にもかかわらず、それらの多くは、長いコンテキストのタスクを正確に処理する上での課題に直面しており、しばしば「中間にあるロスト」の問題を示している。 この問題の重要な原因の一つとして,検索能力の不足があげられる。 この課題に対処するために,LLMの習熟度を向上し,長いコンテキストから鍵情報を抽出することを目的とした,長文タスクのためのトレーニングデータ設計手法を提案する。 特に、トレーニングサンプルの回答を構築し、モデルを微調整する際、"原文のパラフレーズ化"という追加の部品を組み込む。 Llama および Qwen シリーズのモデルを用いた LongBench と NaturalQuestions のマルチドキュメント QA データセットを実験した結果,Llama および Qwen シリーズの平均スコアの最大 8.48% と 4.48% の改善が達成され,長文タスクにおけるモデル s の性能向上に有効であることが示唆された。 モデルとトレーニングデータはHuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k)で公開されている。

As Large Language Models (LLMs) continue to evolve, more are being designed to handle long-context inputs. Despite this advancement, most of them still face challenges in accurately handling long-context tasks, often showing the "lost in the middle" issue. We identify that insufficient retrieval capability is one of the important reasons for this issue. To tackle this challenge, we propose a novel approach to design training data for long-context tasks, aiming at augmenting LLMs' proficiency in extracting key information from long context. Specially, we incorporate an additional part named "paraphrasing the original text" when constructing the answer of training samples and then fine-tuning the model. Experimenting on LongBench and NaturalQuestions Multi-document-QA dataset with models of Llama and Qwen series, our method achieves an improvement of up to 8.48% and 4.48% in average scores, respectively, showing effectiveness in improving the model' s performance on long-context tasks. The model and training data have been made available on HuggingFace(https://huggingface.co/yuyijiong/Qwen-14b-chat-yarn-32k).
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# 協調型ディープニューラルネットワークによるエッジAI

Edge AI as a Service with Coordinated Deep Neural Networks ( http://arxiv.org/abs/2401.00631v2 )

ライセンス: Link先を確認
Alireza Maleki, Hamed Shah-Mansouri, Babak H. Khalaj, (参考訳) 人工知能(AI)アプリケーションが次世代ネットワークで拡大を続けるにつれ、ディープニューラルネットワーク(DNN)モデルの必要性が高まっている。 エッジにデプロイされたDNNモデルは、低レイテンシでAIをサービスとして提供することを約束しているが、その協力はまだ検討されていない。 本稿では、DNNサービスプロバイダが、モデルパラメータと同様に計算資源を共有し、ミラーリングなしで他のDNNが計算をオフロードできるようにする。 我々は,新たな推論経路を確立することにより,DNNサービス間の協調を容易にする,エッジ上での協調DNN(\textbf{CoDE})と呼ばれる新しいアルゴリズムを提案する。 CoDEは、個々のモデルからマルチタスクのDNNを作成することで、最高の報酬が得られるパスである最適なパスを見つけることを目的としている。 報酬は推論スループットとモデルの精度を反映する。 CoDEでは、DNNモデルは、独自のモデルや他のモデルのパラメータを使用して、推論のための新しいパスを作成することができる。 次に,数値実験によるCoDEの性能評価を行った。 その結果、推論スループットは40 %$増加し、平均精度は2.3 %$に低下した。 実験により,CoDEは推論スループットを向上し,最先端の既存手法に比べて高精度であることがわかった。

As artificial intelligence (AI) applications continue to expand in next-generation networks, there is a growing need for deep neural network (DNN) models. Although DNN models deployed at the edge are promising for providing AI as a service with low latency, their cooperation is yet to be explored. In this paper, we consider that DNN service providers share their computing resources as well as their models' parameters and allow other DNNs to offload their computations without mirroring. We propose a novel algorithm called coordinated DNNs on edge (\textbf{CoDE}) that facilitates coordination among DNN services by establishing new inference paths. CoDE aims to find the optimal path, which is the path with the highest possible reward, by creating multi-task DNNs from individual models. The reward reflects the inference throughput and model accuracy. With CoDE, DNN models can make new paths for inference by using their own or other models' parameters. We then evaluate the performance of CoDE through numerical experiments. The results demonstrate a $40\%$ increase in the inference throughput while degrading the average accuracy by only $2.3\%$. Experiments show that CoDE enhances the inference throughput and, achieves higher precision compared to a state-of-the-art existing method.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# メンタルヘルスにおける大規模言語モデル:スコーピング・レビュー

Large Language Models in Mental Health Care: a Scoping Review ( http://arxiv.org/abs/2401.02984v2 )

ライセンス: Link先を確認
Yining Hua, Fenglin Liu, Kailai Yang, Zehan Li, Hongbin Na, Yi-han Sheu, Peilin Zhou, Lauren V. Moran, Sophia Ananiadou, Andrew Beam, John Torous, (参考訳) メンタルヘルスにおける大規模言語モデル(LLM)の統合は、新たな分野である。 アプリケーションの結果を体系的にレビューし、臨床設定の利点と限界を明確にすることが必要である。 本総説は、精神医療におけるLSMの使用について、その効果、課題、将来的な応用の可能性について、総合的に概観することを目的としている。 2023年11月にPubMed、Web of Science、Google Scholar、arXiv、medRxiv、PsyArXivを含む複数のデータベースで体系的な検索が行われた。 2019年10月1日から2023年12月2日までに公表または配布された、ピアレビューの有無にかかわらず、オリジナルの研究は、T5以降に開発されたLSMを使用し、メンタルヘルス設定における直接的な研究課題に対処する場合、言語制限なしで含まれる。 最初の313項目から、34項目は、精神医療におけるLSM適用と、報告された結果の堅牢性に基づく包括的基準を満たした。 診断、治療、患者のエンゲージメント向上など、精神医療におけるLSMの多種多様な応用が同定される。 主な課題は、データの可用性と信頼性、精神状態の微妙な扱い、効果的な評価方法である。 精度とアクセシビリティの改善は成功したものの、臨床応用可能性と倫理的考察のギャップは明らかであり、堅牢なデータの必要性、標準化された評価、学際的な協調の必要性が指摘された。 LLMはメンタルヘルスの強化を約束している。 そのためには、堅牢なデータセット、開発および評価フレームワーク、倫理的ガイドライン、現在の制限に対処するための学際的コラボレーションの開発に重点を置く必要がある。

The integration of large language models (LLMs) in mental health care is an emerging field. There is a need to systematically review the application outcomes and delineate the advantages and limitations in clinical settings. This review aims to provide a comprehensive overview of the use of LLMs in mental health care, assessing their efficacy, challenges, and potential for future applications. A systematic search was conducted across multiple databases including PubMed, Web of Science, Google Scholar, arXiv, medRxiv, and PsyArXiv in November 2023. All forms of original research, peer-reviewed or not, published or disseminated between October 1, 2019, and December 2, 2023, are included without language restrictions if they used LLMs developed after T5 and directly addressed research questions in mental health care settings. From an initial pool of 313 articles, 34 met the inclusion criteria based on their relevance to LLM application in mental health care and the robustness of reported outcomes. Diverse applications of LLMs in mental health care are identified, including diagnosis, therapy, patient engagement enhancement, etc. Key challenges include data availability and reliability, nuanced handling of mental states, and effective evaluation methods. Despite successes in accuracy and accessibility improvement, gaps in clinical applicability and ethical considerations were evident, pointing to the need for robust data, standardized evaluations, and interdisciplinary collaboration. LLMs hold substantial promise for enhancing mental health care. For their full potential to be realized, emphasis must be placed on developing robust datasets, development and evaluation frameworks, ethical guidelines, and interdisciplinary collaborations to address current limitations.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# Universal Time-Series Representation Learning: A Survey

Universal Time-Series Representation Learning: A Survey ( http://arxiv.org/abs/2401.03717v2 )

ライセンス: Link先を確認
Patara Trirat, Yooju Shin, Junhyeok Kang, Youngeun Nam, Jihye Na, Minyoung Bae, Joeun Kim, Byunghyun Kim, Jae-Gil Lee, (参考訳) 時系列データは、空の衛星から人体のウェアラブルデバイスまで、現実世界のシステムやサービスのあらゆるコーナーに存在する。 これらの時系列から貴重な情報を抽出して推論することによって表現を学習することは、特定の現象の複雑なダイナミクスを理解し、情報的決定を可能にするために重要である。 学習した表現により、より効果的に多数の下流分析を行うことができる。 いくつかのアプローチの中で、ディープラーニングは、手動の特徴工学を使わずに時系列データから隠れパターンや特徴を抽出する際、顕著な性能を示した。 本調査はまず,時系列における最先端の普遍的表現学習手法の設計における3つの基本的要素に基づく新しい分類法を提案する。 提案する分類学では,既存の研究を包括的にレビューし,これらの手法が学習表現の質を高める方法に関する直観と洞察について考察する。 最後に、今後の研究の指針として、実験装置とデータセットを概説し、いくつかの有望な研究方向性について論じる。 最新の対応リソースはhttps://github.com/itouchz/awesome-deep-time-series-representationsで公開されている。

Time-series data exists in every corner of real-world systems and services, ranging from satellites in the sky to wearable devices on human bodies. Learning representations by extracting and inferring valuable information from these time series is crucial for understanding the complex dynamics of particular phenomena and enabling informed decisions. With the learned representations, we can perform numerous downstream analyses more effectively. Among several approaches, deep learning has demonstrated remarkable performance in extracting hidden patterns and features from time-series data without manual feature engineering. This survey first presents a novel taxonomy based on three fundamental elements in designing state-of-the-art universal representation learning methods for time series. According to the proposed taxonomy, we comprehensively review existing studies and discuss their intuitions and insights into how these methods enhance the quality of learned representations. Finally, as a guideline for future studies, we summarize commonly used experimental setups and datasets and discuss several promising research directions. An up-to-date corresponding resource is available at https://github.com/itouchz/awesome-deep-time-series-representations.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# ホログラフィーによる量子位置検証限界ハミルトンシミュレーションの安全性

Security of quantum position-verification limits Hamiltonian simulation via holography ( http://arxiv.org/abs/2401.09058v2 )

ライセンス: Link先を確認
Harriet Apel, Toby Cubitt, Patrick Hayden, Tamara Kohler, David Pérez-García, (参考訳) ホログラフィック量子誤り訂正符号を玩具モデルとして用いて,[MPS19]で確立された量子位置検証(QPV)とホログラフィーの関連性を検討した。 ハミルトン相互作用強度を介してAdS計量の「時間的」スケーリングを手で挿入することにより、一貫した因果構造を持つ玩具モデルを復元する。 位置ベースの検証が小さな絡み合いを持つ攻撃に対して安全ならば、一方のハミルトン人が別の量子情報をシミュレートするために必要なリソースに対して、新たな基本的な下位境界が存在する。

We investigate the link between quantum position-verification (QPV) and holography established in [MPS19] using holographic quantum error correcting codes as toy models. By inserting the "temporal" scaling of the AdS metric by hand via the bulk Hamiltonian interaction strength, we recover a toy model with consistent causality structure. This leads to an interesting implication between two topics in quantum information: if position-based verification is secure against attacks with small entanglement then there are new fundamental lower bounds for resources required for one Hamiltonian to simulate another.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# 線形加算アテンション変換器を用いた高効率生成対向ネットワーク

Efficient generative adversarial networks using linear additive-attention Transformers ( http://arxiv.org/abs/2401.09596v2 )

ライセンス: Link先を確認
Emilio Morales-Juarez, Gibran Fuentes-Pineda, (参考訳) 拡散モデル (DM) やGAN (Generative Adversarial Networks) のような画像生成のための深層生成モデルの能力は近年劇的に向上しているが、その成功の多くは計算コストの高いアーキテクチャによるものである。 これにより、大規模な資源を持つ研究所や企業への採用や利用が制限され、トレーニング、微調整、推論のための炭素フットプリントが著しく高められた。 本稿では,Ladaformerという新しいトランスフォーマーブロック上に構築した,効率的な生成対向ネットワークであるLadaGANについて述べる。 このブロックの主成分は、二次的なドット積の注意ではなく、頭部あたりの1つの注意ベクトルを計算する線形加法アテンション機構である。 生成器と識別器の両方にLadaformerを使用し、計算複雑性を低減し、Transformer GANに関連するトレーニングの不安定さを克服する。 LadaGANは、異なる解像度のベンチマークデータセットにおいて、既存の畳み込みとトランスフォーマーGANをはるかに効率よく、一貫して上回っている。 さらに、LadaGANは最先端のマルチステップ生成モデル(例えばDM)と比較して、桁違いの少ない計算資源を用いた競合性能を示す。

Although the capacity of deep generative models for image generation, such as Diffusion Models (DMs) and Generative Adversarial Networks (GANs), has dramatically improved in recent years, much of their success can be attributed to computationally expensive architectures. This has limited their adoption and use to research laboratories and companies with large resources, while significantly raising the carbon footprint for training, fine-tuning, and inference. In this work, we present LadaGAN, an efficient generative adversarial network that is built upon a novel Transformer block named Ladaformer. The main component of this block is a linear additive-attention mechanism that computes a single attention vector per head instead of the quadratic dot-product attention. We employ Ladaformer in both the generator and discriminator, which reduces the computational complexity and overcomes the training instabilities often associated with Transformer GANs. LadaGAN consistently outperforms existing convolutional and Transformer GANs on benchmark datasets at different resolutions while being significantly more efficient. Moreover, LadaGAN shows competitive performance compared to state-of-the-art multi-step generative models (e.g. DMs) using orders of magnitude less computational resources.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# ニューラル擬似補正による終端GPS位置推定に向けて

Towards End-to-End GPS Localization with Neural Pseudorange Correction ( http://arxiv.org/abs/2401.10685v2 )

ライセンス: Link先を確認
Xu Weng, KV Ling, Haochen Liu, Kun Cao, (参考訳) 擬似乱射誤差はGPSにおける局所化不正確性の根本原因の1つである。 従来のデータ駆動手法は、手作り中間ラベルを用いて擬似乱数エラーを退避し除去する。 これとは違って,GPS受信機状態の真理で計算された最終タスク損失を直接利用して,疑似レンジ補正(PrNet)のためのニューラルネットワークをトレーニングする,エンドツーエンドのGPSローカライズフレームワークであるE2E-PrNetを提案する。 学習可能なパラメータに対する損失の勾配は、微分可能な非線形最小広場(DNLS)オプティマイザを通じてPrNetに逆伝搬される。 データ駆動型ニューラルネットワークとモデルベースのDNLSモジュールを融合させることの可能性は、Androidフォンが収集したGPSデータで検証され、E2E-PrNetがベースライン重み付き最小二乗法と最先端のエンドツーエンドのデータ駆動アプローチより優れていることが示されている。 最後に、E2E-PrNetの説明可能性について論じる。

The pseudorange error is one of the root causes of localization inaccuracy in GPS. Previous data-driven methods regress and eliminate pseudorange errors using handcrafted intermediate labels. Unlike them, we propose an end-to-end GPS localization framework, E2E-PrNet, to train a neural network for pseudorange correction (PrNet) directly using the final task loss calculated with the ground truth of GPS receiver states. The gradients of the loss with respect to learnable parameters are backpropagated through a Differentiable Nonlinear Least Squares (DNLS) optimizer to PrNet. The feasibility of fusing the data-driven neural network and the model-based DNLS module is verified with GPS data collected by Android phones, showing that E2E-PrNet outperforms the baseline weighted least squares method and the state-of-the-art end-to-end data-driven approach. Finally, we discuss the explainability of E2E-PrNet.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# ミエリンシースにおける絡み合った二光子生成

Entangled biphoton generation in myelin sheath ( http://arxiv.org/abs/2401.11682v2 )

ライセンス: Link先を確認
Zefei Liu, Yong-Cong Chen, Ping Ao, (参考訳) 脳内の意識は数百万のニューロンの同期活動に依存するが、そのような同期を編成するメカニズムはいまだ解明されていない。 本研究ではキャビティ量子電気力学(cQED)を用いて、脂質分子の尾部におけるC-H結合の振動スペクトルにおけるカスケード放出による絡み合った双光子生成を探索する。 その結果、ミエリンシースによって形成される円筒状の空洞は、振動モードから自然に光子を放出し、かなりの数の光子対を生成することが示唆された。 神経細胞におけるC-H結合振動ユニットの豊富さは、神経系の量子的絡み合いの源となる。 この発見は、これらのリソースを量子情報伝達に活用し、ニューロンの同期活動の潜在的源を解明する脳の能力に関する洞察を与えるかもしれない。

Consciousness within the brain hinges on the synchronized activities of millions of neurons, but the mechanism responsible for orchestrating such synchronization remains elusive. In this study, we employ cavity quantum electrodynamics (cQED) to explore entangled biphoton generation through cascade emission in the vibration spectrum of C-H bonds within the lipid molecules' tails. The results indicate that the cylindrical cavity formed by a myelin sheath can facilitate spontaneous photon emission from the vibrational modes and generate a significant number of entangled photon pairs. The abundance of C-H bond vibration units in neurons can therefore serve as a source of quantum entanglement resources for the nervous system. The finding may offer insight into the brain's ability to leverage these resources for quantum information transfer, thereby elucidating a potential source for the synchronized activity of neurons.
翻訳日:2024-08-22 23:04:42 公開日:2024-08-21
# ホログラフィックエントロピー円錐のファセットの2つの無限族

Two infinite families of facets of the holographic entropy cone ( http://arxiv.org/abs/2401.13029v3 )

ライセンス: Link先を確認
Bartlomiej Czech, Yu Liu, Bo Yu, (参考訳) 我々は、最近証明されたホログラフィックエントロピーの不等式の無限族が極端にきついこと、すなわち、ホログラフィックエントロピー円錐の面であることを検証する。 証明は技術的だが、ヒューリスティックな洞察を与えてくれる。 星グラフ上では、両方の不等式族は、サブシステムに作用する二面対称性に関して、情報の集中/拡散の程度を定量化する。 さらに、K-基底に見られるトーリック不等式は、四者と六者完全テンソルの間の興味深い相互作用を示す。

We verify that the recently proven infinite families of holographic entropy inequalities are maximally tight, i.e. they are facets of the holographic entropy cone. The proof is technical but it offers some heuristic insight. On star graphs, both families of inequalities quantify how concentrated / spread information is with respect to a dihedral symmetry acting on subsystems. In addition, toric inequalities viewed in the K-basis show an interesting interplay between four-party and six-party perfect tensors.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# Copilot-in-the-Loop: Copilot-Generated Pythonコードにおけるコードスメルの修正

Copilot-in-the-Loop: Fixing Code Smells in Copilot-Generated Python Code using Copilot ( http://arxiv.org/abs/2401.14176v2 )

ライセンス: Link先を確認
Beiqi Zhang, Peng Liang, Qiong Feng, Yujia Fu, Zengyang Li, (参考訳) 最もポピュラーな動的言語の1つとして、Pythonはコードの臭いがある場合、可読性と保守性の低下を経験する。 大規模言語モデルの最近の進歩は、コード生成とリファクタリングの両方のためのAI対応ツールへの関心が高まっている。 GitHub Copilotは、広く使われているツールのひとつだ。 2023年9月にリリースされたCopilot Chatは、自然言語によるコーディングを容易にするインタラクティブツールとして機能する。 しかし、Copilotの生成したPythonコードにおけるコードの臭いを理解することと、Copilot Chatのコードの臭いを修正する能力について、限定的な注意が払われている。 この目的のために、Copilotで生成されたPythonコードに102のコードの臭いがするデータセットを構築しました。 目的は、まず、Copilotの生成したPythonコードにおけるコードの臭いの発生を調べ、次に異なるプロンプトを使ってこれらのコードの臭いを修正する際のCopilot Chatの有効性を評価することである。 結果は、Copilotの生成したPythonコードで10種類のコードの臭いを8つ検出できることを示し、中でもMultiply-Nested Containerが最も一般的なものとなっている。 これらのコードの臭いに対して、Copilot Chatは87.1%の最高修正率を獲得し、Copilot自体が生成したPythonコードの臭いを修正することを約束している。 さらに、これらの臭いの修正におけるコパイロットチャットの有効性は、より詳細なプロンプトを提供することで改善することができる。

As one of the most popular dynamic languages, Python experiences a decrease in readability and maintainability when code smells are present. Recent advancements in Large Language Models have sparked growing interest in AI-enabled tools for both code generation and refactoring. GitHub Copilot is one such tool that has gained widespread usage. Copilot Chat, released in September 2023, functions as an interactive tool aimed at facilitating natural language-powered coding. However, limited attention has been given to understanding code smells in Copilot-generated Python code and Copilot Chat's ability to fix the code smells. To this end, we built a dataset comprising 102 code smells in Copilot-generated Python code. Our aim is to first explore the occurrence of code smells in Copilot-generated Python code and then evaluate the effectiveness of Copilot Chat in fixing these code smells employing different prompts. The results show that 8 out of 10 types of code smells can be detected in Copilot-generated Python code, among which Multiply-Nested Container is the most common one. For these code smells, Copilot Chat achieves a highest fixing rate of 87.1%, showing promise in fixing Python code smells generated by Copilot itself. In addition, the effectiveness of Copilot Chat in fixing these smells can be improved by providing more detailed prompts.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# 無限次元のChoi形式主義から完全正の動的半群の生成元の一意分解へ

From the Choi Formalism in Infinite Dimensions to Unique Decompositions of Generators of Completely Positive Dynamical Semigroups ( http://arxiv.org/abs/2401.14344v4 )

ライセンス: Link先を確認
Frederik vom Ende, (参考訳) 任意の可分複素ヒルベルト空間が与えられたとき、純粋に虚トレースを持たないトレースクラス作用素$B$と、全正写像のノルム連続一パラメータ半群の任意の生成元$L$は、一意有界作用素$K$と一意完全正写像$Phi$が存在することを証明する。 (i)$L=K(\cdot)+(\cdot)K^*+\Phi$, (ii) Superoperator $\Phi(B^*(\cdot)B)$はトレースクラスであり、トレースが消滅する。 (iii)${\rm tr}(B^*K)$は実数である。 私たちの証明の中心は、正の半定値作用素に完全正の写像を関連付けるチェ形式論の修正版である。 この対応がそれぞれ単射かつ全射であるときの特徴付けを行い、その結果、主結果の証明アイデアが非分離ヒルベルト空間に拡張できない理由を説明する。 特に、上述のヒルベルト空間が無限次元となるとすぐに、チェイ形式の下で空の事前像を持つ正半定値作用素の例が見つかる。

Given any separable complex Hilbert space, any trace-class operator $B$ which does not have purely imaginary trace, and any generator $L$ of a norm-continuous one-parameter semigroup of completely positive maps we prove that there exists a unique bounded operator $K$ and a unique completely positive map $\Phi$ such that (i) $L=K(\cdot)+(\cdot)K^*+\Phi$, (ii) the superoperator $\Phi(B^*(\cdot)B)$ is trace class and has vanishing trace, and (iii) ${\rm tr}(B^*K)$ is a real number. Central to our proof is a modified version of the Choi formalism which relates completely positive maps to positive semi-definite operators. We characterize when this correspondence is injective and surjective, respectively, which in turn explains why the proof idea of our main result cannot extend to non-separable Hilbert spaces. In particular, we find examples of positive semi-definite operators which have empty pre-image under the Choi formalism as soon as the underlying Hilbert space is infinite-dimensional.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# Depends-Kotlin - Kotlin依存関係エクストラクタ

Depends-Kotlin: A Cross-Language Kotlin Dependency Extractor ( http://arxiv.org/abs/2401.16865v3 )

ライセンス: Link先を確認
Qiong Feng, Xiaotian Ma, Huan Ji, Wei Song, Peng Liang, (参考訳) Googleが2017年にAndroidアプリ開発の公式プログラミング言語としてKotlinを導入して以来、KotlinはAndroid開発で広く採用されている。 しかしながら、Javaと比較して、ソフトウェア分析の基礎であるKotlinコード依存性分析は限定的だ。 このギャップを埋めるため、Kotlinソースコード内のエンティティとその依存関係を抽出するDepends-Kotlinを開発しました。 Depends-KotlinはKotlinコードのエンティティの依存関係を抽出するだけでなく、KotlinとJava間の依存関係関係も抽出できる。 Depends-Kotlinは、Kotlin-KotlinとKotlin-Javaの依存関係関係を解決する上で、高い精度とパフォーマンスを示しています。 Depends-Kotlinと使用するデータセットのソースコードは、https: //github.com/XYZboom/depends-kotlinで公開されている。 また、Depends-Kotlinをhttps://youtu.be/ZPq8SRhgXzMで表示するスクリーンキャストも提供します。

Since Google introduced Kotlin as an official programming language for developing Android apps in 2017, Kotlin has gained widespread adoption in Android development. However, compared to Java, there is limited support for Kotlin code dependency analysis, which is the foundation to software analysis. To bridge this gap, we develop Depends-Kotlin to extract entities and their dependencies in Kotlin source code. Not only does Depends-Kotlin support extracting entities' dependencies in Kotlin code, but it can also extract dependency relations between Kotlin and Java. Using three open-source Kotlin-Java mixing projects as our subjects, Depends-Kotlin demonstrates high accuracy and performance in resolving Kotlin-Kotlin and Kotlin-Java dependencies relations. The source code of Depends-Kotlin and the dataset used have been made available at https: //github.com/XYZboom/depends-kotlin. We also provide a screen-cast presenting Depends-Kotlin at https://youtu.be/ZPq8SRhgXzM.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# 自動運転の基礎モデルに関する調査

A Survey for Foundation Models in Autonomous Driving ( http://arxiv.org/abs/2402.01105v2 )

ライセンス: Link先を確認
Haoxiang Gao, Zhongruo Wang, Yaqian Li, Kaiwen Long, Ming Yang, Yiqing Shen, (参考訳) 基礎モデルの出現は、自然言語処理とコンピュータビジョンの分野に革命をもたらした。 本調査は40以上の研究論文を総合的にレビューし,ADの強化における基礎モデルの役割を実証する。 大規模な言語モデルは、特に推論、コード生成、翻訳の習熟を通じて、ADにおける計画とシミュレーションに寄与する。 並行して、ビジョンファウンデーションモデルは、3Dオブジェクトの検出やトラッキングといった重要なタスクに適応し、シミュレーションやテストのための現実的な駆動シナリオを作成している。 多様な入力を統合するマルチモーダル基礎モデルでは、視覚的理解と空間的推論が極めて重要である。 本調査は,ADドメイン内のモダリティと機能に基づいて基礎モデルを分類し,構造的な分類法を提供するだけでなく,現在の研究で採用されている手法についても検討する。 既存の基盤モデルと最先端のADアプローチのギャップを特定し、将来の研究方向性をチャート化し、これらのギャップを埋めるためのロードマップを提案します。

The advent of foundation models has revolutionized the fields of natural language processing and computer vision, paving the way for their application in autonomous driving (AD). This survey presents a comprehensive review of more than 40 research papers, demonstrating the role of foundation models in enhancing AD. Large language models contribute to planning and simulation in AD, particularly through their proficiency in reasoning, code generation and translation. In parallel, vision foundation models are increasingly adapted for critical tasks such as 3D object detection and tracking, as well as creating realistic driving scenarios for simulation and testing. Multi-modal foundation models, integrating diverse inputs, exhibit exceptional visual understanding and spatial reasoning, crucial for end-to-end AD. This survey not only provides a structured taxonomy, categorizing foundation models based on their modalities and functionalities within the AD domain but also delves into the methods employed in current research. It identifies the gaps between existing foundation models and cutting-edge AD approaches, thereby charting future research directions and proposing a roadmap for bridging these gaps.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# 導波路における量子ビット対からの指向性放出と光子束

Directional emission and photon bunching from a qubit pair in waveguide ( http://arxiv.org/abs/2402.01286v2 )

ライセンス: Link先を確認
M. Maffei, D. Pomarico, P. Facchi, G. Magnifico, S. Pascazio, F. Pepe, (参考訳) 導波路量子電磁力学は、絡み合いと光子状態を生成する強力なプラットフォームである。 マイクロ波領域におけるパリティ不変導波路に結合した一対の同一量子ビットを考える。 1つと2つの励起セクターで作業することにより、崩壊過程の統一的なビューを提供し、指向性単一光子放出と2つの光子方向束の共通起源を示す。 量子軌道を解き明かすと、どちらの現象も直交量子ビットのベル状態と異なる光子伝播方向の選択的結合に根付いていることが示される。 我々は,この機構を用いてベル状態の最適化後選択を実現する方法についてコメントする。

Waveguide quantum electrodynamics represents a powerful platform to generate entanglement and tailor photonic states. We consider a pair of identical qubits coupled to a parity invariant waveguide in the microwave domain. By working in the one- and two-excitation sectors, we provide a unified view of decay processes and we show the common origin of directional single photon emission and two photon directional bunching. Unveiling the quantum trajectories, we demonstrate that both phenomena are rooted in the selective coupling of orthogonal qubits Bell states with different photon propagation directions. We comment on how to use this mechanism to implement optimized post-selection of Bell states, heralded by the detection of photons on one qubits side.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# コードのための言語モデルの校正と正確性

Calibration and Correctness of Language Models for Code ( http://arxiv.org/abs/2402.02047v4 )

ライセンス: Link先を確認
Claudio Spiess, David Gros, Kunal Suresh Pai, Michael Pradel, Md Rafiqul Islam Rabin, Amin Alipour, Susmit Jha, Prem Devanbu, Toufique Ahmed, (参考訳) 機械学習モデルは広く使われているが、しばしば間違っていることもある。 ユーザーは、あるモデルから与えられたアウトプットが信頼できるかどうかの信頼できる表示から恩恵を受けるので、アウトプットを使用するかどうかを合理的に判断することができる。 例えば、出力は信頼測度と結びつくことができ、もしこの信頼測度が正しさの確率と強く関連しているなら、そのモデルはよく校正されていると言われる。 十分に校正された信頼度尺度は、生成されたコードを使用する際に、どの程度のレビューとケアが必要かという合理的で段階的な意思決定の基盤として機能する。 キャリブレーションは、特にソフトウェア工学において、主に非生成的(例えば分類)な環境で研究されている。 生成されたコードが与えられた場合、開発者は直接使用するか、慎重にレビューした後に使うか、モデル生成したコードを破棄するかを決めなければなりません。 したがって、キャリブレーションは生成的環境において不可欠である。 私たちはいくつかの貢献をします。 コード生成モデルのキャリブレーションを評価するためのフレームワークを開発する。 いくつかのタスク、正確性基準、データセット、アプローチを検討し、テスト対象の大規模な生成コードモデルが十分に調整されていないことを見つけます。 次に、プラッツスケーリングのような標準的な手法を用いて、キャリブレーションをどのように改善できるかを示す。 そこで我々は,ソフトウェア工学におけるPlattスケーリングの適用性と一般化性を評価し,実用上の可能性のある設定とそうでない設定について議論する。 私たちのコントリビューションは、言語モデルが生成するコードの現在の使用において、より良い校正による意思決定をもたらし、ソフトウェア工学における生成モデルの校正方法をさらに改善するための将来の研究のためのフレームワークを提供するでしょう。

Machine learning models are widely used, but can also often be wrong. Users would benefit from a reliable indication of whether a given output from a given model should be trusted, so a rational decision can be made whether to use the output or not. For example, outputs can be associated with a confidence measure; if this confidence measure is strongly associated with likelihood of correctness, then the model is said to be well-calibrated. A well-calibrated confidence measure can serve as a basis for rational, graduated decision-making on how much review and care is needed when using generated code. Calibration has so far been studied in mostly non-generative (e.g. classification) settings, especially in software engineering. However, generated code can quite often be wrong: Given generated code, developers must decide whether to use directly, use after varying intensity of careful review, or discard model-generated code. Thus, calibration is vital in generative settings. We make several contributions. We develop a framework for evaluating the calibration of code-generating models. We consider several tasks, correctness criteria, datasets, and approaches, and find that, by and large, generative code models we test are not well-calibrated out of the box. We then show how calibration can be improved using standard methods, such as Platt scaling. Since Platt scaling relies on the prior availability of correctness data, we evaluate the applicability and generalizability of Platt scaling in software engineering, discuss settings where it has good potential for practical use, and settings where it does not. Our contributions will lead to better-calibrated decision-making in the current use of code generated by language models, and offers a framework for future research to further improve calibration methods for generative models in software engineering.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# Nested Low-Rank Approximationによるニューラルネットワークを用いた演算子SVD

Operator SVD with Neural Networks via Nested Low-Rank Approximation ( http://arxiv.org/abs/2402.03655v2 )

ライセンス: Link先を確認
J. Jon Ryu, Xiangxiang Xu, H. S. Melihcan Erol, Yuheng Bu, Lizhong Zheng, Gregory W. Wornell, (参考訳) 与えられた線形作用素の固有値分解(EVD)を計算したり、その主要な固有値や固有関数を見つけることは、多くの機械学習および科学計算問題において基本的な課題である。 高次元固有値問題に対して、固有関数をパラメータ化するためのニューラルネットワークの訓練は、古典的な数値線形代数手法の代替として有望であると考えられている。 本稿では,最上位の$L$特異値と特異関数を正しい順序で学習する「emph{nesting}」と呼ばれる新しい手法を伴って,切り捨てられた特異値分解の低ランク近似に基づく新しい最適化フレームワークを提案する。 提案手法は,非制約最適化の定式化により,学習関数における所望の直交性を暗黙的かつ効率的に促進する。 本稿では,計算物理学と機械学習のユースケースに対する最適化フレームワークの有効性を示す。

Computing eigenvalue decomposition (EVD) of a given linear operator, or finding its leading eigenvalues and eigenfunctions, is a fundamental task in many machine learning and scientific computing problems. For high-dimensional eigenvalue problems, training neural networks to parameterize the eigenfunctions is considered as a promising alternative to the classical numerical linear algebra techniques. This paper proposes a new optimization framework based on the low-rank approximation characterization of a truncated singular value decomposition, accompanied by new techniques called \emph{nesting} for learning the top-$L$ singular values and singular functions in the correct order. The proposed method promotes the desired orthogonality in the learned functions implicitly and efficiently via an unconstrained optimization formulation, which is easy to solve with off-the-shelf gradient-based optimization algorithms. We demonstrate the effectiveness of the proposed optimization framework for use cases in computational physics and machine learning.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# 真の多粒子エンタングルメントの次元性検出

Detecting the dimensionality of genuine multi-particle entanglement ( http://arxiv.org/abs/2402.06234v4 )

ライセンス: Link先を確認
Gabriele Cobucci, Armin Tavakoli, (参考訳) 複雑な量子絡み合いは2つの定性的に異なる方法で生じうる:多くの量子ビットの間か、より高い量子ビット次元の2つの粒子の間である。 多ビットフロンティアと高次元フロンティアはどちらも確立されているが、最先端の量子技術は、多くの粒子と高次元を同時に特徴付ける絡み合った状態の生成と操作を、ますます可能になってきている。 本稿では, 真に高次元, 真に多粒子の絡み合っていると考えられる総称状態について検討する。 この重要な性質を特徴づける自然量を考える。 これを検出するために、3つの異なる基準のクラスを開発する。 これにより、この形の絡み合いの究極の耐雑音性を探索し、スパースや最小限の測定資源を用いた検出手法を作成できる。 このアプローチは、多粒子状態における絡み合いの次元性を簡易にベンチマークする方法と、実験に容易に適用可能なプラットフォームに依存しない一般的な検出方法を提供する。

Complex forms of quantum entanglement can arise in two qualitatively different ways; either between many qubits or between two particles with higher-than-qubit dimension. While the many-qubit frontier and the high-dimension frontier both are well-established, state-of-the-art quantum technology is becoming increasingly able to create and manipulate entangled states that simltaneously feature many particles and high dimension. Here, we investigate generic states that can be considered both genuinely high-dimensional and genuine multi-particle entangled. We consider a natural quantity that characterises this key property. To detect it, we develop three different classes of criteria. These enable us both to probe the ultimate noise tolerance of this form of entanglement and to make detection schemes using sparse or even minimal measurement resources. The approach provides a simple way of benchmarking entanglement dimensionality in the multi-particle regime and general, platform-independent, detection methods that readily apply to experimental use.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# ACW:ウォーターマーキングに基づくAI生成コードのトレーサビリティ向上

ACW: Enhancing Traceability of AI-Generated Codes Based on Watermarking ( http://arxiv.org/abs/2402.07518v3 )

ライセンス: Link先を確認
Boquan Li, Mengdi Zhang, Peixin Zhang, Jun Sun, Xingmei Wang, Zirui Fu, (参考訳) 大規模言語モデルの開発に伴い、複数のAIがコード生成(ChatGPTやStarCoderなど)で利用可能になり、広く採用されている。 コードの一部がAIによって生成されるかどうか、さらにどのAIが著者であるかを知ることが望ましいことが多い。 例えば、あるバージョンのAIが脆弱なコードを生成することが知られている場合、特に作者を知ることが重要です。 ウォーターマーキングは広く有望なソリューションと考えられており、AI生成テキストの特定に成功している。 しかし、AI生成コードの透かしに対する既存の取り組みは理想的ではなく、柔軟性と符号化スペースの制限により、一般的なテキストの透かしよりも多くの課題が生じる。 本稿では,AI生成コードの透かし手法であるACW(AI Code Watermarking)を提案する。 ACWのキーとなる考え方は、慎重に設計されたセマンティック保存、等質なコード変換の集合を選択的に適用することであり、その存在(または欠如)は透かしの存在を決定できる。 トレーニングや微調整を必要とせず、ブラックボックス方式で機能するため、効率的である。 実験結果から,ACWはAI生成コードの検出や透かし抽出に高い精度を達成できるだけでなく,回復力が高く,既存のアプローチよりも優れていたことが示唆された。

With the development of large language models, multiple AIs have become available for code generation (such as ChatGPT and StarCoder) and are adopted widely. It is often desirable to know whether a piece of code is generated by AI, and furthermore, which AI is the author. For instance, if a certain version of AI is known to generate vulnerable codes, it is particularly important to know the creator. Watermarking is broadly considered a promising solution and is successfully applied for identifying AI-generated text. However, existing efforts on watermarking AI-generated codes are far from ideal, and pose more challenges than watermarking general text due to limited flexibility and encoding space. In this work, we propose ACW (AI Code Watermarking), a novel method for watermarking AI-generated codes. The key idea of ACW is to selectively apply a set of carefully-designed semantic-preserving, idempotent code transformations, whose presence (or absence) allows us to determine the existence of watermarks. It is efficient as it requires no training or fine-tuning and works in a black-box manner. Our experimental results show that ACW is effective (i.e., achieving high accuracy on detecting AI-generated codes and extracting watermarks) as well as resilient, significantly outperforming existing approaches.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# 対称性を持つ系における量子状態設計の出現を解明する

Unraveling the emergence of quantum state designs in systems with symmetry ( http://arxiv.org/abs/2402.08949v3 )

ライセンス: Link先を確認
Naga Dileep Varikuti, Soumik Bandyopadhyay, (参考訳) 量子状態設計は、ランダムな量子状態の効率的なサンプリングを可能にすることで、回路設計からブラックホール物理学まで幅広い用途で様々な量子プロトコルを考案し、ベンチマークする上で重要な役割を果たす。 一方、対称性は状態のランダム性を減らすことが期待されている。 ユビキタスであるにもかかわらず、量子状態設計に対する対称性の影響は際立った問題である。 最近導入された予想アンサンブルフレームワークは、射影測定と多体量子カオスによって効率的な近似状態$t$-designsを生成する。 本研究では,対称性を示すランダムなジェネレータ状態からの状態設計の出現について検討する。 翻訳対称性を活用して、状態$t$-designsにつながる測定基準に対して十分な条件を解析的に確立する。 そして, トレース距離測定を用いて, 設計の収束度を数値的に検討する。 その後、収束に失敗する基地を特定するのに十分な条件の違反を検査する。 さらに、変換対称性を持つカオス傾斜体イジング鎖の動力学を研究することにより、物理系における状態設計の出現を実証する。 初期の時間進化におけるトレース距離の収束速度は,対称性が破られた場合と比較して速い。 結果の一般的な適用性を説明するために、我々は分析を他の対称性にまで拡張する。 我々は, 閉かつオープンな量子多体系の熱化と平衡のさらなる探索の道を開くことを期待する。

Quantum state designs, by enabling an efficient sampling of random quantum states, play a quintessential role in devising and benchmarking various quantum protocols with broad applications ranging from circuit designs to black hole physics. Symmetries, on the other hand, are expected to reduce the randomness of a state. Despite being ubiquitous, the effects of symmetry on quantum state designs remain an outstanding question. The recently introduced projected ensemble framework generates efficient approximate state $t$-designs by hinging on projective measurements and many-body quantum chaos. In this work, we examine the emergence of state designs from the random generator states exhibiting symmetries. Leveraging on translation symmetry, we analytically establish a sufficient condition for the measurement basis leading to the state $t$-designs. Then, by making use of the trace distance measure, we numerically investigate the convergence to the designs. Subsequently, we inspect the violation of the sufficient condition to identify bases that fail to converge. We further demonstrate the emergence of state designs in a physical system by studying the dynamics of a chaotic tilted field Ising chain with translation symmetry. We find faster convergence of the trace distance during the early time evolution in comparison to the cases when the symmetry is broken. To delineate the general applicability of our results, we extend our analysis to other symmetries. We expect our findings to pave the way for further exploration of deep thermalization and equilibration of closed and open quantum many-body systems.
翻訳日:2024-08-22 22:54:42 公開日:2024-08-21
# Persona-DB: 協調的データリファインメントを用いた応答予測のための効率的大言語モデルパーソナライズ

Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement ( http://arxiv.org/abs/2402.11060v2 )

ライセンス: Link先を確認
Chenkai Sun, Ke Yang, Revanth Gangi Reddy, Yi R. Fung, Hou Pong Chan, Kevin Small, ChengXiang Zhai, Heng Ji, (参考訳) 大規模言語モデル(LLM)とのパーソナライズされたインタラクションに対する需要が高まっているため、ユーザの意見や好みを正確かつ効率的に識別できる方法論が求められている。 検索の強化は、微調整のコストを伴わずに膨大な数のユーザーを収容できるため、効果的な戦略として現れます。 しかし、既存の研究は、検索段階の強化と、パーソナライズなどのタスクにおいて重要な側面であるデータベースの表現の最適化に向けた限定的な探索に重点を置いている。 本研究では, LLM のカスタマイズの文脈において, よりデータ効率の高い検索を実現するために, データの表現方法に焦点をあて, 新たな角度から問題を考察する。 この課題に対処するために,タスクコンテキスト間の一般化を改善する階層的な構築プロセスと,ユーザ間の知識ギャップを効果的に橋渡しするための協調的改善という,シンプルで効果的なフレームワークであるPersona-DBを紹介した。 応答予測の評価において、Persona-DBは、検索サイズを大幅に削減した精度を維持する上で、より優れたコンテキスト効率を示す。 我々の実験は、ユーザーが極めて少ないデータを持つ場合、コールドスタートシナリオで10%以上の顕著な改善が示されていることも示している。 さらに,検索能力の増大に伴い,協調的知識の重要性が増している。

The increasing demand for personalized interactions with large language models (LLMs) calls for methodologies capable of accurately and efficiently identifying user opinions and preferences. Retrieval augmentation emerges as an effective strategy, as it can accommodate a vast number of users without the costs from fine-tuning. Existing research, however, has largely focused on enhancing the retrieval stage and devoted limited exploration toward optimizing the representation of the database, a crucial aspect for tasks such as personalization. In this work, we examine the problem from a novel angle, focusing on how data can be better represented for more data-efficient retrieval in the context of LLM customization. To tackle this challenge, we introduce Persona-DB, a simple yet effective framework consisting of a hierarchical construction process to improve generalization across task contexts and collaborative refinement to effectively bridge knowledge gaps among users. In the evaluation of response prediction, Persona-DB demonstrates superior context efficiency in maintaining accuracy with a significantly reduced retrieval size, a critical advantage in scenarios with extensive histories or limited context windows. Our experiments also indicate a marked improvement of over 10% under cold-start scenarios, when users have extremely sparse data. Furthermore, our analysis reveals the increasing importance of collaborative knowledge as the retrieval capacity expands.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# ディープラーニング潜在特徴空間の安定性の評価

Evaluating the Stability of Deep Learning Latent Feature Spaces ( http://arxiv.org/abs/2402.11404v3 )

ライセンス: Link先を確認
Ademide O. Mabadeje, Michael J. Pyrcz, (参考訳) 高次元データセットは、様々な分野にわたる統計的モデリングにおいて重要な課題を示し、効果的な次元削減法を必要とする。 深層学習のアプローチは、複雑なデータから本質的な特徴を抽出し、モデリング、可視化、空間の縮小による圧縮を促進する能力で有名であり、バイオインフォマティクスから地球科学まで幅広い応用がある。 本研究では、これらの潜伏空間の安定性を評価し、その後の解析における一貫性と信頼性を確保するための新しいワークフローを提案する。 最小データへの潜伏空間の不変性、訓練実現、パラメータ摂動といった安定性は不可欠だが、しばしば見落とされがちである。 提案手法は, 3種類の安定型, サンプル, 構造, 推論を潜在空間内に記述し, 包括的評価のための一連の指標を導入する。 このワークフローは500のオートエンコーダ実現と3つのデータセットにまたがって実装されています。 k-平均クラスタリングと改良されたJonker-Volgenantアルゴリズムを用いて、異方性測定と凸殻解析を行い、新しい安定性指標として調整応力とジャカードの相似性を導入する。 本研究は,潜在特徴空間における固有の不安定性に注目し,これらの不安定性を定量化し解釈するワークフローの有効性を実証するものである。 この研究は潜在機能空間の理解を促進し、深層学習を活用した多様な分析ワークフローのためのより深い意思決定のためのモデル解釈可能性の向上と品質管理を促進する。

High-dimensional datasets present substantial challenges in statistical modeling across various disciplines, necessitating effective dimensionality reduction methods. Deep learning approaches, notable for their capacity to distill essential features from complex data, facilitate modeling, visualization, and compression through reduced dimensionality latent feature spaces, have wide applications from bioinformatics to earth sciences. This study introduces a novel workflow to evaluate the stability of these latent spaces, ensuring consistency and reliability in subsequent analyses. Stability, defined as the invariance of latent spaces to minor data, training realizations, and parameter perturbations, is crucial yet often overlooked. Our proposed methodology delineates three stability types, sample, structural, and inferential, within latent spaces, and introduces a suite of metrics for comprehensive evaluation. We implement this workflow across 500 autoencoder realizations and three datasets, encompassing both synthetic and real-world scenarios to explain latent space dynamics. Employing k-means clustering and the modified Jonker-Volgenant algorithm for class alignment, alongside anisotropy metrics and convex hull analysis, we introduce adjusted stress and Jaccard dissimilarity as novel stability indicators. Our findings highlight inherent instabilities in latent feature spaces and demonstrate the workflow's efficacy in quantifying and interpreting these instabilities. This work advances the understanding of latent feature spaces, promoting improved model interpretability and quality control for more informed decision-making for diverse analytical workflows that leverage deep learning.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# 量子ネットワークにおける非強経路の重要性の解明

Unveiling the Importance of Non-Shortest Paths in Quantum Networks ( http://arxiv.org/abs/2402.15462v2 )

ライセンス: Link先を確認
Xinqi Hu, Gaogao Dong, Renaud Lambiotte, Kim Christensen, Jingfang Fan, Zihao Tian, Jianxi Gao, Shlomo Havlin, Xiangyi Meng, (参考訳) 大規模量子技術の進歩は、第一原理から量子ネットワーク(QN)の設計をより深く理解する必要がある。 しかし、パイオニアリングの研究は、古典的なパーコレーション予測を超越したQNの強い接続の起源を完全には捉えていない。 ここでは、この強い接続の起源を特定するために統計物理学を適用し、コンカレンスパーコレーション(concurrence percolation)と呼ばれる。 我々の発見は,2つの異なる経路長スケール,$U \leq V$を調整することで,経路接続の完全な解析制御を可能にする階層的スケールフリーネットワーク(U,V$)で実証されている。 この利点は、現在のシミュレーション限界を超える無限系の臨界指数を解析的に決定することを可能にする。 我々の分析は、古典的および共起的パーコレーションが、両方の超スケーリング関係を満たす一方で、異なる普遍性クラスに分類されることを初めて明らかにしている。 この区別は、'superpose''を並列に非shortestパスを接続全体へのコントリビュートする方法の異なる方法に由来する。 特に,コンカレンス・パーコレーションは非ショートパスに依存しており,これらのパスが再帰および拡張された場合,デトツーリングに対する高いレジリエンスを示す。 このレジリエンスの増大は、現実の階層的でスケールのないインターネットネットワークでも明らかである。 従来のパーコレーションよりもQN接続性に大きく寄与するが、少ないパスが豊富である限り、QN接続性は向上する。

The advancement of large-scale quantum technologies necessitates a deeper understanding of the quantum network (QN) design from first principles. Pioneering studies, however, do not fully capture the origin of the stronger connectivity in QN that surpasses classical percolation predictions. Here, we apply statistical physics to identify the origin of this stronger connectivity -- known as concurrence percolation. Our finding is demonstrated on hierarchical scale-free networks, the ($U,V$) flowers, which allow full analytical control over path connectivity by adjusting the two distinct path length scales, $U \leq V$. This advantage enables us to analytically determine the critical exponents for infinite systems well beyond the current simulation limits. Our analysis reveals for the first time that classical and concurrence percolations, while both satisfying the hyperscaling relation, fall into distinct universality classes. This distinction arises from their different methods for how to ``superpose'' parallel, non-shortest path contributions into overall connectivity. Notably, we find that concurrence percolation relies on non-shortest paths and shows a higher resilience to detouring when these paths are rerouted and extended. This increased resilience is also evident in real-world hierarchical, scale-free Internet networks. Our findings highlight a critical principle for QN design: non-shortest paths contribute significantly to QN connectivity compared to classical percolation -- as long as they are abundant.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# トポロジカルサンプル選択によるグラフ上のラベルノイズの緩和

Mitigating Label Noise on Graph via Topological Sample Selection ( http://arxiv.org/abs/2403.01942v3 )

ライセンス: Link先を確認
Yuhao Wu, Jiangchao Yao, Xiaobo Xia, Jun Yu, Ruxin Wang, Bo Han, Tongliang Liu, (参考訳) 慎重に注釈付けされたベンチマークの成功にもかかわらず、実世界のグラフデータが騒々しくラベル付けされている場合、既存のグラフニューラルネットワーク(GNN)の有効性は著しく損なわれる可能性がある。 従来, サンプル選択の探索は, ノイズラベルを用いた頑健な学習の有効な方法として実証されてきたが, 従来の研究はi.dデータに重点を置いており, 非idグラフデータやGNNに移行する際には, 1) トポロジカルなクラス境界付近のノードは分類に非常に有用であるが, ヒューリスティックなサンプル選択では区別できない。 2) グラフにおけるサンプル選択を促進するために, グラフトポロジ情報を考慮した指標は存在しない。 このジレンマに対処するために、トポロジ的情報を利用してグラフ内の情報的サンプル選択プロセスを促進する$\textit{Topological Sample Selection}$ (TSS)法を提案する。 提案手法は,対象のクリーン分布下での予測されるリスク上限の上限を最小化し,最先端のベースラインと比較して,提案手法の優位性を実験的に示す。

Despite the success of the carefully-annotated benchmarks, the effectiveness of existing graph neural networks (GNNs) can be considerably impaired in practice when the real-world graph data is noisily labeled. Previous explorations in sample selection have been demonstrated as an effective way for robust learning with noisy labels, however, the conventional studies focus on i.i.d data, and when moving to non-iid graph data and GNNs, two notable challenges remain: (1) nodes located near topological class boundaries are very informative for classification but cannot be successfully distinguished by the heuristic sample selection. (2) there is no available measure that considers the graph topological information to promote sample selection in a graph. To address this dilemma, we propose a $\textit{Topological Sample Selection}$ (TSS) method that boosts the informative sample selection process in a graph by utilising topological information. We theoretically prove that our procedure minimizes an upper bound of the expected risk under target clean distribution, and experimentally show the superiority of our method compared with state-of-the-art baselines.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# 自然言語処理競争におけるシステム性能の分析

Analysis of Systems' Performance in Natural Language Processing Competitions ( http://arxiv.org/abs/2403.04693v2 )

ライセンス: Link先を確認
Sergio Nava-Muñoz, Mario Graff, Hugo Jair Escalante, (参考訳) コラボレーションコンペティションは科学や技術分野で人気を博している。 これらの競争には、タスクの定義、評価スコアの選択、結果検証方法の考案が含まれる。 標準的なシナリオでは、参加者はトレーニングセットを受け取り、オーガナイザが保持するホールドアウトデータセットのソリューションを提供する。 オーガナイザにとって重要な課題は、アルゴリズムのパフォーマンスを比較し、複数の参加者を評価し、それらをランク付けするときである。 統計ツールは、しばしばこの目的のために使用されるが、伝統的な統計手法は、システムの性能の決定的な違いを捉えるのに失敗することが多い。 本論文は,競技結果と競技成績を統計的に分析するための評価手法について述べる。 この手法は普遍的に適用できるように設計されているが、分類問題や回帰問題を含むケーススタディとして8つの自然言語コンペティションを用いて説明されている。 提案手法は,修正機構との比較や信頼区間の包含など,いくつかの利点がある。 さらに,主催者が競争の難しさを評価するための指標も導入する。 本分析は,競争結果を効果的に評価するための方法論の有用性を示す。

Collaborative competitions have gained popularity in the scientific and technological fields. These competitions involve defining tasks, selecting evaluation scores, and devising result verification methods. In the standard scenario, participants receive a training set and are expected to provide a solution for a held-out dataset kept by organizers. An essential challenge for organizers arises when comparing algorithms' performance, assessing multiple participants, and ranking them. Statistical tools are often used for this purpose; however, traditional statistical methods often fail to capture decisive differences between systems' performance. This manuscript describes an evaluation methodology for statistically analyzing competition results and competition. The methodology is designed to be universally applicable; however, it is illustrated using eight natural language competitions as case studies involving classification and regression problems. The proposed methodology offers several advantages, including off-the-shell comparisons with correction mechanisms and the inclusion of confidence intervals. Furthermore, we introduce metrics that allow organizers to assess the difficulty of competitions. Our analysis shows the potential usefulness of our methodology for effectively evaluating competition results.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# DiffuMatting: 任意のオブジェクトをマットレベルアノテーションで合成する

DiffuMatting: Synthesizing Arbitrary Objects with Matting-level Annotation ( http://arxiv.org/abs/2403.06168v2 )

ライセンス: Link先を確認
Xiaobin Hu, Xu Peng, Donghao Luo, Xiaozhong Ji, Jinlong Peng, Zhengkai Jiang, Jiangning Zhang, Taisong Jin, Chengjie Wang, Rongrong Ji, (参考訳) 高度に正確なアノテーションを入手することの困難さと労力のかかる性質のため、一般に利用可能な高度に正確なラベルは限られている。 この課題に対処するため,拡散の強大な生成能力を継承し,「何でもできる」パワーを付与するDiffuMattingを提案する。 DiffuMatting can 1)。 高精度なアノテーションで適合する工場として振る舞う(2) コミュニティフレンドリーなアートデザインとコントロール可能なジェネレーションを達成するために、コミュニティのLoRAやさまざまな条件制御アプローチとよく互換性があります。 具体的には、グリーンスクリーンマッティングにインスパイアされ、固定されたグリーンスクリーンキャンバスに絵を描く拡散モデルを教えることを目的としている。 この目的のために、大規模なグリーンスクリーンデータセット(Green100K)がDiffuMattingのトレーニングデータセットとして収集される。 第二に、背景と背景を区別するために、絵板を純粋な緑色に保つために、背景制御損失が提案されている。 合成対象がよりエッジの詳細を持つようにするために、より複雑なエッジ構造を持つオブジェクトを生成するためのガイドラインとして、遷移境界損失の詳細な拡張が提案されている。 オブジェクトとマットアノテーションを同時に生成することを目的として,VAEデコーダの潜時空間で緑色の色を除去するマッティングヘッドを構築した。 我々のDiffuMattingは、いくつかの潜在的なアプリケーション(例えば、マットデータジェネレータ、コミュニティフレンドリーなアートデザイン、コントロール可能なジェネレータ)を示しています。 マットデータ生成器として、DiffuMattingは汎用オブジェクトとポートレート・マッティングセットを合成し、一般オブジェクト・マッティングでは15.4%、ポートレート・マッティングでは11.4%の誤差を効果的に削減した。 データセットはプロジェクトページの \url{https://diffumatting.github.io} で公開されています。

Due to the difficulty and labor-consuming nature of getting highly accurate or matting annotations, there only exists a limited amount of highly accurate labels available to the public. To tackle this challenge, we propose a DiffuMatting which inherits the strong Everything generation ability of diffusion and endows the power of "matting anything". Our DiffuMatting can 1). act as an anything matting factory with high accurate annotations 2). be well-compatible with community LoRAs or various conditional control approaches to achieve the community-friendly art design and controllable generation. Specifically, inspired by green-screen-matting, we aim to teach the diffusion model to paint on a fixed green screen canvas. To this end, a large-scale greenscreen dataset (Green100K) is collected as a training dataset for DiffuMatting. Secondly, a green background control loss is proposed to keep the drawing board as a pure green color to distinguish the foreground and background. To ensure the synthesized object has more edge details, a detailed-enhancement of transition boundary loss is proposed as a guideline to generate objects with more complicated edge structures. Aiming to simultaneously generate the object and its matting annotation, we build a matting head to make a green color removal in the latent space of the VAE decoder. Our DiffuMatting shows several potential applications (e.g., matting-data generator, community-friendly art design and controllable generation). As a matting-data generator, DiffuMatting synthesizes general object and portrait matting sets, effectively reducing the relative MSE error by 15.4% in General Object Matting and 11.4% in Portrait Matting tasks. The dataset is released in our project page at \url{https://diffumatting.github.io}.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# NeRFect Match:ビジュアルローカライゼーションのためのNeRF機能探索

The NeRFect Match: Exploring NeRF Features for Visual Localization ( http://arxiv.org/abs/2403.09577v2 )

ライセンス: Link先を確認
Qunjie Zhou, Maxim Maximov, Or Litany, Laura Leal-Taixé, (参考訳) 本研究では,視覚的局所化のためのシーン表現としてNeRF(Neural Radiance Fields)を提案する。 最近、NeRFは、トレーニングデータベースを拡張し、レンダリングされた画像を通して補助的な監視を提供し、反復的なリファインメントモジュールとして機能することで、ポーズ回帰とシーン座標回帰モデルを強化するために使用されている。 我々は、NeRFの内部特徴の可能性を探求し、正確な2D-3Dマッチングをローカライゼーションのために確立することで、その認識された利点、すなわち、現実的な外観と正確な幾何学を備えたコンパクトなシーン表現を提供する能力を拡張した。 この目的のために、様々な条件下でのマッチングのために、ビュー合成によって得られたNeRFの暗黙の知識を網羅的に検証する。 これには、異なるマッチングネットワークアーキテクチャの探索、複数のレイヤでのエンコーダ機能の抽出、さまざまなトレーニング設定が含まれる。 ビュー合成により学習したNeRFの内部知識を活かした2D-3Dマッチング機能であるNeRFMatchを導入する。 構造に基づくパイプライン内の標準的なローカライゼーションベンチマークにおけるNeRFMatchの評価は、ケンブリッジ・ランドマークスにおけるローカライゼーション性能の新たな最先端を規定する。

In this work, we propose the use of Neural Radiance Fields (NeRF) as a scene representation for visual localization. Recently, NeRF has been employed to enhance pose regression and scene coordinate regression models by augmenting the training database, providing auxiliary supervision through rendered images, or serving as an iterative refinement module. We extend its recognized advantages -- its ability to provide a compact scene representation with realistic appearances and accurate geometry -- by exploring the potential of NeRF's internal features in establishing precise 2D-3D matches for localization. To this end, we conduct a comprehensive examination of NeRF's implicit knowledge, acquired through view synthesis, for matching under various conditions. This includes exploring different matching network architectures, extracting encoder features at multiple layers, and varying training configurations. Significantly, we introduce NeRFMatch, an advanced 2D-3D matching function that capitalizes on the internal knowledge of NeRF learned via view synthesis. Our evaluation of NeRFMatch on standard localization benchmarks, within a structure-based pipeline, sets a new state-of-the-art for localization performance on Cambridge Landmarks.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# ClaimVer: 説明可能なクレームレベル検証と知識グラフによるテキストのエビデンス属性

ClaimVer: Explainable Claim-Level Verification and Evidence Attribution of Text Through Knowledge Graphs ( http://arxiv.org/abs/2403.09724v3 )

ライセンス: Link先を確認
Preetam Prabhu Srikar Dammu, Himanshu Naidu, Mouly Dewan, YoungMin Kim, Tanya Roosta, Aman Chadha, Chirag Shah, (参考訳) ソーシャルメディアによる偽情報や偽情報の拡散やAI生成テキストの普及が進む中で、人々が遭遇した情報を検証し、信頼することはますます困難になっている。 多くのファクトチェック手法やツールが開発されているが、様々な文脈で役立つ適切な説明性や粒度の欠如がしばしばある。 使いやすく、アクセスしやすく、きめ細かいエビデンスを達成できるテキスト検証方法が重要になっている。 さらに重要なことは、このような方法でユーザ信頼を構築するには、自動システムに対する人々の信念に多大な影響を及ぼす研究結果として、各予測の背後にある根拠を提示する必要があることである。 ユーザの注意を特定の問題コンテンツにローカライズし、もたらすことも重要であり、単純なブランケットラベルを提供する。 本稿では,リッチアノテーションの生成と認知負荷の低減により,ユーザの情報・検証ニーズを満たすことに適した,人間中心のフレームワークであるClaymVerを提案する。 テキストの包括的な評価を提供するために設計され、各クレームをハイライトし、信頼された知識グラフ(KG)に対して検証し、証拠を提示し、各クレーム予測に対して簡潔で明確な説明を提供する。 最後に、我々のフレームワークは属性スコアを導入し、幅広い下流タスクに適用性を高めます。

In the midst of widespread misinformation and disinformation through social media and the proliferation of AI-generated texts, it has become increasingly difficult for people to validate and trust information they encounter. Many fact-checking approaches and tools have been developed, but they often lack appropriate explainability or granularity to be useful in various contexts. A text validation method that is easy to use, accessible, and can perform fine-grained evidence attribution has become crucial. More importantly, building user trust in such a method requires presenting the rationale behind each prediction, as research shows this significantly influences people's belief in automated systems. Localizing and bringing users' attention to the specific problematic content is also paramount, instead of providing simple blanket labels. In this paper, we present ClaimVer, a human-centric framework tailored to meet users' informational and verification needs by generating rich annotations and thereby reducing cognitive load. Designed to deliver comprehensive evaluations of texts, it highlights each claim, verifies it against a trusted knowledge graph (KG), presents the evidence, and provides succinct, clear explanations for each claim prediction. Finally, our framework introduces an attribution score, enhancing applicability across a wide range of downstream tasks.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# PhD: 視覚幻覚評価データセット

PhD: A Prompted Visual Hallucination Evaluation Dataset ( http://arxiv.org/abs/2403.11116v2 )

ライセンス: Link先を確認
Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li, (参考訳) マルチモーダル大言語モデル(MLLM)は幻覚を呈し、視覚幻覚評価(VHE)の新たな話題となる。 本稿では,VHEの大規模ベンチマークであるPhDを紹介する。 VHEの本質は、特定の画像に関する正しい質問をMLLMに尋ねることである。 問うべきこと(対象、属性、感情など)と問う方法によって、我々はPhDを2つの次元、すなわちタスクとモードに沿って構成する。 低レベル(対象/属性認識)から中レベル(知覚/位置認識とカウント)までの5つの視覚的認識タスクが検討されている。 VHEベースと呼ばれる通常の視覚的QAモードに加えて、PhDは不正確なコンテキスト(VHE-iac)や不正確なコンテキスト(VHE-icc)、あるいはAIが生成した反常識イメージ(VHE-ccs)といった質問も行う。 本稿では,ChatGPTを用いた半自動パイプラインを用いてPhDを構築し,タスク固有の幻覚要素(ヒテム)選択,ヒテム埋め込み質問生成,不正確なコンテキスト生成,CS画像生成の4つの重要なモジュールを包含する。 合計で102k以上のVQA三つ子を持つPhDは、MLLMの性能が様々なモードで変化していることを明らかにし、幻覚問題の性質に関する貴重な洞察を提供する。 このように、PhDはVHEだけでなくMLLMの精製にも重要な役割を果たす可能性がある。

Multimodal Large Language Models (MLLMs) hallucinate, resulting in an emerging topic of visual hallucination evaluation (VHE). We introduce in this paper PhD, a large-scale benchmark for VHE. The essence of VHE is to ask an MLLM the right questions concerning a specific image. Depending on what to ask (objects, attributes, sentiment, etc.) and how the questions are asked, we structure PhD along two dimensions, i.e. task and mode. Five visual recognition tasks, ranging from low-level (object / attribute recognition) to middle-level (sentiment / position recognition and counting), are considered. Besides a normal visual QA mode, which we term VHE-base, PhD also asks questions with inaccurate context (VHE-iac) or with incorrect context (VHE-icc), or with AI-generated counter common sense images (VHE-ccs). We construct PhD by a ChatGPT-assisted semi-automated pipeline, encompassing four pivotal modules: task-specific hallucinatory element (hitem) selection, hitem-embedded question generation, inaccurate / incorrect context generation, and CCS image generation. With over 102k VQA triplets in total, PhD reveals considerable variability in MLLMs' performance across various modes, offering valuable insights into the nature of hallucination issues. As such, PhD stands as a potent tool not only for VHE but may also play a significant role in the refinement of MLLMs.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# LLM3:大規模言語モデルに基づく動作障害推論によるタスクと動作計画

LLM3:Large Language Model-based Task and Motion Planning with Motion Failure Reasoning ( http://arxiv.org/abs/2403.11552v3 )

ライセンス: Link先を確認
Shu Wang, Muzhi Han, Ziyuan Jiao, Zeyu Zhang, Ying Nian Wu, Song-Chun Zhu, Hangxin Liu, (参考訳) 従来のタスク・アンド・モーション・プランニング(TAMP)アプローチは、シンボル的タスク・プランニングと連続的なモーション・ジェネレーションを結びつける手作業によるインタフェースに依存している。 これらのドメイン固有かつ労働集約的なモジュールは、現実世界の設定における新しいタスクに対処することに制限されている。 本稿では,ドメインに依存しないインターフェースを備えたLarge Language Model (LLM) ベースの TAMP フレームワーク LLM^3 を紹介する。 具体的には、事前学習したLLMの強力な推論と計画能力を活用して、シンボル的なアクションシーケンスを提案し、動作計画のための連続的なアクションパラメータを選択する。 重要なこととして、LLM^3はプロンプトを通じて動き計画のフィードバックを取り入れており、LLMは動きの失敗を推論することで提案を反復的に洗練することができる。 その結果、LLM^3はタスク計画と動作計画のインターフェイスとなり、それら間のドメイン固有のメッセージを扱う複雑な設計プロセスが軽減される。 箱詰め領域における一連のシミュレーションを通して, TAMP問題の解法におけるLLM^3の有効性と, 行動パラメータの選択効率を定量的に検証した。 アブレーション研究は, LLM^3の成功にともなう運動障害の有意な寄与を裏付けるものである。 さらに,物理マニピュレータの定性的実験を行い,実環境におけるアプローチの適用性を実証した。

Conventional Task and Motion Planning (TAMP) approaches rely on manually crafted interfaces connecting symbolic task planning with continuous motion generation. These domain-specific and labor-intensive modules are limited in addressing emerging tasks in real-world settings. Here, we present LLM^3, a novel Large Language Model (LLM)-based TAMP framework featuring a domain-independent interface. Specifically, we leverage the powerful reasoning and planning capabilities of pre-trained LLMs to propose symbolic action sequences and select continuous action parameters for motion planning. Crucially, LLM^3 incorporates motion planning feedback through prompting, allowing the LLM to iteratively refine its proposals by reasoning about motion failure. Consequently, LLM^3 interfaces between task planning and motion planning, alleviating the intricate design process of handling domain-specific messages between them. Through a series of simulations in a box-packing domain, we quantitatively demonstrate the effectiveness of LLM^3 in solving TAMP problems and the efficiency in selecting action parameters. Ablation studies underscore the significant contribution of motion failure reasoning to the success of LLM^3. Furthermore, we conduct qualitative experiments on a physical manipulator, demonstrating the practical applicability of our approach in real-world settings.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# Anyonic partial Transpose を用いたAnyonic Systemsの絡み合い特性

Characterizing the Entanglement of Anyonic Systems using the Anyonic Partial Transpose ( http://arxiv.org/abs/2403.12121v2 )

ライセンス: Link先を確認
Nico Kirchner, Wonjune Choi, Frank Pollmann, (参考訳) 混合量子状態の絡み合いは、部分転位とその対応する絡み合い測度、対数ネガティリティを用いて定量化することができる。 近年、部分転位の概念は、交換統計がボゾンやフェルミオンのケースを超えたエキゾチック準粒子であるエキゾチック準粒子の系にまで拡張されている。 この正準部分転位の基本的な性質を調べたところ、フェルミオン系の特別な場合に適用すると、境界マヨラナフェルミオンが存在するか否かに応じてフェルミオン部分転位またはそのねじれた変種に還元できることが明らかとなった。 基底状態の性質に着目して、共形場理論によって予測されるような、空隙のない系の正しい絡み合いスケーリングと、位相的に自明な位相と非自明な位相の相転移の両方を、正準部分転置が捉えていることが分かる。 非アーベル素数や二分割幾何に対して、部分転置の固有値、いわゆる負性スペクトルのリッチな多重構造を見つけ、電荷-と不均衡分解された負性の両方を定義する可能性を明らかにする。

Entanglement of mixed quantum states can be quantified using the partial transpose and its corresponding entanglement measure, the logarithmic negativity. Recently, the notion of partial transpose has been extended to systems of anyons, which are exotic quasiparticles whose exchange statistics go beyond the bosonic and fermionic case. Studying the fundamental properties of this anyonic partial transpose, we first reveal that when applied to the special case of fermionic systems, it can be reduced to the fermionic partial transpose or its twisted variant depending on whether or not a boundary Majorana fermion is present. Focusing on ground state properties, we find that the anyonic partial transpose captures both the correct entanglement scaling for gapless systems, as predicted by conformal field theory, and the phase transition between a topologically trivial and a nontrivial phase. For non-abelian anyons and the bipartition geometry, we find a rich multiplet structure in the eigenvalues of the partial transpose, the so-called negativity spectrum, and reveal the possibility of defining both a charge- and an imbalance-resolved negativity.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# Pseudo-Untrimmed Videos を用いたLLMの音声・時間的理解

Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding ( http://arxiv.org/abs/2403.16276v2 )

ライセンス: Link先を確認
Yunlong Tang, Daiki Shimada, Jing Bi, Mingqian Feng, Hang Hua, Chenliang Xu, (参考訳) 大規模言語モデル(LLM)は、自然言語とマルチモーダルドメインにおいて顕著な機能を示した。 十分に注釈付けされたデータセット,例えば高密度なビデオキャプションデータセットからテンポラリアノテーションを付加したマルチモーダルLLMを微調整することにより,ビデオ言語タスクにおける時間的理解能力を得ることができる。 しかし、イベントの正確な時間的アノテーションを備えた未トリミングな音声視覚ビデオデータセットが欠如している。 この欠陥は、LDMが時間、音声視覚イベント、テキストトークンの整合性を学ぶのを妨げるため、ビデオ内の音声視覚イベントを時間的にローカライズすることができない。 このギャップに対処するため, PU-VALORは, 114,000本以上の擬似アンリム化ビデオと詳細な時間的アノテーションを含む包括的オーディオ視覚データセットである。 PU-VALORは、イベントベースのビデオクラスタリング、ランダム時間スケール、置換を含む微妙な方法で、大規模だが粗い注釈付きオーディオ視覚データセットVALORから派生している。 PU-VALOR 上でマルチモーダル LLM を微調整することにより,音声・視覚イベントを時間間隔および対応するテキストトークンと整列可能なモデル AVicuna を開発した。 AVicunaは時間的ローカライゼーションとタイムアウェアな対話機能に優れています。 実験により,AVicunaは音声・視覚映像の時間的理解を効果的に処理し,音声・視覚映像QA,音声・視覚映像QA,音声・視覚イベント密集化タスクにおける最先端のパフォーマンスを実現することができた。

Large language models (LLMs) have demonstrated remarkable capabilities in natural language and multimodal domains. By fine-tuning multimodal LLMs with temporal annotations from well-annotated datasets, e.g., dense video captioning datasets, their temporal understanding capacity in video-language tasks can be obtained. However, there is a notable lack of untrimmed audio-visual video datasets with precise temporal annotations for events. This deficiency hinders LLMs from learning the alignment between time, audio-visual events, and text tokens, thus impairing their ability to temporally localize audio-visual events in videos. To address this gap, we introduce PU-VALOR, a comprehensive audio-visual dataset comprising over 114,000 pseudo-untrimmed videos with detailed temporal annotations. PU-VALOR is derived from the large-scale but coarse-annotated audio-visual dataset VALOR, through a subtle method involving event-based video clustering, random temporal scaling, and permutation. By fine-tuning a multimodal LLM on PU-VALOR, we developed AVicuna, a model capable of aligning audio-visual events with temporal intervals and corresponding text tokens. AVicuna excels in temporal localization and time-aware dialogue capabilities. Our experiments demonstrate that AVicuna effectively handles temporal understanding in audio-visual videos and achieves state-of-the-art performance on open-ended video QA, audio-visual QA, and audio-visual event dense localization tasks.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# SPES: サーバレス機能のためのパフォーマンスとリソースのトレードオフを最適化する

SPES: Towards Optimizing Performance-Resource Trade-Off for Serverless Functions ( http://arxiv.org/abs/2403.17574v2 )

ライセンス: Link先を確認
Cheryl Lee, Zhouruixing Zhu, Tianyi Yang, Yintong Huo, Yuxin Su, Pinjia He, Michael R. Lyu, (参考訳) クラウドコンピューティングのデプロイメントのパラダイムとして、サーバーレスコンピューティングは、その効率性とオンデマンドのクラウドリソースを活用する能力により、勢いを増している。 しかし、コールドスタートの問題という形で大きなハードルが残っており、新しいファンクションインスタンスをスクラッチから起動する際にレイテンシが発生する。 既存のソリューションでは、コールドスタート遅延とリソース浪費の間のトレードオフを満足のいく最適化を施すことなく、関数のプリロード/アンロードを単純化した戦略を使う傾向があります。 このギャップを埋めるために、サーバーレス関数のプロビジョニングを最適化し、実行時コールドスタート緩和のための最初の差別化スケジューラSPESを提案する。 私たちの洞察では、サーバーレスシステムの共通アーキテクチャは特定の呼び出しパターンの集中を促し、予測可能な呼び出し動作をもたらします。 これにより、正確な呼び出し予測に基づいて、よりきめ細かい戦略で関数を分類し、適切な関数インスタンスをプリロード/アンロードできます。 実験では、サーバーレス関数のプロビジョニングを最適化するSPESの成功を実証している。75パーセントのコールドスタート率を49.77%削減し、時間の無駄なメモリ時間を56.43%削減する。 コールドスタート問題を緩和することにより、SPESは、サーバレスアーキテクチャにデプロイされたクラウドサービスを容易にするための、有望な進歩である。

As an emerging cloud computing deployment paradigm, serverless computing is gaining traction due to its efficiency and ability to harness on-demand cloud resources. However, a significant hurdle remains in the form of the cold start problem, causing latency when launching new function instances from scratch. Existing solutions tend to use over-simplistic strategies for function pre-loading/unloading without full invocation pattern exploitation, rendering unsatisfactory optimization of the trade-off between cold start latency and resource waste. To bridge this gap, we propose SPES, the first differentiated scheduler for runtime cold start mitigation by optimizing serverless function provision. Our insight is that the common architecture of serverless systems prompts the concentration of certain invocation patterns, leading to predictable invocation behaviors. This allows us to categorize functions and pre-load/unload proper function instances with finer-grained strategies based on accurate invocation prediction. Experiments demonstrate the success of SPES in optimizing serverless function provision on both sides: reducing the 75th-percentile cold start rates by 49.77% and the wasted memory time by 56.43%, compared to the state-of-the-art. By mitigating the cold start issue, SPES is a promising advancement in facilitating cloud services deployed on serverless architectures.
翻訳日:2024-08-22 22:44:58 公開日:2024-08-21
# 光衛星画像における船種分類の強化:ResNetと畳み込みブロック注意モジュールの統合による性能向上

Enhancing Ship Classification in Optical Satellite Imagery: Integrating Convolutional Block Attention Module with ResNet for Improved Performance ( http://arxiv.org/abs/2404.02135v4 )

ライセンス: Link先を確認
Ryan Donghan Kwon, Gangjoo Robin Nam, Jisoo Tak, Junseob Shin, Hyerin Cha, Seung Won Lee, (参考訳) 本研究では,光衛星画像に基づく船種分類のための高度な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。 ResNet50のベースラインであるResNet50の85%と比較して87%の精度を実現した。 さらに、マルチスケールの機能統合、深度的に分離可能な畳み込み、拡張された畳み込みが含まれ、CBAMを改善したResNetモデルが完成した。 このモデルでは95%の精度を示し、精度、リコール、F1は様々な船級で大幅な改善が見られた。 特に、ばら積み貨物船と石油タンカーのクラスは、ほぼ完全な精度とリコール率を示し、船を正確に識別し分類するモデルの強化能力を強調した。 アテンション・ヒートマップ解析により、改良されたモデルの有効性がさらに検証され、背景の複雑さに関わらず、関連する船舶の特徴により注意が向けられた。 これらの知見は、高解像度衛星画像分類のための注意機構とアーキテクチャ革新をCNNに統合する可能性を示している。 本研究は, クラス不均衡と計算コストをナビゲートし, 新規あるいは稀な船舶型認識における拡張性と適応性の将来的方向性を提案する。 本研究は、リモートセンシングに高度なディープラーニング技術を適用し、スケーラブルで効率的な衛星画像分類に関する洞察を提供するための基礎となる。

In this study, we present an advanced convolutional neural network (CNN) architecture for ship classification based on optical satellite imagery, which significantly enhances performance through the integration of a convolutional block attention module (CBAM) and additional architectural innovations. Building upon the foundational ResNet50 model, we first incorporated a standard CBAM to direct the model's focus toward more informative features, achieving an accuracy of 87% compared to 85% of the baseline ResNet50. Further augmentations involved multiscale feature integration, depthwise separable convolutions, and dilated convolutions, culminating in an enhanced ResNet model with improved CBAM. This model demonstrated a remarkable accuracy of 95%, with precision, recall, and F1 scores all witnessing substantial improvements across various ship classes. In particular, the bulk carrier and oil tanker classes exhibited nearly perfect precision and recall rates, underscoring the enhanced capability of the model to accurately identify and classify ships. Attention heatmap analyses further validated the efficacy of the improved model, revealing more focused attention on relevant ship features regardless of background complexities. These findings underscore the potential of integrating attention mechanisms and architectural innovations into CNNs for high-resolution satellite imagery classification. This study navigates through the class imbalance and computational costs and proposes future directions for scalability and adaptability in new or rare ship-type recognition. This study lays the groundwork for applying advanced deep learning techniques in remote sensing, offering insights into scalable and efficient satellite image classification.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# 絡み合いコストによる頭上スケーリングによる指数サンプリング面の回路編み

Circuit Knitting Faces Exponential Sampling Overhead Scaling Bounded by Entanglement Cost ( http://arxiv.org/abs/2404.03619v2 )

ライセンス: Link先を確認
Mingrui Jing, Chengkai Zhu, Xin Wang, (参考訳) 回路編み込み(Circuit knitting)は、複数のプロセッサで量子回路を接続して非局所的な量子演算をシミュレートする手法であり、分散量子コンピューティングにおいて有望なアプローチである。 回路編み物のための様々な技術が開発されているが、我々はこの技術のスケーラビリティに対する根本的な限界を明らかにする。 回路編み物のサンプリングオーバーヘッドは, 並列切断方式の漸近的オーバーヘッドであっても, ターゲット二部体の正確な絡み合いコストによって指数的に小さくなることを示す。 具体的には、局所的な演算と古典的通信(LOCC)を補助する正規化サンプリングオーバーヘッドが、分離可能な保存操作の下での正確な絡み合いコストの指数関数によって、どの二部量子チャネルにおいても低く抑えられることを示す。 さらに,LOCCを経由した一般的なバイパルタイトチャネルをシミュレーションするための正規化サンプリングオーバーヘッドは,$\kappa$-entanglementとmax-Rainsの情報によって制限され,効率よく計算可能なベンチマークを提供する。 我々の研究は、準確率分解による仮想量子情報処理と量子シャノン理論との深い関係を明らかにし、分散量子コンピューティングにおける絡み合いの重要な役割を明らかにする。

Circuit knitting, a method for connecting quantum circuits across multiple processors to simulate nonlocal quantum operations, is a promising approach for distributed quantum computing. While various techniques have been developed for circuit knitting, we uncover fundamental limitations to the scalability of this technology. We prove that the sampling overhead of circuit knitting is exponentially lower bounded by the exact entanglement cost of the target bipartite dynamic, even for asymptotic overhead in the parallel cut regime. Specifically, we prove that the regularized sampling overhead assisted with local operations and classical communication (LOCC), of any bipartite quantum channel is lower bounded by the exponential of its exact entanglement cost under separable preserving operations. Furthermore, we show that the regularized sampling overhead for simulating a general bipartite channel via LOCC is lower bounded by $\kappa$-entanglement and max-Rains information, providing efficiently computable benchmarks. Our work reveals a profound connection between virtual quantum information processing via quasi-probability decomposition and quantum Shannon theory, highlighting the critical role of entanglement in distributed quantum computing.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# 設計による検証 - 事前学習データから記述する言語モデルの調整

Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data ( http://arxiv.org/abs/2404.03862v2 )

ライセンス: Link先を確認
Jingyu Zhang, Marc Marone, Tianjian Li, Benjamin Van Durme, Daniel Khashabi, (参考訳) 大規模言語モデル(LLM)の流動的な世代を信頼するには、人間は信頼された外部ソースに対して正当性を検証できなければならない。 検索した文書やポストホックの証明を通じて引用を提供するといった最近の取り組みは、信頼性を高めつつも、その正確性に関する保証は提供していない。 これらの制約に対処するために、我々は検証可能性の目標を異なる哲学で取り組んだ: 事前学習データにおいて、信頼された情報源から動詞を引用するモデルを開発することにより、検証プロセスの自明化である。 我々はQuote-Tuningを提案し、LLMを調整して事前学習中に記憶されたデータから引用文を提供することが可能であることを実証する。 Quote-Tuningの中核は、信頼されたコーパスに対するテキストを効率的に検証する高速なメンバシップ推論関数(Marone and Van Durme, 2023)である。 このツールを利用して報酬関数を設計し、モデル応答の引用量を定量化し、好みの学習のためのデータセットを作成する。 実験結果から,Quote-Tuningは,応答品質を維持しつつ,非チューニングモデルと比較して,高品質な事前学習文書からの動詞句を55%から130%増加させることがわかった。 Quote-Tuningはまた、ドメイン外データの引用を一般化し、異なるタスクに適用でき、真理性にさらなる利益をもたらす。 提案手法は, 引用量を増やすためだけでなく, 信頼性を向上し, 信頼性を向上させるための道を開いた。

To trust the fluent generations of large language models (LLMs), humans must be able to verify their correctness against trusted, external sources. Recent efforts, such as providing citations via retrieved documents or post-hoc provenance, enhance verifiability but still provide no guarantees on their correctness. To address these limitations, we tackle the verifiability goal with a different philosophy: trivializing the verification process by developing models that quote verbatim statements from trusted sources in pre-training data. We propose Quote-Tuning, and demonstrate it is feasible to align LLMs to provide quoted statements from data memorized during pre-training. The core of Quote-Tuning is a fast membership inference function (Marone and Van Durme, 2023) that efficiently verifies text against a trusted corpus. We leverage this tool to design a reward function to quantify quotes in model responses, which is then used to create a dataset for preference learning. Experimental results show that Quote-Tuning significantly increases verbatim quotes from high-quality pre-training documents by 55% to 130% relative to un-tuned models while maintaining response quality. Quote-Tuning also generalizes quoting to out-of-domain data, is applicable in different tasks, and provides additional benefits to truthfulness. Our method not only serves as a hassle-free method to increase quoting but also opens up avenues for improving LLM trustworthiness through better verifiability.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# データ拡張における一般化ギャップ:照明からの洞察

Generalization Gap in Data Augmentation: Insights from Illumination ( http://arxiv.org/abs/2404.07514v3 )

ライセンス: Link先を確認
Jianqiang Xiao, Weiwen Guo, Junfeng Liu, Mengze Li, (参考訳) コンピュータビジョンの分野では、深層学習技術を用いてデータセットをトレーニングする際の特徴的複雑さを強化するために、データ拡張が広く用いられている。 しかし、モデルの一般化能力については、データ拡張によって生成された人工的特徴と自然な視覚的特徴との差が完全には明らかになっていない。 本研究では,視覚的表現変数の概念を導入し,タスクの視覚的変化をこれらの変数の共分散として定義する。 我々は,その分布劣化をシミュレーションし,データ拡張技術が分類タスクにおけるモデル性能をいかに向上させるかを調べることで,視覚表現変数「照明」に着目した。 我々のゴールは、拡張現実で訓練されたモデルと実世界の照明条件で訓練されたモデルとの一般化の違いを調査することである。 その結果,様々なデータ拡張手法を適用した結果,モデルの性能は大幅に向上した。 しかし、様々なデータ拡張手法を利用して、モデル一般化を強化するトレーニングセットにおける特徴多様性の重要な役割を強調した上で、注目すべき一般化ギャップが依然として残っている。

In the field of computer vision, data augmentation is widely used to enrich the feature complexity of training datasets with deep learning techniques. However, regarding the generalization capabilities of models, the difference in artificial features generated by data augmentation and natural visual features has not been fully revealed. This study introduces the concept of "visual representation variables" to define the possible visual variations in a task as a joint distribution of these variables. We focus on the visual representation variable "illumination", by simulating its distribution degradation and examining how data augmentation techniques enhance model performance on a classification task. Our goal is to investigate the differences in generalization between models trained with augmented data and those trained under real-world illumination conditions. Results indicate that after applying various data augmentation methods, model performance has significantly improved. Yet, a noticeable generalization gap still exists after utilizing various data augmentation methods, emphasizing the critical role of feature diversity in the training set for enhancing model generalization.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# 局所的拡張と状態共有による画像融合のための新しい状態空間モデル

A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion ( http://arxiv.org/abs/2404.09293v2 )

ライセンス: Link先を確認
Zihan Cao, Xiao Wu, Liang-Jian Deng, Yu Zhong, (参考訳) 画像融合タスクでは、異なるソースからのイメージは異なる特徴を持つ。 これにより, 状態空間モデルとしてのMambaは, 自然言語処理の分野で出現している。 近年、多くの研究がマンバを視覚タスクに拡張しようと試みている。 しかし、因果的言語配列とは異なる画像の性質のため、マンバの限られた状態容量は画像情報をモデル化する能力を弱める。 さらに、マンバのシーケンスモデリング能力は空間情報しか得られず、画像中のリッチスペクトル情報を効果的にキャプチャできない。 これらの課題に感化されて、画像融合タスク用に設計されたMambaネットワークをカスタマイズし、改善する。 具体的には、LEVMと呼ばれるローカル拡張ビジョンのMambaブロックを提案する。 LEVMブロックは、ネットワークのローカル情報知覚を改善し、同時にローカルおよびグローバル空間情報を学ぶことができる。 さらに,空間的詳細性を高め,空間的・スペクトル的情報を統合するための状態共有手法を提案する。 最後に、全体的なネットワークはLE-Mambaと呼ばれる視覚マンバに基づくマルチスケール構造である。 広汎な実験により,マルチスペクトル・ハイパースペクトル画像融合データセットを用いて,提案手法の有効性を実証し,提案手法の有効性を実証した。 コードは \url{https://github.com/294coder/Efficient-MIF} でアクセスすることができる。

In image fusion tasks, images from different sources possess distinct characteristics. This has driven the development of numerous methods to explore better ways of fusing them while preserving their respective characteristics.Mamba, as a state space model, has emerged in the field of natural language processing. Recently, many studies have attempted to extend Mamba to vision tasks. However, due to the nature of images different from causal language sequences, the limited state capacity of Mamba weakens its ability to model image information. Additionally, the sequence modeling ability of Mamba is only capable of spatial information and cannot effectively capture the rich spectral information in images. Motivated by these challenges, we customize and improve the vision Mamba network designed for the image fusion task. Specifically, we propose the local-enhanced vision Mamba block, dubbed as LEVM. The LEVM block can improve local information perception of the network and simultaneously learn local and global spatial information. Furthermore, we propose the state sharing technique to enhance spatial details and integrate spatial and spectral information. Finally, the overall network is a multi-scale structure based on vision Mamba, called LE-Mamba. Extensive experiments show the proposed methods achieve state-of-the-art results on multispectral pansharpening and multispectral and hyperspectral image fusion datasets, and demonstrate the effectiveness of the proposed approach. Codes can be accessed at \url{https://github.com/294coder/Efficient-MIF}.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# ガウス混合モデルと最適輸送を用いたより軽く、より良く、より高速なマルチソースドメイン適応

Lighter, Better, Faster Multi-Source Domain Adaptation with Gaussian Mixture Models and Optimal Transport ( http://arxiv.org/abs/2404.10261v3 )

ライセンス: Link先を確認
Eduardo Fernandes Montesuma, Fred Ngolè Mboula, Antoine Souloumiac, (参考訳) 本稿では,複数の異種ラベル付きソース確率測度を,異なるラベル付きターゲット測度に適応させるトランスファー学習の課題であるMulti-Source Domain Adaptation(MSDA)に取り組む。 最適輸送(OT)とガウス混合モデル(GMM)に基づくMSDAのための新しいフレームワークを提案する。 私たちのフレームワークには2つの大きな利点があります。 第一に、GMM間のOTは線形プログラミングによって効率的に解ける。 第2に、GMMのコンポーネントが既存のクラスに関連付けることができるため、教師付き学習、特に分類のための便利なモデルを提供する。 GMM-OT問題に基づいて,GMMのバリセンタを計算する新しい手法を提案する。 このアルゴリズムに基づいて,GMM-Wasserstein Barycenter Transport (WBT) と GMM-Dataset Dictionary Learning (DaDiL) の2つの新しい戦略を提案する。 画像分類と故障診断の4つのベンチマークで提案手法を実証的に評価し,より高速かつ少ないパラメータを伴いながら,先行技術よりも改善したことを示す。 私たちのコードはhttps://github.com/eddardd/gmm_msdaで公開されています。

In this paper, we tackle Multi-Source Domain Adaptation (MSDA), a task in transfer learning where one adapts multiple heterogeneous, labeled source probability measures towards a different, unlabeled target measure. We propose a novel framework for MSDA, based on Optimal Transport (OT) and Gaussian Mixture Models (GMMs). Our framework has two key advantages. First, OT between GMMs can be solved efficiently via linear programming. Second, it provides a convenient model for supervised learning, especially classification, as components in the GMM can be associated with existing classes. Based on the GMM-OT problem, we propose a novel technique for calculating barycenters of GMMs. Based on this novel algorithm, we propose two new strategies for MSDA: GMM-Wasserstein Barycenter Transport (WBT) and GMM-Dataset Dictionary Learning (DaDiL). We empirically evaluate our proposed methods on four benchmarks in image classification and fault diagnosis, showing that we improve over the prior art while being faster and involving fewer parameters. Our code is publicly available at https://github.com/eddardd/gmm_msda
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# 自己監督型視覚的嗜好アライメント

Self-Supervised Visual Preference Alignment ( http://arxiv.org/abs/2404.10501v2 )

ライセンス: Link先を確認
Ke Zhu, Zheng Ge, Liang Zhao, Xiangyu Zhang, (参考訳) 本稿では,視覚言語モデル(VLM)において,教師なしの嗜好アライメントに向けた最初の試みを行う。 我々は、原画像と拡張画像のペアについて、選択された応答と拒否された応答を生成し、直接選好最適化による選好アライメントを行う。 イメージ入力を適切に設計した拡張は、VLMを誘導して偽の負の応答を生成するため、モデルがより堅牢で強力な答えから学習するのに役立つ。 パイプライン全体は、GPT-4やアライメント中の人間の関与による監視をもはや必要とせず、コード行数で非常に効率的です。 LLaVA-Bench の複雑な推論では 8k のランダムなサンプルデータのみで GPT-4 に対して 90 % のスコアを達成し、複雑なマルチモーダルベンチマーク MM-Vet では LLaVA-7B/13B を 6.7 %/5.6 のスコアで改善する。 ビジュアライゼーションは、ユーザインテントとの整合性が改善されたことを示している。 アプローチの潜伏メカニズムを明らかにするために、一連のアブリケーションがしっかりと行われており、さらなるスケーリングの可能性も示している。 コードはhttps://github.com/Kevinz-code/SeVa.comで入手できる。

This paper makes the first attempt towards unsupervised preference alignment in Vision-Language Models (VLMs). We generate chosen and rejected responses with regard to the original and augmented image pairs, and conduct preference alignment with direct preference optimization. It is based on a core idea: properly designed augmentation to the image input will induce VLM to generate false but hard negative responses, which helps the model to learn from and produce more robust and powerful answers. The whole pipeline no longer hinges on supervision from GPT-4 or human involvement during alignment, and is highly efficient with few lines of code. With only 8k randomly sampled unsupervised data, it achieves 90\% relative score to GPT-4 on complex reasoning in LLaVA-Bench, and improves LLaVA-7B/13B by 6.7\%/5.6\% score on complex multi-modal benchmark MM-Vet. Visualizations shows its improved ability to align with user-intentions. A series of ablations are firmly conducted to reveal the latent mechanism of the approach, which also indicates its potential towards further scaling. Code are available in https://github.com/Kevinz-code/SeVa.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# 情報検索システムにおけるバイアスと不公平性 : LLM時代の新しい課題

Bias and Unfairness in Information Retrieval Systems: New Challenges in the LLM Era ( http://arxiv.org/abs/2404.11457v2 )

ライセンス: Link先を確認
Sunhao Dai, Chen Xu, Shicheng Xu, Liang Pang, Zhenhua Dong, Jun Xu, (参考訳) 大規模言語モデル(LLM)の急速な進歩により、検索エンジンやレコメンダシステムといった情報検索(IR)システムは、重要なパラダイムシフトを経ている。 この進化は、新たな機会を示唆する一方で、特にバイアスや不公平の観点から、情報エコシステムを脅かすような、新たな課題をもたらす。 本稿では,LLMの統合において,赤外線システムにおけるバイアスや不公平性の問題の発生・抑圧に関する既存の研究を包括的に調査する。 まず、分布ミスマッチ問題としてバイアスと不公平を統一し、分布アライメントを通じて様々な緩和戦略を分類する基盤となる。 その後,LLMのIRシステムへの3つの重要な段階(データ収集,モデル開発,結果評価)から生じる偏見と不公平性の問題について,系統的に検討した。 そこで我々は,近年の文献を精査して分析し,これらの問題に関連する定義,特徴,およびそれに対応する緩和戦略に注目した。 最後に、我々は、IR分野の研究者や利害関係者に刺激を与え、このLLM時代のIRのバイアスや不公平問題をより深く理解し緩和することを目的として、将来の作業におけるいくつかのオープンな問題と課題を特定し、強調する。 関連論文やリソースのGitHubリポジトリも一貫して,https://github.com/KID-22/LLM-IR-Bias-Fairness-Surveyで維持しています。

With the rapid advancements of large language models (LLMs), information retrieval (IR) systems, such as search engines and recommender systems, have undergone a significant paradigm shift. This evolution, while heralding new opportunities, introduces emerging challenges, particularly in terms of biases and unfairness, which may threaten the information ecosystem. In this paper, we present a comprehensive survey of existing works on emerging and pressing bias and unfairness issues in IR systems when the integration of LLMs. We first unify bias and unfairness issues as distribution mismatch problems, providing a groundwork for categorizing various mitigation strategies through distribution alignment. Subsequently, we systematically delve into the specific bias and unfairness issues arising from three critical stages of LLMs integration into IR systems: data collection, model development, and result evaluation. In doing so, we meticulously review and analyze recent literature, focusing on the definitions, characteristics, and corresponding mitigation strategies associated with these issues. Finally, we identify and highlight some open problems and challenges for future work, aiming to inspire researchers and stakeholders in the IR field and beyond to better understand and mitigate bias and unfairness issues of IR in this LLM era. We also consistently maintain a GitHub repository for the relevant papers and resources in this rising direction at https://github.com/KID-22/LLM-IR-Bias-Fairness-Survey.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# ROSに基づくロボットシステムの実行時検証とフィールドベーステスト

Runtime Verification and Field-based Testing for ROS-based Robotic Systems ( http://arxiv.org/abs/2404.11498v3 )

ライセンス: Link先を確認
Ricardo Caldas, Juan Antonio Pinera Garcia, Matei Schiopu, Patrizio Pelliccione, Genaina Rodrigues, Thorsten Berger, (参考訳) ロボットシステムは、製造業、医療、宇宙探査など、ますます多くの領域で普及し、採用されつつある。 この目的のために、メンテナンス可能で再利用可能なロボットシステムを構築するための重要な分野として、エンジニアリングソフトウェアが登場した。 ロボティクスのソフトウェア工学研究分野は注目され、基本的な目標として自律性を育んでいる。 しかし、シミュレーションでは現実の現象をエミュレートするソリューションを現実的に提供できないため、ロボット開発者がこの目標を達成するには依然として課題がある。 ロボットはまた、ソフトウェアに実装された安全で信頼性の高い自己適応機能を必要とする予測不能で制御不能な環境でも動作する必要がある。 この課題に対処する典型的なテクニックは、実行時検証、フィールドベースのテスト、フェールセーフなソリューションを可能にする緩和技術である。 しかしながら、実行時検証とフィールドベースのテストを可能にするためにROSベースのシステムを設計するための明確なガイダンスは存在しない。 本稿では、開発者と品質保証(QA)チームが現場でロボットを開発し、検証し、テストするためのガイドラインを提供することで、このギャップを埋めることを目的とする。 これらのガイドラインは、現実のシナリオでロボットシステムをテストする際の課題と要件に対処するために慎重に調整されている。 実施 一 ロボットシステムの実行検証及びフィールドベーステストに関する研究に関する文献レビュー (ii) ROS ベースのアプリケーションリポジトリ、および 3) 全体55回答の2つのアンケートを用いて, 適用性, 明確性, 有用性を検証した。 私たちは20のガイドラインをコントリビュートしています。開発者8と、ロボットソフトウェアエンジニアリングの研究者や実践者向けに策定されたQAチーム12です。 最後に、我々のガイドラインをROSベースのシステムの実行時検証とフィールドベーステストにおけるオープンな課題にマッピングし、この分野における有望な研究方向性を概説する。

Robotic systems are becoming pervasive and adopted in increasingly many domains, such as manufacturing, healthcare, and space exploration. To this end, engineering software has emerged as a crucial discipline for building maintainable and reusable robotic systems. The robotics software engineering research field has received increasing attention, fostering autonomy as a fundamental goal. However, robotics developers are still challenged to achieve this goal because simulation cannot realistically deliver solutions to emulate real-world phenomena. Robots also need to operate in unpredictable and uncontrollable environments, which require safe and trustworthy self-adaptation capabilities implemented in software. Typical techniques to address the challenges are runtime verification, field-based testing, and mitigation techniques that enable fail-safe solutions. However, no clear guidance exists for architecting ROS-based systems to enable and facilitate runtime verification and field-based testing. This paper aims to fill this gap by providing guidelines to help developers and quality assurance (QA) teams develop, verify, or test their robots in the field. These guidelines are carefully tailored to address the challenges and requirements of testing robotics systems in real-world scenarios. We conducted (i) a literature review on studies addressing runtime verification and field-based testing for robotic systems, (ii) mined ROS-based applications repositories, and (iii) validated the applicability, clarity, and usefulness via two questionnaires with 55 answers overall. We contribute 20 guidelines: 8 for developers and 12 for QA teams formulated for researchers and practitioners in robotic software engineering. Finally, we map our guidelines to open challenges in runtime verification and field-based testing for ROS-based systems, and we outline promising research directions in the field.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# 選択的分化のためのPyTorchのメモリ消費の低下

Lowering PyTorch's Memory Consumption for Selective Differentiation ( http://arxiv.org/abs/2404.12406v2 )

ライセンス: Link先を確認
Samarth Bhatia, Felix Dangel, (参考訳) メモリは多くのディープラーニングタスクの制限リソースです。 ニューラルネットワークの重みの他に、主要なメモリコンシューマの1つは、バックプロパゲーションのための自動微分(AD)によって構築された計算グラフである。 PyTorchの現在のAD実装は、計算グラフを保存する際にパラメータの微分可能性に関する情報を無視している。 この情報は、最近の多くの微調整タスクと同様に、パラメータサブセットに対して勾配が要求されるたびにメモリを削減するのに有用である。 具体的には、パラメータで線形に振る舞う層への入力(センス、畳み込み層、正規化層)は、パラメータが微分不可能であるとマークされるたびに破棄される。 このようなレイヤのドロップインで微分可能性に依存しない実装を提供し、実行時間に影響を与えることなくメモリ削減能力を示す。

Memory is a limiting resource for many deep learning tasks. Beside the neural network weights, one main memory consumer is the computation graph built up by automatic differentiation (AD) for backpropagation. We observe that PyTorch's current AD implementation neglects information about parameter differentiability when storing the computation graph. This information is useful though to reduce memory whenever gradients are requested for a parameter subset, as is the case in many modern fine-tuning tasks. Specifically, inputs to layers that act linearly in their parameters (dense, convolution, or normalization layers) can be discarded whenever the parameters are marked as non-differentiable. We provide a drop-in, differentiability-agnostic implementation of such layers and demonstrate its ability to reduce memory without affecting run time.
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# 大規模言語モデルに対する条件付きバックドアアタックの探索

Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models ( http://arxiv.org/abs/2404.14795v4 )

ライセンス: Link先を確認
Jiaming He, Wenbo Jiang, Guanyu Hou, Wenshu Fan, Rui Zhang, Hongwei Li, (参考訳) 大規模言語モデル(LLM)に対するメインストリームバックドア攻撃は、通常、入力インスタンスに固定されたトリガとトリガクエリに対する特定のレスポンスを設定する。 しかし、固定的なトリガー設定(例:異常な単語)は、人間の検出によって容易に検出でき、現実のシナリオにおける有効性と実用性を制限することができる。 バックドアアクティベーションのステルス性を高めるため,モデル推論においてユーザによって一般的に採用される生成条件の指定によって誘導されるLSMに対する新たな中毒パラダイムを提案する。 中毒モデルは通常、通常の/他の生成条件下で出力に対して実行されるが、ターゲット生成条件下では出力に対して有害となる。 この目的を達成するために、効率的な攻撃フレームワークであるBrieFoolを紹介します。 効率的な指導サンプリングと中毒データ生成により生成条件の特性を活用し, 目標条件下でのLCMの挙動に影響を与える。 我々の攻撃は、一般的に異なる目標を持つ2つのタイプに分けることができる。 我々の広範な実験により、BrieFoolは安全領域と能力領域にまたがって有効であり、GPT-3.5-turboで94.3%の確率でベースライン法よりも高い成功率を達成することが示されている。

Mainstream backdoor attacks on large language models (LLMs) typically set a fixed trigger in the input instance and specific responses for triggered queries. However, the fixed trigger setting (e.g., unusual words) may be easily detected by human detection, limiting the effectiveness and practicality in real-world scenarios. To enhance the stealthiness of backdoor activation, we present a new poisoning paradigm against LLMs triggered by specifying generation conditions, which are commonly adopted strategies by users during model inference. The poisoned model performs normally for output under normal/other generation conditions, while becomes harmful for output under target generation conditions. To achieve this objective, we introduce BrieFool, an efficient attack framework. It leverages the characteristics of generation conditions by efficient instruction sampling and poisoning data generation, thereby influencing the behavior of LLMs under target conditions. Our attack can be generally divided into two types with different targets: Safety unalignment attack and Ability degradation attack. Our extensive experiments demonstrate that BrieFool is effective across safety domains and ability domains, achieving higher success rates than baseline methods, with 94.3 % on GPT-3.5-turbo
翻訳日:2024-08-22 22:35:13 公開日:2024-08-21
# CompilerDream: 汎用コード最適化のためのコンパイラワールドモデルを学ぶ

CompilerDream: Learning a Compiler World Model for General Code Optimization ( http://arxiv.org/abs/2404.16077v2 )

ライセンス: Link先を確認
Chaoyi Deng, Jialong Wu, Ningya Feng, Jianmin Wang, Mingsheng Long, (参考訳) コンパイラーにおける効果的なコード最適化は、コンピュータとソフトウェア工学にとって不可欠である。 これらの最適化の成功は主に、コードに適用された最適化パスの選択と順序に依存する。 ほとんどのコンパイラは、最適化パスの固定シーケンスに依存しているが、最適なシーケンスを見つけるための現在の方法は、急激な遅い探索アルゴリズムを採用するか、トレーニング中に見つからないコードに一般化するのに苦労する学習方法を使用するかのいずれかである。 汎用コード最適化のためのモデルベース強化学習手法であるCompilerDreamを紹介する。 CompilerDreamは、最適化パスの固有の特性を正確にシミュレートするコンパイラの世界モデルと、このモデルでトレーニングされたエージェントで効率的な最適化戦略を生成する。 大規模なプログラムデータセットをトレーニングすることにより、CompilerDreamは、さまざまなアプリケーションシナリオやソースコード言語にわたる一般的なコードオプティマイザとして機能する。 我々の広範な実験は、CompilerDreamのオートチューニングのための強力な最適化機能を強調し、CompilerGymのリーダーボードを導く。 さらに重要なのは、大規模に訓練されたコンパイラの世界モデルとエージェントのゼロショットの一般化能力が、さまざまなデータセットにまたがり、LLVMのビルトイン最適化や、値予測とエンドツーエンドコード最適化の両方の設定における最先端メソッドを超越していることだ。

Effective code optimization in compilers is crucial for computer and software engineering. The success of these optimizations primarily depends on the selection and ordering of the optimization passes applied to the code. While most compilers rely on a fixed sequence of optimization passes, current methods to find the optimal sequence either employ impractically slow search algorithms or learning methods that struggle to generalize to code unseen during training. We introduce CompilerDream, a model-based reinforcement learning approach to general code optimization. CompilerDream comprises a compiler world model that accurately simulates the intrinsic properties of optimization passes and an agent trained on this model to produce effective optimization strategies. By training on a large-scale program dataset, CompilerDream is equipped to serve as a general code optimizer across various application scenarios and source-code languages. Our extensive experiments first highlight CompilerDream's strong optimization capabilities for autotuning, where it leads the CompilerGym leaderboard. More importantly, the zero-shot generalization ability of large-scale trained compiler world model and agent, excels across diverse datasets, surpassing LLVM's built-in optimizations and other state-of-the-art methods in both settings of value prediction and end-to-end code optimization.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# ヴィジュアルとヴィジュアルランゲージによるソースフリードメイン適応

Source-Free Domain Adaptation Guided by Vision and Vision-Language Pre-Training ( http://arxiv.org/abs/2405.02954v2 )

ライセンス: Link先を確認
Wenyu Zhang, Li Shen, Chuan-Sheng Foo, (参考訳) ソースフリードメイン適応(SFDA)は、完全にラベル付けされたソースドメインでトレーニングされたソースモデルを、関連するがラベル付けされていないターゲットドメインに適応させることを目的としている。 ソースモデルは、ターゲットの擬似ラベルを取得するための重要な手段であるが、生成された擬似ラベルは、ソースバイアスを示す可能性がある。 従来のSFDAパイプラインでは、ソーストレーニング開始時にソースモデルを初期化するために、大規模なデータ(eg ImageNet)事前訓練された特徴抽出器が使用され、その後破棄される。 一般化に重要な多様な特徴があるにもかかわらず、事前訓練された特徴抽出器は、ソーストレーニング中にソースデータ分布に過度に適合し、関連する対象ドメイン知識を忘れることができる。 この貴重な知識を捨てるのではなく、トレーニング済みネットワークを対象適応プロセスに組み込む統合フレームワークを導入する。 提案するフレームワークは柔軟で,適応プロセスに最新の事前学習ネットワークを組み込むことで,より強力な表現学習能力を活用できる。 適応のために、ソースモデルと事前学習した特徴抽出器を介して、ターゲットの擬似ラベル品質を協調的に改善するコラーンアルゴリズムを提案する。 ゼロショット画像認識におけるビジョン言語モデルCLIPの最近の成功に基づいて、CLIPのゼロショット分類決定をさらに取り入れる拡張Co-learn++を提案する。 4つのベンチマークデータセットを評価し、オープンセット、部分セット、オープンパーティルSFDAのようなより難しいシナリオを含む。 実験の結果,提案手法は適応性能を向上し,既存のSFDA法とうまく統合できることが示唆された。

Source-free domain adaptation (SFDA) aims to adapt a source model trained on a fully-labeled source domain to a related but unlabeled target domain. While the source model is a key avenue for acquiring target pseudolabels, the generated pseudolabels may exhibit source bias. In the conventional SFDA pipeline, a large data (e.g. ImageNet) pre-trained feature extractor is used to initialize the source model at the start of source training, and subsequently discarded. Despite having diverse features important for generalization, the pre-trained feature extractor can overfit to the source data distribution during source training and forget relevant target domain knowledge. Rather than discarding this valuable knowledge, we introduce an integrated framework to incorporate pre-trained networks into the target adaptation process. The proposed framework is flexible and allows us to plug modern pre-trained networks into the adaptation process to leverage their stronger representation learning capabilities. For adaptation, we propose the Co-learn algorithm to improve target pseudolabel quality collaboratively through the source model and a pre-trained feature extractor. Building on the recent success of the vision-language model CLIP in zero-shot image recognition, we present an extension Co-learn++ to further incorporate CLIP's zero-shot classification decisions. We evaluate on 4 benchmark datasets and include more challenging scenarios such as open-set, partial-set and open-partial SFDA. Experimental results demonstrate that our proposed strategy improves adaptation performance and can be successfully integrated with existing SFDA methods.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# DSLベースのソースコード変換によるディープラーニングの自動最適化

Automated Deep Learning Optimization via DSL-Based Source Code Transformation ( http://arxiv.org/abs/2405.03067v2 )

ライセンス: Link先を確認
Ruixin Wang, Minghai Lu, Cody Hao Yu, Yi-Hsiang Lai, Tianyi Zhang, (参考訳) ディープラーニングモデルはますます大きくなり、複雑になるにつれて、モデルのトレーニングと推論効率を改善することが重要になります。 高度に最適化されたライブラリやパッケージ(DLカーネルとして知られる)が開発されているが、どのカーネルを使うか、どこで使うか、どのように正しく使うかを理解するのは面倒で時間がかかる。 この課題に対処するため、我々はAdopterと呼ばれる自動深層学習OPTimizationアプローチを提案する。 DLモデルアーキテクチャを表現するためにドメイン特化言語(DSL)を設計し、このDSLを活用して、DLカーネルをモデルに統合するのに必要なモデル変換ルールを指定する。 DLモデルのソースコードとカーネルセットの変換ルールを考えると、Adopterはまず言語間解析を行い、DSLのモデルアーキテクチャを特定し、表現します。 次に、Adopterはスコープ分析とサブシーケンスマッチングを行い、変換ルールを適用することができるモデルアーキテクチャ内の場所を特定する。 最後に、Adopterは変換規則を適用するための合成ベースのコード変換法を提案する。 我々はHugging Faceの199モデルと多種多様なDLカーネルのベンチマークをキュレートした。 最先端の自動コード変換技術と比較して、Adopterは精度とリコールをそれぞれ3%と56%向上させるのに役立ちます。 9モデルの詳細な分析により、Adopterはトレーニング速度を22.7%改善し、GPUメモリ使用量を10.5%削減した。

As deep learning models become increasingly bigger and more complex, it is critical to improve model training and inference efficiency. Though a variety of highly optimized libraries and packages (known as DL kernels) have been developed, it is tedious and time-consuming to figure out which kernel to use, where to use, and how to use them correctly. To address this challenge, we propose an Automated Deep learning OPTimization approach called Adopter. We design a Domain-Specific Language (DSL) to represent DL model architectures and leverage this DSL to specify model transformation rules required to integrate a DL kernel into a model. Given the source code of a DL model and the transformation rules for a set of kernels, Adopter first performs inter-procedural analysis to identify and express the model architecture in our DSL. Then, Adopter performs scope analysis and sub-sequence matching to identify locations in the model architecture where the transformation rules can be applied. Finally, Adopter proposes a synthesis-based code transformation method to apply the transformation rule. We curated a benchmark with 199 models from Hugging Face and a diverse set of DL kernels. We found that, compared to a state-of-the-art automated code transformation technique, Adopter helps improve the precision and recall by 3% and 56%, respectively. An in-depth analysis of 9 models revealed that on average, Adopter improved the training speed by 22.7% while decreasing the GPU memory usage by 10.5%.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# 協調推論システムのためのフェデレートラーニング--早期排他ネットワークを事例として

Federated Learning for Collaborative Inference Systems: The Case of Early Exit Networks ( http://arxiv.org/abs/2405.04249v2 )

ライセンス: Link先を確認
Caelin Kaplan, Angelo Rodio, Tareq Si Salem, Chuan Xu, Giovanni Neglia, (参考訳) IoT(Internet of Things)技術が進歩するにつれ、センサーやスマートフォンといったエンドデバイスには、ローカルメモリや計算の制約に合わせたAIモデルが徐々に備わっている。 ローカル推論は通信コストとレイテンシを低減するが、これらの小さなモデルは通常、エッジサーバやクラウドにデプロイされるより高度なモデルに比べてパフォーマンスが劣る。 協調推論システム(CIS)は、より小さなデバイスが推論タスクの一部をより有能なデバイスにオフロードできるようにすることによって、このパフォーマンストレードオフに対処する。 これらのシステムは、初期の出口や順序付きドロップアウトのような戦略を利用するディープニューラルネットワーク(DNN)で実証された、多数のパラメータを共有する階層的なモデルをデプロイすることが多い。 このような場合、フェデレートラーニング(FL)は、CIS内でモデルを共同でトレーニングするために用いられる。 しかし、従来のトレーニング手法は、推論中のCISの動作力学、特にクライアント間のサービスレートにおける潜在的な高い均一性を見落としている。 このギャップに対処するために、これらのサービスレートの変化を考慮に入れた、CISで明示的に使用するために設計された新しいFLアプローチを提案する。 我々のフレームワークは厳密な理論的保証を提供するだけでなく、特にクライアント間での推論要求率やデータ可用性が不均一なシナリオにおいて、CISの最先端(SOTA)トレーニングアルゴリズムを超越している。

As Internet of Things (IoT) technology advances, end devices like sensors and smartphones are progressively equipped with AI models tailored to their local memory and computational constraints. Local inference reduces communication costs and latency; however, these smaller models typically underperform compared to more sophisticated models deployed on edge servers or in the cloud. Cooperative Inference Systems (CISs) address this performance trade-off by enabling smaller devices to offload part of their inference tasks to more capable devices. These systems often deploy hierarchical models that share numerous parameters, exemplified by Deep Neural Networks (DNNs) that utilize strategies like early exits or ordered dropout. In such instances, Federated Learning (FL) may be employed to jointly train the models within a CIS. Yet, traditional training methods have overlooked the operational dynamics of CISs during inference, particularly the potential high heterogeneity in serving rates across clients. To address this gap, we propose a novel FL approach designed explicitly for use in CISs that accounts for these variations in serving rates. Our framework not only offers rigorous theoretical guarantees, but also surpasses state-of-the-art (SOTA) training algorithms for CISs, especially in scenarios where inference request rates or data availability are uneven among clients.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# 電子商取引検索の最適化 - 一般化可能で一貫性のある事前予約モデルを目指して-

Optimizing E-commerce Search: Toward a Generalizable and Rank-Consistent Pre-Ranking Model ( http://arxiv.org/abs/2405.05606v3 )

ライセンス: Link先を確認
Enqiang Xu, Yiming Qiu, Junyang Bai, Ping Zhang, Dadong Miao, Songlin Wang, Guoyu Tang, Lin Liu, Mingming Li, (参考訳) 大規模なeコマースプラットフォームでは、検索システムはリコール、プレランク、ランキングフェーズを含む一連のモジュールで構成されている。 軽量モジュールとして機能するプレグレードフェーズは、ダウンストリームランキングモジュールのために前もって製品の大部分をフィルタリングするために不可欠である。 先行モデルの最適化に向けた産業的な取り組みは、主にランキング一貫性の向上、モデル構造、ロングテールアイテムへの一般化に重点を置いている。 これらの最適化以外にも、システムパフォーマンスの要件を満たすことは重大な課題である。 既存の産業作品とは対照的に,本研究では,ジェネラライザブルとRAnk-ConsistEntプレランキングモデル(GRACE)という新しい手法を提案する。 1) 製品がトップk内にあるかどうかを予測する複数の二分分類タスクを導入してランキングの整合性を高め、共通のポイントワイドランキングモデルにおける学習目標の追加を容易にするランキングモデルにより推定される。 2) 製品埋め込みのサブセットを事前訓練することにより,すべての製品の表現の対照的な学習を通じての一般化可能性 3)機能構築及びオンライン展開における実装の容易化。 大規模な実験では、オフラインメトリクスとオンラインA/Bテストの両方において、AUCが0.75%、CVRが1.28%、大幅な改善が示されている。

In large e-commerce platforms, search systems are typically composed of a series of modules, including recall, pre-ranking, and ranking phases. The pre-ranking phase, serving as a lightweight module, is crucial for filtering out the bulk of products in advance for the downstream ranking module. Industrial efforts on optimizing the pre-ranking model have predominantly focused on enhancing ranking consistency, model structure, and generalization towards long-tail items. Beyond these optimizations, meeting the system performance requirements presents a significant challenge. Contrasting with existing industry works, we propose a novel method: a Generalizable and RAnk-ConsistEnt Pre-Ranking Model (GRACE), which achieves: 1) Ranking consistency by introducing multiple binary classification tasks that predict whether a product is within the top-k results as estimated by the ranking model, which facilitates the addition of learning objectives on common point-wise ranking models; 2) Generalizability through contrastive learning of representation for all products by pre-training on a subset of ranking product embeddings; 3) Ease of implementation in feature construction and online deployment. Our extensive experiments demonstrate significant improvements in both offline metrics and online A/B test: a 0.75% increase in AUC and a 1.28% increase in CVR.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# 会話理解による言語モデルの対話ロバスト性の評価

Evaluating Dialect Robustness of Language Models via Conversation Understanding ( http://arxiv.org/abs/2405.05688v2 )

ライセンス: Link先を確認
Dipankar Srirag, Nihar Ranjan Sahoo, Aditya Joshi, (参考訳) 英語におけるLLMの報告回数が最も多いため、英語の異なる方言("\textit{i.e.}$, dialect robustness")に対して同等に実行する能力は確認する必要がある。 具体的には、"taboo"という語遊びをする人間同士の英語(アメリカ英語またはインド英語)の会話を利用する。 対象単語予測(TWP)(\textit{i.e.}$)と対象単語選択(TWS)(\textit{i.e.}$)である。 既存のタブー再生会話の方言データセットであるMD3を拡張して,en-USサブセットとen-INサブセットを備えたMD3のターゲットワードマス化バージョンであるM-MD3を紹介する。 我々は、en-MV(en-USが方言情報を含むように変換される)とen-TR(en-INから方言情報が除去される)の2つのサブセットを作成します。 1つのオープンソース(Llama3)と2つのクローズドソース(GPT-4/3.5)のLLMを評価した。 LLMは、TWPとTWSの両方のタスクにおいて、インド英語よりも、アメリカ英語の方がはるかに優れている。 GPTベースのモデルが最もよく機能する一方で、比較的小さなモデルは微調整後により公平に機能する。 我々の誤り分析は,LLMが方言データを用いて微調整した上で,方言をよりよく理解できることを示唆している。 提案手法は,既存の対話データセットを用いて,言語モデルの属性を調べる新しい手法を示す。

With an evergrowing number of LLMs reporting superlative performance for English, their ability to perform equitably for different dialects of English ($\textit{i.e.}$, dialect robustness) needs to be ascertained. Specifically, we use English language (US English or Indian English) conversations between humans who play the word-guessing game of 'taboo'. We formulate two evaluative tasks: target word prediction (TWP) ($\textit{i.e.}$, predict the masked target word in a conversation) and target word selection (TWS) ($\textit{i.e.}$, select the most likely masked target word in a conversation, from among a set of candidate words). Extending MD3, an existing dialectic dataset of taboo-playing conversations, we introduce M-MD3, a target-word-masked version of MD3 with the en-US and en-IN subsets. We create two subsets: en-MV (where en-US is transformed to include dialectal information) and en-TR (where dialectal information is removed from en-IN). We evaluate one open-source (Llama3) and two closed-source (GPT-4/3.5) LLMs. LLMs perform significantly better for US English than Indian English for both TWP and TWS tasks, for all settings, exhibiting marginalisation against the Indian dialect of English. While GPT-based models perform the best, the comparatively smaller models work more equitably after fine-tuning. Our error analysis shows that the LLMs can understand the dialect better after fine-tuning using dialectal data. Our evaluation methodology exhibits a novel way to examine attributes of language models using pre-existing dialogue datasets.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# RGBD-Glue:ロバストなRGB-Dポイントクラウド登録のための一般的な機能の組み合わせ

RGBD-Glue: General Feature Combination for Robust RGB-D Point Cloud Registration ( http://arxiv.org/abs/2405.07594v2 )

ライセンス: Link先を確認
Congjia Chen, Xiaoyu Jia, Yanhong Zheng, Yufu Qu, (参考訳) ポイントクラウド登録は、ポイントクラウド間の厳密な変換を推定するための基本的なタスクである。 これまでの研究では、幾何学的情報を用いて特徴の抽出、マッチング、および変換を推定してきた。 近年,RGB-Dセンサの進歩により,視覚情報と幾何学情報を併用して登録性能の向上が試みられている。 しかし,これらの研究は,各特徴の弱さの負の効果を効果的に解決できず,有効情報を十分に活用できない,深い特徴融合による特徴抽出に焦点を当てた。 本稿では,より緩く,より効果的に組み合わせられる機能の組み合わせフレームワークを提案する。 変換一貫性に基づいた明示的なフィルタは,各機能の弱点を克服可能な組み合わせフレームワーク用に設計されている。 また,2種類の特徴からより有効な情報を抽出するために,誤差分布によって決定される適応しきい値を提案する。 特徴的設計のため,提案フレームワークはより正確な対応を推定でき,手書き・学習ベースの特徴記述子にも適用可能である。 ScanNet と 3DMatch の実験により,本手法が最先端の性能を実現することを示す。

Point cloud registration is a fundamental task for estimating rigid transformations between point clouds. Previous studies have used geometric information for extracting features, matching and estimating transformation. Recently, owing to the advancement of RGB-D sensors, researchers have attempted to combine visual and geometric information to improve registration performance. However, these studies focused on extracting distinctive features by deep feature fusion, which cannot effectively solve the negative effects of each feature's weakness, and cannot sufficiently leverage the valid information. In this paper, we propose a new feature combination framework, which applies a looser but more effective combination. An explicit filter based on transformation consistency is designed for the combination framework, which can overcome each feature's weakness. And an adaptive threshold determined by the error distribution is proposed to extract more valid information from the two types of features. Owing to the distinctive design, our proposed framework can estimate more accurate correspondences and is applicable to both hand-crafted and learning-based feature descriptors. Experiments on ScanNet and 3DMatch show that our method achieves a state-of-the-art performance.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# 生成拡散模型の非平衡物理学

Nonequilbrium physics of generative diffusion models ( http://arxiv.org/abs/2405.11932v2 )

ライセンス: Link先を確認
Zhendong Yu, Haiping Huang, (参考訳) 生成的拡散モデルは、工学、統計学、物理学から多くの関心を集めながら、物理学におけるランゲヴィン力学の概念を機械的傾きに適用するが、固有のメカニズムに関する完全な図面はいまだに不足している。 本稿では,拡散モデルの透過的な物理解析を行い,ゆらぎ定理,エントロピー生成,平衡測度,フランツ・パリポテンシャルを定式化し,動的過程と固有相転移を理解する。 我々の解析は、前方および後方の両方の力学の経路積分表現に根ざし、逆拡散生成過程を統計的推論として扱う際には、スピングラス理論と同様の時間依存状態変数が焼成障害として機能する。 そこで本研究では, 確率的熱力学, 統計的推測, 幾何に基づく解析を結びつけて, 生成拡散モデルがどのように機能するかのコヒーレントな図式を作成する。

Generative diffusion models apply the concept of Langevin dynamics in physics to machine leaning, attracting a lot of interests from engineering, statistics and physics, but a complete picture about inherent mechanisms is still lacking. In this paper, we provide a transparent physics analysis of diffusion models, formulating the fluctuation theorem, entropy production, equilibrium measure, and Franz-Parisi potential to understand the dynamic process and intrinsic phase transitions. Our analysis is rooted in a path integral representation of both forward and backward dynamics, and in treating the reverse diffusion generative process as a statistical inference, where the time-dependent state variables serve as quenched disorder akin to that in spin glass theory. Our study thus links stochastic thermodynamics, statistical inference and geometry based analysis together to yield a coherent picture about how the generative diffusion models work.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# Hypergraph: 統一かつ統一された定義と化学ハイパーグラフへの応用

Hypergraph: A Unified and Uniform Definition with Application to Chemical Hypergraph and More ( http://arxiv.org/abs/2405.12235v5 )

ライセンス: Link先を確認
Daniel T. Chang, (参考訳) 従来のハイパーグラフの定義には、(1)有向ハイパーグラフの標準的な定義がなく、(2)有向ハイパーグラフの正式な定義がない、という2つの大きな問題がある。 これらの問題を解決するために, ハイパーグラフの概念を統一するハイパーグラフの新たな定義を提案し, ノードとハイパーエッジの高次相関を表す単一の構造としてハイパーエッジを用いる場合の統一性について述べる。 具体的には、ハイパーエッジを単純なハイパーエッジ、ネストハイパーエッジ、あるいは有向ハイパーエッジと定義する。 この新しい定義では、ハイパーグラフはネストするハイパーエッジ(s)がある場合はネストされ、指示されたハイパーエッジ(s)がある場合は方向付けされる。 そうでなければ、ハイパーグラフは単純なハイパーグラフである。 この新定義の統一性とパワーは、可視化とともに、一般および化学系における(階層的な)高次相関を表現するためのハイパーグラフの使用を促進すべきである。 グラフは、分子構造と3次元分子幾何学の機械学習のための数学的構造として広く利用されている。 しかし、グラフには大きな制限があり、ノード間のペアワイズ相関しか表現できない。 Hypergraphはノード間の高次相関でグラフを拡張する。 この拡張は化学系の機械学習に重要であるか、不可欠である。 分子にとって、これは多中心結合と分子サブ構造を直接的かつ明示的に表現できるため重要である。 化学反応では、ほとんどの化学反応は複数の参加者を含むため、これは必須である。 本稿では, 化学系を表現するための単一の数学的構造として, 単純, ネスト, 指向のハイパーエッジを持つマルチレベルハイパーグラフであるケミカルハイパーグラフを提案する。 化学ハイパーグラフの新しい定義を化学ハイパーグラフに適用し,分子ハイパーグラフと化学反応ハイパーグラフを簡易化した。

The conventional definition of hypergraph has two major issues: (1) there is not a standard definition of directed hypergraph and (2) there is not a formal definition of nested hypergraph. To resolve these issues, we propose a new definition of hypergraph that unifies the concepts of undirected, directed and nested hypergraphs, and that is uniform in using hyperedge as a single construct for representing high-order correlations among things, i.e., nodes and hyperedges. Specifically, we define a hyperedge to be a simple hyperedge, a nesting hyperedge, or a directed hyperedge. With this new definition, a hypergraph is nested if it has nesting hyperedge(s), and is directed if it has directed hyperedge(s). Otherwise, a hypergraph is a simple hypergraph. The uniformity and power of this new definition, with visualization, should facilitate the use of hypergraph for representing (hierarchical) high-order correlations in general and chemical systems in particular. Graph has been widely used as a mathematical structure for machine learning on molecular structures and 3D molecular geometries. However, graph has a major limitation: it can represent only pairwise correlations between nodes. Hypergraph extends graph with high-order correlations among nodes. This extension is significant or essential for machine learning on chemical systems. For molecules, this is significant as it allows the direct, explicit representation of multicenter bonds and molecular substructures. For chemical reactions, this is essential since most chemical reactions involve multiple participants. We propose the use of chemical hypergraph, a multilevel hypergraph with simple, nesting and directed hyperedges, as a single mathematical structure for representing chemical systems. We apply the new definition of hypergraph to chemical hypergraph and, as simplified versions, molecular hypergraph and chemical reaction hypergraph.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# クロスドメインシーケンスレコメンデーションのための部分アライズされた項目表現の学習

Learning Partially Aligned Item Representation for Cross-Domain Sequential Recommendation ( http://arxiv.org/abs/2405.12473v3 )

ライセンス: Link先を確認
Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Zhi Li, Sirui Zhao, Zhen Wang, Defu Lian, Enhong Chen, (参考訳) クロスドメインシーケンシャルレコメンデーション(CDSR)は、複数のレコメンデーションドメインにわたるユーザのシーケンシャルレコメンデーションの発見と転送を目的としている。 重要な取り組みは行われているが、彼らは主に高度な転送モジュールの開発と、自己教師付き学習技術によるユーザ表現の整合に集中している。 しかし、アイテム表現の整合性の問題に注意が払われており、不整合性のあるアイテム表現は、サブ最適シーケンシャルなモデリングやユーザ表現の整合性につながる可能性がある。 そこで,本論文では,課題表現のシーケンス認識と適応的部分的アライメントを実現するための,モデル非依存のフレームワークである \textbf{C}ross-\textbf{A}lignment for \textbf{C}ross-\textbf{D}omain \textbf{S}equential \textbf{R}ecommendation (\textbf{CA-CDSR})を提案する。 具体的には、まず、協調的な項目相関とシーケンシャルな項目相関を捕捉し、総合的な項目表現生成を容易にするシーケンス認識機能拡張戦略を開発する。 次に、スペクトルの観点から部分表現アライメント問題を調べるための実証的研究を行う。 適応スペクトルフィルタを考案し、部分アライメントを適応的に達成する。 さらに、アライメントされたアイテム表現を異なるシーケンシャルエンコーダに入力してユーザ表現を得ることもできる。 フレームワーク全体は、アニーリング戦略を備えたマルチタスク学習パラダイムで最適化されている。 大規模な実験により、CA-CDSRは最先端のベースラインをかなり上回り、表現空間内のアイテムを効果的に整列させて性能を向上させることができることが示された。

Cross-domain sequential recommendation (CDSR) aims to uncover and transfer users' sequential preferences across multiple recommendation domains. While significant endeavors have been made, they primarily concentrated on developing advanced transfer modules and aligning user representations using self-supervised learning techniques. However, the problem of aligning item representations has received limited attention, and misaligned item representations can potentially lead to sub-optimal sequential modeling and user representation alignment. To this end, we propose a model-agnostic framework called \textbf{C}ross-domain item representation \textbf{A}lignment for \textbf{C}ross-\textbf{D}omain \textbf{S}equential \textbf{R}ecommendation (\textbf{CA-CDSR}), which achieves sequence-aware generation and adaptively partial alignment for item representations. Specifically, we first develop a sequence-aware feature augmentation strategy, which captures both collaborative and sequential item correlations, thus facilitating holistic item representation generation. Next, we conduct an empirical study to investigate the partial representation alignment problem from a spectrum perspective. It motivates us to devise an adaptive spectrum filter, achieving partial alignment adaptively. Furthermore, the aligned item representations can be fed into different sequential encoders to obtain user representations. The entire framework is optimized in a multi-task learning paradigm with an annealing strategy. Extensive experiments have demonstrated that CA-CDSR can surpass state-of-the-art baselines by a significant margin and can effectively align items in representation spaces to enhance performance.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# 開ディックモデルにおける超ラジカル相転移のリー・ヤン理論

Lee-Yang theory of the superradiant phase transition in the open Dicke model ( http://arxiv.org/abs/2405.13276v2 )

ライセンス: Link先を確認
Fredrik Brange, Neill Lambert, Franco Nori, Christian Flindt, (参考訳) ディックモデル(Dicke model)は、光学キャビティの閉じ込められた光モードに結合された2レベルの原子のアンサンブルを記述する。 臨界結合の上に空洞がマクロ的に占有され、システムは超ラジカル相に入る。 この相転移は、空洞から放出される光子を検出することで観測できるが、実際の実験は有限期間であるのに対して、長い観測時間の限界においてのみ明らかになる。 この問題を回避するために, 有限測定時間で得られた光子放射統計量の因子的累積から超ラジカル相転移を推定できることを示すために, 相転移のリー・ヤン理論の最近の進歩を利用する。 具体的には、因子的累積から、光子放射統計を記述する関数の生成の複雑な特異点を決定でき、それらの位置を長時間の極限まで外挿することで、超ラジカル相転移を検出することができる。 また、収束点が光子電流の大きな偏差統計量のテールを決定することも示している。 我々の研究は、Dickeモデルと他の量子多体系における相転移が、有限持続時間の測定からどのように検出できるかを示す。

The Dicke model describes an ensemble of two-level atoms that are coupled to a confined light mode of an optical cavity. Above a critical coupling, the cavity becomes macroscopically occupied, and the system enters the superradiant phase. This phase transition can be observed by detecting the photons that are emitted from the cavity; however, it only becomes apparent in the limit of long observation times, while actual experiments are of a finite duration. To circumvent this problem, we here make use of recent advances in Lee-Yang theories of phase transitions to show that the superradiant phase transition can be inferred from the factorial cumulants of the photon emission statistics obtained during a finite measurement time. Specifically, from the factorial cumulants, we can determine the complex singularities of generating functions that describe the photon emission statistics, and by extrapolating their positions to the long-time limit, one can detect the superradiant phase transition. We also show that the convergence points determine the tails of the large-deviation statistics of the photon current. Our work demonstrates how phase transitions in the Dicke model and in other quantum many-body systems can be detected from measurements of a finite duration.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# Carbon Connect: 持続可能なコンピューティングのためのエコシステム

Carbon Connect: An Ecosystem for Sustainable Computing ( http://arxiv.org/abs/2405.13858v2 )

ライセンス: Link先を確認
Benjamin C. Lee, David Brooks, Arthur van Benthem, Udit Gupta, Gage Hills, Vincent Liu, Benjamin Pierce, Christopher Stewart, Emma Strubell, Gu-Yeon Wei, Adam Wierman, Yuan Yao, Minlan Yu, (参考訳) コンピューティングは、大きなチャンスの瞬間です。 有能な人工知能、没入型バーチャルリアリティ、広汎なセンサーシステムといった新興のアプリケーションは、コンピュータに対する前例のない需要を押し上げている。 近年の炭素排出量ゼロへの進歩にもかかわらず、コンピュータ産業の総エネルギー使用量は、新しいエネルギー施設の成長と再生可能エネルギーの展開を上回り、急激なペースで増加を続けている。 持続可能性へのシフトは、コンピュータシステムの製造、割り当て、消費の方法に変革をもたらすために必要である。 Carbon Connectは、持続可能な次世代コンピュータシステムの設計と管理戦略を生み出す、協調した研究スラストを構想している。 これらの戦略は、人工知能や仮想空間のような社会で最も急速に成長するアプリケーションのために、計算能力と炭素のための成長軌道をフラット化し、逆転させなければならない。 我々は、計算技術における炭素会計の正確なモデルを必要とします。 カーボンを具現化するためには、オーバープロビジョンのモノリシックサーバ、頻繁なハードウェアリフレッシュサイクル、カスタムシリコンといった従来の設計戦略を再考し、大規模ハードウェアをより効果的に削減、再利用、リサイクルするライフサイクルデザイン戦略を採用しなければなりません。 運転用炭素では、再生可能エネルギーを取り入れるだけでなく、そのエネルギーをより効率的に利用するためのシステムも設計しなければなりません。 最後に、新しいハードウェア設計と管理戦略は、経済政策と規制の状況を認識し、民間のイニシアチブと社会的目標を一致させなければならない。 これらのより広い目標の多くは、コンピュータ科学者がより広範な実践に変化をもたらすために、経済学、法学、産業生態学の研究者と深い永続的なコラボレーションを開発する必要がある。

Computing is at a moment of profound opportunity. Emerging applications -- such as capable artificial intelligence, immersive virtual realities, and pervasive sensor systems -- drive unprecedented demand for computer. Despite recent advances toward net zero carbon emissions, the computing industry's gross energy usage continues to rise at an alarming rate, outpacing the growth of new energy installations and renewable energy deployments. A shift towards sustainability is needed to spark a transformation in how computer systems are manufactured, allocated, and consumed. Carbon Connect envisions coordinated research thrusts that produce design and management strategies for sustainable, next-generation computer systems. These strategies must flatten and then reverse growth trajectories for computing power and carbon for society's most rapidly growing applications such as artificial intelligence and virtual spaces. We will require accurate models for carbon accounting in computing technology. For embodied carbon, we must re-think conventional design strategies -- over-provisioned monolithic servers, frequent hardware refresh cycles, custom silicon -- and adopt life-cycle design strategies that more effectively reduce, reuse and recycle hardware at scale. For operational carbon, we must not only embrace renewable energy but also design systems to use that energy more efficiently. Finally, new hardware design and management strategies must be cognizant of economic policy and regulatory landscape, aligning private initiatives with societal goals. Many of these broader goals will require computer scientists to develop deep, enduring collaborations with researchers in economics, law, and industrial ecology to spark change in broader practice.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# 解釈可能なファンダス病局在のための階層的サルトパッチ同定

Hierarchical Salient Patch Identification for Interpretable Fundus Disease Localization ( http://arxiv.org/abs/2405.14334v2 )

ライセンス: Link先を確認
Yitao Peng, Lianghua He, Die Hu, (参考訳) 医用画像解析にディープラーニング技術が広く応用されていることにより、モデル予測の効果的な説明と診断精度の向上が、解決すべき緊急問題となっている。 属性法は、医師がモデルの診断基盤をよりよく理解するための重要なツールとなり、医療画像中の疾患を説明・ローカライズするために使われてきた。 しかし, 従来手法では, 複雑で多様な構造を持つ眼底疾患に対して, 不正確な局所化問題と不完全な局所化問題に悩まされていた。 そこで本研究では,画像レベルラベルとニューラルネットワーク分類器(NNC)のみを用いて,解釈可能な疾患の局在化を実現するための,階層的サリエントパッチ同定(HSPI)と呼ばれる弱制御型根底疾患の局在化手法を提案する。 まず, 画像を複数のパッチに分割し, 整合性損失を最適化し, 入力画像のどのパッチがネットワークの予測に最も重要であるかを特定する。 次に、ニューラルネットワーク分類器の予測による疾患領域の包括的特定を行うために、SPIがさまざまな領域の重要性を分析するように強制する階層的識別戦略を提案する。 次に、マスクベクトルが病気領域を正確に特定できるように条件ピーク焦点を導入する。 最後に,複数サイズの交差点に基づくパッチ選択を提案し,不正確な領域や追加で特定された非リリース領域をフィルタリングする。 本研究は,眼底画像データセットの病巣局所化実験を行い,従来の解釈可能な帰属法と比較して,複数の評価指標の最良の性能を実現する。 それぞれの方法の有効性を検証するために,追加のアブレーション研究を行った。

With the widespread application of deep learning technology in medical image analysis, the effective explanation of model predictions and improvement of diagnostic accuracy have become urgent problems that need to be solved. Attribution methods have become key tools to help doctors better understand the diagnostic basis of models, and are used to explain and localize diseases in medical images. However, previous methods suffer from inaccurate and incomplete localization problems for fundus diseases with complex and diverse structures. To solve these problems, we propose a weakly supervised interpretable fundus disease localization method called hierarchical salient patch identification (HSPI) that can achieve interpretable disease localization using only image-level labels and a neural network classifier (NNC). First, we propose salient patch identification (SPI), which divides the image into several patches and optimizes consistency loss to identify which patch in the input image is most important for the network's prediction, in order to locate the disease. Second, we propose a hierarchical identification strategy to force SPI to analyze the importance of different areas to neural network classifier's prediction to comprehensively locate disease areas. Conditional peak focusing is then introduced to ensure that the mask vector can accurately locate the disease area. Finally, we propose patch selection based on multi-sized intersections to filter out incorrectly or additionally identified non-disease regions. We conduct disease localization experiments on fundus image datasets and achieve the best performance on multiple evaluation metrics compared to previous interpretable attribution methods. Additional ablation studies are conducted to verify the effectiveness of each method.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# PrivCirNet: ブロック循環変換による効率的なプライベート推論

PrivCirNet: Efficient Private Inference via Block Circulant Transformation ( http://arxiv.org/abs/2405.14569v2 )

ライセンス: Link先を確認
Tianshi Xu, Lemeng Wu, Runsheng Wang, Meng Li, (参考訳) ホモモルフィック暗号化(HE)ベースのディープニューラルネットワーク(DNN)推論は、データとモデルのプライバシを保護するが、大きな計算オーバーヘッドに悩まされる。 DNN重みを循環行列に変換することにより、一般的な行列ベクトル乗法をHEフレンドリーな1次元畳み込みに変換し、HE計算コストを大幅に削減する。 そこで本稿では,ブロック循環変換に基づくプロトコル/ネットワーク協調最適化フレームワークであるShamethodを提案する。 プロトコルレベルでは、PrivCirNetはブロック循環変換と完全に互換性のあるHE符号化アルゴリズムをカスタマイズし、ブロックサイズに比例して計算レイテンシを低減する。 ネットワークレベルでは,2次情報に基づく階層単位のブロックサイズ割り当てを探索する遅延対応の定式化を提案する。 PrivCirNetは層融合を利用して推論コストをさらに削減する。 我々はPrivCirNetと最先端のHEベースのフレームワークBolt(IEEE S\&P 2024)とHEフレンドリーなプルーニング手法SpENCNN(ICML 2023)を比較した。 Tiny ImageNet 上の ResNet-18 と Vision Transformer (ViT) では、PrivCirNet はレイテンシを5.0\times$ と $1.3\times$ に減らし、それぞれ Bolt に対して等精度で、精度を 4.1\%$ と $112\%$ に改善している。 ImageNet上のMobileNetV2では、PrivCirNetはそれぞれ1.7\times$低レイテンシと4.2\%$の精度をBoltとSpENCNNよりも達成している。 コードとチェックポイントはGit Hubで利用可能です。

Homomorphic encryption (HE)-based deep neural network (DNN) inference protects data and model privacy but suffers from significant computation overhead. We observe transforming the DNN weights into circulant matrices converts general matrix-vector multiplications into HE-friendly 1-dimensional convolutions, drastically reducing the HE computation cost. Hence, in this paper, we propose \method, a protocol/network co-optimization framework based on block circulant transformation. At the protocol level, PrivCirNet customizes the HE encoding algorithm that is fully compatible with the block circulant transformation and reduces the computation latency in proportion to the block size. At the network level, we propose a latency-aware formulation to search for the layer-wise block size assignment based on second-order information. PrivCirNet also leverages layer fusion to further reduce the inference cost. We compare PrivCirNet with the state-of-the-art HE-based framework Bolt (IEEE S\&P 2024) and the HE-friendly pruning method SpENCNN (ICML 2023). For ResNet-18 and Vision Transformer (ViT) on Tiny ImageNet, PrivCirNet reduces latency by $5.0\times$ and $1.3\times$ with iso-accuracy over Bolt, respectively, and improves accuracy by $4.1\%$ and $12\%$ over SpENCNN, respectively. For MobileNetV2 on ImageNet, PrivCirNet achieves $1.7\times$ lower latency and $4.2\%$ better accuracy over Bolt and SpENCNN, respectively. Our code and checkpoints are available on Git Hub.
翻訳日:2024-08-22 22:25:29 公開日:2024-08-21
# 高次元マルチインデックスモデルにおける弱学習可能性の基本計算限界

Fundamental computational limits of weak learnability in high-dimensional multi-index models ( http://arxiv.org/abs/2405.15480v2 )

ライセンス: Link先を確認
Emanuele Troiani, Yatin Dandi, Leonardo Defilippis, Lenka Zdeborová, Bruno Loureiro, Florent Krzakala, (参考訳) マルチインデックスモデル — サブスペース上のプロジェクションの非線形変換を通じて共変量のみに依存する関数 — は、ニューラルネットワークによる特徴学習を研究する上で有用なベンチマークである。 本稿では, 1次反復アルゴリズムを用いて低次元構造を弱復元するのに必要となる最小限のサンプル複雑性を, 共変次元$d$に比例する高次元的条件下で, この仮説クラスにおける効率的な学習可能性の理論的境界について検討する。 私たちの発見は3つの部分に分かれています。 (i)まず、任意の$\alpha\!に対して一階アルゴリズムの単一ステップで自明な部分空間を学習できる条件を特定する。 >\! 0$。 第二に、自明な部分空間が空である場合には、あるサンプル複雑性$\alpha\! >\! alpha_c$。 臨界しきい値$\alpha_{c}$は、効率的な反復アルゴリズムが$\alpha\! <\! alpha_c$。 限定的だが興味深い厳密な方向のセット(パリティ問題と同様)において、$\alpha_c$ は発散する。 最後に 3) 異なる方向の相互作用が複雑な階層的学習現象をもたらすことを実証し, より容易な方向と組み合わせることで, いくつかの方向を逐次学習できることを示した。 我々の分析的アプローチは、一階反復法における近似メッセージパッシングアルゴリズムの最適性に基づいており、勾配降下法で訓練されたニューラルネットワークを含む幅広いアルゴリズムの基本的な学習可能性限界を記述している。

Multi-index models - functions which only depend on the covariates through a non-linear transformation of their projection on a subspace - are a useful benchmark for investigating feature learning with neural networks. This paper examines the theoretical boundaries of efficient learnability in this hypothesis class, focusing particularly on the minimum sample complexity required for weakly recovering their low-dimensional structure with first-order iterative algorithms, in the high-dimensional regime where the number of samples is $n=\alpha d$ is proportional to the covariate dimension $d$. Our findings unfold in three parts: (i) first, we identify under which conditions a trivial subspace can be learned with a single step of a first-order algorithm for any $\alpha\!>\!0$; (ii) second, in the case where the trivial subspace is empty, we provide necessary and sufficient conditions for the existence of an easy subspace consisting of directions that can be learned only above a certain sample complexity $\alpha\!>\!\alpha_c$. The critical threshold $\alpha_{c}$ marks the presence of a computational phase transition, in the sense that it is conjectured that no efficient iterative algorithm can succeed for $\alpha\!<\!\alpha_c$. In a limited but interesting set of really hard directions - akin to the parity problem - $\alpha_c$ is found to diverge. Finally, (iii) we demonstrate that interactions between different directions can result in an intricate hierarchical learning phenomenon, where some directions can be learned sequentially when coupled to easier ones. Our analytical approach is built on the optimality of approximate message-passing algorithms among first-order iterative methods, delineating the fundamental learnability limit across a broad spectrum of algorithms, including neural networks trained with gradient descent.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# OV-DQUO:Denoising Text Query Training and Open-World Unknown Objects Supervisionによるオープン語彙DETR

OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision ( http://arxiv.org/abs/2405.17913v2 )

ライセンス: Link先を確認
Junjie Wang, Bin Chen, Bin Kang, Yulin Li, YiChi Chen, Weizhi Xian, Huifeng Chang, Yong Xu, (参考訳) オープンボキャブラリ検出は、検出器が訓練された基本カテゴリを超えて、新しいカテゴリからオブジェクトを検出することを目的としている。 しかし,既存のオープン語彙検出装置は,訓練されたカテゴリに対して高い信頼度を付与し,新しいカテゴリを背景と混同する傾向にある。 そこで,本稿では,OV-DQUO(OV-DQUO)を提案する。OV-DQUO(OV-DQUO)は,OV-DQUO(OV-DQUO)という,OV-DQUO(OV-DQUO)という,OV-DQUO(OF{O}pen-\textbf{V}ocabulary DETR)を付与する。 具体的には,ワイルドカードマッチング手法を提案する。 この方法では、オープンワールド検出器によって認識される未知の物体のペアと、一般的な意味論によるテキストの埋め込みから学習し、ベースと新規のカテゴリ間の信頼バイアスを緩和する。 さらに,テキストクエリの学習方法を提案する。 オープンワールドの未知の物体から前景と背景のクエリボックスを合成し、対照的な学習を通じて検出器を訓練し、新しい物体と背景を区別する能力を高める。 我々は,OV-COCOとOV-LVISベンチマークの試行を行い,新たなカテゴリでそれぞれ45.6 AP50と39.3 mAPの試験結果を得た。 モデルとコードは \url{https://github.com/xiaomoguhz/OV-DQUO} でリリースされる

Open-vocabulary detection aims to detect objects from novel categories beyond the base categories on which the detector is trained. However, existing open-vocabulary detectors trained on base category data tend to assign higher confidence to trained categories and confuse novel categories with the background. To resolve this, we propose OV-DQUO, an \textbf{O}pen-\textbf{V}ocabulary DETR with \textbf{D}enoising text \textbf{Q}uery training and open-world \textbf{U}nknown \textbf{O}bjects supervision. Specifically, we introduce a wildcard matching method. This method enables the detector to learn from pairs of unknown objects recognized by the open-world detector and text embeddings with general semantics, mitigating the confidence bias between base and novel categories. Additionally, we propose a denoising text query training strategy. It synthesizes foreground and background query-box pairs from open-world unknown objects to train the detector through contrastive learning, enhancing its ability to distinguish novel objects from the background. We conducted extensive experiments on the challenging OV-COCO and OV-LVIS benchmarks, achieving new state-of-the-art results of 45.6 AP50 and 39.3 mAP on novel categories respectively, without the need for additional training data. Models and code are released at \url{https://github.com/xiaomoguhz/OV-DQUO}
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# Cross-Attentive Modulationトークンを用いたリンクセット予測のグローバルな認識の改善

Improving global awareness of linkset predictions using Cross-Attentive Modulation tokens ( http://arxiv.org/abs/2405.19375v3 )

ライセンス: Link先を確認
Félix Marcoccia, Cédric Adjih, Paul Mühlethaler, (参考訳) 複数のリンク予測やグラフ生成技術のほとんどは、適切なリンク予測を形成するためにノードレベルの情報交換を利用するグラフニューラルネットワーク(GNN)に頼っている。 このようなノードレベルの相互作用は順序列としてノードを処理せず、ノードの自然な順序付けを暗示する。 グラフ問題には適しているが、予測されるリンクのグローバルなオーケストレーションの提供に苦慮しているため、パフォーマンスが損なわれる可能性がある。 典型的な問題は、大域的な接続性、固定径、過密化や過密化といった情報のボトルネック効果の回避などの高レベルな特性を確保することの難しさである。 この問題に対処するために、我々は、予測リンクのグローバル一貫性を改善するコンテキスト認識計算を可能にするために、ノードとエッジレベルの変調に使用されるクロスアテンテートユニットを導入するクロスアテンテート変調(CAM)トークンを提案する。 いくつかの置換不変アーキテクチャで実装し、私たちの仕事のメリットを証明するベンチマークをベンチマークします。

Most of multiple link prediction or graph generation techniques rely on the attention mechanism or on Graph Neural Networks (GNNs), which consist in leveraging node-level information exchanges in order to form proper link predictions. Such node-level interactions do not process nodes as an ordered sequence, which would imply some kind of natural ordering of the nodes: they are said to be permutation invariant mechanisms. They are well suited for graph problems, but struggle at providing a global orchestration of the predicted links, which can result in a loss of performance. Some typical issues can be the difficulty to ensure high-level properties such as global connectedness, fixed diameter or to avoid information bottleneck effects such as oversmoothing and oversquashing, which respectively consist in abundant smoothing in dense areas leading to a loss of information and a tendency to exclude isolated nodes from the message passing scheme, and often result in irrelevant, unbalanced link predictions. To tackle this problem, we hereby present Cross-Attentive Modulation (CAM) tokens, which introduce cross-attentive units used to condition node and edge-level modulations in order to enable context-aware computations that improve the global consistency of the prediction links. We will implement it on a few permutation invariant architectures, and showcase benchmarks that prove the merits of our work.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# 命令規則化の強化による一般化と収束の改善

Improving Generalization and Convergence by Enhancing Implicit Regularization ( http://arxiv.org/abs/2405.20763v2 )

ライセンス: Link先を確認
Mingze Wang, Jinbo Wang, Haotian He, Zilin Wang, Guanhua Huang, Feiyu Xiong, Zhiyu Li, Weinan E, Lei Wu, (参考訳) 本研究では、ディープラーニングにおけるフラットソリューションの発見を加速し、一般化と収束を改善するために、インプリシト正規化拡張(IRE)フレームワークを提案する。 特にIREは、平坦な方向と鋭い方向のダイナミクスを分離し、鋭い方向のトレーニング安定性を維持しながら、平坦な方向に沿ったシャープネスの低減を促進させる。 We show that IRE can be practically incorporated with {\em generic base optimizationrs} without introduce significant compute overload。 実験の結果、IREはさまざまなベンチマークデータセット(CIFAR-10/100、ImageNet)とモデル(ResNets、ViTs)で画像分類タスクの一般化性能を一貫して改善していることがわかった。 意外なことに、IREはWikitext-103、Minipile、Openwebtextなどのデータセット上のLlamaモデル(60Mから229Mまで)の事前トレーニングにおいてAdamWと比較して2ドル99セントのスピードアップも達成している。 さらに,IREがシャープネス認識最小化(SAM)における平坦な最小値への収束を著しく加速できることを示す理論的保証を提供する。

In this work, we propose an Implicit Regularization Enhancement (IRE) framework to accelerate the discovery of flat solutions in deep learning, thereby improving generalization and convergence. Specifically, IRE decouples the dynamics of flat and sharp directions, which boosts the sharpness reduction along flat directions while maintaining the training stability in sharp directions. We show that IRE can be practically incorporated with {\em generic base optimizers} without introducing significant computational overload. Experiments show that IRE consistently improves the generalization performance for image classification tasks across a variety of benchmark datasets (CIFAR-10/100, ImageNet) and models (ResNets and ViTs). Surprisingly, IRE also achieves a $2\times$ {\em speed-up} compared to AdamW in the pre-training of Llama models (of sizes ranging from 60M to 229M) on datasets including Wikitext-103, Minipile, and Openwebtext. Moreover, we provide theoretical guarantees, showing that IRE can substantially accelerate the convergence towards flat minima in Sharpness-aware Minimization (SAM).
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# 医療MLLMは危険である:医療マルチモーダル大言語モデルにおけるクロスモダリティジェイルブレイクとミスマッチ攻撃

Medical MLLM is Vulnerable: Cross-Modality Jailbreak and Mismatched Attacks on Medical Multimodal Large Language Models ( http://arxiv.org/abs/2405.20775v2 )

ライセンス: Link先を確認
Xijie Huang, Xinyuan Wang, Hantao Zhang, Yinghao Zhu, Jiawen Xi, Jingkun An, Hao Wang, Hao Liang, Chengwei Pan, (参考訳) 大規模言語モデル(LLM)に関するセキュリティ上の懸念は広く研究されているが、特に医学的文脈(MedMLLM)において、MLLM(Multimodal Large Language Models)の安全性への影響は十分に研究されていない。 本稿では,MedMLLMsの未発見のセキュリティ脆弱性,特に複雑な医学的課題に対して,問合せ・問合せの正確さと妥当性を重要視する臨床環境に展開する場合について述べる。 既往の医療データと非典型的な自然現象を組み合わせることで、ミスマッチした悪意攻撃(2M-アタック)を定義し、最適化された悪意攻撃(O2M-アタックまたは2M-オプティマイゼーション)として知られるその最適化版を導入する。 医療画像の多彩なモダリティと有害な医療シナリオを網羅した3MADデータセットを用いて総合的な分析を行い,MedMLLMの攻撃成功率を大幅に向上させるMCM最適化手法を提案する。 LLaVA-Medに対するホワイトボックス攻撃や、他の4つのSOTAモデルでのトランスファー攻撃(ブラックボックス)など、このデータセットとアタック手法による評価は、セキュリティ機能を強化したMedMLLMでさえ、セキュリティ違反に対して脆弱なままであることを示している。 我々の研究は、堅牢なセキュリティ対策を実践し、オープンソースMedMLLMの安全性と有効性を高めるための、緊急の努力の必要性を浮き彫りにしている。 私たちのコードはhttps://github.com/dirty computer/O2M_ attack.comで利用可能です。

Security concerns related to Large Language Models (LLMs) have been extensively explored, yet the safety implications for Multimodal Large Language Models (MLLMs), particularly in medical contexts (MedMLLMs), remain insufficiently studied. This paper delves into the underexplored security vulnerabilities of MedMLLMs, especially when deployed in clinical environments where the accuracy and relevance of question-and-answer interactions are critically tested against complex medical challenges. By combining existing clinical medical data with atypical natural phenomena, we define the mismatched malicious attack (2M-attack) and introduce its optimized version, known as the optimized mismatched malicious attack (O2M-attack or 2M-optimization). Using the voluminous 3MAD dataset that we construct, which covers a wide range of medical image modalities and harmful medical scenarios, we conduct a comprehensive analysis and propose the MCM optimization method, which significantly enhances the attack success rate on MedMLLMs. Evaluations with this dataset and attack methods, including white-box attacks on LLaVA-Med and transfer attacks (black-box) on four other SOTA models, indicate that even MedMLLMs designed with enhanced security features remain vulnerable to security breaches. Our work underscores the urgent need for a concerted effort to implement robust security measures and enhance the safety and efficacy of open-source MedMLLMs, particularly given the potential severity of jailbreak attacks and other malicious or clinically significant exploits in medical settings. Our code is available at https://github.com/dirtycomputer/O2M_attack.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# 出力制約付き学習アルゴリズムの統一定式化による解析

An Analysis under a Unified Fomulation of Learning Algorithms with Output Constraints ( http://arxiv.org/abs/2406.01647v2 )

ライセンス: Link先を確認
Mooho Song, Jay-Yoon Lee, (参考訳) ニューラルネットワーク(NN)は様々なタスクでよく機能するが、時には人間に非意味な結果をもたらす。 ほとんどのNNモデルは(インプット、アウトプット)ペアから学び、時に人間の知識と矛盾する。 多くの研究は、トレーニング中に出力制約を減らして人間の知識を注入することは、モデル性能を改善し、制約違反を減らすことを示唆している。 同じプログラミングフレームワークの下で、異なる既存のアルゴリズムを比較する試みはいくつかあるが、しかしながら、学習アルゴリズムを統一的な方法で出力制約に分類する以前の研究は行われていない。 筆者らの貢献は,(1) 使用する制約損失の種類(確率的ソフトロジック,REINFORCE), 制約違反事例の探索戦略, および主課題と制約からの学習信号の統合メカニズムの3つの軸に基づいて, これまでの研究を分類することである。 2) 連続学習アルゴリズムにインスパイアされた主課題情報と制約注入情報を統合する新しいアルゴリズムを提案する。 さらに,本手法と制約違反を同時に考慮するための指標として,$H\beta$-scoreを提案する。 自然言語推論(NLI)、合成翻訳例(STE)、意味的役割ラベリング(SRL)という3つのNLPタスクにおける全てのアルゴリズムを網羅的に分析する。 我々は、高い$H\beta$-scoresを達成するための様々なアルゴリズムの鍵となる要素を探求し、明らかにする。

Neural networks (NN) perform well in diverse tasks, but sometimes produce nonsensical results to humans. Most NN models "solely" learn from (input, output) pairs, occasionally conflicting with human knowledge. Many studies indicate injecting human knowledge by reducing output constraints during training can improve model performance and reduce constraint violations. While there have been several attempts to compare different existing algorithms under the same programming framework, nonetheless, there has been no previous work that categorizes learning algorithms with output constraints in a unified manner. Our contributions are as follows: (1) We categorize the previous studies based on three axes: type of constraint loss used (e.g. probabilistic soft logic, REINFORCE), exploration strategy of constraint-violating examples, and integration mechanism of learning signals from main task and constraint. (2) We propose new algorithms to integrate the information of main task and constraint injection, inspired by continual-learning algorithms. (3) Furthermore, we propose the $H\beta$-score as a metric for considering the main task metric and constraint violation simultaneously. To provide a thorough analysis, we examine all the algorithms on three NLP tasks: natural language inference (NLI), synthetic transduction examples (STE), and semantic role labeling (SRL). We explore and reveal the key factors of various algorithms associated with achieving high $H\beta$-scores.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# オンライン人気を支えているもの:著者、コンテンツ、あるいは共有者?ベイジアンミクチャーホークスによる拡散ダイナミクスの推定

What Drives Online Popularity: Author, Content or Sharers? Estimating Spread Dynamics with Bayesian Mixture Hawkes ( http://arxiv.org/abs/2406.03390v3 )

ライセンス: Link先を確認
Pio Calderon, Marian-Andrei Rizoiu, (参考訳) ソーシャルメディア上のコンテンツの拡散は、ソース、コンテンツそのもの、そしてコンテンツが広がる経路の3つのレベルにおいて、要素を相互に絡み合うことによって形成される。 最低レベルでは、共有ユーザの人気がその最終的なリーチを決定する。 しかし、オンラインアイテムの性質やソースの信頼性といった高レベルの要因も、オンラインアイテムがいかに広く、迅速に拡散するかを決定する上で重要な役割を担っている。 本研究では,Byesian Mixture Hawkes(BMH)モデルを提案する。 我々は、BMHモデルを分離可能なホークス過程の階層的混合モデルとして定式化し、ホークス力学の異なるクラスとこれらのクラスに対する特徴集合の影響を調節する。 2つの学習課題(コールドスタート人気予測と時間プロファイル一般化性能)でBMHモデルをテストし、2つの実世界のリツイートカスケードデータセットに適用した。 BMHモデルは、両方のデータセットで最先端のモデルと予測ベースラインを上回り、代替品よりもカスケードやアイテムレベルの情報を利用する。 最後に、訓練された出版社レベルのBMHモデルを記事の見出しに応用し、見出しの書き方(中性、クリックベイト、炎症)の有効性が出版社によって異なることを示す。 BMHモデルでは、議論の余地のある出版社と議論の余地のある出版社の間で、スタイルの有効性の違いが明らかになっている。

The spread of content on social media is shaped by intertwining factors on three levels: the source, the content itself, and the pathways of content spread. At the lowest level, the popularity of the sharing user determines its eventual reach. However, higher-level factors such as the nature of the online item and the credibility of its source also play crucial roles in determining how widely and rapidly the online item spreads. In this work, we propose the Bayesian Mixture Hawkes (BMH) model to jointly learn the influence of source, content and spread. We formulate the BMH model as a hierarchical mixture model of separable Hawkes processes, accommodating different classes of Hawkes dynamics and the influence of feature sets on these classes. We test the BMH model on two learning tasks, cold-start popularity prediction and temporal profile generalization performance, applying to two real-world retweet cascade datasets referencing articles from controversial and traditional media publishers. The BMH model outperforms the state-of-the-art models and predictive baselines on both datasets and utilizes cascade- and item-level information better than the alternatives. Lastly, we perform a counter-factual analysis where we apply the trained publisher-level BMH models to a set of article headlines and show that effectiveness of headline writing style (neutral, clickbait, inflammatory) varies across publishers. The BMH model unveils differences in style effectiveness between controversial and reputable publishers, where we find clickbait to be notably more effective for reputable publishers as opposed to controversial ones, which links to the latter's overuse of clickbait.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# NYU CTFデータセット: 攻撃的セキュリティでLLMを評価するためのスケーラブルなオープンソースベンチマークデータセット

NYU CTF Dataset: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security ( http://arxiv.org/abs/2406.05590v2 )

ライセンス: Link先を確認
Minghao Shao, Sofija Jancheska, Meet Udeshi, Brendan Dolan-Gavitt, Haoran Xi, Kimberly Milner, Boyuan Chen, Max Yin, Siddharth Garg, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Muhammad Shafique, (参考訳) 大規模言語モデル(LLM)は現在、さまざまなドメインにデプロイされています。 しかし、サイバーセキュリティにおけるCapture the Flag(CTF)の課題を解決する能力は、十分に評価されていない。 そこで我々は,これらのアプリケーションに特化して設計された,スケーラブルでオープンソースのベンチマークデータベースを作成することで,CTFの課題を解決する上で,LCMを評価する新しい手法を開発した。 このデータベースは、LLMテストと適応学習のためのメタデータを含み、人気のあるコンペからさまざまなCTF課題をコンパイルする。 LLMの高度な機能呼び出し機能を利用することで、ワークフローを強化し、外部ツールコールをサポートする完全に自動化されたシステムを構築する。 ベンチマークデータセットと自動フレームワークにより,ブラックボックスモデルとオープンソースモデルの両方を含む5つのLCMの性能を評価することができる。 この研究は、対話型サイバーセキュリティタスクと自動タスク計画におけるLCMの効率を改善するための将来の研究の基盤となる。 特殊なデータセットを提供することで、LLMベースの脆弱性検出と解決のためのアプローチを開発し、テストし、精錬するための理想的なプラットフォームを提供します。 これらの課題に対するLCMの評価と人間のパフォーマンスの比較は、現実の脅威管理を実行するためのAI駆動型サイバーセキュリティソリューションの可能性についての洞察を与える。 データセットを公開 https://github.com/NYU-LLM-CTF/LLM_CTF_Database と遊び場の自動フレームワーク https://github.com/NYU-LLM-CTF/llm_ctf_automation に公開しています。

Large Language Models (LLMs) are being deployed across various domains today. However, their capacity to solve Capture the Flag (CTF) challenges in cybersecurity has not been thoroughly evaluated. To address this, we develop a novel method to assess LLMs in solving CTF challenges by creating a scalable, open-source benchmark database specifically designed for these applications. This database includes metadata for LLM testing and adaptive learning, compiling a diverse range of CTF challenges from popular competitions. Utilizing the advanced function calling capabilities of LLMs, we build a fully automated system with an enhanced workflow and support for external tool calls. Our benchmark dataset and automated framework allow us to evaluate the performance of five LLMs, encompassing both black-box and open-source models. This work lays the foundation for future research into improving the efficiency of LLMs in interactive cybersecurity tasks and automated task planning. By providing a specialized dataset, our project offers an ideal platform for developing, testing, and refining LLM-based approaches to vulnerability detection and resolution. Evaluating LLMs on these challenges and comparing with human performance yields insights into their potential for AI-driven cybersecurity solutions to perform real-world threat management. We make our dataset open source to public https://github.com/NYU-LLM-CTF/LLM_CTF_Database along with our playground automated framework https://github.com/NYU-LLM-CTF/llm_ctf_automation.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# グラフニューラルネットワークの論理蒸留

Logical Distillation of Graph Neural Networks ( http://arxiv.org/abs/2406.07126v3 )

ライセンス: Link先を確認
Alexander Pluska, Pascal Welke, Thomas Gärtner, Sagar Malhotra, (参考訳) 本稿では,グラフを学習するための論理ベースの解釈可能なモデルと,このモデルをグラフニューラルネットワーク(GNN)から抽出するアルゴリズムを提案する。 近年、GNNの表現率と数量化器(C2)を用いた一階述語論理の2変数の断片との関係が示されている。 本稿では、C2の拡張を利用して、GNNから解釈可能な論理分類器を抽出する決定木モデルを提案する。 我々は,複数のGNNアーキテクチャに対するアプローチを検証した。 蒸留されたモデルは解釈可能で簡潔であり、基礎となるGNNと同等の精度が得られる。 さらに、C2 で基底真理が表現可能である場合、我々のアプローチは GNN よりも優れている。

We present a logic based interpretable model for learning on graphs and an algorithm to distill this model from a Graph Neural Network (GNN). Recent results have shown connections between the expressivity of GNNs and the two-variable fragment of first-order logic with counting quantifiers (C2). We introduce a decision-tree based model which leverages an extension of C2 to distill interpretable logical classifiers from GNNs. We test our approach on multiple GNN architectures. The distilled models are interpretable, succinct, and attain similar accuracy to the underlying GNN. Furthermore, when the ground truth is expressible in C2, our approach outperforms the GNN.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# VulDetectBench: 大規模言語モデルによる脆弱性検出の深い機能評価

VulDetectBench: Evaluating the Deep Capability of Vulnerability Detection with Large Language Models ( http://arxiv.org/abs/2406.07595v4 )

ライセンス: Link先を確認
Yu Liu, Lang Gao, Mingxin Yang, Yu Xie, Ping Chen, Xiaojin Zhang, Wei Chen, (参考訳) 大規模言語モデル(LLM)は、大量のプログラムコードを含むトレーニングコーパスを持ち、モデルのコード理解と生成能力を大幅に改善する。 しかし、プログラムの脆弱性の検出、コードに関するより具体的なタスク、そしてこのより専門的なシナリオにおけるLLMの性能評価に関する包括的な研究は、いまだに不足している。 脆弱性分析における一般的な課題に対処するため,本研究では,LSMの脆弱性検出機能を評価するために特別に設計された,新たなベンチマークであるVulDetectBenchを紹介した。 このベンチマークは、LLMの脆弱性を特定し、分類し、発見する能力を、難易度を高める5つのタスクを通じて総合的に評価している。 我々は17モデル(オープンソースとクローズドソースの両方)の性能を評価し、既存のモデルでは脆弱性の識別と分類に関連するタスクにおいて80%以上の精度を達成できるが、その一方で、特定のより詳細な脆弱性分析タスクでは、30%未満の精度で不足しており、プロの脆弱性マイニングに有用な補助情報を提供することは困難である。 本ベンチマークでは,脆弱性検出の特定のタスクにおいて,様々なLLMの能力評価を効果的に行うとともに,コードセキュリティの重要領域における今後の研究と改善の基盤となる。 VulDetectBenchはhttps://github.com/Sweetaroo/VulDetectBench.comで公開されている。

Large Language Models (LLMs) have training corpora containing large amounts of program code, greatly improving the model's code comprehension and generation capabilities. However, sound comprehensive research on detecting program vulnerabilities, a more specific task related to code, and evaluating the performance of LLMs in this more specialized scenario is still lacking. To address common challenges in vulnerability analysis, our study introduces a new benchmark, VulDetectBench, specifically designed to assess the vulnerability detection capabilities of LLMs. The benchmark comprehensively evaluates LLM's ability to identify, classify, and locate vulnerabilities through five tasks of increasing difficulty. We evaluate the performance of 17 models (both open- and closed-source) and find that while existing models can achieve over 80% accuracy on tasks related to vulnerability identification and classification, they still fall short on specific, more detailed vulnerability analysis tasks, with less than 30% accuracy, making it difficult to provide valuable auxiliary information for professional vulnerability mining. Our benchmark effectively evaluates the capabilities of various LLMs at different levels in the specific task of vulnerability detection, providing a foundation for future research and improvements in this critical area of code security. VulDetectBench is publicly available at https://github.com/Sweetaroo/VulDetectBench.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# MMFakeBench:LVLM用混在型マルチモーダル誤情報検出ベンチマーク

MMFakeBench: A Mixed-Source Multimodal Misinformation Detection Benchmark for LVLMs ( http://arxiv.org/abs/2406.08772v2 )

ライセンス: Link先を確認
Xuannan Liu, Zekun Li, Peipei Li, Shuhan Xia, Xing Cui, Linzhi Huang, Huaibo Huang, Weihong Deng, Zhaofeng He, (参考訳) 現在のMultimodal misinformation Detection (MMD) 法は、複数の偽情報ソースが共存する現実のシナリオでは不十分な、サンプル毎に単一のソースとフォージェリーのタイプを仮定することが多い。 混合ソースの誤情報に対するベンチマークが欠如していることは、この分野の進歩を妨げている。 そこで我々はMMFakeBenchを紹介した。MMFakeBenchはミックスソースMDDの最初の包括的なベンチマークである。 MMFakeBenchには3つの重要なソースが含まれている: テキストの正確さの歪み、視覚的正確さの歪み、および横断的一貫性の歪み。 さらに,0ショット設定でMMFakeBench上で6つの一般的な検出手法と15の大規模視覚言語モデル(LVLM)を広範囲に評価する。 その結果,現状の手法は,この困難かつ現実的なMDD設定下では困難であることが示唆された。 さらに,LVLMエージェントの合理性,行動,ツール使用能力を統合し,精度と一般化を著しく向上する,革新的な統一フレームワークを提案する。 本研究は,より現実的な混在型マルチモーダル誤報の研究を触媒し,誤報検出手法の公正な評価を提供する。

Current multimodal misinformation detection (MMD) methods often assume a single source and type of forgery for each sample, which is insufficient for real-world scenarios where multiple forgery sources coexist. The lack of a benchmark for mixed-source misinformation has hindered progress in this field. To address this, we introduce MMFakeBench, the first comprehensive benchmark for mixed-source MMD. MMFakeBench includes 3 critical sources: textual veracity distortion, visual veracity distortion, and cross-modal consistency distortion, along with 12 sub-categories of misinformation forgery types. We further conduct an extensive evaluation of 6 prevalent detection methods and 15 large vision-language models (LVLMs) on MMFakeBench under a zero-shot setting. The results indicate that current methods struggle under this challenging and realistic mixed-source MMD setting. Additionally, we propose an innovative unified framework, which integrates rationales, actions, and tool-use capabilities of LVLM agents, significantly enhancing accuracy and generalization. We believe this study will catalyze future research into more realistic mixed-source multimodal misinformation and provide a fair evaluation of misinformation detection methods.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# UniBridge: 低リソース言語のための言語間変換学習のための統一的なアプローチ

UniBridge: A Unified Approach to Cross-Lingual Transfer Learning for Low-Resource Languages ( http://arxiv.org/abs/2406.09717v3 )

ライセンス: Link先を確認
Trinh Pham, Khoi M. Le, Luu Anh Tuan, (参考訳) 本稿では,UniBridge(Cross-Lingual Transfer Learning with Optimized Embeddings and Vocabulary)を紹介する。 本手法は,埋め込みの初期化と最適な語彙サイズという,言語モデルの2つの重要な要素に対処する。 具体的には,言語に対する語彙と意味的アライメントを両立させる新しい埋め込み初期化手法を提案する。 さらに,最適な語彙サイズを体系的に探索し,モデルの複雑さと言語的カバレッジのバランスを確保する手法を提案する。 多言語データセットを用いた実験により,いくつかの言語でF1スコアが大幅に改善された。 UniBridgeは、様々な言語における言語間システムに対する堅牢で適応可能なソリューションであり、埋め込みを初期化し、言語間環境において適切な語彙サイズを選択することの重要性を強調している。

In this paper, we introduce UniBridge (Cross-Lingual Transfer Learning with Optimized Embeddings and Vocabulary), a comprehensive approach developed to improve the effectiveness of Cross-Lingual Transfer Learning, particularly in languages with limited resources. Our approach tackles two essential elements of a language model: the initialization of embeddings and the optimal vocabulary size. Specifically, we propose a novel embedding initialization method that leverages both lexical and semantic alignment for a language. In addition, we present a method for systematically searching for the optimal vocabulary size, ensuring a balance between model complexity and linguistic coverage. Our experiments across multilingual datasets show that our approach greatly improves the F1-Score in several languages. UniBridge is a robust and adaptable solution for cross-lingual systems in various languages, highlighting the significance of initializing embeddings and choosing the right vocabulary size in cross-lingual environments.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# ステレオマッチングにおける厳密な反復的相違

Rectified Iterative Disparity for Stereo Matching ( http://arxiv.org/abs/2406.10943v4 )

ライセンス: Link先を確認
Weiqing Xiao, Wei Zhao, (参考訳) 不確実性と反復に基づく手法はステレオマッチングにおいて大きな成功を収めた。 しかし、既存の不確実性推定手法では、単一の画像と対応する相違を入力とし、推定ネットワークにより高い要求を課す。 本稿では,コストボリュームに基づく不確実性推定(UEC)を提案する。 画像対から得られるコストボリュームの豊富な類似性情報に基づいて,提案したUCCは,計算コストの低い競合性能を実現することができる。 次に,不確実性に基づく不確実性評価,不確実性に基づく不確実性補正(UDR)と不確実性に基づく不確実性更新条件(UDC)の2つの手法を提案する。 これらの2つの方法は、余分なパラメータを加えることなく反復的アプローチの差分更新プロセスを最適化する。 さらに,小量の異方性更新の精度を著しく向上する異方性補正損失を提案する。 提案手法を組み合わせた高性能ステレオアーキテクチャDR Stereoを提案する。 SceneFlow、KITTI、Middlebury 2014、ETH3Dの実験結果は、DR-Stereoが非常に競争力のある異種推定性能を達成していることを示している。

Both uncertainty-assisted and iteration-based methods have achieved great success in stereo matching. However, existing uncertainty estimation methods take a single image and the corresponding disparity as input, which imposes higher demands on the estimation network. In this paper, we propose Cost volume-based disparity Uncertainty Estimation (UEC). Based on the rich similarity information in the cost volume coming from the image pairs, the proposed UEC can achieve competitive performance with low computational cost. Secondly, we propose two methods of uncertainty-assisted disparity estimation, Uncertainty-based Disparity Rectification (UDR) and Uncertainty-based Disparity update Conditioning (UDC). These two methods optimise the disparity update process of the iterative-based approach without adding extra parameters. In addition, we propose Disparity Rectification loss that significantly improves the accuracy of small amount of disparity updates. We present a high-performance stereo architecture, DR Stereo, which is a combination of the proposed methods. Experimental results from SceneFlow, KITTI, Middlebury 2014, and ETH3D show that DR-Stereo achieves very competitive disparity estimation performance.
翻訳日:2024-08-22 22:15:45 公開日:2024-08-21
# アウト・オブ・ディストリビューション検出に先立つ爆発的拡散

Exploiting Diffusion Prior for Out-of-Distribution Detection ( http://arxiv.org/abs/2406.11105v2 )

ライセンス: Link先を確認
Armando Zhu, Jiabei Liu, Keqin Li, Shuying Dai, Bo Hong, Peng Zhao, Changsong Wei, (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、特にセキュリティが重要な分野において、堅牢な機械学習モデルをデプロイするために不可欠である。 しかし、従来のOOD検出手法は、大規模な日付から複雑なデータ分布を捉えるのに失敗することが多い。 本稿では,CLIP の拡散モデル生成能力と強力な特徴抽出能力を活用する OOD 検出手法を提案する。 これらの特徴を拡散モデルへの条件入力として利用することにより、CLIPでエンコードした画像を再構成することができる。 元の画像と再構成画像の違いは、OOD識別のための信号として使用される。 本手法の実用性と拡張性は,他の多くの手法と同様,クラス固有のラベル付きIDデータを必要としないという事実により増大する。 いくつかのベンチマークデータセットに対する大規模な実験は,本手法の堅牢性と有効性を示し,検出精度を大幅に向上させた。

Out-of-distribution (OOD) detection is crucial for deploying robust machine learning models, especially in areas where security is critical. However, traditional OOD detection methods often fail to capture complex data distributions from large scale date. In this paper, we present a novel approach for OOD detection that leverages the generative ability of diffusion models and the powerful feature extraction capabilities of CLIP. By using these features as conditional inputs to a diffusion model, we can reconstruct the images after encoding them with CLIP. The difference between the original and reconstructed images is used as a signal for OOD identification. The practicality and scalability of our method is increased by the fact that it does not require class-specific labeled ID data, as is the case with many other methods. Extensive experiments on several benchmark datasets demonstrates the robustness and effectiveness of our method, which have significantly improved the detection accuracy.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# ノイズなしの量子コンピュータは存在しない

The Noiseless Quantum Computer Does Not Exist ( http://arxiv.org/abs/2406.12924v2 )

ライセンス: Link先を確認
Valentin Vankov Iliev, (参考訳) 本稿では,量子コンピュータの論理ゲートが他の論理ゲートに依存していることを示す。

In this note we show that any logic gates in a quantum computer is informationally dependent on another quantum logic gate.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# ShiELD:LLMテキスト生成における著作権コンプライアンスの評価と防御戦略

SHIELD: Evaluation and Defense Strategies for Copyright Compliance in LLM Text Generation ( http://arxiv.org/abs/2406.12975v2 )

ライセンス: Link先を確認
Xiaoze Liu, Ting Sun, Tianyang Xu, Feijie Wu, Cunxiang Wang, Xiaoqian Wang, Jing Gao, (参考訳) 大規模言語モデル (LLMs) は機械学習を変容させたが、著作権を侵害するテキストを生成できる可能性のために、重大な法的懸念を提起し、いくつかの著名な訴訟を引き起こした。 法的な状況は、これらの急速な進歩に追随し、生成したテキストが著作権のある資料を盗用するかどうかに関する議論が続いている。 現在のLLMは著作権を侵害したり、コピーライトされていないテキストを過剰に制限する可能性がある。 一 複数面から著作権の遵守を評価するための総合評価ベンチマークの必要性 二 防犯攻撃の回避に対する堅牢性を評価すること。 三 著作権文書の発生を標的とした効果的な防衛を開発すること。 これらの課題に対処するため、我々は、手法の評価、攻撃戦略のテスト、著作権付きテキストの生成を防止するための軽量でリアルタイムな防御の提案、LLMの安全で合法的な使用を保証するためのキュレートデータセットを導入した。 我々の実験は、現在のLLMが頻繁に著作権付きテキストを出力し、ジェイルブレイク攻撃は著作権付きテキストの量を著しく増加させることを示した。 提案する防衛機構は,悪意のある要求を効果的に拒否することにより,LLMが生成する著作権文書の量を大幅に削減する。 コードはhttps://github.com/xz-liu/SHIELDで公開されている。

Large Language Models (LLMs) have transformed machine learning but raised significant legal concerns due to their potential to produce text that infringes on copyrights, resulting in several high-profile lawsuits. The legal landscape is struggling to keep pace with these rapid advancements, with ongoing debates about whether generated text might plagiarize copyrighted materials. Current LLMs may infringe on copyrights or overly restrict non-copyrighted texts, leading to these challenges: (i) the need for a comprehensive evaluation benchmark to assess copyright compliance from multiple aspects; (ii) evaluating robustness against safeguard bypassing attacks; and (iii) developing effective defense targeted against the generation of copyrighted text. To tackle these challenges, we introduce a curated dataset to evaluate methods, test attack strategies, and propose lightweight, real-time defense to prevent the generation of copyrighted text, ensuring the safe and lawful use of LLMs. Our experiments demonstrate that current LLMs frequently output copyrighted text, and that jailbreaking attacks can significantly increase the volume of copyrighted output. Our proposed defense mechanism significantly reduces the volume of copyrighted text generated by LLMs by effectively refusing malicious requests. Code is publicly available at https://github.com/xz-liu/SHIELD
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# 調音エンコーデック:声道キネマティクスによる符号化音声

Articulatory Encodec: Coding Speech through Vocal Tract Kinematics ( http://arxiv.org/abs/2406.12998v2 )

ライセンス: Link先を確認
Cheol Jun Cho, Peter Wu, Tejas S. Prabhune, Dhruv Agarwal, Gopala K. Anumanchipalli, (参考訳) 声道明瞭度は音声生成の自然な制御空間である。 発声器の時空間調整と発声源形状を組み合わさって効果的な音声通信を実現する。 音声のこの生理的基盤に基づいて,音声のニューラルエンコーディング・デコーディングの新たな枠組みであるArticulatory Encodecを提案する。 調音エンコーデックは、音声音声から調音特徴を推定する調音解析モデルと、調音特徴から調音音声を合成する調音合成モデルとから構成される。 調音特徴は声道調音器のキネマティックな痕跡と音源の特徴であり、直感的に解釈可能で制御可能であり、実際の音声生成の物理的インターフェースである。 追加の話者識別エンコーダは、音声合成器と共同で訓練され、個々の話者の音声テクスチャを知らせる。 大規模音声データを学習することにより、未知の話者に一般化する、完全に理解可能な高品質な調音シンセサイザーを実現する。 さらに、話者埋め込みは、アクセントを保ったゼロショット音声変換を可能にする調音から効果的に切り離される。 我々の知る限り、これは普遍的で高性能な調音推論と合成の初めての実証であり、このフレームワークは音声の強力な符号化システムとして提案されている。

Vocal tract articulation is a natural, grounded control space of speech production. The spatiotemporal coordination of articulators combined with the vocal source shapes intelligible speech sounds to enable effective spoken communication. Based on this physiological grounding of speech, we propose a new framework of neural encoding-decoding of speech -- Articulatory Encodec. Articulatory Encodec comprises an articulatory analysis model that infers articulatory features from speech audio, and an articulatory synthesis model that synthesizes speech audio from articulatory features. The articulatory features are kinematic traces of vocal tract articulators and source features, which are intuitively interpretable and controllable, being the actual physical interface of speech production. An additional speaker identity encoder is jointly trained with the articulatory synthesizer to inform the voice texture of individual speakers. By training on large-scale speech data, we achieve a fully intelligible, high-quality articulatory synthesizer that generalizes to unseen speakers. Furthermore, the speaker embedding is effectively disentangled from articulations, which enables accent-perserving zero-shot voice conversion. To the best of our knowledge, this is the first demonstration of universal, high-performance articulatory inference and synthesis, suggesting the proposed framework as a powerful coding system of speech.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# 確率的ニューラルダイナミクスによる単一ニューロンに対するシュレーディンガー方程式の導出

Derivation of a Schrödinger Equation for Single Neurons Through Stochastic Neural Dynamics ( http://arxiv.org/abs/2406.16991v2 )

ライセンス: Link先を確認
Partha Ghose, (参考訳) 量子力学は、固有のノイズとデコヒーレンスのため、マクロな生物学的システムとは無関係であるという見解が一般的であるが、本稿は、ニューロン膜の電気ノイズ(ブラウン運動)が、新しいニューロン定数$\hat{\hbar}$を含む 'emergent' Schr\"{o}dinger equation を引き起こすことを証明している。 この結果は、脳機能の基礎となるメカニズムに関する新たな洞察を与え、量子物理学と神経科学の両方の既存のパラダイムに挑戦する可能性がある。 この創発的な量子行動の実験的なテストは、サブスレッショルドな神経振動における量子ゆらぎを探すことである。

Despite the prevalent view that quantum mechanics is irrelevant to macroscopic biological systems because of inherent noise and decoherence, this paper demonstrates that the electrical noise (Brownian motion) in neuron membranes gives rise to an `emergent' Schr\"{o}dinger equation involving a new neuronal constant $\hat{\hbar}$, fundamentally challenging the standard view of neuronal behaviour. This result could provide new insights into the underlying mechanisms of brain function, thus challenging existing paradigms in both quantum physics and neuroscience. A possible empirical test of this emergent quantum behaviour would be to look for quantum fluctuations in subthreshold neural oscillations.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# MotionBooth:モーション対応のテキスト・ビデオ・ジェネレーション

MotionBooth: Motion-Aware Customized Text-to-Video Generation ( http://arxiv.org/abs/2406.17758v2 )

ライセンス: Link先を確認
Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, Kai Chen, (参考訳) 本研究では、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーション化するための革新的なフレームワークであるMotionBoothを紹介する。 物体の形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率よく微調整する。 提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を,カスタマイズした被写体とモーションコントロール信号を統合するために,被写体トークンのクロスアテンション損失とともに提示する。 さらに,推論中の被写体とカメラの動きを管理するためのトレーニングフリー手法を提案する。 特に、クロスアテンションマップの操作を利用して被写体の動きを制御し、カメラの動き制御のための新しい潜時シフトモジュールを導入する。 MotionBoothは、生成したビデオの動作を同時に制御しながら、被写体を保護している。 定量的および定性的評価は,本手法の優位性と有効性を示すものである。 私たちのプロジェクトページはhttps://jianzongwu.github.io/projects/motionboothです。

In this work, we present MotionBooth, an innovative framework designed for animating customized subjects with precise control over both object and camera movements. By leveraging a few images of a specific object, we efficiently fine-tune a text-to-video model to capture the object's shape and attributes accurately. Our approach presents subject region loss and video preservation loss to enhance the subject's learning performance, along with a subject token cross-attention loss to integrate the customized subject with motion control signals. Additionally, we propose training-free techniques for managing subject and camera motions during inference. In particular, we utilize cross-attention map manipulation to govern subject motion and introduce a novel latent shift module for camera movement control as well. MotionBooth excels in preserving the appearance of subjects while simultaneously controlling the motions in generated videos. Extensive quantitative and qualitative evaluations demonstrate the superiority and effectiveness of our method. Our project page is at https://jianzongwu.github.io/projects/motionbooth
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# TabReD: ブラウザで学習するタブラル機械学習のベンチマーク

TabReD: A Benchmark of Tabular Machine Learning in-the-Wild ( http://arxiv.org/abs/2406.19380v3 )

ライセンス: Link先を確認
Ivan Rubachev, Nikolay Kartashev, Yury Gorishniy, Artem Babenko, (参考訳) 下流のアプリケーションシナリオを深く反映したベンチマークは、表型機械学習(ML)における新しい研究の合理化に不可欠である。 本研究では,既存の表型ベンチマークを検証し,学術コミュニティで利用可能なデータセットに不足している業界レベルの表型データの2つの共通特性を見出した。 まず、実際のデプロイメントシナリオでは、タブ形式のデータが時間とともに変化することが多い。 これはモデルのパフォーマンスに影響を与え、正しいモデル評価のために時間ベースのトレインとテストの分割が必要です。 しかし、既存の学術グラフデータセットは、そのような評価を可能にするタイムスタンプメタデータを欠いていることが多い。 第2に、運用環境におけるデータセットのかなりの部分は、広範なデータ取得と機能エンジニアリングパイプラインに由来する。 特定のデータセットごとに、これは予測的、非形式的、相関的な特徴の絶対的および相対的な数に異なる影響を与える可能性があるため、モデル選択に影響を与える可能性がある。 前述の学術ベンチマークのギャップを埋めるために、TabReDを紹介します。これは、金融からフードデリバリーサービスまで、幅広い領域をカバーする8つの業界グレードのグラフデータセットのコレクションです。 本研究では,TabReDにより促進される機能豊富な時間進化データ設定において,多数の表型MLモデルを評価する。 時間に基づくデータ分割の評価は、学術ベンチマークで一般的なランダム分割の評価と比較して、異なる手法のランク付けにつながることを実証する。 さらに、TabReDデータセットでは、MLPのようなアーキテクチャとGBDTが最良の結果を示しているが、より洗練されたDLモデルは、その効果を証明していない。

Benchmarks that closely reflect downstream application scenarios are essential for the streamlined adoption of new research in tabular machine learning (ML). In this work, we examine existing tabular benchmarks and find two common characteristics of industry-grade tabular data that are underrepresented in the datasets available to the academic community. First, tabular data often changes over time in real-world deployment scenarios. This impacts model performance and requires time-based train and test splits for correct model evaluation. Yet, existing academic tabular datasets often lack timestamp metadata to enable such evaluation. Second, a considerable portion of datasets in production settings stem from extensive data acquisition and feature engineering pipelines. For each specific dataset, this can have a different impact on the absolute and relative number of predictive, uninformative, and correlated features, which in turn can affect model selection. To fill the aforementioned gaps in academic benchmarks, we introduce TabReD -- a collection of eight industry-grade tabular datasets covering a wide range of domains from finance to food delivery services. We assess a large number of tabular ML models in the feature-rich, temporally-evolving data setting facilitated by TabReD. We demonstrate that evaluation on time-based data splits leads to different methods ranking, compared to evaluation on random splits more common in academic benchmarks. Furthermore, on the TabReD datasets, MLP-like architectures and GBDT show the best results, while more sophisticated DL models are yet to prove their effectiveness.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# TabSketchFM: データレイク上のデータ発見のためのスケッチベースのタブラル表現学習

TabSketchFM: Sketch-based Tabular Representation Learning for Data Discovery over Data Lakes ( http://arxiv.org/abs/2407.01619v2 )

ライセンス: Link先を確認
Aamod Khatiwada, Harsha Kokel, Ibrahim Abdelaziz, Subhajit Chaudhury, Julian Dolby, Oktie Hassanzadeh, Zhenhan Huang, Tejaswini Pedapati, Horst Samulowitz, Kavitha Srinivas, (参考訳) 企業は、データレイク内の関連するテーブルを特定する必要性がますます高まっている。 タブラルニューラルモデルは、そのようなデータ発見タスクに役立ちます。 本稿では,データレイク上でのデータ探索を行うニューラルネットワークタブラモデルであるTabSketchFMを提案する。 まず、ニューラルグラフモデルにおけるデータ発見の有効性を高めるためのスケッチベースアプローチとして、新しい事前学習を提案する。 第2に、結合性、結合性、サブセットのテーブルペアを識別するための事前訓練されたモデルを微調整し、従来の表型ニューラルモデルよりも大幅に改善したことを示す。 第三に、どのスケッチがどのタスクに欠かせないかを明らかにするための詳細なアブレーション研究を示す。 クエリテーブルが与えられたら、コーパス内の他のテーブルを見つけ、結合可能、結合可能、あるいはクエリのサブセットとなる。 その結果,最先端技術と比較して,検索におけるF1スコアの大幅な改善が示された。 最後に、データセットとタスク間の大きな転送を示し、モデルがさまざまなタスクと異なるデータレイクをまたいで一般化できることを確認します。

Enterprises have a growing need to identify relevant tables in data lakes; e.g. tables that are unionable, joinable, or subsets of each other. Tabular neural models can be helpful for such data discovery tasks. In this paper, we present TabSketchFM, a neural tabular model for data discovery over data lakes. First, we propose novel pre-training: a sketch-based approach to enhance the effectiveness of data discovery in neural tabular models. Second, we finetune the pretrained model for identifying unionable, joinable, and subset table pairs and show significant improvement over previous tabular neural models. Third, we present a detailed ablation study to highlight which sketches are crucial for which tasks. Fourth, we use these finetuned models to perform table search; i.e., given a query table, find other tables in a corpus that are unionable, joinable, or that are subsets of the query. Our results demonstrate significant improvements in F1 scores for search compared to state-of-the-art techniques. Finally, we show significant transfer across datasets and tasks establishing that our model can generalize across different tasks and over different data lakes.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# 深部視覚モデルの基本的限界に対処する-空間的注意の欠如

Addressing a fundamental limitation in deep vision models: lack of spatial attention ( http://arxiv.org/abs/2407.01782v2 )

ライセンス: Link先を確認
Ali Borji, (参考訳) この写本の主な目的は、現在の深層学習モデル、特に視覚モデルにおいて重要な限界を強調することである。 人間の視覚は、さらなる処理に必要な視覚領域のみを効率的に選択するので、高速かつ低エネルギー消費につながるが、ディープビジョンモデルは画像全体を処理している。 本研究では,この問題をより広い視点から検討し,次世代のより効率的な視覚モデルを実現するための解決策を提案する。 基本的に、畳み込みとプーリング操作は、変更されたリージョンに選択的に適用され、変更マップは後続のレイヤに送信される。 このマップは、どの計算を繰り返す必要があるかを示す。 コードはhttps://github.com/aliborji/spatial_attention.comで公開されている。

The primary aim of this manuscript is to underscore a significant limitation in current deep learning models, particularly vision models. Unlike human vision, which efficiently selects only the essential visual areas for further processing, leading to high speed and low energy consumption, deep vision models process the entire image. In this work, we examine this issue from a broader perspective and propose a solution that could pave the way for the next generation of more efficient vision models. Basically, convolution and pooling operations are selectively applied to altered regions, with a change map sent to subsequent layers. This map indicates which computations need to be repeated. The code is available at https://github.com/aliborji/spatial_attention.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# TrAME:テキスト誘導型3Dガウス平滑マニピュレーションのための軌道対応マルチビュー編集

TrAME: Trajectory-Anchored Multi-View Editing for Text-Guided 3D Gaussian Splatting Manipulation ( http://arxiv.org/abs/2407.02034v2 )

ライセンス: Link先を確認
Chaofan Luo, Donglin Di, Xun Yang, Yongjia Ma, Zhou Xue, Chen Wei, Yebin Liu, (参考訳) 3Dシーン編集の分野では大きな進歩があったが、現在の手法は特に多視点編集プロセスにおける3D一貫性の維持において大きな課題に直面している。 この課題に対処するために,2重ブランチ編集機構を備えたTrajectory-Anchored Scheme (TAS) による複数ビューの整合性を保証するプログレッシブ3次元編集手法を提案する。 具体的には、TASは2次元ビュー編集と3次元更新の間に密結合された反復プロセスを促進し、テキスト・ツー・イメージ・プロセスから得られるエラーの蓄積を防止する。 さらに,最適化手法と再構成手法の関係を考察し,優れた設計選択を選択するための統一的な視点を提供し,設計されたTASの背後にある理論的根拠を支持する。 さらに,2次元ビューの編集中に,ソースブランチからのクロスビューセマンティクスと幾何参照を活用して,対象ブランチからアライメントされたビューを出力する,調整不要なビュー一貫性注意制御(VCAC)モジュールを提案する。 提案手法の有効性を検証するため,VCACモジュールとの整合性向上を実証するために2次元例を分析した。 テキスト誘導3Dシーン編集における定量的および定性的な結果から,本手法は最先端の手法に比べて優れた編集品質が得られることが示唆された。 レビュープロセスの完了後、完全なコードベースを公開します。

Despite significant strides in the field of 3D scene editing, current methods encounter substantial challenge, particularly in preserving 3D consistency in multi-view editing process. To tackle this challenge, we propose a progressive 3D editing strategy that ensures multi-view consistency via a Trajectory-Anchored Scheme (TAS) with a dual-branch editing mechanism. Specifically, TAS facilitates a tightly coupled iterative process between 2D view editing and 3D updating, preventing error accumulation yielded from text-to-image process. Additionally, we explore the relationship between optimization-based methods and reconstruction-based methods, offering a unified perspective for selecting superior design choice, supporting the rationale behind the designed TAS. We further present a tuning-free View-Consistent Attention Control (VCAC) module that leverages cross-view semantic and geometric reference from the source branch to yield aligned views from the target branch during the editing of 2D views. To validate the effectiveness of our method, we analyze 2D examples to demonstrate the improved consistency with the VCAC module. Further extensive quantitative and qualitative results in text-guided 3D scene editing indicate that our method achieves superior editing quality compared to state-of-the-art methods. We will make the complete codebase publicly available following the conclusion of the review process.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# λ/2$サブスペーシングを用いたマジック波長ナノファイバー系二色双極子トラップの実現

Realization of a magic-wavelength nanofiber-based two-color dipole trap with sub-$λ/2$ spacing ( http://arxiv.org/abs/2407.02278v2 )

ライセンス: Link先を確認
Lucas Pache, Martin Cordier, Max Schemmer, Philipp Schneeweiss, Jürgen Volz, Arno Rauschenbeutel, (参考訳) セシウムD2ラインの共振波長の半分以下の間隔で周期的な1次元のトラップ部位を生成できる,マジック波長ナノファイバー系2色光双極子トラップの実現とその特性について報告する。 この目的のために、ナノファイバーを通して青色の偏波と赤色の2つの電界を発射する。 本研究では,3方向のトラップ周波数を計測し,理論的予測と良好な一致を観測することにより,配列中の原子のトラップ化を実証し,その結果のトラップ構成を特徴付ける。 マジックトラップ波長とサブラムダ/2$間隔を持つナノファイバーベースの光インタフェースの実装は、1次元原子配列における選択的放射率などの新しい放射効果の探索に向けた重要なステップである。

We report on the realization and characterization of a novel magic-wavelength nanofiber-based two-color optical dipole trap that allows us to generate a periodic one-dimensional array of trapping sites with a spacing significantly smaller than half of the resonant wavelength of the cesium D2-line. To this end, we launch a blue-detuned partial standing wave and two red-detuned light fields through the nanofiber. We demonstrate the trapping of atoms in the array and characterize the resulting trap configuration by measuring the trap frequencies in three directions and observe good agreement with theoretical predictions. The implementation of this nanofiber-based optical interface with magic trapping wavelengths and sub-$\lambda/2$ spacing is an important step towards the exploration of novel collective radiative effects such as selective radiance in 1D atomic arrays.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# FALIP: ビジュアルプロンプトでCLIPゼロショットのパフォーマンスが向上

FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance ( http://arxiv.org/abs/2407.05578v2 )

ライセンス: Link先を確認
Jiedong Zhuang, Jiaqi Hu, Lianrui Mu, Rui Hu, Xiaoyu Liang, Jiangnan Ye, Haoji Hu, (参考訳) CLIPは、ペア画像テキストデータからなる大規模データセットで事前トレーニングした後、印象的なゼロショットのパフォーマンスを達成した。 以前の作業では、カラーサークルやぼやけたマスクといった手作業で設計された視覚的プロンプトをイメージに組み込んで、モデルの注意をガイドし、下流タスクにおけるゼロショットのパフォーマンスを向上した。 これらの手法は有望な結果を得たが、画像の元の情報を必然的に変更し、特定のタスクで失敗する可能性がある。 マルチヘッド自己注意モジュールに葉の注意マスクを挿入することでCLIPの注意を調節するFoveal-Attention CLIP (FALIP)を提案する。 FALIPは,表現理解,画像分類,3Dポイントクラウド認識などのタスクにおいて,CLIPゼロショット性能を効果的に向上することを示した。 さらに実験結果から,FALIPは既存の手法よりも高い性能を示し,現在の手法を改良して性能を向上させることができることがわかった。

CLIP has achieved impressive zero-shot performance after pre-training on a large-scale dataset consisting of paired image-text data. Previous works have utilized CLIP by incorporating manually designed visual prompts like colored circles and blur masks into the images to guide the model's attention, showing enhanced zero-shot performance in downstream tasks. Although these methods have achieved promising results, they inevitably alter the original information of the images, which can lead to failure in specific tasks. We propose a train-free method Foveal-Attention CLIP (FALIP), which adjusts the CLIP's attention by inserting foveal attention masks into the multi-head self-attention module. We demonstrate FALIP effectively boosts CLIP zero-shot performance in tasks such as referring expressions comprehension, image classification, and 3D point cloud recognition. Experimental results further show that FALIP outperforms existing methods on most metrics and can augment current methods to enhance their performance.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# Mamba-FSCIL:Few-Shot Class-Incremental Learningのための選択状態空間モデルによる動的適応

Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2407.06136v2 )

ライセンス: Link先を確認
Xiaojie Li, Yibo Yang, Jianlong Wu, Bernard Ghanem, Liqiang Nie, Min Zhang, (参考訳) FSCIL(Few-shot class-incremental Learning)は、学習済みのクラスの知識を維持しながら、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。 従来の手法では、固定パラメータ空間に依存する静的適応を広く採用して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向にある。 既存の動的戦略はパラメータ空間を継続的に拡張し、複雑さを増大させる。 本研究では、FSCILにおける選択状態空間モデル(SSM)の可能性について検討し、その動的重みと、これらの課題に対処するためのシーケンスモデリングの強力な能力を活用する。 具体的には、動的適応のための中間特徴に基づいてプロジェクションパラメータを動的に調整するデュアル選択型SSMプロジェクタを提案する。 デュアルデザインにより、モデルはベースクラスの堅牢な特徴を維持でき、新規クラスの特徴シフトを適応的に学習することができる。 さらに,動的適応を誘導するクラス感受性選択的スキャン機構を開発した。 これは、新しいデータによるトレーニングによるベースクラス表現の中断を最小限に抑え、一方、選択スキャンはベースクラスと新規クラスの異なるパターンで実行するよう強制する。 miniImageNet, CUB-200, CIFAR-100 の実験により,我々のフレームワークは既存の最先端手法よりも優れていることが示された。 コードは \url{https://github.com/xiaojieli0903/Mamba-FSCIL} で公開されている。

Few-shot class-incremental learning (FSCIL) confronts the challenge of integrating new classes into a model with minimal training samples while preserving the knowledge of previously learned classes. Traditional methods widely adopt static adaptation relying on a fixed parameter space to learn from data that arrive sequentially, prone to overfitting to the current session. Existing dynamic strategies require the expansion of the parameter space continually, leading to increased complexity. In this study, we explore the potential of Selective State Space Models (SSMs) for FSCIL, leveraging its dynamic weights and strong ability in sequence modeling to address these challenges. Concretely, we propose a dual selective SSM projector that dynamically adjusts the projection parameters based on the intermediate features for dynamic adaptation. The dual design enables the model to maintain the robust features of base classes, while adaptively learning distinctive feature shifts for novel classes. Additionally, we develop a class-sensitive selective scan mechanism to guide dynamic adaptation. It minimizes the disruption to base-class representations caused by training on novel data, and meanwhile, forces the selective scan to perform in distinct patterns between base and novel classes. Experiments on miniImageNet, CUB-200, and CIFAR-100 demonstrate that our framework outperforms the existing state-of-the-art methods. The code is available at \url{https://github.com/xiaojieli0903/Mamba-FSCIL}.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# ディープフェイク生成と検出のタグ・オブ・ウォー

The Tug-of-War Between Deepfake Generation and Detection ( http://arxiv.org/abs/2407.06174v4 )

ライセンス: Link先を確認
Hannah Lee, Changyeon Lee, Kevin Farhat, Lin Qiu, Steve Geluso, Aerin Kim, Oren Etzioni, (参考訳) マルチモーダル生成モデルは急速に進化し、現実的なビデオやオーディオの生成が急増し、エキサイティングな可能性だけでなく深刻なリスクももたらされる。 ディープフェイク動画は、偽情報を拡散したり、不正なコンテンツを作ったりする際に悪用される可能性があるため、特に注目を集めている。 本研究は, ディープフェイク映像の生成と検出の両面を考察し, 潜在的虐待に対する効果的な対策の必要性を強調した。 本稿では、GANや拡散モデルといった最先端技術を活用して、リアルなフェイクビデオを生成する、顔交換、再現、オーディオ駆動アニメーションなど、現在のディープフェイク生成技術の概要について概観する。 さらに,映像や音声信号間の不整合を識別する高度なアルゴリズムの展開から,映像と映像を区別するために設計された様々な検出手法を分析した。 これらの検出手法の有効性は、トレーニングと評価に使用されるデータセットの多様性と品質に大きく依存している。 本稿では,検出精度と一般化性を高めるために,頑健で多種多様で頻繁に更新されるコレクションの重要性を強調し,ディープフェイクデータセットの進化について論じる。 ディープフェイクが真のコンテンツと区別しにくくなるにつれ、世代技術に追従できる高度な検出技術の開発が不可欠である。 我々は、ディープフェイクのクリエーターと検出器の「綱引き」における積極的なアプローチを提唱し、継続的な研究協力の必要性、評価指標の標準化、包括的なベンチマークの作成を強調します。

Multimodal generative models are rapidly evolving, leading to a surge in the generation of realistic video and audio that offers exciting possibilities but also serious risks. Deepfake videos, which can convincingly impersonate individuals, have particularly garnered attention due to their potential misuse in spreading misinformation and creating fraudulent content. This survey paper examines the dual landscape of deepfake video generation and detection, emphasizing the need for effective countermeasures against potential abuses. We provide a comprehensive overview of current deepfake generation techniques, including face swapping, reenactment, and audio-driven animation, which leverage cutting-edge technologies like GANs and diffusion models to produce highly realistic fake videos. Additionally, we analyze various detection approaches designed to differentiate authentic from altered videos, from detecting visual artifacts to deploying advanced algorithms that pinpoint inconsistencies across video and audio signals. The effectiveness of these detection methods heavily relies on the diversity and quality of datasets used for training and evaluation. We discuss the evolution of deepfake datasets, highlighting the importance of robust, diverse, and frequently updated collections to enhance the detection accuracy and generalizability. As deepfakes become increasingly indistinguishable from authentic content, developing advanced detection techniques that can keep pace with generation technologies is crucial. We advocate for a proactive approach in the "tug-of-war" between deepfake creators and detectors, emphasizing the need for continuous research collaboration, standardization of evaluation metrics, and the creation of comprehensive benchmarks.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# DP-SGDに非凸損失のプライバシー対策はない

It's Our Loss: No Privacy Amplification for Hidden State DP-SGD With Non-Convex Loss ( http://arxiv.org/abs/2407.06496v2 )

ライセンス: Link先を確認
Meenatchi Sundaram Muthu Selva Annamalai, (参考訳) Differentially Private Stochastic Gradient Descent (DP-SGD)は、機械学習モデルのトレーニングに使用される一般的な反復アルゴリズムである。 しかし、DP-SGDのプライバシ分析は、アルゴリズムのすべての中間イテレート(内部状態)が解放されるという非現実的な仮定を与える。 この隠れ状態設定において、先行研究は、損失関数が制約された場合にのみ、例えば、強く凸し、滑らかで、線形であるにもかかわらず、より厳密な解析を提供してきた。 一方、非凸損失関数を用いた場合であっても、隠蔽状態DP-SGDから経験的に発見されたプライバシー漏洩は、理論的なプライバシー分析と実際に達成されたプライバシー保証との間にギャップがあることを示唆している。 したがって、DP-SGDの隠蔽状態のプライバシの増幅が、一般にすべての(おそらくは非凸)損失関数に対して可能であるかどうかについては、未解決のままである。 本研究では,逆例を設計し,理論上も実証上もDP-SGDのすべての損失関数に対する隠れ状態のプライバシアンプリフィケーション結果が不可能であることを示す。 DP-SGDの損失関数を慎重に構築することにより、DP-SGDの最終的な繰り返しは、全ての繰り返しの順序が組み合わされた情報だけをリークすることを示す。 さらに,DP-SGDの最終繰り返しからのプライバシー漏洩を損失関数と評価することにより,この結果を実証的に検証し,DPが保証する理論上界と正確に一致することを示す。 したがって、DP-SGDの現在のプライバシ分析は、一般の損失関数に対して厳密であり、一般の(非凸的な)損失関数に対しては、DP-SGDのプライバシ増幅が不可能であることを示す。

Differentially Private Stochastic Gradient Descent (DP-SGD) is a popular iterative algorithm used to train machine learning models while formally guaranteeing the privacy of users. However, the privacy analysis of DP-SGD makes the unrealistic assumption that all intermediate iterates (aka internal state) of the algorithm are released since, in practice, only the final trained model, i.e., the final iterate of the algorithm is released. In this hidden state setting, prior work has provided tighter analyses, albeit only when the loss function is constrained, e.g., strongly convex and smooth or linear. On the other hand, the privacy leakage observed empirically from hidden state DP-SGD, even when using non-convex loss functions, suggests that there is in fact a gap between the theoretical privacy analysis and the privacy guarantees achieved in practice. Therefore, it remains an open question whether hidden state privacy amplification for DP-SGD is possible for all (possibly non-convex) loss functions in general. In this work, we design a counter-example and show, both theoretically and empirically, that a hidden state privacy amplification result for DP-SGD for all loss functions in general is not possible. By carefully constructing a loss function for DP-SGD, we show that for specific loss functions, the final iterate of DP-SGD alone leaks as much information as the sequence of all iterates combined. Furthermore, we empirically verify this result by evaluating the privacy leakage from the final iterate of DP-SGD with our loss function and show that this exactly matches the theoretical upper bound guaranteed by DP. Therefore, we show that the current privacy analysis for DP-SGD is tight for general loss functions and conclude that no privacy amplification is possible for DP-SGD in general for all (possibly non-convex) loss functions.
翻訳日:2024-08-22 22:05:55 公開日:2024-08-21
# グラディエントDescent法によるMU-MIMO放送チャンネルの連成星形成

Joint Constellation Shaping Using Gradient Descent Approach for MU-MIMO Broadcast Channel ( http://arxiv.org/abs/2407.07708v2 )

ライセンス: Link先を確認
Maxime Vaillant, Alix Jeannerot, Jean-Marie Gorce, (参考訳) 我々は,マルチユーザMIMO放送チャンネル(T$Txアンテナ,K$ユーザ,それぞれ$R$Rxアンテナ)のコンステレーションを,完全チャネル知識で最適化するための学習ベースのアプローチを導入する。 最適化器(MAX-MIN)の目的は、送信機と受信機間の最小の相互情報を和力制約の下で最大化することである。 提案手法は、送信機に重ね合わせ符号(SC)やその他の線形プリコーディングの使用や、受信機での逐次干渉キャンセル(SIC)の使用を強制しない。 その代わりに、各受信機$k$のサブスペースへの投影を最適化し、送信された各バイナリ入力$W_k$と意図された受信機$Y_k$の出力信号との間の最小相互情報$I(W_k;Y_k)$を最大化する。 本手法により得られたレートは,線形プリコーダで得られたレートと比較される。

We introduce a learning-based approach to optimize a joint constellation for a multi-user MIMO broadcast channel ($T$ Tx antennas, $K$ users, each with $R$ Rx antennas), with perfect channel knowledge. The aim of the optimizer (MAX-MIN) is to maximize the minimum mutual information between the transmitter and each receiver, under a sum-power constraint. The proposed optimization method do neither impose the transmitter to use superposition coding (SC) or any other linear precoding, nor to use successive interference cancellation (SIC) at the receiver. Instead, the approach designs a joint constellation, optimized such that its projection into the subspace of each receiver $k$, maximizes the minimum mutual information $I(W_k;Y_k)$ between each transmitted binary input $W_k$ and the output signal at the intended receiver $Y_k$. The rates obtained by our method are compared to those achieved with linear precoders.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# 理解は圧縮である

Understanding is Compression ( http://arxiv.org/abs/2407.07723v2 )

ライセンス: Link先を確認
Ziguang Li, Chao Huang, Xuliang Wang, Haibo Hu, Cole Wyeth, Dongbo Bu, Quan Yu, Wen Gao, Xingwu Liu, Ming Li, (参考訳) 現代のデータ圧縮手法は、80年間の研究、数百万の論文、広範囲のアプリケーションを経て、徐々に限界に達している。 しかし、余計な6G通信速度の要求は、データ圧縮の革新的な新しいアイデアに対する大きなオープンな疑問を提起する。 我々は以前、合理的な仮定の下で、すべての理解または学習が圧縮であることを示した。 大規模言語モデル(LLM)は、これまで以上にデータをよく理解している。 データ圧縮に役立ちますか? LLMは計算不能なソロモノフ誘導を近似すると見なすことができる。 したがって、この新しい計算不可能なパラダイムの下で、LMCompressを提示する。 LMCompressは従来のロスレス圧縮アルゴリズムを全て破壊し、画像のJPEG-XL、音声のFLAC、ビデオのH.264の圧縮比を2倍にし、テキストの圧縮比を4倍にした。 大きなモデルがデータを理解するほど、LMCompressは圧縮する。

Modern data compression methods are slowly reaching their limits after 80 years of research, millions of papers, and wide range of applications. Yet, the extravagant 6G communication speed requirement raises a major open question for revolutionary new ideas of data compression. We have previously shown all understanding or learning are compression, under reasonable assumptions. Large language models (LLMs) understand data better than ever before. Can they help us to compress data? The LLMs may be seen to approximate the uncomputable Solomonoff induction. Therefore, under this new uncomputable paradigm, we present LMCompress. LMCompress shatters all previous lossless compression algorithms, doubling the lossless compression ratios of JPEG-XL for images, FLAC for audios, and H.264 for videos, and quadrupling the compression ratio of bz2 for texts. The better a large model understands the data, the better LMCompress compresses.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# オンライン配信レグレッション

Online Distributional Regression ( http://arxiv.org/abs/2407.08750v2 )

ライセンス: Link先を確認
Simon Hirsch, Jonathan Berrisch, Florian Ziel, (参考訳) 大規模ストリーミングデータは現代の機械学習アプリケーションで一般的であり、オンライン学習アルゴリズムの開発につながっている。 サプライチェーン管理、気象・気象学、エネルギー市場、金融といった多くの分野は、予測値の正確な学習だけでなく、条件付きヘテロスケダスティック性や条件付き分布モーメントの学習にも必要となる確率的予測を用いている。 このような背景から,正規化線形分布モデルのオンライン推定手法を提案する。 提案アルゴリズムは,LASSOモデルのオンライン評価とGAMLSSフレームワークを併用した最近の開発成果に基づいている。 本研究では, 実測値と計算量を大幅に削減した実測値の競争性能を示す, 日頭電力価格予測のケーススタディを提案する。 我々のアルゴリズムは計算効率のよいPythonパッケージで実装されている。

Large-scale streaming data are common in modern machine learning applications and have led to the development of online learning algorithms. Many fields, such as supply chain management, weather and meteorology, energy markets, and finance, have pivoted towards using probabilistic forecasts, which yields the need not only for accurate learning of the expected value but also for learning the conditional heteroskedasticity and conditional distribution moments. Against this backdrop, we present a methodology for online estimation of regularized, linear distributional models. The proposed algorithm is based on a combination of recent developments for the online estimation of LASSO models and the well-known GAMLSS framework. We provide a case study on day-ahead electricity price forecasting, in which we show the competitive performance of the incremental estimation combined with strongly reduced computational effort. Our algorithms are implemented in a computationally efficient Python package.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# インフレフロー:拡散モデルに基づくキャリブレーションベイズ推論

Inflationary Flows: Calibrated Bayesian Inference with Diffusion-Based Models ( http://arxiv.org/abs/2407.08843v2 )

ライセンス: Link先を確認
Daniela de Albuquerque, John Pearson, (参考訳) データから興味のパラメータを推定する以外に、統計的推測の重要な目的の1つは、これらの推定における不確実性を適切に定量化することである。 ベイズ予想では、この不確実性は後続分布によって提供され、その計算は通常、難解な高次元積分を含む。 利用可能な近似法の中で、サンプリングベースのアプローチは強力な理論的保証を持つが、大きな問題に対して低いスケールでスケールする一方、変分的アプローチはうまくスケールするが、理論的保証はほとんど得られない。 特に、変分法は後続の不確かさの過信推定を生成することが知られており、典型的には識別不可能であり、多くの潜時変数構成は等価な予測を生成する。 本稿では,最近生成的モデリングタスクにおける最先端性能を生み出した拡散モデル (DBM) を,キャリブレーションされた同定可能なベイズ推定にどのように再利用できるかを示すことで,これらの課題に対処する。 確率フロー常微分方程式 (pfODEs) と確率フロー常微分方程式 (pfODEs) との以前に確立された接続を利用することで、高次元データを一意的に決定的にODE積分を介して低次元ガウス分布にマッピングするモデル、インフレーションフローのクラスを導出する。 この写像は可逆的かつ近傍保存的であり、制御可能な数値誤差があり、その結果、データの不確実性は遅延空間に正しく伝播する。 本稿では,新しいノイズスケジュールを用いた標準的なDBMトレーニングを通じてそのようなマップを学習する方法を実証し,本質的なデータ次元の保存と低減に有効であることを示す。 その結果は高表現的な生成モデルのクラスであり、低次元の潜在空間上で一意に定義される。

Beyond estimating parameters of interest from data, one of the key goals of statistical inference is to properly quantify uncertainty in these estimates. In Bayesian inference, this uncertainty is provided by the posterior distribution, the computation of which typically involves an intractable high-dimensional integral. Among available approximation methods, sampling-based approaches come with strong theoretical guarantees but scale poorly to large problems, while variational approaches scale well but offer few theoretical guarantees. In particular, variational methods are known to produce overconfident estimates of posterior uncertainty and are typically non-identifiable, with many latent variable configurations generating equivalent predictions. Here, we address these challenges by showing how diffusion-based models (DBMs), which have recently produced state-of-the-art performance in generative modeling tasks, can be repurposed for performing calibrated, identifiable Bayesian inference. By exploiting a previously established connection between the stochastic and probability flow ordinary differential equations (pfODEs) underlying DBMs, we derive a class of models, inflationary flows, that uniquely and deterministically map high-dimensional data to a lower-dimensional Gaussian distribution via ODE integration. This map is both invertible and neighborhood-preserving, with controllable numerical error, with the result that uncertainties in the data are correctly propagated to the latent space. We demonstrate how such maps can be learned via standard DBM training using a novel noise schedule and are effective at both preserving and reducing intrinsic data dimensionality. The result is a class of highly expressive generative models, uniquely defined on a low-dimensional latent space, that afford principled Bayesian inference.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# DeCE:裏口攻撃に備えて設計したクロスエントロピー障害

DeCE: Deceptive Cross-Entropy Loss Designed for Defending Backdoor Attacks ( http://arxiv.org/abs/2407.08956v2 )

ライセンス: Link先を確認
Guang Yang, Yu Zhou, Xiang Chen, Xiangyu Zhang, Terry Yue Zhuo, David Lo, Taolue Chen, (参考訳) コード言語モデル(CLM)、特にディープラーニングを活用するものは、コードインテリジェンス領域において大きな成功を収めています。 しかし、セキュリティの問題、特にバックドア攻撃は、このプロセスでは見過ごされがちである。 これまでの研究では、CLMのバックドア攻撃の設計に焦点が当てられていたが、効果的な防御は適切に対処されていない。 特に、自然言語処理からの既存の防御手法は、CLMに直接適用しても効果が十分ではなく、汎用性に欠けており、いくつかのモデルやシナリオではうまく機能するが、他のモデルではうまく機能しないため、バックドア攻撃を継続的に軽減するには不十分である。 このギャップを埋めるために,我々はまず,CLMの訓練中に発生する「早期学習」現象を確認した。 この現象は、モデルが最初はトレーニングデータの主な特徴に焦点を当てていたが、時間が経つにつれてバックドアのトリガーに敏感になり、バックドアの攻撃に対する過度な適合と感受性をもたらす可能性があることを示唆している。 次に, バックドアへの過度な適合は, クロスエントロピー損失関数の使用による結果であり, クロスエントロピーの非有界性は, 有毒データの特徴にますます集中させる。 そこで本研究では,知覚的分布をブレンドしてラベルスムースにラベルスムースにすることで,モデルがバックドアトリガに過度に収まることを防止し,バックドア攻撃に対するCLMの安全性を高めることで,汎用的で効果的な損失関数DeCEを提案する。 本手法の有効性を検証するために,コード合成タスクを実験シナリオとして選択する。 各種コード合成データセット,モデル,有毒比に対する実験により,CLMの安全性を高める上でのDeCEの適用性と有効性を示した。

Code Language Models (CLMs), particularly those leveraging deep learning, have achieved significant success in code intelligence domain. However, the issue of security, particularly backdoor attacks, is often overlooked in this process. The previous research has focused on designing backdoor attacks for CLMs, but effective defenses have not been adequately addressed. In particular, existing defense methods from natural language processing, when directly applied to CLMs, are not effective enough and lack generality, working well in some models and scenarios but failing in others, thus fall short in consistently mitigating backdoor attacks. To bridge this gap, we first confirm the phenomenon of ``early learning" as a general occurrence during the training of CLMs. This phenomenon refers to that a model initially focuses on the main features of training data but may become more sensitive to backdoor triggers over time, leading to overfitting and susceptibility to backdoor attacks. We then analyze that overfitting to backdoor triggers results from the use of the cross-entropy loss function, where the unboundedness of cross-entropy leads the model to increasingly concentrate on the features of the poisoned data. Based on this insight, we propose a general and effective loss function DeCE (Deceptive Cross-Entropy) by blending deceptive distributions and applying label smoothing to limit the gradient to be bounded, which prevents the model from overfitting to backdoor triggers and then enhances the security of CLMs against backdoor attacks. To verify the effectiveness of our defense method, we select code synthesis tasks as our experimental scenarios. Our experiments across various code synthesis datasets, models, and poisoning ratios demonstrate the applicability and effectiveness of DeCE in enhancing the security of CLMs.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# ContextualStory: 空間的拡張とストーリーラインコンテキストによる一貫性のあるビジュアルストーリーテリング

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context ( http://arxiv.org/abs/2407.09774v2 )

ライセンス: Link先を確認
Sixiao Zheng, Yanwei Fu, (参考訳) ビジュアルストーリーテリングは、文字やシーンの一貫性を維持しながら、テキストストーリーラインからコヒーレントなフレームのシーケンスを生成する。 既存の自動回帰手法は、以前のフレーム-文ペアに依存しており、メモリ使用量の増加、生成速度の低下、コンテキスト統合の制限に悩まされている。 これらの問題に対処するために、コヒーレントなストーリーフレームを生成し、ストーリー継続のためにフレームを拡張するように設計された新しいフレームワークであるContextualStoryを提案する。 ContextualStoryは、空間的に拡張された時間的注意を利用して、空間的および時間的依存を捉え、重要な文字の動きを効果的に扱う。 さらに、ストーリーライン埋め込みにおけるコンテキストを豊かにするためのストーリーラインコンテクストライザと、モデルを導くためのフレーム間のシーン変化を測定するストーリーフローアダプタを導入しました。 PororoSVとFlintstonesSVベンチマークの大規模な実験は、ContextualStoryがストーリーの可視化とストーリー継続の両方において既存のメソッドを著しく上回っていることを示している。

Visual storytelling involves generating a sequence of coherent frames from a textual storyline while maintaining consistency in characters and scenes. Existing autoregressive methods, which rely on previous frame-sentence pairs, struggle with high memory usage, slow generation speeds, and limited context integration. To address these issues, we propose ContextualStory, a novel framework designed to generate coherent story frames and extend frames for story continuation. ContextualStory utilizes Spatially-Enhanced Temporal Attention to capture spatial and temporal dependencies, handling significant character movements effectively. Additionally, we introduces a Storyline Contextualizer to enrich context in storyline embedding and a StoryFlow Adapter to measure scene changes between frames for guiding model. Extensive experiments on PororoSV and FlintstonesSV benchmarks demonstrate that ContextualStory significantly outperforms existing methods in both story visualization and story continuation.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# 安全ファインチューニングの作り方と壊し方 : メカニカルスタディ

What Makes and Breaks Safety Fine-tuning? A Mechanistic Study ( http://arxiv.org/abs/2407.10264v3 )

ライセンス: Link先を確認
Samyak Jain, Ekdeep Singh Lubana, Kemal Oksuz, Tom Joy, Philip H. S. Torr, Amartya Sanyal, Puneet K. Dokania, (参考訳) 安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。 モデルが実行するタスク間の相互作用(例えば「設計」)をモデル化し、そのタスクの実行を要求される特定の概念(例えば「サイクル」対「ボム」)に対してモデル化することで、安全でない入力の健全な側面を捉える合成データ生成フレームワークを設計する。 これを用いて、教師付き安全微調整、直接選好最適化、未学習の3つの有名な安全微調整手法を調査し、これらの手法がMDP重みを最小限に変換し、安全でない入力をその重みのnull空間に具体的に整合させることを示す重要な証拠を提供する。 これにより、モデルがそれらを安全とみなすかどうかに基づいて、入力のクラスタリングが生成される。 それに対応して、敵入力(例えばジェイルブレイク)が提供されると、その活性化はより安全なサンプルに近づき、安全であるかのように入力などのモデル処理が行われる。 実世界のモデル、特にLlama-2 7BとLlama-3 8Bでこの結果を検証する。

Safety fine-tuning helps align Large Language Models (LLMs) with human preferences for their safe deployment. To better understand the underlying factors that make models safe via safety fine-tuning, we design a synthetic data generation framework that captures salient aspects of an unsafe input by modeling the interaction between the task the model is asked to perform (e.g., "design") versus the specific concepts the task is asked to be performed upon (e.g., a "cycle" vs. a "bomb"). Using this, we investigate three well-known safety fine-tuning methods -- supervised safety fine-tuning, direct preference optimization, and unlearning -- and provide significant evidence demonstrating that these methods minimally transform MLP weights to specifically align unsafe inputs into its weights' null space. This yields a clustering of inputs based on whether the model deems them safe or not. Correspondingly, when an adversarial input (e.g., a jailbreak) is provided, its activations are closer to safer samples, leading to the model processing such an input as if it were safe. We validate our findings, wherever possible, on real-world models -- specifically, Llama-2 7B and Llama-3 8B.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# AdapTable:Shift-Aware Uncertainty Calibrator と Label Distribution Handler によるタブラルデータのテスト時間適応

AdapTable: Test-Time Adaptation for Tabular Data via Shift-Aware Uncertainty Calibrator and Label Distribution Handler ( http://arxiv.org/abs/2407.10784v2 )

ライセンス: Link先を確認
Changhun Kim, Taewon Kim, Seungyeon Woo, June Yong Yang, Eunho Yang, (参考訳) 現実世界のアプリケーションでは、表データはその広範で豊富な性質のために分散シフトに悩まされることが多く、事前学習された機械学習モデルの誤った予測につながります。 しかし、表領域におけるそのような分布シフトに対処するには、属性やデータセットのサイズなど固有の課題や、表データのディープラーニングモデルの表現学習能力に制限があるため、比較的過小評価されている。 特に、最近のテスト時間適応(TTA)の有望なパラダイムでは、ソースドメインにアクセスすることなく、未ラベルのターゲットドメインにオフ・ザ・シェルフモデルを適用することで、他のドメインから一般的に使用されるTTAメソッドを直接適用することで、しばしばモデル崩壊が生じる。 我々は,スキュートエントロピー,複雑な遅延空間決定境界,過信と過信の両方による信頼性校正問題,およびクラス不均衡を伴うソースラベル分布に対するモデルバイアスなど,表型データテストタイム適応の課題を体系的に検討する。 これらの知見に基づいて、ターゲットラベル分布を推定し、校正された不確実性に基づいて初期確率を調整することによって出力確率を直接調整する新しい表型テスト時間適応手法AdapTableを導入する。 自然分布シフトと合成汚損の双方に関する大規模な実験により,提案手法の適応効果が示された。

In real-world applications, tabular data often suffer from distribution shifts due to their widespread and abundant nature, leading to erroneous predictions of pre-trained machine learning models. However, addressing such distribution shifts in the tabular domain has been relatively underexplored due to unique challenges such as varying attributes and dataset sizes, as well as the limited representation learning capabilities of deep learning models for tabular data. Particularly, with the recent promising paradigm of test-time adaptation (TTA), where we adapt the off-the-shelf model to the unlabeled target domain during the inference phase without accessing the source domain, we observe that directly adopting commonly used TTA methods from other domains often leads to model collapse. We systematically explore challenges in tabular data test-time adaptation, including skewed entropy, complex latent space decision boundaries, confidence calibration issues with both overconfident and under-confident, and model bias towards source label distributions along with class imbalances. Based on these insights, we introduce AdapTable, a novel tabular test-time adaptation method that directly modifies output probabilities by estimating target label distributions and adjusting initial probabilities based on calibrated uncertainty. Extensive experiments on both natural distribution shifts and synthetic corruptions demonstrate the adaptation efficacy of the proposed method.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# タブラルデータに対する敵対的攻撃の非受容性の検討--経験的分析

Investigating Imperceptibility of Adversarial Attacks on Tabular Data: An Empirical Analysis ( http://arxiv.org/abs/2407.11463v2 )

ライセンス: Link先を確認
Zhipeng He, Chun Ouyang, Laith Alzubaidi, Alistair Barros, Catarina Moreira, (参考訳) 敵対的攻撃は、入力データに対する知覚不能な摂動を通じて誤った予測を引き起こすことによって、機械学習モデルに対する潜在的な脅威である。 これらの攻撃は、画像のような構造化されていないデータで広く研究されているが、それらを表のデータに適用することは、新しい課題をもたらす。 これらの課題は、画像データとは異なる表データの固有の不均一性と複雑な特徴相互依存性から生じる。 この区別を考慮に入れるには、表型データに特有な適合不能基準を確立する必要がある。 しかし、現在、表データに対する敵攻撃の非受容性を評価するための標準化された指標が欠如している。 このギャップに対処するために、表データに対する知覚不能な敵攻撃を包括的に特徴付けるために、重要な特性とそれに対応するメトリクスのセットを提案する。 それらは、元の入力に近づき、変更された特徴の空間性、元のデータ分布からの逸脱、狭い分散を伴う摂動特性の感度、変更すべき機能の不変性、有効な実用的な範囲を超えてはならない特定の特徴値の実現性、データ属性間の複雑な関係をキャプチャする機能相互依存性である。 提案手法を用いて,有界攻撃と非有界攻撃の両方を含む5つの敵攻撃の非受容性を評価する。 その結果、これらの攻撃の不可避性と有効性の間のトレードオフが明らかとなった。 この研究は、現在の攻撃アルゴリズムの限界を特定し、この分野における将来の研究をガイドする洞察を提供する。 この経験的分析から得られた知見は、敵攻撃アルゴリズムの設計を強化する上で貴重な方向を提供する。

Adversarial attacks are a potential threat to machine learning models by causing incorrect predictions through imperceptible perturbations to the input data. While these attacks have been extensively studied in unstructured data like images, applying them to tabular data, poses new challenges. These challenges arise from the inherent heterogeneity and complex feature interdependencies in tabular data, which differ from the image data. To account for this distinction, it is necessary to establish tailored imperceptibility criteria specific to tabular data. However, there is currently a lack of standardised metrics for assessing the imperceptibility of adversarial attacks on tabular data. To address this gap, we propose a set of key properties and corresponding metrics designed to comprehensively characterise imperceptible adversarial attacks on tabular data. These are: proximity to the original input, sparsity of altered features, deviation from the original data distribution, sensitivity in perturbing features with narrow distribution, immutability of certain features that should remain unchanged, feasibility of specific feature values that should not go beyond valid practical ranges, and feature interdependencies capturing complex relationships between data attributes. We evaluate the imperceptibility of five adversarial attacks, including both bounded attacks and unbounded attacks, on tabular data using the proposed imperceptibility metrics. The results reveal a trade-off between the imperceptibility and effectiveness of these attacks. The study also identifies limitations in current attack algorithms, offering insights that can guide future research in the area. The findings gained from this empirical analysis provide valuable direction for enhancing the design of adversarial attack algorithms, thereby advancing adversarial machine learning on tabular data.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# UniMEL: 大規模言語モデルとマルチモーダルエンティティリンクのための統一フレームワーク

UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models ( http://arxiv.org/abs/2407.16160v2 )

ライセンス: Link先を確認
Liu Qi, He Yongyi, Lian Defu, Zheng Zhi, Xu Tong, Liu Che, Chen Enhong, (参考訳) マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような多モーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。 既存の手法は、特定のデータセット上でのマルチモーダル相互作用をモデル化するための複雑なメカニズムと広範囲なモデルチューニング手法を使用することに重点を置いている。 しかし、これらの手法はMELタスクを過度に複雑化し、視覚的意味情報を見落としてしまうため、コストがかかりスケールが難しくなる。 さらに、これらの手法はテキストの曖昧さ、冗長性、ノイズの多い画像などの問題を解決できないため、パフォーマンスが著しく低下する。 幸いなことに、テキスト理解と推論の堅牢な機能を備えた大規模言語モデル(LLM)の出現、特にマルチモーダル入力を処理するマルチモーダル大規模言語モデル(MLLM)は、この課題に対処するための新たな洞察を提供する。 しかし, LLM をベースとした MEL アプローチを設計する方法は, 依然として重要な課題である。 この目的のために,LLMを用いたマルチモーダルなエンティティリンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。 本フレームワークでは,テキスト情報と視覚情報を統合し,テキスト情報を精査することにより,参照やエンティティの表現を個別に増強するLLMを用いている。 次に,組込み型手法を用いて候補エンティティの検索と再ランク付けを行う。 そして、モデルパラメータの0.26%しか微調整されていないため、LLMは候補エンティティから最終的な選択を行うことができる。 3つの公開ベンチマークデータセットに対する大規模な実験は、我々のソリューションが最先端のパフォーマンスを達成することを示し、アブレーション研究は全てのモジュールの有効性を検証する。 私たちのコードはhttps://github.com/Javkonline/UniMELで利用可能です。

Multimodal Entity Linking (MEL) is a crucial task that aims at linking ambiguous mentions within multimodal contexts to the referent entities in a multimodal knowledge base, such as Wikipedia. Existing methods focus heavily on using complex mechanisms and extensive model tuning methods to model the multimodal interaction on specific datasets. However, these methods overcomplicate the MEL task and overlook the visual semantic information, which makes them costly and hard to scale. Moreover, these methods can not solve the issues like textual ambiguity, redundancy, and noisy images, which severely degrade their performance. Fortunately, the advent of Large Language Models (LLMs) with robust capabilities in text understanding and reasoning, particularly Multimodal Large Language Models (MLLMs) that can process multimodal inputs, provides new insights into addressing this challenge. However, how to design a universally applicable LLMs-based MEL approach remains a pressing challenge. To this end, we propose UniMEL, a unified framework which establishes a new paradigm to process multimodal entity linking tasks using LLMs. In this framework, we employ LLMs to augment the representation of mentions and entities individually by integrating textual and visual information and refining textual information. Subsequently, we employ the embedding-based method for retrieving and re-ranking candidate entities. Then, with only ~0.26% of the model parameters fine-tuned, LLMs can make the final selection from the candidate entities. Extensive experiments on three public benchmark datasets demonstrate that our solution achieves state-of-the-art performance, and ablation studies verify the effectiveness of all modules. Our code is available at https://github.com/Javkonline/UniMEL.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# SOAP: アクション認識のための時空間関係と動き情報キャプチャの強化

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition ( http://arxiv.org/abs/2407.16344v3 )

ライセンス: Link先を確認
Wenbo Huang, Jinghui Zhang, Xuwei Qian, Zhen Wu, Meng Wang, Lei Zhang, (参考訳) 高フレームレート(HFR)ビデオは、時空間関係と動き情報密度を低減しつつ、きめ細かな表現を改善する。 したがって、従来のデータ駆動トレーニングには大量のビデオサンプルが継続的に必要である。 しかし、実世界のシナリオではサンプルが必ずしも十分ではないため、FSAR ( few-shot Action Recognition) 研究が促進される。 近年のFSAR研究は、空間的特徴抽出後の時間的アライメントにより、サンプル内の空間的特徴と時間的特徴を分割し、ビデオサンプルの時空間的関係を構築する。 また、密度を考慮せずに隣接するフレーム間の狭い視点で動き情報をキャプチャし、動き情報のキャプチャが不十分になる。 そこで,本稿ではspatio-tempOral frAme tuPle enhancer (SOAP)と呼ばれるFSAR用の新しいプラグイン・アンド・プレイアーキテクチャを提案する。 このようなアーキテクチャで設計したモデルは、SOAP-Netを指しています。 特徴チャネル間の時間的接続と特徴の時空間的関係は,単純な特徴抽出ではなく考慮される。 また、隣接するフレームよりも多くの動き情報を含む複数のフレームを持つフレームタプルを用いて、総合的な動き情報もキャプチャする。 様々なフレーム数のフレームタプルを組み合わせることで、より広い視点が得られる。 SOAP-Netは、SthSthV2、Kinetics、UCF101、HMDB51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成している。 大規模な経験的評価は、SOAPの競争力、プラガビリティ、一般化、堅牢性を強調します。 コードはhttps://github.com/wenbohuang1002/SOAPで公開されている。

High frame-rate (HFR) videos of action recognition improve fine-grained expression while reducing the spatio-temporal relation and motion information density. Thus, large amounts of video samples are continuously required for traditional data-driven training. However, samples are not always sufficient in real-world scenarios, promoting few-shot action recognition (FSAR) research. We observe that most recent FSAR works build spatio-temporal relation of video samples via temporal alignment after spatial feature extraction, cutting apart spatial and temporal features within samples. They also capture motion information via narrow perspectives between adjacent frames without considering density, leading to insufficient motion information capturing. Therefore, we propose a novel plug-and-play architecture for FSAR called Spatio-tempOral frAme tuPle enhancer (SOAP) in this paper. The model we designed with such architecture refers to SOAP-Net. Temporal connections between different feature channels and spatio-temporal relation of features are considered instead of simple feature extraction. Comprehensive motion information is also captured, using frame tuples with multiple frames containing more motion information than adjacent frames. Combining frame tuples of diverse frame counts further provides a broader perspective. SOAP-Net achieves new state-of-the-art performance across well-known benchmarks such as SthSthV2, Kinetics, UCF101, and HMDB51. Extensive empirical evaluations underscore the competitiveness, pluggability, generalization, and robustness of SOAP. The code is released at https://github.com/wenbohuang1002/SOAP.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# Java-Class-Hijack: Maven依存性の解決とJavaクラスローディングに基づくJavaのソフトウェアサプライチェーンアタック

Java-Class-Hijack: Software Supply Chain Attack for Java based on Maven Dependency Resolution and Java Classloading ( http://arxiv.org/abs/2407.18760v2 )

ライセンス: Link先を確認
Federico Bono, Frank Reyes, Aman Sharma, Benoit Baudry, Martin Monperrus, (参考訳) 私たちはJava-Class-Hijackを紹介します。Java-Class-Hijackは、アタッカーが依存性ツリーにある正当なクラスをシャドウするクラスを作れば悪意のあるコードを注入できる新しいソフトウェアサプライチェーンアタックです。 この攻撃について説明するとともに、その実現可能性を示す概念実証を提供し、ドイツのCorona-Warn-Appサーバアプリケーションでそれを再現する。 概念実証は、依存関係ツリーの奥深くにある推移的な依存関係が、直接的な依存関係からクラスをハイジャックし、その振る舞いを完全に変更し、Javaアプリケーションに重大なセキュリティリスクを生じさせる方法を示している。 Corona-Warn-Appのレプリケーションは、小さなJSONバリデーションライブラリが完全にデータベースを乗っ取る結果になることを示す。

We introduce Java-Class-Hijack, a novel software supply chain attack that enables an attacker to inject malicious code by crafting a class that shadows a legitimate class that is in the dependency tree. We describe the attack, provide a proof-of-concept demonstrating its feasibility, and replicate it in the German Corona-Warn-App server application. The proof-of-concept illustrates how a transitive dependency deep within the dependency tree can hijack a class from a direct dependency and entirely alter its behavior, posing a significant security risk to Java applications. The replication on the Corona-Warn-App demonstrates how compromising a small JSON validation library could result in a complete database takeover.
翻訳日:2024-08-22 21:56:12 公開日:2024-08-21
# TAGIFY:OGDポータルにおけるデータ検索性向上のためのLCMを利用したタグインタフェース

TAGIFY: LLM-powered Tagging Interface for Improved Data Findability on OGD portals ( http://arxiv.org/abs/2407.18764v2 )

ライセンス: Link先を確認
Kevin Kliimask, Anastasija Nikiforova, (参考訳) オープン・ガバメント・データ(OGD)の推進に向けた取り組みは、2000年代半ば以降、様々な政府層で大きな注目を集めている。 より多くのデータセットがOGDポータルに公開されるにつれて、特定のデータを見つけることが難しくなり、情報の過負荷につながる。 データセットと適切なタグを関連付けることを含む、データセットの完全かつ正確なドキュメントは、データセットの検索性とアクセシビリティを改善するための鍵である。 エストニアのOpen Data Portalで実施された分析によると、11%のデータセットに関連タグがないのに対して、26%のデータセットには1つのタグだけが割り当てられており、ポータル内のデータ検索可能性とアクセシビリティの課題を浮き彫りにしている。 本研究の目的は、OGDポータルにおけるデータ検索性を改善するために、データセットをタグ付けする自動化ソリューションを提案することである。 本稿では,GPT-3.5-turbo や GPT-4 などの大規模言語モデル (LLM) を利用したタグ付けインタフェースのプロトタイプとして,英語とエストニア語におけるデータセットのタグ生成,データパブリッシャによるメタデータ作成の強化,データユーザによる OGD ポータルにおけるデータ検索性の向上などを提案する。 開発したソリューションはユーザによって評価され,今後のプロトタイプ改善のアジェンダを定義するためにフィードバックが収集された。

Efforts directed towards promoting Open Government Data (OGD) have gained significant traction across various governmental tiers since the mid-2000s. As more datasets are published on OGD portals, finding specific data becomes harder, leading to information overload. Complete and accurate documentation of datasets, including association of proper tags with datasets is key to improving dataset findability and accessibility. Analysis conducted on the Estonian Open Data Portal, revealed that 11% datasets have no associated tags, while 26% had only one tag assigned to them, which underscores challenges in data findability and accessibility within the portal, which, according to the recent Open Data Maturity Report, is considered trend-setter. The aim of this study is to propose an automated solution to tagging datasets to improve data findability on OGD portals. This paper presents Tagify - a prototype of tagging interface that employs large language models (LLM) such as GPT-3.5-turbo and GPT-4 to automate dataset tagging, generating tags for datasets in English and Estonian, thereby augmenting metadata preparation by data publishers and improving data findability on OGD portals by data users. The developed solution was evaluated by users and their feedback was collected to define an agenda for future prototype improvements.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# 網膜血管セグメンテーションのための領域誘導注意ネットワーク

Region Guided Attention Network for Retinal Vessel Segmentation ( http://arxiv.org/abs/2407.18970v2 )

ライセンス: Link先を確認
Syed Javed, Tariq M. Khan, Abdul Qayyum, Arcot Sowmya, Imran Razzak, (参考訳) 網膜イメージングは、網膜のユニークな構造を利用して、この課題に対処する有望な方法として登場した。 網膜は中枢神経系の胚性拡張であり、神経学的健康への直接のインビボの窓を提供する。 近年の研究では、網膜血管の特定の構造変化が、様々な疾患の早期の指標となるだけでなく、疾患の進行を理解するのに役立つことが示されている。 本研究では,領域誘導型アテンションを用いたエンコーダデコーダ機構に基づく軽量網膜血管セグメンテーションネットワークを提案する。 我々は,前景領域に着目し,関心領域のセグメンテーションを改善するために,地域を誘導した逆付加注意ブロックを導入する。 網膜血管セグメンテーションにおけるモデルの性能をさらに向上させるために,重み付きサイスロスを用いる。 この選択は網膜血管セグメンテーションタスクで頻繁に発生するクラス不均衡の問題に対処するのに特に有効である。 Dice Losは偽陽性と偽陰性を等しく解析し、改善されたオブジェクト境界線と縮小されたフラグメンテーションでより正確なセグメンテーションを生成するようモデルに促す。 ベンチマークデータセットの大規模な実験では、最先端の手法と比較して、パフォーマンス(0.8285, 0.8098, 0.9677, 0.8166リコール、精度、精度、F1スコア)が向上した。

Retinal imaging has emerged as a promising method of addressing this challenge, taking advantage of the unique structure of the retina. The retina is an embryonic extension of the central nervous system, providing a direct in vivo window into neurological health. Recent studies have shown that specific structural changes in retinal vessels can not only serve as early indicators of various diseases but also help to understand disease progression. In this work, we present a lightweight retinal vessel segmentation network based on the encoder-decoder mechanism with region-guided attention. We introduce inverse addition attention blocks with region guided attention to focus on the foreground regions and improve the segmentation of regions of interest. To further boost the model's performance on retinal vessel segmentation, we employ a weighted dice loss. This choice is particularly effective in addressing the class imbalance issues frequently encountered in retinal vessel segmentation tasks. Dice loss penalises false positives and false negatives equally, encouraging the model to generate more accurate segmentation with improved object boundary delineation and reduced fragmentation. Extensive experiments on a benchmark dataset show better performance (0.8285, 0.8098, 0.9677, and 0.8166 recall, precision, accuracy and F1 score respectively) compared to state-of-the-art methods.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# 循環的畳み込みによるパラメータ効率の良いファインチューニング

Parameter-Efficient Fine-Tuning via Circular Convolution ( http://arxiv.org/abs/2407.19342v2 )

ライセンス: Link先を確認
Aochuan Chen, Jiashun Cheng, Zijing Liu, Ziqi Gao, Fugee Tsung, Yu Li, Jia Li, (参考訳) Low-Rank Adaptation (LoRA) は、低ランク行列 $\mathbf{A}$ と $\mathbf{B}$ を利用して、重量変化を表す(例えば $\Delta \mathbf{W} = \mathbf{B} \mathbf{A}$)。 この方法は、トレーニング可能なパラメータを減らし、活性化とともに$\mathbf{A}$と$\mathbf{B}$を順次乗算することで、完全なデルタ行列に関連する重いメモリ消費を緩和する。 その成功にもかかわらず、本質的な低ランク特性は性能を制限する可能性がある。 この問題に対処するためにいくつかの変種が提案されているが、彼らはしばしばLoRAによってもたらされた重要な計算とメモリ効率を見落としている。 本稿では,性能向上による高次適応を実現するだけでなく,計算能力とメモリ利用の両面で優れるCircular Convolution Adaptation (C$^3$A)を提案する。 大規模な実験により、C$^3$A はLoRAとその変種を様々な微調整タスクで一貫して上回ることを示した。

Low-Rank Adaptation (LoRA) has gained popularity for fine-tuning large foundation models, leveraging low-rank matrices $\mathbf{A}$ and $\mathbf{B}$ to represent weight changes (i.e., $\Delta \mathbf{W} = \mathbf{B} \mathbf{A}$). This method reduces trainable parameters and mitigates heavy memory consumption associated with full delta matrices by sequentially multiplying $\mathbf{A}$ and $\mathbf{B}$ with the activation. Despite its success, the intrinsic low-rank characteristic may limit its performance. Although several variants have been proposed to address this issue, they often overlook the crucial computational and memory efficiency brought by LoRA. In this paper, we propose Circular Convolution Adaptation (C$^3$A), which not only achieves high-rank adaptation with enhanced performance but also excels in both computational power and memory utilization. Extensive experiments demonstrate that C$^3$A consistently outperforms LoRA and its variants across various fine-tuning tasks.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# 推論時間選択バイアス

Inference-Time Selective Debiasing ( http://arxiv.org/abs/2407.19345v2 )

ライセンス: Link先を確認
Gleb Kuzmin, Neemesh Yadav, Ivan Smirnov, Timothy Baldwin, Artem Shelmanov, (参考訳) モデルの再トレーニングが禁じられている状況において、予測性能と公平性の観点からモデル全体の品質を高めることを目的とした、予測時安全機構である選択的脱バイアスを提案する。 この方法は選択予測にインスパイアされ、低い品質と見なされる予測は推論時に破棄される。 このアプローチでは、潜在的なバイアスのあるモデル予測を特定し、それらを捨てる代わりに、後処理のデバイアス法であるLEACEを使ってそれらをデバイアスします。 問題のある予測を選択するために,従来のUQ法よりも優れた結果が得られるKL分散に基づくバイアス定量化手法を提案する。 テキスト分類データセットを用いた実験では、選択的デバイアスは、後処理方法とトレーニングと前処理のデバイアス技術の間のパフォーマンスギャップを埋めるのに役立つことが示されている。

We propose selective debiasing -- an inference-time safety mechanism that aims to increase the overall quality of models in terms of prediction performance and fairness in the situation when re-training a model is prohibitive. The method is inspired by selective prediction, where some predictions that are considered low quality are discarded at inference time. In our approach, we identify the potentially biased model predictions and, instead of discarding them, we debias them using LEACE -- a post-processing debiasing method. To select problematic predictions, we propose a bias quantification approach based on KL divergence, which achieves better results than standard UQ methods. Experiments with text classification datasets demonstrate that selective debiasing helps to close the performance gap between post-processing methods and at-training and pre-processing debiasing techniques.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# ML-Mamba:Mamba-2を利用したマルチモーダル大言語モデル

ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 ( http://arxiv.org/abs/2407.19832v3 )

ライセンス: Link先を確認
Wenjun Huang, Jiakai Pan, Jiahao Tang, Yanyu Ding, Yifei Xing, Yuhe Wang, Zhengzhuo Wang, Jianguo Hu, (参考訳) MLLM(Multimodal Large Language Models)はその多機能性に対して多くの注目を集めている。 しかし、従来のTransformerアーキテクチャは二次計算の複雑さのために大きなオーバーヘッドを発生させる。 この問題に対処するために,ML-Mambaを導入した。ML-Mambaは,最新の効率的なMamba-2モデルを用いて推論を行うマルチモーダル言語モデルである。 Mamba-2はその線形スケーラビリティと長いシーケンスの高速処理で知られている。 トランスフォーマーをベースとしたバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的スキャン機構を統合する方法を検討するとともに、様々なビジュアルエンコーダやMamba-2モデルの変種を試す。 各種マルチモーダルベンチマーク実験において,ML-Mambaの競合性能を実証し,マルチモーダルタスクにおける状態空間モデルの可能性を明らかにする。 1)マルチモーダル学習に2次元視覚選択走査機構を効果的に適用する方法を実証的に検討した。 本稿では,Mamba-2 Scan Connector (MSC) と呼ばれる新しいマルチモーダルコネクタを提案する。 2) ML-Mamba は,TinyLaVA や MobileVLM v2 などの最先端手法に匹敵する性能を実現し,その線形逐次モデリングを高速な推論速度で実現し,また,Mamba-1 を用いたマルチモーダルモデルと比較すると,Mamba-2 ベースの ML-Mamba の方が優れた推論性能と有効性を示す。

Multimodal Large Language Models (MLLMs) have attracted much attention for their multifunctionality. However, traditional Transformer architectures incur significant overhead due to their secondary computational complexity. To address this issue, we introduce ML-Mamba, a multimodal language model, which utilizes the latest and efficient Mamba-2 model for inference. Mamba-2 is known for its linear scalability and fast processing of long sequences. We replace the Transformer-based backbone with a pre-trained Mamba-2 model and explore methods for integrating 2D visual selective scanning mechanisms into multimodal learning while also trying various visual encoders and Mamba-2 model variants. Our extensive experiments in various multimodal benchmark tests demonstrate the competitive performance of ML-Mamba and highlight the potential of state space models in multimodal tasks. The experimental results show that: (1) we empirically explore how to effectively apply the 2D vision selective scan mechanism for multimodal learning. We propose a novel multimodal connector called the Mamba-2 Scan Connector (MSC), which enhances representational capabilities. (2) ML-Mamba achieves performance comparable to state-of-the-art methods such as TinyLaVA and MobileVLM v2 through its linear sequential modeling while faster inference speed; (3) Compared to multimodal models utilizing Mamba-1, the Mamba-2-based ML-Mamba exhibits superior inference performance and effectiveness.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# グラウンドド・マルチモーダル名前付きエンティティ認識のためのマルチグラインドクエリ誘導セット予測ネットワーク

Multi-Grained Query-Guided Set Prediction Network for Grounded Multimodal Named Entity Recognition ( http://arxiv.org/abs/2407.21033v2 )

ライセンス: Link先を確認
Jielong Tang, Zhenxing Wang, Ziyang Gong, Jianxing Yu, Xiangwei Zhu, Jian Yin, (参考訳) Grounded Multimodal Named Entity Recognition (GMNER) は、与えられた文と画像のペアのデータからエンティティのスパン、タイプ、および対応する視覚領域を同時に抽出することを目的とした、新しい情報抽出(IE)タスクである。 近年,機械読解やシーケンス生成に基づくフレームワークを用いた統一手法は,この難易度に限界を生じさせている。 前者は人間設計のクエリを利用して、ヨルダン(パーソン)やオフホワイト・x・ジョーダン(シューズ)のような曖昧な実体を区別するのに苦労している。 後者は1対1のデコード命令に従って、露出バイアスの問題に悩まされる。 これらの作業は、マルチモーダルエンティティの関係を誤解している、と我々は主張する。 このような問題に対処するために,マルチグラデーションクエリ誘導セット予測ネットワーク (MQSPN) という新しい統合フレームワークを提案する。 具体的には、MQSPNはMulti-grained Query Set (MQS)とMulti-modal Set Prediction Network (MSP)で構成されている。 MQSは、エンティティ領域とエンティティスパンを明確に整合させ、学習可能なクエリのセットを使用して、エンティティ内接続を強化する。 MSPは、異なる距離内モデリングに基づいてGMNERをセット予測として再構成し、グローバルマッチングの観点から適切な距離間関係を確立するためのモデルを導く。 さらに、クエリ誘導型Fusion Net(QFNet)を導入し、MQSとMSP間のグルーネットワークとして機能します。 広汎な実験により,本手法は広く用いられているベンチマークにおいて最先端の性能を実現することが実証された。

Grounded Multimodal Named Entity Recognition (GMNER) is an emerging information extraction (IE) task, aiming to simultaneously extract entity spans, types, and corresponding visual regions of entities from given sentence-image pairs data. Recent unified methods employing machine reading comprehension or sequence generation-based frameworks show limitations in this difficult task. The former, utilizing human-designed queries, struggles to differentiate ambiguous entities, such as Jordan (Person) and off-White x Jordan (Shoes). The latter, following the one-by-one decoding order, suffers from exposure bias issues. We maintain that these works misunderstand the relationships of multimodal entities. To tackle these, we propose a novel unified framework named Multi-grained Query-guided Set Prediction Network (MQSPN) to learn appropriate relationships at intra-entity and inter-entity levels. Specifically, MQSPN consists of a Multi-grained Query Set (MQS) and a Multimodal Set Prediction Network (MSP). MQS explicitly aligns entity regions with entity spans by employing a set of learnable queries to strengthen intra-entity connections. Based on distinct intra-entity modeling, MSP reformulates GMNER as a set prediction, guiding models to establish appropriate inter-entity relationships from a global matching perspective. Additionally, we incorporate a query-guided Fusion Net (QFNet) to work as a glue network between MQS and MSP. Extensive experiments demonstrate that our approach achieves state-of-the-art performances in widely used benchmarks.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# MIS-ME:土壌水分推定のためのマルチモーダルフレームワーク

MIS-ME: A Multi-modal Framework for Soil Moisture Estimation ( http://arxiv.org/abs/2408.00963v3 )

ライセンス: Link先を確認
Mohammed Rakib, Adil Aman Mohammed, D. Cole Diggins, Sumit Sharma, Jeff Michael Sadler, Tyson Ochsner, Arun Bagavathi, (参考訳) 土壌水分推定は、灌水、肥料化、収穫のための最適な計画を作成する際に、精密農業を可能にする重要な課題である。 気象予報や土壌特性,作物特性といった従来のデータソースから土壌水分を推定するために,統計的および機械学習モデルを利用するのが一般的である。 しかし, 土壌水分を推定するために, 地空間画像の利用への関心が高まっている。 これらの画像は高解像度の作物の細部を捉えているが、キュレートするのは高価であり、解釈は困難である。 スマートフォンが捉えた視覚的手がかりと天気予報による統計データを使って土壌の水分を予測するAI強化ソフトウェアツールを想像してみてほしい。 この研究は、土壌水分推定のためのマルチモーダルアプローチを開発するための第一歩である。 特に,地上局から撮影した実世界の画像とそれに対応する気象データからなるデータセットをキュレートする。 また, 土壌水分推定のためのマルチモーダルフレームワークMIS-ME-Meteorological & Imageベース土壌水分推定器を提案する。 我々はMIS-MEが10.14%のMAPEを達成し,気象データでは3.25%,画像データでは2.15%のMAPEを削減し,従来手法よりも優れたMAPEを実現した。 私たちのコードとデータセットはhttps://github.com/OSU-complex-Systems/MIS-ME.gitで公開されます。

Soil moisture estimation is an important task to enable precision agriculture in creating optimal plans for irrigation, fertilization, and harvest. It is common to utilize statistical and machine learning models to estimate soil moisture from traditional data sources such as weather forecasts, soil properties, and crop properties. However, there is a growing interest in utilizing aerial and geospatial imagery to estimate soil moisture. Although these images capture high-resolution crop details, they are expensive to curate and challenging to interpret. Imagine, an AI-enhanced software tool that predicts soil moisture using visual cues captured by smartphones and statistical data given by weather forecasts. This work is a first step towards that goal of developing a multi-modal approach for soil moisture estimation. In particular, we curate a dataset consisting of real-world images taken from ground stations and their corresponding weather data. We also propose MIS-ME - Meteorological & Image based Soil Moisture Estimator, a multi-modal framework for soil moisture estimation. Our extensive analysis shows that MIS-ME achieves a MAPE of 10.14%, outperforming traditional unimodal approaches with a reduction of 3.25% in MAPE for meteorological data and 2.15% in MAPE for image data, highlighting the effectiveness of tailored multi-modal approaches. Our code and dataset will be available at https://github.com/OSU-Complex-Systems/MIS-ME.git.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# GNN-SKAN:SwallowKANの力とGNNによる分子表現学習の促進

GNN-SKAN: Harnessing the Power of SwallowKAN to Advance Molecular Representation Learning with GNNs ( http://arxiv.org/abs/2408.01018v2 )

ライセンス: Link先を確認
Ruifeng Li, Mingqian Li, Wei Liu, Hongyang Chen, (参考訳) 効果的な分子表現学習は、分子特性予測と薬物設計の進歩に不可欠である。 メインストリームの分子表現学習アプローチはグラフニューラルネットワーク(GNN)に基づいている。 しかし、これらのアプローチは、不十分なアノテーション、分子多様性、過剰な監視のようなアーキテクチャ上の制限という3つの重要な課題に苦しむため、重要な構造的詳細が失われる。 これらの課題に対処するため、我々はKAN(Kolmogorov-Arnold Networks)を統合したGNNの新たなクラスを導入しました。 カンをGNNに組み込むことで,分子構造の表現が促進される。 我々はさらに、非線型ニューロンのコアとして適応的放射基底関数(RBF)を用いるSwaallowKAN(SKAN)と呼ばれる変種を用いてこのアプローチを進めた。 この革新は、計算効率と多様な分子構造への適応性の両方を改善する。 SKANの強みを生かして,新たなGNNクラスであるGNN-SKANと,その拡張型であるGNN-SKAN+を提案する。 我々の知る限り、分子表現学習に適したGNNアーキテクチャにKansを統合する最初の試みである。 6つの分類データセット、6つの回帰データセット、および4つの数ショットの学習データセットに対する実験は、我々のアプローチが精度と計算コストの観点から新しい最先端のパフォーマンスを達成することを示す。

Effective molecular representation learning is crucial for advancing molecular property prediction and drug design. Mainstream molecular representation learning approaches are based on Graph Neural Networks (GNNs). However, these approaches struggle with three significant challenges: insufficient annotations, molecular diversity, and architectural limitations such as over-squashing, which leads to the loss of critical structural details. To address these challenges, we introduce a new class of GNNs that integrates the Kolmogorov-Arnold Networks (KANs), known for their robust data-fitting capabilities and high accuracy in small-scale AI + Science tasks. By incorporating KANs into GNNs, our model enhances the representation of molecular structures. We further advance this approach with a variant called SwallowKAN (SKAN), which employs adaptive Radial Basis Functions (RBFs) as the core of the non-linear neurons. This innovation improves both computational efficiency and adaptability to diverse molecular structures. Building on the strengths of SKAN, we propose a new class of GNNs, GNN-SKAN, and its augmented variant, GNN-SKAN+, which incorporates a SKAN-based classifier to further boost performance. To our knowledge, this is the first work to integrate KANs into GNN architectures tailored for molecular representation learning. Experiments across 6 classification datasets, 6 regression datasets, and 4 few-shot learning datasets demonstrate that our approach achieves new state-of-the-art performance in terms of accuracy and computational cost.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# 身体的指導のためのセマンティック・スキル・グラウンドディング-クロスドメイン環境におけるフォローイング

Semantic Skill Grounding for Embodied Instruction-Following in Cross-Domain Environments ( http://arxiv.org/abs/2408.01024v2 )

ライセンス: Link先を確認
Sangwoo Shin, Seunghyun Kim, Youngsoo Jang, Moontae Lee, Honguk Woo, (参考訳) EIF(Embodied instruction-following)では、タスクプランナとしての事前訓練言語モデル(LM)の統合が重要なブランチとして現れ、事前訓練されたスキルとユーザ指示でLMに促すことで、スキルレベルでタスクを計画する。 しかし、ドメイン固有の知識との複雑な絡み合いから、これらの事前訓練されたスキルを異なるドメインに根ざすことは依然として困難である。 この課題に対処するために、セマンティックスキルの階層的性質を活用するセマンティックスキル基盤(セマンティックスキル基盤)フレームワークを提案する。 SemGroはこれらのスキルの幅広い範囲を認識しており、ドメイン間で普遍的に適用可能な短地低セマンティックスキルから、特定のドメインに高度に特化され、調整された長地富裕なセマンティックスキルまで幅広い。 フレームワークは、高いレベルのセマンティックスキル階層から始まり、次に下方へ移動して、計画された各スキルをターゲットドメイン内の実行可能なレベルにグラウンドする、反復的なスキル分解アプローチを採用している。 そこで本手法では,意味的スキルの合成と分解に,LMの推論能力と,対象ドメインにおけるスキル実現可能性を評価するためのマルチモーダル拡張を利用する。 VirtualHomeベンチマークで行った実験では,300のドメイン横断EIFシナリオにおけるSemGroの有効性が示された。

In embodied instruction-following (EIF), the integration of pretrained language models (LMs) as task planners emerges as a significant branch, where tasks are planned at the skill level by prompting LMs with pretrained skills and user instructions. However, grounding these pretrained skills in different domains remains challenging due to their intricate entanglement with the domain-specific knowledge. To address this challenge, we present a semantic skill grounding (SemGro) framework that leverages the hierarchical nature of semantic skills. SemGro recognizes the broad spectrum of these skills, ranging from short-horizon low-semantic skills that are universally applicable across domains to long-horizon rich-semantic skills that are highly specialized and tailored for particular domains. The framework employs an iterative skill decomposition approach, starting from the higher levels of semantic skill hierarchy and then moving downwards, so as to ground each planned skill to an executable level within the target domain. To do so, we use the reasoning capabilities of LMs for composing and decomposing semantic skills, as well as their multi-modal extension for assessing the skill feasibility in the target domain. Our experiments in the VirtualHome benchmark show the efficacy of SemGro in 300 cross-domain EIF scenarios.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# PackMamba: マンバトレーニングにおける可変長シーケンスの効率的な処理

PackMamba: Efficient Processing of Variable-Length Sequences in Mamba training ( http://arxiv.org/abs/2408.03865v2 )

ライセンス: Link先を確認
Haoran Xu, Ziqian Liu, Rong Fu, Zhongling Su, Zerui Wang, Zheng Cai, Zhilin Pei, Xingcheng Zhang, (参考訳) 大規模言語モデルの進化に伴い、従来のトランスフォーマーモデルは、列長に関する計算の二次的な成長により、長大なシーケンスを計算的に要求するようになる。 Mambaは、生成AIの分野で画期的なアーキテクチャとして登場し、計算とメモリの複雑さを減らして、長いシーケンスを扱うのに顕著な習熟度を示している。 それでも、Mambaの既存のトレーニングフレームワークは、可変長シーケンス入力による非効率性を示す。 単一シーケンスのトレーニングの結果、GPU使用率が低くなるか、最大長までの可変長シーケンスのバッチ処理によって、かなりのメモリと計算オーバーヘッドが発生する。 この問題を解決するために,様々なテンソル形状のマンバにおけるボトルネック演算子の性能を解析し,可変長列を効率的に処理する高スループットマンバであるPackMambaを提案する。 状態空間モデル(SSM)に深く入り込み、並列演算子を変更して、高い性能を維持しながら、個々のシーケンス間での情報伝達を回避する。 NVIDIA A100 GPUの実験結果は、ベースラインの単一シーケンス処理スキームを超えるスループットを示す:1.4Bモデルでは3.06倍、2.8Bモデルでは2.62倍である。

With the evolution of large language models, traditional Transformer models become computationally demanding for lengthy sequences due to the quadratic growth in computation with respect to the sequence length. Mamba, emerging as a groundbreaking architecture in the field of generative AI, demonstrates remarkable proficiency in handling elongated sequences with reduced computational and memory complexity. Nevertheless, the existing training framework of Mamba presents inefficiency with variable-length sequence inputs. Either single-sequence training results in low GPU utilization, or batched processing of variable-length sequences to a maximum length incurs considerable memory and computational overhead. To address this problem, we analyze the performance of bottleneck operators in Mamba under diverse tensor shapes and proposed PackMamba, a high-throughput Mamba that efficiently handles variable-length sequences. Diving deep into state-space models (SSMs), we modify the parallel operators to avoid passing information between individual sequences while maintaining high performance. Experimental results on an NVIDIA A100 GPU demonstrate throughput exceeding the baseline single-sequence processing scheme: 3.06x speedup on the 1.4B model and 2.62x on the 2.8B model.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# PowerPM:パワーシステムの基礎モデル

PowerPM: Foundation Model for Power Systems ( http://arxiv.org/abs/2408.04057v2 )

ライセンス: Link先を確認
Shihao Tu, Yupeng Zhang, Jing Zhang, Yang Yang, (参考訳) 豊富な電気時系列データ(ETS)の出現は、需要側管理、グリッド安定性、消費者行動分析など、電力システムにおける様々な応用に十分な機会を提供する。 深層学習モデルは、シーケンス依存を効果的に捉えて高度なETSモデリングを行う。 しかし、ETSデータの本質的に複雑な階層構造のため、様々なアプリケーションに対するETSデータの一般的な表現を学習することは依然として困難である。 さらに、ETSデータは複雑な時間的依存関係を示し、外因性変数の影響を受けやすい。 さらに、異なるインスタンスは多様な電力消費挙動を示す。 本稿では,ETSデータをモデル化する基盤モデルPowerPMを提案し,電力系統の大規模オフザシェルフモデルを提供する。 PowerPMは時間エンコーダと階層エンコーダで構成される。 時間エンコーダは、外因性変数を考慮して、ETSデータ内の両方の時間的依存関係をキャプチャする。 階層エンコーダは階層間の相関をモデル化する。 さらに、PowerPMは、マスク付きETSモデリングとデュアルビューコントラスト学習を組み合わせた、新しい自己教師型事前学習フレームワークを活用して、ETSウィンドウ内の時間依存性を捕捉し、ETSウィンドウ間の不一致を認識し、汎用表現を学ぶための2つの異なる視点を提供する。 実験では、プライベートデータとパブリックデータからなる5つの実世界のシナリオデータセットについて検討した。 大規模なETSデータの事前トレーニングを通じて、PowerPMはプライベートデータセット内のさまざまな下流タスクでSOTAパフォーマンスを達成する。 印象的なことに、パブリックデータセットに転送されると、PowerPMはその優位性を維持し、さまざまなタスクやドメインにわたる顕著な一般化能力を示している。 さらに, アブレーション実験, 少数ショット実験により, モデルの有効性が示唆された。

The emergence of abundant electricity time series (ETS) data provides ample opportunities for various applications in the power systems, including demand-side management, grid stability, and consumer behavior analysis. Deep learning models have advanced ETS modeling by effectively capturing sequence dependence. Nevertheless, learning a generic representation of ETS data for various applications remains challenging due to the inherently complex hierarchical structure of ETS data. Moreover, ETS data exhibits intricate temporal dependencies and is suscepti ble to the influence of exogenous variables. Furthermore, different instances exhibit diverse electricity consumption behavior. In this paper, we propose a foundation model PowerPM to model ETS data, providing a large-scale, off-the-shelf model for power systems. PowerPM consists of a temporal encoder and a hierarchical encoder. The temporal encoder captures both temporal dependencies in ETS data, considering exogenous variables. The hierarchical encoder models the correlation between hierarchy. Furthermore, PowerPM leverages a novel self-supervised pretraining framework consisting of masked ETS modeling and dual-view contrastive learning, which enable PowerPM to capture temporal dependency within ETS windows and aware the discrepancy across ETS windows, providing two different perspectives to learn generic representation. Our experiments involve five real world scenario datasets, comprising private and public data. Through pre-training on massive ETS data, PowerPM achieves SOTA performance on diverse downstream tasks within the private dataset. Impressively, when transferred to the public datasets, PowerPM maintains its superiority, showcasing its remarkable generalization ability across various tasks and domains. Moreover, ablation studies, few-shot experiments provide additional evidence of the effectiveness of our model.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# ComKD-CLIP:コントラスト言語画像前処理モデルのための包括的知識蒸留

ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model ( http://arxiv.org/abs/2408.04145v3 )

ライセンス: Link先を確認
Yifan Chen, Xiaozhen Qiao, Zhe Sun, Xuelong Li, (参考訳) コントラスト言語-画像事前学習(CLIP)モデルは、コントラスト学習技術を通じて画像とテキスト間の意味情報の統合に優れる。 様々なマルチモーダルタスクにおいて顕著なパフォーマンスを達成した。 しかし、大規模なCLIPモデルの展開はリソース制限された環境では妨げられ、小さなモデルは実用アプリケーションに必要なパフォーマンスベンチマークに適合しないことが多い。 本稿では,ComKD-CLIP: ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language- Image Pre-traning Modelを提案する。 ComKD-CLIPは、画像特徴アライメント(IFAlign)と教育意識(EduAttention)の2つの主要なメカニズムで構成されている。 IFAlignは、教師モデルで抽出した画像特徴と教師モデルで抽出した画像特徴とを密に一致させ、教師のイメージ特徴抽出に関する知識を学習できるようにする。 EduAttentionは、教師モデルによって抽出されたテキスト特徴と学生モデルによって抽出された画像特徴との間の相互関係を探索し、生徒モデルが教師モデルがテキストイメージの特徴をどのように統合するかを学習できるようにする。 さらに、ComKD-CLIPは、教師モデルのテキスト画像特徴融合結果を活用することにより、IFAlignとEduAttentionから抽出した知識を洗練し、生徒モデルが教師の知識を正確に吸収することを保証する。 11個のデータセットに対して行われた大規模な実験は,提案手法の優位性を実証した。

Contrastive Language-Image Pre-training (CLIP) models excel in integrating semantic information between images and text through contrastive learning techniques. It has achieved remarkable performance in various multimodal tasks. However, the deployment of large CLIP models is hindered in resource-limited environments, while smaller models frequently fail to meet the performance benchmarks required for practical applications. In this paper, we propose a novel approach, ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model, which aims to comprehensively distill the knowledge from a large teacher CLIP model into a smaller student model, ensuring comparable performance with significantly reduced parameters. ComKD-CLIP is composed of two key mechanisms: Image Feature Alignment (IFAlign) and Educational Attention (EduAttention). IFAlign makes the image features extracted by the student model closely match those extracted by the teacher model, enabling the student to learn teacher's knowledge of extracting image features. EduAttention explores the cross-relationships between text features extracted by the teacher model and image features extracted by the student model, enabling the student model to learn how the teacher model integrates text-image features. In addition, ComKD-CLIP can refine the knowledge distilled from IFAlign and EduAttention by leveraging the text-image feature fusion results of the teacher model, ensuring the student model accurately absorbs the teacher's knowledge. Extensive experiments conducted on 11 datasets have demonstrated the superiority of the proposed method.
翻訳日:2024-08-22 21:46:26 公開日:2024-08-21
# 3次元ガウスプリミティブを用いた視覚SLAMと新しいビュー合成の先駆け

Visual SLAM with 3D Gaussian Primitives and Depth Priors Enabling Novel View Synthesis ( http://arxiv.org/abs/2408.05635v2 )

ライセンス: Link先を確認
Zhongche Qu, Zhi Zhang, Cong Liu, Jianhua Yin, (参考訳) 従来の幾何学に基づくSLAMシステムは、データアソシエーションが通常特徴対応に依存するため、密度の高い3D再構成機能を持たない。 さらに、学習ベースのSLAMシステムは、リアルタイムのパフォーマンスと精度の点で不足することが多い。 リアルタイムパフォーマンスと高密度な3D再構成能力のバランスをとることは、難しい問題である。 本稿では,3次元シーン表現とポーズ推定のための3次元ガウススプラッティングという,新しいビュー合成手法を組み込んだリアルタイムRGB-D SLAMシステムを提案する。 この手法は3次元ガウス平板のリアルタイムレンダリング性能をラスタ化に生かし、CUDA実装によりリアルタイムに微分可能な最適化を可能にする。 また,3次元ガウシアンからのメッシュ再構成も可能で,高密度3次元再構成が可能となる。 正確なカメラポーズを推定するために,逆最適化を用いた回転変換デカップリング方式を用いる。 これは、グラデーションベースの最適化を通じて、複数のイテレーションで両方を反復的に更新することを含む。 このプロセスにはRGB、深度、シルエットマップの異なるレンダリングとカメラパラメータの更新が含まれており、既存の3Dガウス地図を考えると、測光損失、深度幾何損失、視認性損失の合計が最小になる。 しかし、3Dガウススティング(3DGS)は3Dガウスの多視点不整合のため表面の正確な表現に苦慮しており、カメラポーズ推定とシーン再構成の両方において精度が低下する可能性がある。 これを解決するために,奥行き先を付加正規化として利用して幾何的制約を強制し,ポーズ推定と3次元再構成の精度を向上する。 また,提案手法の有効性を,ポーズ精度,幾何学的精度,レンダリング性能の観点から検証した。

Conventional geometry-based SLAM systems lack dense 3D reconstruction capabilities since their data association usually relies on feature correspondences. Additionally, learning-based SLAM systems often fall short in terms of real-time performance and accuracy. Balancing real-time performance with dense 3D reconstruction capabilities is a challenging problem. In this paper, we propose a real-time RGB-D SLAM system that incorporates a novel view synthesis technique, 3D Gaussian Splatting, for 3D scene representation and pose estimation. This technique leverages the real-time rendering performance of 3D Gaussian Splatting with rasterization and allows for differentiable optimization in real time through CUDA implementation. We also enable mesh reconstruction from 3D Gaussians for explicit dense 3D reconstruction. To estimate accurate camera poses, we utilize a rotation-translation decoupled strategy with inverse optimization. This involves iteratively updating both in several iterations through gradient-based optimization. This process includes differentiably rendering RGB, depth, and silhouette maps and updating the camera parameters to minimize a combined loss of photometric loss, depth geometry loss, and visibility loss, given the existing 3D Gaussian map. However, 3D Gaussian Splatting (3DGS) struggles to accurately represent surfaces due to the multi-view inconsistency of 3D Gaussians, which can lead to reduced accuracy in both camera pose estimation and scene reconstruction. To address this, we utilize depth priors as additional regularization to enforce geometric constraints, thereby improving the accuracy of both pose estimation and 3D reconstruction. We also provide extensive experimental results on public benchmark datasets to demonstrate the effectiveness of our proposed methods in terms of pose accuracy, geometric accuracy, and rendering performance.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# CMAB: オープンソースデータとGeoAIから派生した中国初の全国規模のマルチアトリビュートビルディングデータセット

CMAB: A First National-Scale Multi-Attribute Building Dataset in China Derived from Open Source Data and GeoAI ( http://arxiv.org/abs/2408.05891v2 )

ライセンス: Link先を確認
Yecheng Zhang, Huimin Zhao, Ying Long, (参考訳) 屋上、高さ、方位などの幾何学的属性や、機能、品質、年齢などの指示的属性を含む3次元の建物データを素早く取得することは、正確な都市分析、シミュレーション、政策更新に不可欠である。 現在のビルディングデータセットは、マルチ属性の構築の不完全なカバレッジに悩まされている。 本稿では,大規模建築モデリングのための地理空間人工知能(GeoAI)フレームワークについて紹介し,3,667の空間都市,29万の建物,213億平方メートルの屋上を対象とし,総面積337億立方メートルのOCRNetをベースとしたF1スコア89.93%の建物ストックを作成した。 都市の行政区分を用いて, ブートストラップを集約したXGBoostモデルを訓練し, 形態, 位置, 機能などの特徴を取り入れた。 数十億もの高解像度のGoogle Earth画像と6000万のストリートビュー画像(SVI)を含むマルチソースデータを使用して、各ビルの屋上、高さ、機能、年齢、品質特性を生成しました。 精度は、モデルベンチマーク、既存の類似製品、手動SVIバリデーションを通じて、大半が80%以上で検証された。 我々のデータセットと結果は、グローバルSDGと都市計画にとって不可欠です。

Rapidly acquiring three-dimensional (3D) building data, including geometric attributes like rooftop, height and orientations, as well as indicative attributes like function, quality, and age, is essential for accurate urban analysis, simulations, and policy updates. Current building datasets suffer from incomplete coverage of building multi-attributes. This paper introduces a geospatial artificial intelligence (GeoAI) framework for large-scale building modeling, presenting the first national-scale Multi-Attribute Building dataset (CMAB), covering 3,667 spatial cities, 29 million buildings, and 21.3 billion square meters of rooftops with an F1-Score of 89.93% in OCRNet-based extraction, totaling 337.7 billion cubic meters of building stock. We trained bootstrap aggregated XGBoost models with city administrative classifications, incorporating features such as morphology, location, and function. Using multi-source data, including billions of high-resolution Google Earth images and 60 million street view images (SVIs), we generated rooftop, height, function, age, and quality attributes for each building. Accuracy was validated through model benchmarks, existing similar products, and manual SVI validation, mostly above 80%. Our dataset and results are crucial for global SDGs and urban planning.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# 機械部品からのフリーハンドスケッチ生成

Freehand Sketch Generation from Mechanical Components ( http://arxiv.org/abs/2408.05966v2 )

ライセンス: Link先を確認
Zhichao Liao, Di Huang, Heming Fang, Yue Ma, Fengyuan Piao, Xinghui Li, Long Zeng, Pingfa Feng, (参考訳) AIベースのエンジニアリングモデリングのためのマルチメディアデバイス上の機械部品のフリーハンドスケッチは、新しいトレンドとなっている。 しかし、既存の研究はデータ駆動研究に適したスケッチを作成できないため、その開発は妨げられている。 これらの作品はフリーハンドスタイルを欠いたスケッチを生成するか、そもそもこのタスクのために設計されていない生成モデルを利用するかのいずれかで、効果は低い。 この問題を解決するために,機械部品に適したヒューマノイドフリーハンドスケッチを初めて作成したMSFormerという,人間のスケッチ動作パターンを模倣した2段階の生成フレームワークを設計した。 第1段階では、Open CASCADE技術を用いて、機械部品からマルチビューの輪郭スケッチを取得し、続く生成プロセスのために摂動信号をフィルタリングする。 一方、情報豊富なスケッチを抽出するために、人間のスケッチ中に視点選択タスクをシミュレートするビューセレクタを設計する。 第2ステージでは、輪郭スケッチをトランスフォーマーベースのジェネレータによるフリーハンドスケッチに変換する。 できるだけ重要なモデリング機能を維持し,脳卒中分布を合理化するために,新しいエッジ制約脳卒中初期化を導入する。 さらに,CLIPビジョンエンコーダとハウスドルフ距離を組み込んだ新たな損失関数を用いて,モデルの一般化性とロバスト性を向上させる。 機械的領域におけるフリーハンドスケッチを生成するために,本手法が最先端の性能を実現することを実証した。 プロジェクトページ: https://mcfreeskegen.github.io 。

Drawing freehand sketches of mechanical components on multimedia devices for AI-based engineering modeling has become a new trend. However, its development is being impeded because existing works cannot produce suitable sketches for data-driven research. These works either generate sketches lacking a freehand style or utilize generative models not originally designed for this task resulting in poor effectiveness. To address this issue, we design a two-stage generative framework mimicking the human sketching behavior pattern, called MSFormer, which is the first time to produce humanoid freehand sketches tailored for mechanical components. The first stage employs Open CASCADE technology to obtain multi-view contour sketches from mechanical components, filtering perturbing signals for the ensuing generation process. Meanwhile, we design a view selector to simulate viewpoint selection tasks during human sketching for picking out information-rich sketches. The second stage translates contour sketches into freehand sketches by a transformer-based generator. To retain essential modeling features as much as possible and rationalize stroke distribution, we introduce a novel edge-constraint stroke initialization. Furthermore, we utilize a CLIP vision encoder and a new loss function incorporating the Hausdorff distance to enhance the generalizability and robustness of the model. Extensive experiments demonstrate that our approach achieves state-of-the-art performance for generating freehand sketches in the mechanical domain. Project page: https://mcfreeskegen.github.io .
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# NewsPaLM MBR と QE データセットの導入: 従来の Web クローリングデータより優れた LLM 生成高品質並列データ

Introducing the NewsPaLM MBR and QE Dataset: LLM-Generated High-Quality Parallel Data Outperforms Traditional Web-Crawled Data ( http://arxiv.org/abs/2408.06537v4 )

ライセンス: Link先を確認
Mara Finkelstein, David Vilar, Markus Freitag, (参考訳) ニューラルマシン翻訳(NMT)の最近の研究により、高品質なマシン生成データに対するトレーニングは、人為的なデータに対するトレーニングよりも優れていることが示されている。 この研究は、LLM生成、MBRデコード、QE参照のデータセットを初めてリリースし、文レベルと多文の両方の例を示す。 我々は、NMTモデルの性能に対する下流の影響の観点から、データセットの品質を実証するための広範な実験を行った。 我々の(機械生成)データセットのスクラッチからのトレーニングは、(Webcrawled)WMT'23トレーニングデータセット(300倍大きい)でのトレーニングよりも優れており、WMT'23トレーニングデータセットの最高品質サブセットでのトレーニングよりも優れています。 また、このデータセットを生成するLCMを微調整して自己蒸留を行うことで、LSMの強力な数ショットベースラインよりも優れた性能が得られることも見出した。 これらの結果はデータセットの品質を裏付け、NMTモデルの性能向上における高品質なマシン生成データの価値を実証する。

Recent research in neural machine translation (NMT) has shown that training on high-quality machine-generated data can outperform training on human-generated data. This work accompanies the first-ever release of a LLM-generated, MBR-decoded and QE-reranked dataset with both sentence-level and multi-sentence examples. We perform extensive experiments to demonstrate the quality of our dataset in terms of its downstream impact on NMT model performance. We find that training from scratch on our (machine-generated) dataset outperforms training on the (web-crawled) WMT'23 training dataset (which is 300 times larger), and also outperforms training on the top-quality subset of the WMT'23 training dataset. We also find that performing self-distillation by finetuning the LLM which generated this dataset outperforms the LLM's strong few-shot baseline. These findings corroborate the quality of our dataset, and demonstrate the value of high-quality machine-generated data in improving performance of NMT models.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# 室内環境における構造保存型平面簡易化

Structure-preserving Planar Simplification for Indoor Environments ( http://arxiv.org/abs/2408.06814v2 )

ライセンス: Link先を確認
Bishwash Khanal, Sanjay Rijal, Manish Awale, Vaghawan Ojha, (参考訳) 本稿では,シミュレーション環境と実環境の両方を対象とした屋内シーンポイント雲の構造保存型平面簡易化手法を提案する。 当初、シーンポイントクラウドは、ノイズ低減やマンハッタンのワールドアライメントを含む前処理のステップを実行し、その後の分析において堅牢性と一貫性を確保する。 キャプチャされた各シーンを、構造化された(壁焼床)と非構造化された(屋内オブジェクト)のシーンに分割する。 RANSACアルゴリズムを用いて,入力点雲から原始平面を抽出し,構成シーンの分割と単純化を容易にする。 次に、最も適した壁メッシュがプリミティブから生成され、その後、メッシュレイアウトを保存する頂点変換アルゴリズムと隣のメッシュがマージされる。 天井と床を正確に表現するために,壁面の正常性に対して天井と床のメッシュを切断するメッシュクリッピングアルゴリズムを用いる。 屋内シーンでは,表面再構成技術を用いて忠実度を向上する。 本稿では,多階建てや斜めの壁,天井などの複雑なシナリオに対処する,シーン簡略化手法の複雑なステップに焦点を当てる。 また,一般的な表面再構成,形状近似,フロアプラン生成手法に対する定性的,定量的な性能比較を行った。

This paper presents a novel approach for structure-preserving planar simplification of indoor scene point clouds for both simulated and real-world environments. Initially, the scene point cloud undergoes preprocessing steps, including noise reduction and Manhattan world alignment, to ensure robustness and coherence in subsequent analyses. We segment each captured scene into structured (walls-ceiling-floor) and non-structured (indoor objects) scenes. Leveraging a RANSAC algorithm, we extract primitive planes from the input point cloud, facilitating the segmentation and simplification of the structured scene. The best-fitting wall meshes are then generated from the primitives, followed by adjacent mesh merging with the vertex-translation algorithm which preserves the mesh layout. To accurately represent ceilings and floors, we employ the mesh clipping algorithm which clips the ceiling and floor meshes with respect to wall normals. In the case of indoor scenes, we apply a surface reconstruction technique to enhance the fidelity. This paper focuses on the intricate steps of the proposed scene simplification methodology, addressing complex scenarios such as multi-story and slanted walls and ceilings. We also conduct qualitative and quantitative performance comparisons against popular surface reconstruction, shape approximation, and floorplan generation approaches.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# Node Level Graph Autoencoder: テキストグラフ学習のための統一プレトレーニング

Node Level Graph Autoencoder: Unified Pretraining for Textual Graph Learning ( http://arxiv.org/abs/2408.07091v2 )

ライセンス: Link先を確認
Wenbin Hu, Huihao Jing, Qi Hu, Haoran Li, Yangqiu Song, (参考訳) テキストグラフは、様々な分野にわたる高度な研究を可能にする複雑な関係を持つリッチテキスト情報を特徴とする、現実世界のアプリケーションではユビキタスである。 テキストグラフ表現学習は、下流タスクの性能を向上させることができるテキストグラフから低次元の特徴埋め込みを生成することを目的としている。 高品質な機能埋め込みは、テキストグラフの構造情報とテキスト情報の両方を効果的にキャプチャする。 しかしながら、ほとんどのテキストグラフデータセットベンチマークは、機能埋め込みを生成するために word2vec 技術に依存している。 テキストグラフ表現学習に関する最近の研究は、教師なしと教師なしの2つの方法に分類できる。 ラベル付きデータが少ない場合に限られた機能を持つラベル付きノード上で言語モデルを微調整する。 一方、教師なしの手法では、複雑なトレーニングパイプラインを開発することで特徴埋め込みを抽出する。 これらの制約に対処するため,Node Level Graph AutoEncoder (NodeGAE) という,新しいアン教師なし学習オートエンコーダフレームワークを提案する。 我々は、自動エンコーダのバックボーンとして言語モデルを使用し、テキスト再構成を事前訓練する。 さらに、局所的なグラフ構造に特徴を埋め込むために補助的損失項を加える。 本手法は,学習過程における単純さを維持し,多種多様なテキストグラフや下流タスクの一般化性を示す。 本稿では,ノード分類とリンク予測という,下流タスクを学習する2つのコアグラフ表現について評価する。 総合的な実験により,本手法は複数のテキストグラフデータセットにまたがる多様なグラフニューラルネットワーク(GNN)の性能を大幅に向上させることが示された。

Textual graphs are ubiquitous in real-world applications, featuring rich text information with complex relationships, which enables advanced research across various fields. Textual graph representation learning aims to generate low-dimensional feature embeddings from textual graphs that can improve the performance of downstream tasks. A high-quality feature embedding should effectively capture both the structural and the textual information in a textual graph. However, most textual graph dataset benchmarks rely on word2vec techniques to generate feature embeddings, which inherently limits their capabilities. Recent works on textual graph representation learning can be categorized into two folds: supervised and unsupervised methods. Supervised methods finetune a language model on labeled nodes, which have limited capabilities when labeled data is scarce. Unsupervised methods, on the other hand, extract feature embeddings by developing complex training pipelines. To address these limitations, we propose a novel unified unsupervised learning autoencoder framework, named Node Level Graph AutoEncoder (NodeGAE). We employ language models as the backbone of the autoencoder, with pretraining on text reconstruction. Additionally, we add an auxiliary loss term to make the feature embeddings aware of the local graph structure. Our method maintains simplicity in the training process and demonstrates generalizability across diverse textual graphs and downstream tasks. We evaluate our method on two core graph representation learning downstream tasks: node classification and link prediction. Comprehensive experiments demonstrate that our approach substantially enhances the performance of diverse graph neural networks (GNNs) across multiple textual graph datasets.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# LLM, MLLM, その他におけるモデルマージ: 方法論, 理論, 応用, 機会

Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities ( http://arxiv.org/abs/2408.07666v3 )

ライセンス: Link先を確認
Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao, (参考訳) モデルマージは、生のトレーニングデータの収集を必要とせず、高価な計算を必要としない、機械学習コミュニティの効率的なエンパワーメント技術である。 モデルマージが様々な分野で普及するにつれて、利用可能なモデルマージテクニックを包括的に理解することが不可欠である。 しかし、これらの手法の体系的かつ徹底的なレビューに関する文献には大きなギャップがある。 本調査では, モデルマージ手法と理論, 各種領域および環境への応用, 今後の研究方向性について概説する。 具体的には、まず、既存のモデルマージ手法を徹底的に議論する新しい分類学的アプローチを提案する。 次に,大規模言語モデル,マルチモーダルな大規模言語モデル,連続学習,マルチタスク学習,少数ショット学習などを含む10以上の機械学習サブフィールドにおけるモデルマージ手法の適用について論じる。 最後に、モデルマージの残りの課題を強調し、今後の研究方向性について議論する。 モデルマージに関する包括的な論文のリストは、 \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications} で見ることができる。

Model merging is an efficient empowerment technique in the machine learning community that does not require the collection of raw training data and does not require expensive computation. As model merging becomes increasingly prevalent across various fields, it is crucial to understand the available model merging techniques comprehensively. However, there is a significant gap in the literature regarding a systematic and thorough review of these techniques. This survey provides a comprehensive overview of model merging methods and theories, their applications in various domains and settings, and future research directions. Specifically, we first propose a new taxonomic approach that exhaustively discusses existing model merging methods. Secondly, we discuss the application of model merging techniques in large language models, multimodal large language models, and 10+ machine learning subfields, including continual learning, multi-task learning, few-shot learning, etc. Finally, we highlight the remaining challenges of model merging and discuss future research directions. A comprehensive list of papers about model merging is available at \url{https://github.com/EnnengYang/Awesome-Model-Merging-Methods-Theories-Applications}.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# 定オーバーヘッドマジックステート蒸留

Constant-Overhead Magic State Distillation ( http://arxiv.org/abs/2408.07764v2 )

ライセンス: Link先を確認
Adam Wills, Min-Hsiu Hsieh, Hayata Yamasaki, (参考訳) マジックステート蒸留は、フォールトトレラント量子計算において重要ながリソース集約的なプロセスである。 プロトコルのオーバーヘッドは、出力マジック状態当たりの入力マジック状態の数として定義され、通常$\mathcal{O}(\log^\gamma(1/\epsilon))$として成長する。 より小さなオーバーヘッド、すなわちより小さな指数である$\gamma$は、非常に望ましいが、既存のすべてのプロトコルは、約$\gamma > 0$で多対数的に成長するオーバーヘッドを必要とし、量子ビットのマジック状態を蒸留するための最小の指数$\gamma$を特定することは、依然として困難である。 この問題に対処するため、我々は$\mathcal{O}(1)$オーバーヘッドを達成できる効率の良い多項式時間復号法を持つキュービットのマジックステート蒸留プロトコルを開発し、これはHastingsとHaahにより以前の最高値である$\gamma \approx 0.678$よりも改善される。 我々の構成では、代数幾何学符号を用いて、クリフォード階層の第3のレベルにおいて、超越的に実装可能な論理ゲートをサポートする2^{10}$-dimensional quditsに対して、漸近的に良い量子符号を明示的に提示する。 非消滅率と相対距離を持つ漸近的に良い符号を使うことは、一定のオーバーヘッドにつながる。 これらの符号は、それぞれ$2^{10}$-dimensional qudit を 10$ qubits の集合として表し、量子ビット上の安定化演算を用いて実現することができる。 これらの符号で蒸留された10ドルキュービットのマジックステートは、制御制御されたZ$(CCZ$)と$T$ゲートに対して通常のマジックステートに変換できるため、クビットの標準的なマジックステートを一定のオーバヘッドで蒸留することができる。 これらの結果は、最適指数によるマジック状態蒸留プロトコルの構築に関する量子情報理論における根本的なオープンな問題を解決している。

Magic state distillation is a crucial yet resource-intensive process in fault-tolerant quantum computation. The protocol's overhead, defined as the number of input magic states required per output magic state with an error rate below $\epsilon$, typically grows as $\mathcal{O}(\log^\gamma(1/\epsilon))$. Achieving smaller overheads, i.e., smaller exponents $\gamma$, is highly desirable; however, all existing protocols require polylogarithmically growing overheads with some $\gamma > 0$, and identifying the smallest achievable exponent $\gamma$ for distilling magic states of qubits has remained challenging. To address this issue, we develop magic state distillation protocols for qubits with efficient, polynomial-time decoding that achieve an $\mathcal{O}(1)$ overhead, meaning the optimal exponent $\gamma = 0$; this improves over the previous best of $\gamma \approx 0.678$ due to Hastings and Haah. In our construction, we employ algebraic geometry codes to explicitly present asymptotically good quantum codes for $2^{10}$-dimensional qudits that support transversally implementable logical gates in the third level of the Clifford hierarchy. The use of asymptotically good codes with non-vanishing rate and relative distance leads to the constant overhead. These codes can be realised by representing each $2^{10}$-dimensional qudit as a set of $10$ qubits, using stabiliser operations on qubits. The $10$-qubit magic states distilled with these codes can be converted to and from conventional magic states for the controlled-controlled-$Z$ ($CCZ$) and $T$ gates on qubits with only a constant overhead loss, making it possible to achieve constant-overhead distillation of such standard magic states for qubits. These results resolve the fundamental open problem in quantum information theory concerning the construction of magic state distillation protocols with the optimal exponent.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# 拡張プロセスモデル理解のための大規模言語モデルの活用

Leveraging Large Language Models for Enhanced Process Model Comprehension ( http://arxiv.org/abs/2408.08892v2 )

ライセンス: Link先を確認
Humam Kourani, Alessandro Berti, Jasmin Henrich, Wolfgang Kratsch, Robin Weidlich, Chiao-Yun Li, Ahmad Arslan, Daniel Schuster, Wil M. P. van der Aalst, (参考訳) ビジネスプロセス管理(BPM)では、プロセスモデルを効果的に理解することが不可欠ですが、特に組織規模やプロセスが複雑になるにつれて、大きな課題が発生します。 本稿では,Large Language Models(LLM)の高度な機能を活用し,複雑なプロセスモデルの解釈可能性を高める新しいフレームワークを提案する。 我々は、ビジネスプロセスモデルをLLMにアクセスできるフォーマットに抽象化する様々な方法を提案し、我々のフレームワーク内でLLMのパフォーマンスを最適化するために設計された高度なプロンプト戦略を実装した。 さらに,提案するフレームワークを実装し,対話型プロセスクエリを可能にするAIPAを提案する。 私たちはフレームワークとツールを評価します。 一 異なるLLM、モデル抽象化及び促進戦略を比較検討する自動評価 ii)AIPAの有効性を総合的に評価するためのユーザスタディ。 その結果、プロセスモデルのアクセシビリティと解釈性を改善するフレームワークの能力を示し、AI技術をBPM分野に統合するための新しい経路を開拓しました。

In Business Process Management (BPM), effectively comprehending process models is crucial yet poses significant challenges, particularly as organizations scale and processes become more complex. This paper introduces a novel framework utilizing the advanced capabilities of Large Language Models (LLMs) to enhance the interpretability of complex process models. We present different methods for abstracting business process models into a format accessible to LLMs, and we implement advanced prompting strategies specifically designed to optimize LLM performance within our framework. Additionally, we present a tool, AIPA, that implements our proposed framework and allows for conversational process querying. We evaluate our framework and tool by i) an automatic evaluation comparing different LLMs, model abstractions, and prompting strategies and ii) a user study designed to assess AIPA's effectiveness comprehensively. Results demonstrate our framework's ability to improve the accessibility and interpretability of process models, pioneering new pathways for integrating AI technologies into the BPM field.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# NeRF-US: 野生の神経放射場からの超音波イメージングアーチファクトの除去

NeRF-US: Removing Ultrasound Imaging Artifacts from Neural Radiance Fields in the Wild ( http://arxiv.org/abs/2408.10258v2 )

ライセンス: Link先を確認
Rishit Dagli, Atsuhiro Hibi, Rahul G. Krishnan, Pascal N. Tyrrell, (参考訳) 超音波画像データにおける3次元再構成と新しいビュー合成(NVS)の現在の手法は、NeRFベースのアプローチを訓練する際、しばしば深刻な成果物に直面している。 現在のアプローチによって生成された人工物は、超音波キャプチャーのユニークな性質のため、一般的な場面ではNeRFフローターとは異なる。 さらに, 既往のモデルでは, 臨床環境において一般的である非制御環境において, 超音波データを捕捉したり, カジュアルに取得した場合に, 合理的な3D再構成が得られない。 その結果、既存の再建法とNVS法は、超音波の動きを扱うのに苦労し、複雑な詳細を捉えず、透明で反射的な表面をモデル化することができない。 本研究では,NeRFトレーニングに境界確率と散乱密度の3次元幾何学的ガイダンスを取り入れたNeRF-USを導入するとともに,従来のボリュームレンダリングよりも超音波特異的なレンダリングを利用する。 これらの3D先行情報は拡散モデルによって学習される。 新たな"Ultrasound in the Wild"データセットで実施した実験により、正確な、臨床的に妥当な、アーティファクトのない再構築が観察された。

Current methods for performing 3D reconstruction and novel view synthesis (NVS) in ultrasound imaging data often face severe artifacts when training NeRF-based approaches. The artifacts produced by current approaches differ from NeRF floaters in general scenes because of the unique nature of ultrasound capture. Furthermore, existing models fail to produce reasonable 3D reconstructions when ultrasound data is captured or obtained casually in uncontrolled environments, which is common in clinical settings. Consequently, existing reconstruction and NVS methods struggle to handle ultrasound motion, fail to capture intricate details, and cannot model transparent and reflective surfaces. In this work, we introduced NeRF-US, which incorporates 3D-geometry guidance for border probability and scattering density into NeRF training, while also utilizing ultrasound-specific rendering over traditional volume rendering. These 3D priors are learned through a diffusion model. Through experiments conducted on our new "Ultrasound in the Wild" dataset, we observed accurate, clinically plausible, artifact-free reconstructions.
翻訳日:2024-08-22 21:36:42 公開日:2024-08-21
# CNNによる画像アノテーションのためのひび割れ検出

CNN-based Labelled Crack Detection for Image Annotation ( http://arxiv.org/abs/2408.11250v1 )

ライセンス: Link先を確認
Mohsen Asghari Ilani, Leila Amini, Hossein Karimi, Maryam Shavali Kuhshuri, (参考訳) 多数の画像処理技術(IPT)が亀裂の検知に使われており、人間による現場検査に代わるものとなっている。 これらのICTは画像を操作して欠陥の特徴、特に添加物製造(AM)による表面の亀裂を抽出する。 本稿では,深部畳み込みニューラルネットワーク(CNN)を用いたAM表面のき裂検出手法を提案する。 従来の画像処理技術は、さまざまな現実シナリオとさまざまなクラックタイプで課題に直面している。 これらの課題を克服するため,提案手法はCNNを活用し,広範な特徴抽出の必要性を排除した。 CNNトレーニングのアノテーションは、追加のIPTを必要としない LabelImg によって促進される。 OpenCVプリプロセッシング技術によって強化された訓練されたCNNは、14,982の注釈付き画像の解像度が1536 x 1103ピクセルのデータセットに対して99.54%の精度を達成した。 評価指標は96%以上の精度、98%のリコール、97%のF1スコアで、プロセス全体の正確性と有効性を強調している。

Numerous image processing techniques (IPTs) have been employed to detect crack defects, offering an alternative to human-conducted onsite inspections. These IPTs manipulate images to extract defect features, particularly cracks in surfaces produced through Additive Manufacturing (AM). This article presents a vision-based approach that utilizes deep convolutional neural networks (CNNs) for crack detection in AM surfaces. Traditional image processing techniques face challenges with diverse real-world scenarios and varying crack types. To overcome these challenges, our proposed method leverages CNNs, eliminating the need for extensive feature extraction. Annotation for CNN training is facilitated by LabelImg without the requirement for additional IPTs. The trained CNN, enhanced by OpenCV preprocessing techniques, achieves an outstanding 99.54% accuracy on a dataset of 14,982 annotated images with resolutions of 1536 x 1103 pixels. Evaluation metrics exceeding 96% precision, 98% recall, and a 97% F1-score highlight the precision and effectiveness of the entire process.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-21
# ニューラルラジアンス場を用いた不規則性検査

Irregularity Inspection using Neural Radiance Field ( http://arxiv.org/abs/2408.11251v1 )

ライセンス: Link先を確認
Tianqi Ding, Dawei Xiang, (参考訳) 工業化の進展に伴い、ますます多くの産業が機械の自動化に頼っている。 しかし, 大規模生産機械の欠陥検出はますます重要になりつつある。 その大きさと高さのため、プロがそのような大型機械で欠陥検査を行うことは、しばしば困難である。 例えば、塔のような高い機械の部品の老朽化や不整合の検査では、企業は専用の人員を割り当てる必要がある。 従業員は塔を登ったり、視覚的に検査したり、写真を撮って、これらの大きな機械の安全リスクを検出する必要がある。 直接の視覚検査は、その低い自動化レベル、精度の欠如、そして塔を登る人に関連する安全上の懸念によって制限されている。 そこで本研究では,3次元双対モデルのニューラル・ネットワーク・モデリング(NeRF)に基づくシステムを提案する。 2つのデジタルモデルを比較することにより、オブジェクトの3次元インタフェースにおける欠陥検出を可能にする。

With the increasing growth of industrialization, more and more industries are relying on machine automation for production. However, defect detection in large-scale production machinery is becoming increasingly important. Due to their large size and height, it is often challenging for professionals to conduct defect inspections on such large machinery. For example, the inspection of aging and misalignment of components on tall machinery like towers requires companies to assign dedicated personnel. Employees need to climb the towers and either visually inspect or take photos to detect safety hazards in these large machines. Direct visual inspection is limited by its low level of automation, lack of precision, and safety concerns associated with personnel climbing the towers. Therefore, in this paper, we propose a system based on neural network modeling (NeRF) of 3D twin models. By comparing two digital models, this system enables defect detection at the 3D interface of an object.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-21
# 自己回帰型言語モデルにおける帰属法の忠実度評価の手段としての反事実

Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models ( http://arxiv.org/abs/2408.11252v1 )

ライセンス: Link先を確認
Sepehr Kamahi, Yadollah Yaghoobzadeh, (参考訳) 自己回帰言語モデルが広く採用されているにもかかわらず、説明可能性評価の研究は、主に埋め込みとマスキング言語モデル(MLM)に焦点を当てている。 説明手法の忠実さ - モデルの内部動作と意思決定をいかに正確に説明するか - を評価することは、モデルをその説明から切り離すのが非常に難しいため、非常に難しい。 ほとんどの忠実度評価技術は、特定の属性(機能的重要性)法に基づいて重要とされる入力トークンを破損または除去し、モデルの出力の変化を観察する。 このアプローチは、次のトークン予測のトレーニング目的のため、因果言語モデル(CLM)のアウト・オブ・ディストリビューション入力を生成する。 本研究では,自己回帰型言語モデリングシナリオに対する帰属的手法の忠実さを評価するために,反事実生成を利用した手法を提案する。 本手法は, 評価プロトコルをより信頼性の高い, 流動的かつ非分配的な反物を生成する。 コードはhttps://github.com/Sepehr-Kamahi/faithで公開されている。

Despite the widespread adoption of autoregressive language models, explainability evaluation research has predominantly focused on span infilling and masked language models (MLMs). Evaluating the faithfulness of an explanation method -- how accurately the method explains the inner workings and decision-making of the model -- is very challenging because it is very hard to separate the model from its explanation. Most faithfulness evaluation techniques corrupt or remove some input tokens considered important according to a particular attribution (feature importance) method and observe the change in the model's output. This approach creates out-of-distribution inputs for causal language models (CLMs) due to their training objective of next token prediction. In this study, we propose a technique that leverages counterfactual generation to evaluate the faithfulness of attribution methods for autoregressive language modeling scenarios. Our technique creates fluent and in-distribution counterfactuals that makes evaluation protocol more reliable. Code is available at https://github.com/Sepehr-Kamahi/faith
翻訳日:2024-08-22 18:58:50 公開日:2024-08-21
# 改良CNNモデルによるオールモンド検出のためのAlmondNet-20法の自動画像アノテーション(AIA)

Automatic Image Annotation (AIA) of AlmondNet-20 Method for Almond Detection by Improved CNN-based Model ( http://arxiv.org/abs/2408.11253v1 )

ライセンス: Link先を確認
Mohsen Asghari Ilani, Saba Moftakhar Tehran, Ashkan Kavei, Arian Radmehr, (参考訳) 本稿では,特に競争力のあるナッツ市場における高級農産物の世界的な需要の高まりに応えて,アーモンドとその殻の格付けプロセスの向上を目的とした革新的な手法を提案する。 最先端のDeep Convolutional Neural Networks(CNN)、特にAlmondNet-20アーキテクチャを活用することで、20層CNNモデルの利用により、99%を超える例外的精度を達成できる。 アーモンドと貝殻の識別におけるロバスト性を高めるため,データ拡張技術を用いて分類システムの信頼性と精度を確保する。 本モデルでは,1000エポック以上の微妙な訓練を行った結果,99%の精度,0.0567の最小損失関数が得られた。 テストデータセットによる厳密な評価は、我々のアプローチの有効性をさらに検証し、アーモンド検出のための不正確な精度、リコール、F1スコアメトリクスを明らかにする。 技術だけでなく、この高度な分類システムは、業界の専門家と非専門家の両方に有意義な利益をもたらし、グローバルに信頼できるアーモンド分類を確実にする。 本研究で示すように,ディープラーニングアルゴリズムの適用は,学習精度の向上だけでなく,製品特許の機会も与え,我が国の経済的価値に寄与する。 AlmondNet-20モデルのような最先端技術の導入により、我々は将来の農業製品分類の進歩の道を開き、最終的にはグローバルな貿易と経済の繁栄を豊かにする。

In response to the burgeoning global demand for premium agricultural products, particularly within the competitive nut market, this paper introduces an innovative methodology aimed at enhancing the grading process for almonds and their shells. Leveraging state-of-the-art Deep Convolutional Neural Networks (CNNs), specifically the AlmondNet-20 architecture, our study achieves exceptional accuracy exceeding 99%, facilitated by the utilization of a 20-layer CNN model. To bolster robustness in differentiating between almonds and shells, data augmentation techniques are employed, ensuring the reliability and accuracy of our classification system. Our model, meticulously trained over 1000 epochs, demonstrates remarkable performance, boasting an accuracy rate of 99% alongside a minimal loss function of 0.0567. Rigorous evaluation through test datasets further validates the efficacy of our approach, revealing impeccable precision, recall, and F1-score metrics for almond detection. Beyond its technical prowess, this advanced classification system offers tangible benefits to both industry experts and non-specialists alike, ensuring globally reliable almond classification. The application of deep learning algorithms, as showcased in our study, not only enhances grading accuracy but also presents opportunities for product patents, thereby contributing to the economic value of our nation. Through the adoption of cutting-edge technologies such as the AlmondNet-20 model, we pave the way for future advancements in agricultural product classification, ultimately enriching global trade and economic prosperity.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-21
# モダン・オフザシェルフ音声認識における音声認識誤り予測の改善

Improving Speech Recognition Error Prediction for Modern and Off-the-shelf Speech Recognizers ( http://arxiv.org/abs/2408.11258v1 )

ライセンス: Link先を確認
Prashant Serai, Peidong Wang, Eric Fosler-Lussier, (参考訳) 音声認識器の誤りをモデル化することは、識別言語モデリングやNLPシステムの堅牢性向上など、列車時に音声データが限定的または全く利用できないタスクに有用な、プレーンテキストからの誤り認識音声データのシミュレートに役立てることができる。 従来の研究はGMM-HMMベースのシステムの複製挙動を概ね検討していたが、より近代的な後部ニューラルネットワーク音響モデルの振る舞いは同じではなく、エラー予測モデルを調整する必要がある。 本研究では,音声認識の誤りを予測するための事前の音声混乱に基づくモデルを拡張する。まず,後部音響モデルの振舞いをより良くシミュレートするサンプリングベースパラダイムを導入する。 第2に、予測にコンテキスト依存性を導入するために、混乱行列をシーケンス・ツー・シーケンスモデルに置き換えることを検討する。 まず、未確認データ(Fisher)上でSwitchboard ASRシステムのエラーを予測し、次に、その同じ予測器を用いて、新しいタスクで無関係なクラウドベースのASRシステムの挙動を推定する。 サンプリングは100-guessのパラダイム内で予測精度を大幅に向上する一方、シーケンスモデルは混乱行列と同様に動作する。

Modeling the errors of a speech recognizer can help simulate errorful recognized speech data from plain text, which has proven useful for tasks like discriminative language modeling, improving robustness of NLP systems, where limited or even no audio data is available at train time. Previous work typically considered replicating behavior of GMM-HMM based systems, but the behavior of more modern posterior-based neural network acoustic models is not the same and requires adjustments to the error prediction model. In this work, we extend a prior phonetic confusion based model for predicting speech recognition errors in two ways: first, we introduce a sampling-based paradigm that better simulates the behavior of a posterior-based acoustic model. Second, we investigate replacing the confusion matrix with a sequence-to-sequence model in order to introduce context dependency into the prediction. We evaluate the error predictors in two ways: first by predicting the errors made by a Switchboard ASR system on unseen data (Fisher), and then using that same predictor to estimate the behavior of an unrelated cloud-based ASR system on a novel task. Sampling greatly improves predictive accuracy within a 100-guess paradigm, while the sequence model performs similarly to the confusion matrix.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-21
# 大規模視覚言語モデルにおけるシクロファンシーの分析と緩和に向けて

Towards Analyzing and Mitigating Sycophancy in Large Vision-Language Models ( http://arxiv.org/abs/2408.11261v1 )

ライセンス: Link先を確認
Yunpu Zhao, Rui Zhang, Junbin Xiao, Changxin Ke, Ruibo Hou, Yifan Hao, Qi Guo, Yunji Chen, (参考訳) LVLM(Large Vision-Language Models)は、視覚言語理解において重要な能力を示す。 しかし、これらのモデルで持続する重要な問題の一つは、梅毒であり、これはモデルが先導的または偽りのプロンプトによって不規則に影響され、バイアスのある出力と幻覚をもたらすことを意味する。 LVLMの進歩にもかかわらず、シコファンシーの評価と緩和はいまだに過小評価されている。 本研究では,様々なVLベンチマークのサイコフィナンシーをキュレートした先行クエリで体系的に解析し,さらに緩和のためのテキストコントラスト復号法を提案することで,このギャップを埋める。 本研究は, 種々の課題において, LVLMの難易度が著しく低下していることを明らかにする。 提案手法は,LVLM がリードキューに対する過度な依存度を,デコード段階におけるサイコファンシートークンの可能性を同定し,抑制することに着目したモデル非依存の手法である。 広汎な実験により、LQCDは梅毒を効果的に軽減し、迅速な工学法と幻覚の緩和のための一般的な方法の両方を上回ります。 さらに、LQCDは中性クエリに対するLVLMの応答をわずかに改善するだけでなく、汎用デコードのためのより効果的な戦略であることを示す。

Large Vision-Language Models (LVLMs) have shown significant capability in vision-language understanding. However, one critical issue that persists in these models is sycophancy, which means models are unduly influenced by leading or deceptive prompts, resulting in biased outputs and hallucinations. Despite the progress in LVLMs, evaluating and mitigating sycophancy is yet much under-explored. In this work, we fill this gap by systematically analyzing sycophancy on various VL benchmarks with curated leading queries and further proposing a text contrastive decoding method for mitigation. While the specific sycophantic behavior varies significantly among models, our analysis reveals the severe deficiency of all LVLMs in resilience of sycophancy across various tasks. For improvement, we propose Leading Query Contrastive Decoding (LQCD), a model-agnostic method focusing on calibrating the LVLMs' over-reliance on leading cues by identifying and suppressing the probabilities of sycophancy tokens at the decoding stage. Extensive experiments show that LQCD effectively mitigate sycophancy, outperforming both prompt engineering methods and common methods for hallucination mitigation. We further demonstrate that LQCD does not hurt but even slightly improves LVLMs' responses to neutral queries, suggesting it being a more effective strategy for general-purpose decoding but not limited to sycophancy.
翻訳日:2024-08-22 18:58:50 公開日:2024-08-21
# 量子物性保存

Quantum Property Preservation ( http://arxiv.org/abs/2408.11262v1 )

ライセンス: Link先を確認
Kumar Saurav, Daniel A. Lidar, (参考訳) 量子特性保存(QPP)は、量子システムのターゲット特性をできるだけ長く維持する問題である。 この問題は、非コヒーレンス(decoherence)の対象となるオープン量子系の文脈で自然に発生する。 ここでは、QPPを形式化し解析する一般理論を開発する。 系状態のスカラー関数として符号化された特性を,スムーズに変化する時間依存制御ハミルトニアンの連続制御により局所的に保存することができる。 この理論は、目標特性のレベルセットとノイズチャネルに関連する安定かつ不安定な点を含む直観的な幾何学的解釈を提供する。 様々なノイズチャネルとターゲット特性の解を,自明に制御可能,制御不能,制御不能と分類する。 制御可能なシナリオでは、制御ハミルトン特異点と破壊時間の存在を実証する。 ハミルトン制御によるQPPは、アシラ量子ビットを必要とせず、測定やフィードバックに頼るため、量子誤差補正を補完する。 これはまた、スムーズなハミルトニアンのみをパルシングなしで使用し、マルコフ開系力学の体制で機能するため、動的疎結合を補完する。 制御理論の観点から、この研究はオープン量子系のトラッキング制御の課題に対処する。

Quantum property preservation (QPP) is the problem of maintaining a target property of a quantum system for as long as possible. This problem arises naturally in the context of open quantum systems subject to decoherence. Here, we develop a general theory to formalize and analyze QPP. We characterize properties encoded as scalar functions of the system state that can be preserved time-locally via continuous control using smoothly varying, time-dependent control Hamiltonians. The theory offers an intuitive geometric interpretation involving the level sets of the target property and the stable and unstable points related to the noise channel. We present solutions for various noise channels and target properties, which are classified as trivially controllable, uncontrollable, or controllable. In the controllable scenario, we demonstrate the existence of control Hamiltonian singularities and breakdown times, beyond which property preservation fails. QPP via Hamiltonian control is complementary to quantum error correction, as it does not require ancilla qubits or rely on measurement and feedback. It is also complementary to dynamical decoupling, since it uses only smooth Hamiltonians without pulsing and works in the regime of Markovian open system dynamics. From the perspective of control theory, this work addresses the challenge of tracking control for open quantum systems.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# ブロックチェーンを用いたプライバシ保護データ管理

Privacy-Preserving Data Management using Blockchains ( http://arxiv.org/abs/2408.11263v1 )

ライセンス: Link先を確認
Michael Mireku Kwakye, (参考訳) プライバシ保護ポリシーは、データプロバイダのプライベートデータを保護するために策定されたガイドラインである。 以前のプライバシ保存手法は、データがリポジトリに永久に格納され、データプロバイダのプライバシの好みを変更することから切り離されたプライバシーに対処してきた。 データが別のデータリポジトリに移行すると、この現象が明らかになる。 したがって、データプロバイダが既存のプライバシをコントロールし、フレキシブルに更新する必要性は、依然として問題であり続けている。 本稿では,データプロバイダがプライベートで機密性の高いデータを保存するためのブロックチェーンベースの方法論を提案する。 この研究は、データプロバイダのプライベート属性データ要素を、プライバシの好みとデータアクセサのデータ要素を、プライバシのタプルに密に結合することを提案する。 この実装は、密結合されたリレーショナルデータベースとブロックチェーンのフレームワークを提供する。 これにより、データ管理とクエリ処理のためのセキュアで、タンパ耐性があり、クエリ効率のよいプラットフォームが提供される。 実装による評価分析は、プライバシインフラストラクチャ上でのプライバシ対応クエリの効率的なクエリ処理を検証する。

Privacy-preservation policies are guidelines formulated to protect data providers private data. Previous privacy-preservation methodologies have addressed privacy in which data are permanently stored in repositories and disconnected from changing data provider privacy preferences. This occurrence becomes evident as data moves to another data repository. Hence, the need for data providers to control and flexibly update their existing privacy preferences due to changing data usage continues to remain a problem. This paper proposes a blockchain-based methodology for preserving data providers private and sensitive data. The research proposes to tightly couple data providers private attribute data element to privacy preferences and data accessor data element into a privacy tuple. The implementation presents a framework of tightly-coupled relational database and blockchains. This delivers secure, tamper-resistant, and query-efficient platform for data management and query processing. The evaluation analysis from the implementation validates efficient query processing of privacy-aware queries on the privacy infrastructure.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# 時系列分類における逆攻撃の相関解析

Correlation Analysis of Adversarial Attack in Time Series Classification ( http://arxiv.org/abs/2408.11264v1 )

ライセンス: Link先を確認
Zhengyang Li, Wenhao Liang, Chang Dong, Weitong Chen, Dong Huang, (参考訳) 本研究では,時系列分類モデルの逆攻撃に対する脆弱性について検討し,これらのモデルがどのように局所的情報とグローバル的情報を処理するかに着目した。 正規化自己相関関数(NACF)を利用することで、ニューラルネットワークの傾きを探索する。 本研究では,特にFast Fourier Transform (FFT) 法を用いて,摂動の周波数成分を標的とした正規化手法により,攻撃の有効性が著しく向上することが実証された。 一方,ノイズ導入やガウスフィルタといった防衛戦略は,高周波数歪み対策に特に有効なノイズ導入に基づくアプローチにより,アタック成功率(ASR)を著しく低下させることが示されている。 さらに,グローバルな情報の優先順位付けを図ったモデルは,敵の操作に対する抵抗が大きいことが判明した。 これらの結果は、敵の脅威に対するニューラルネットワークモデルのレジリエンスを著しく強化する手段として、周波数領域分析によって通知される攻撃と防御メカニズムの設計の重要性を浮き彫りにしている。

This study investigates the vulnerability of time series classification models to adversarial attacks, with a focus on how these models process local versus global information under such conditions. By leveraging the Normalized Auto Correlation Function (NACF), an exploration into the inclination of neural networks is conducted. It is demonstrated that regularization techniques, particularly those employing Fast Fourier Transform (FFT) methods and targeting frequency components of perturbations, markedly enhance the effectiveness of attacks. Meanwhile, the defense strategies, like noise introduction and Gaussian filtering, are shown to significantly lower the Attack Success Rate (ASR), with approaches based on noise introducing notably effective in countering high-frequency distortions. Furthermore, models designed to prioritize global information are revealed to possess greater resistance to adversarial manipulations. These results underline the importance of designing attack and defense mechanisms, informed by frequency domain analysis, as a means to considerably reinforce the resilience of neural network models against adversarial threats.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# 深層学習を用いた微分方程式の解法に関する実践的側面:プライマー

Practical Aspects on Solving Differential Equations Using Deep Learning: A Primer ( http://arxiv.org/abs/2408.11266v1 )

ライセンス: Link先を確認
Georgios Is. Detorakis, (参考訳) 深層学習は、微分方程式、特に偏微分方程式の研究を含む、多くの科学分野において一般的な道具となっている。 本研究では、ディープラーニングの基本原理と、ディープニューラルネットワークを用いて微分方程式を解くディープ・ガレルキン法を紹介する。 このプライマーは、Deep Galerkin 法とその実装に関する技術的および実践的な洞察を提供することを目的としている。 一次元の熱方程式を段階的に解く方法を示す。 また、通常の微分方程式や第二種のフレドホルムのような積分方程式の系にディープ・ガレルキン法を適用する方法を示す。 さらに、テキスト内のコードスニペットと、Githubの完全なソースコードも提供しています。 サンプルは、GPUを必要とせずに、単純なコンピュータ上で実行できるように設計されている。

Deep learning has become a popular tool across many scientific fields, including the study of differential equations, particularly partial differential equations. This work introduces the basic principles of deep learning and the Deep Galerkin method, which uses deep neural networks to solve differential equations. This primer aims to provide technical and practical insights into the Deep Galerkin method and its implementation. We demonstrate how to solve the one-dimensional heat equation step-by-step. We also show how to apply the Deep Galerkin method to solve systems of ordinary differential equations and integral equations, such as the Fredholm of the second kind. Additionally, we provide code snippets within the text and the complete source code on Github. The examples are designed so that one can run them on a simple computer without needing a GPU.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# レバレッジスコア勾配の反転:効率的な近似ニュートン法

Inverting the Leverage Score Gradient: An Efficient Approximate Newton Method ( http://arxiv.org/abs/2408.11267v1 )

ライセンス: Link先を確認
Chenyang Li, Zhao Song, Zhaoxing Xu, Junze Yin, (参考訳) レバレッジスコアは統計学や機械学習、回帰分析、ランダム化された行列計算、その他様々なタスクに欠かせないものとなっている。 本稿では,レバレッジスコア勾配から固有モデルパラメータを復元することを目的とした逆問題について考察する。 この取り組みは、レバレッジスコア技術でトレーニングされたモデルの理論的理解を深めるだけでなく、データのプライバシと敵のセキュリティにも重大な影響を与える。 我々は特に$gと表記されるレバレッジスコア勾配の反転を精査する。 (x)$。 正規化最小二乗問題の近似解を $\min_{x \in \mathbb{R}^d} 0.5 \|g とする革新的反復アルゴリズムを導入する。 (x) - c\|_2^2 + 0.5\|\mathrm{diag} (w)Ax\|_2^2$。 本アルゴリズムでは,各繰り返しにおける近似ヘシアンを標準仮定で計算し,時間的複雑性をかなり軽減するために,サブサンプリングされたレバレッジスコア分布を用いる。 合計$T = \log(\| x_0 - x^* \|_2/ \epsilon)$イテレーションが必要な場合、反復当たりのコストは$O( (\mathrm{nnz}(A) + d^{\omega} ) \cdot \mathrm{poly}(\log(n/\delta))$に最適化される。

Leverage scores have become essential in statistics and machine learning, aiding regression analysis, randomized matrix computations, and various other tasks. This paper delves into the inverse problem, aiming to recover the intrinsic model parameters given the leverage scores gradient. This endeavor not only enriches the theoretical understanding of models trained with leverage score techniques but also has substantial implications for data privacy and adversarial security. We specifically scrutinize the inversion of the leverage score gradient, denoted as $g(x)$. An innovative iterative algorithm is introduced for the approximate resolution of the regularized least squares problem stated as $\min_{x \in \mathbb{R}^d} 0.5 \|g(x) - c\|_2^2 + 0.5\|\mathrm{diag}(w)Ax\|_2^2$. Our algorithm employs subsampled leverage score distributions to compute an approximate Hessian in each iteration, under standard assumptions, considerably mitigating the time complexity. Given that a total of $T = \log(\| x_0 - x^* \|_2/ \epsilon)$ iterations are required, the cost per iteration is optimized to the order of $O( (\mathrm{nnz}(A) + d^{\omega} ) \cdot \mathrm{poly}(\log(n/\delta))$, where $\mathrm{nnz}(A)$ denotes the number of non-zero entries of $A$.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# 駆動散逸型2次スクイージングにおける例外的カクテルデジェネシス

Exceptional swallowtail degeneracies in driven-dissipative quadrature squeezing ( http://arxiv.org/abs/2408.11268v1 )

ライセンス: Link先を確認
Polina Blinova, Evgeny Moiseev, Kai Wang, (参考訳) 種々の非エルミート・エルミート・デジェネティクスからなるカクテルカタストロフィは, 疑似エルミート的損失によって擬似エルミート的損失を生じさせる2モード駆動散逸2次スクイーズシステムの力学に自然に存在することを示す。 我々は, クズテール縮退構造により, パラメータ空間の例外線をループすることで, 複素固有値の非自明なブレイディングが可能であることを明らかにした。 本研究は, 2モード駆動散逸型ボソニック二次系の縮退幾何学を包括的に理解し, ガウス状態の位相的非自明な制御に向けた新たな経路を開拓するものである。

We show that swallowtail catastrophe consisting of various-order non-Hermitian and Hermitian degeneracies naturally exists in the dynamics of two-mode driven-dissipative quadrature squeezing systems that break pseudo-Hermiciticy by judiciously engineered losses. We reveal that the swallowtail degeneracy structure enables nontrivial braiding of complex eigenvalues by looping around an exceptional line in the parameter space. Our findings provide a comprehensive understanding of the degeneracy geometry in two-mode driven-dissipative bosonic quadratic systems, opening new pathways toward topologically nontrivial control of Gaussian states.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# マルチバイオメトリックシステムにおける欠落点について

On Missing Scores in Evolving Multibiometric Systems ( http://arxiv.org/abs/2408.11271v1 )

ライセンス: Link先を確認
Melissa R Dale, Anil Jain, Arun Ross, (参考訳) 複数のモダリティ(例えば顔と指紋)や複数のアルゴリズム(例えば3つの顔コンパレータ)を用いることで、生体認証システムの認識精度が向上することが示されている。 時間とともに生体計測システムは進化し、新しいモダリティを追加したり、古いモダリティを引退させたり、他の生体計測システムと融合したりすることができる。 これは入力プローブセットに対応するスコアが不足しているシナリオにつながる可能性がある。 このトピックに関するこれまでの研究は、検証タスクと識別タスクの両方に焦点を合わせてきたが、両方ではない。 さらに、考慮されたデータ不足の割合は50%未満である。 本研究では,検証作業と識別作業の両方において,欠落したスコアデータの影響について検討する。 単純な和融合と組み合わせた様々なスコア計算法の応用により、失点の割合が90%まで上昇しても、認識精度が向上することを示した。 実験により, インキュベーション後の核融合は, インキュベーションを伴わない核融合よりも優れていることが示された。 具体的には、K近傍の隣人による反復的計算は、欠落するスコアの量に関係なく、検証と識別の両方のタスクにおいて、他の計算手法を一貫して上回り、基礎的真理完全データセットと整合した命令的値を提供する。

The use of multiple modalities (e.g., face and fingerprint) or multiple algorithms (e.g., three face comparators) has shown to improve the recognition accuracy of an operational biometric system. Over time a biometric system may evolve to add new modalities, retire old modalities, or be merged with other biometric systems. This can lead to scenarios where there are missing scores corresponding to the input probe set. Previous work on this topic has focused on either the verification or identification tasks, but not both. Further, the proportion of missing data considered has been less than 50%. In this work, we study the impact of missing score data for both the verification and identification tasks. We show that the application of various score imputation methods along with simple sum fusion can improve recognition accuracy, even when the proportion of missing scores increases to 90%. Experiments show that fusion after score imputation outperforms fusion with no imputation. Specifically, iterative imputation with K nearest neighbors consistently surpasses other imputation methods in both the verification and identification tasks, regardless of the amount of scores missing, and provides imputed values that are consistent with the ground truth complete dataset.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# 熱多光子Jaynes-CummingsモデルのBlochベクトルにおけるスケール不変性とディオファンチン近似

Scale invariance and the Diophantine approximation in the Bloch vector of the thermal multi-photon Jaynes-Cummings model ( http://arxiv.org/abs/2408.11273v1 )

ライセンス: Link先を確認
Hiroo Azuma, (参考訳) 本稿では,熱多光子Jaynes-Cummingsモデル(JCM)のBlochベクトルの時間発展について検討し,以下の2つの事実について考察する。 まず、一定時間間隔の離散時間列に対する多重光子JCMのブロッホベクトルの軌道の点からなるプロットを考える。 このプロットは、有限であるが時間の零区間ではないスケール変換の下で不変であることを示す。 第二に、ブロッホベクトルの$z$成分の絶対値がゼロに近い時の値を数値的に評価する。 時間のある値は、不合理数に対するディオファントス近似の分数の分母で導出できることを実証する。 これらの現象の起源は、熱多光子 JCM に対するブロッホベクトルの成分がフーリエ級数では説明できないことである。

In this paper, we study the time evolution of the Bloch vector of the thermal multi-photon Jaynes-Cummings model (JCM) and discuss the following two facts. First, we consider a plot that consists of points of a trajectory of the Bloch vector of the multi-photon JCM for a discrete-time sequence with a constant time interval. We show that this plot is invariant under a scale transformation of the finite but not zero interval of the time. Second, we numerically evaluate values of the time when the absolute value of the $z$-component of the Bloch vector is nearly equal to zero. We demonstrate that some values of the time can be derived with denominators of fractions of the Diophantine approximation for irrational numbers. The origin of those phenomena is that the components of the Bloch vector for thermal multi-photon JCM cannot be described with the Fourier series.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# グラフラプラシアン近似を用いたリーマン多様体上のテンソルエクスパンダーのチャーノフ境界

Chernoff Bounds for Tensor Expanders on Riemannian Manifolds Using Graph Laplacian Approximation ( http://arxiv.org/abs/2408.11276v1 )

ライセンス: Link先を確認
Shih-Yu Chang, (参考訳) 本稿では,予測値から確率変数の大きな偏差の確率を評価するための重要な統計ツールである確率尾境界解析の進歩について述べる。 マルコフ境界、チェビシェフ境界、チェルノフ境界のような伝統的な尾の境界は、多くの科学・工学分野において有益であることが証明されている。 しかし、データの複雑さが増大するにつれて、スカラー変数から高次元ランダムオブジェクトへのテールバウンド推定を拡張する必要がある。 既存の研究はしばしば高次元ランダムオブジェクト間の独立性の仮定に依存しており、これは必ずしも有効とは限らない。 この研究は、高次元のアンサンブルをモデル化するためにランダムウォークを用いたGarg et alやChangといった研究者の研究に基づいており、多様体上のランダムウォークを探索することでより一般化されたアプローチを導入している。 多様体に対する適切な基礎グラフを構築することの課題に対処するため、多様体を近似したグラフ上のランダムウォークを強化する新しい手法を提案する。 このアプローチは、固有値、固有ベクトル、固有関数を含む元の多様体と近似グラフの間のスペクトル的類似性を保証する。 ブルゴーグらによって提案された多様体に対するグラフ近似手法を利用して、テンソルチャーノフ境界を導出し、基礎多様体のスペクトル特性に応じてリーマン多様体上のランダムウォークの範囲を確立する。

This paper addresses the advancement of probability tail bound analysis, a crucial statistical tool for assessing the probability of large deviations of random variables from their expected values. Traditional tail bounds, such as Markov's, Chebyshev's, and Chernoff bounds, have proven valuable across numerous scientific and engineering fields. However, as data complexity grows, there is a pressing need to extend tail bound estimation from scalar variables to high-dimensional random objects. Existing studies often rely on the assumption of independence among high-dimensional random objects, an assumption that may not always be valid. Building on the work of researchers like Garg et al. and Chang, who employed random walks to model high-dimensional ensembles, this study introduces a more generalized approach by exploring random walks over manifolds. To address the challenges of constructing an appropriate underlying graph for a manifold, we propose a novel method that enhances random walks on graphs approximating the manifold. This approach ensures spectral similarity between the original manifold and the approximated graph, including matching eigenvalues, eigenvectors, and eigenfunctions. Leveraging graph approximation technique proposed by Burago et al. for manifolds, we derive the tensor Chernoff bound and establish its range for random walks on a Riemannian manifold according to the underlying manifold's spectral characteristics.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# 非特異検出器によるハーベストング非対称操舵

Harvesting asymmetric steering via non-identical detectors ( http://arxiv.org/abs/2408.11277v1 )

ライセンス: Link先を確認
Shu-Min Wu, Rui-Di Wang, Xiao-Li Huang, Zejun Wang, (参考訳) 本研究では, 真空マスレススカラー場と局所的に相互作用する, エネルギーギャップの異なる2つの非恒等慣性検出器を含む非対称ステアリング収穫現象について検討した。 我々の研究は、検出器のエネルギーギャップが検出器のエネルギーギャップを$A$より上回っていると仮定している。 A\rightarrow B$ steerability は$B\rightarrow A$ steerability より大きいことが示され、これは小さなエネルギーギャップを持つ観測者が他の観測者よりも強い steerability を持つことを意味する。 エネルギーギャップの差は、収穫可能なA$B$ステアリングの範囲を拡大できる一方で、収穫可能なB$ステアリング範囲を同時に狭めることもできる。 さらに、最大ステアリング非対称性は、ある場合において双方向ステアリングと片方向ステアリングの間の変換を示し、このパラメータの点において、$B\rightarrow A$ステアリングが 'sudden death' に苦しむことを示す。 これらの結果は、非対称ステアリングが真空量子場から得られる量子絡み合いよりも豊かで興味深い性質を示すことを示唆している。

We investigate asymmetric steering harvesting phenomenon involving two non-identical inertial detectors with different energy gaps, which interact locally with vacuum massless scalar fields. Our study assumes that the energy gap of detector $B$ exceeds that of detector $A$. It is shown that $A\rightarrow B$ steerability is bigger that $B\rightarrow A$ steerability, implying that the observer with a small energy gap has more stronger steerability than the other one. We find that the energy gap difference can enlarge the harvesting-achievable range of $A\rightarrow B$ steering, while it can also narrow the harvesting-achievable range of $B\rightarrow A$ steering at the same time. In addition, the maximal steering asymmetry indicates the transformation between two-way steering and one-way steering in some cases, showing that $B\rightarrow A$ steering suffers ``sudden death" at the point of this parameter. These results suggest that asymmetric steering exhibits richer and more interesting properties than quantum entanglement harvested from vacuum quantum field.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# フェデレーションラーニングにおけるパラメータスキューの鍵

The Key of Parameter Skew in Federated Learning ( http://arxiv.org/abs/2408.11278v1 )

ライセンス: Link先を確認
Sifan Wang, Junfeng Liao, Ye Yuan, Riquan Zhang, (参考訳) フェデレートラーニング(FL)は、生データを交換することなく、異なるデータオーナでディープラーニングを実行するための優れたソリューションとして登場した。 しかし、FLにおける統計的不均一性は重要な課題であり、研究者がほとんど見落としてきた局所モデルパラメータ分布の歪み現象に繋がる。 本研究では,大域的モデルパラメータ推定の精度に大きく影響を与える現象を記述するために,パラメータスキューの概念を提案する。 さらに,パラメータスキューの影響に対処するため,高品質なグローバルモデルを得るためのアグリゲーション戦略であるFedSAを導入する。 具体的には,変動係数に基づいて,パラメータを高分散群と低分散群に分類する。 高分散パラメータでは、マイクロクラス(MIC)とマクロクラス(MAC)はそれぞれミクロレベルとマクロレベルの分散を表現し、FedSAの基礎を形成する。 FedSAの有効性を評価するため、3つのコンピュータビジョンデータセット上で異なるFLアルゴリズムを用いて広範囲な実験を行った。 FedSAは8つの最先端のベースラインを約4.7%上回っている。

Federated Learning (FL) has emerged as an excellent solution for performing deep learning on different data owners without exchanging raw data. However, statistical heterogeneity in FL presents a key challenge, leading to a phenomenon of skewness in local model parameter distributions that researchers have largely overlooked. In this work, we propose the concept of parameter skew to describe the phenomenon that can substantially affect the accuracy of global model parameter estimation. Additionally, we introduce FedSA, an aggregation strategy to obtain a high-quality global model, to address the implication from parameter skew. Specifically, we categorize parameters into high-dispersion and low-dispersion groups based on the coefficient of variation. For high-dispersion parameters, Micro-Classes (MIC) and Macro-Classes (MAC) represent the dispersion at the micro and macro levels, respectively, forming the foundation of FedSA. To evaluate the effectiveness of FedSA, we conduct extensive experiments with different FL algorithms on three computer vision datasets. FedSA outperforms eight state-of-the-art baselines by about 4.7% in test accuracy.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# 半監督型3次元セマンティックセマンティックセグメンテーションのためのシーンコヒーレンス探索

Exploring Scene Coherence for Semi-Supervised 3D Semantic Segmentation ( http://arxiv.org/abs/2408.11280v1 )

ライセンス: Link先を確認
Chuandong Liu, Shuguo Jiang, Xingxing Weng, Lei Yu, Pengcheng Li, Gui-Song Xia, (参考訳) 濃密なアノテーションの獲得の限界を効果的に解決する半教師付きセマンティックセマンティックセマンティクスは3次元シーン理解に不可欠である。 ほとんどの方法は教師モデルを利用して擬似ラベルを生成し、未ラベルの場面で生徒モデルの学習を指導する。 しかし、彼らは擬似ラベルを持つ点のみに焦点を当て、擬似ラベルを持たない点、すなわちシーン内不整合を直接見落とし、意味的曖昧さをもたらす。 さらに,ラベル付きシーンとラベルなしシーンのシーン間相関は,リッチなアノテーション情報の伝達に寄与するが,半教師付きタスクについては検討されていない。 これら2つの問題に対処するために,CoSceneと呼ばれる半教師付き3次元セマンティックセマンティックセグメンテーションのためのシーンコヒーレンスを提案する。 私たちのCoSceneは、構造化されていない、秩序のないポイントクラウドの性質にインスパイアされ、シーン内の一貫性を確保するために、簡単なポイント消去戦略を採用しています。 さらに、ラベル付きシーンと未ラベルのシーン間のシーン間情報伝達をシーンレベルとインスタンスレベルで促進するために、パッチベースのデータ拡張を提案する。 SemanticKITTI と nuScenes の大規模な実験結果から,本手法が既存手法より優れていることが示された。

Semi-supervised semantic segmentation, which efficiently addresses the limitation of acquiring dense annotations, is essential for 3D scene understanding. Most methods leverage the teacher model to generate pseudo labels, and then guide the learning of the student model on unlabeled scenes. However, they focus only on points with pseudo labels while directly overlooking points without pseudo labels, namely intra-scene inconsistency, leading to semantic ambiguity. Moreover, inter-scene correlation between labeled and unlabeled scenes contribute to transferring rich annotation information, yet this has not been explored for the semi-supervised tasks. To address these two problems, we propose to explore scene coherence for semi-supervised 3D semantic segmentation, dubbed CoScene. Inspired by the unstructured and unordered nature of the point clouds, our CoScene adopts the straightforward point erasure strategy to ensure the intra-scene consistency. Moreover, patch-based data augmentation is proposed to enhance the inter-scene information transfer between labeled and unlabeled scenes at both scene and instance levels. Extensive experimental results on SemanticKITTI and nuScenes show that our approach outperforms existing methods.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# BearLLM: 統一振動信号表現を用いた先行知識強化型ベアリングヘルスマネジメントフレームワーク

BearLLM: A Prior Knowledge-Enhanced Bearing Health Management Framework with Unified Vibration Signal Representation ( http://arxiv.org/abs/2408.11281v1 )

ライセンス: Link先を確認
Haotian Peng, Jiawei Liu, Jinsong Du, Jie Gao, Wei Wang, (参考訳) 本稿では,大規模言語モデル(BearLLM)を活用したベアリング型健康管理フレームワークを提案する。 具体的には、複数のデータセットにまたがる様々な動作条件を処理するために、知識強化された統合振動信号表現を導入する。 これは、センサのサンプリングレートに基づいて振動信号を適応的にサンプリングし、入力次元を統一するために周波数領域を組み込み、故障のない参照信号を補助入力として使用する。 振動信号から特徴を抽出するために、まず故障分類ネットワークを訓練し、抽出した特徴を単語埋め込みに変換し、最後にLLMへの入力としてテキスト埋め込みと結合する。 提案手法の性能を評価するため,2つの振動信号とテキスト記述を含むMBHMデータセットを構築した。 統合振動信号の表現により、BearLLMは1組の事前学習重量を用いて9つの公開故障診断ベンチマークの最先端性能を達成し、個々のデータセット用に設計された特定の手法よりも優れる。 我々は、より有能な産業マルチモーダルモデルの構築に関する将来の研究を刺激するデータセット、モデル、コードを提供する(https://github.com/hatton613/BearLLM)。

We propose a bearing health management framework leveraging large language models (BearLLM), a novel multimodal model that unifies multiple bearing-related tasks by processing user prompts and vibration signals. Specifically, we introduce a prior knowledge-enhanced unified vibration signal representation to handle various working conditions across multiple datasets. This involves adaptively sampling the vibration signals based on the sampling rate of the sensor, incorporating the frequency domain to unify input dimensions, and using a fault-free reference signal as an auxiliary input. To extract features from vibration signals, we first train a fault classification network, then convert and align the extracted features into word embedding, and finally concatenate these with text embedding as input to an LLM. To evaluate the performance of the proposed method, we constructed the first large-scale multimodal bearing health management (MBHM) dataset, including paired vibration signals and textual descriptions. With our unified vibration signal representation, BearLLM using one set of pre-trained weights achieves state-of-the-art performance on nine publicly available fault diagnosis benchmarks, outperforming specific methods designed for individual datasets. We provide a dataset, our model, and code to inspire future research on building more capable industrial multimodal models (https://github.com/hatton613/BearLLM).
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# ハイブリッド粒子フィルタの推測計画

Inference Plans for Hybrid Particle Filtering ( http://arxiv.org/abs/2408.11283v1 )

ライセンス: Link先を確認
Ellie Y. Cheng, Eric Atkinson, Guillaume Baudart, Louis Mandel, Michael Carbin, (参考訳) 先進確率型プログラミング言語(PPL)は、シンボル的正確な推論とモンテカルロ法を組み合わせたハイブリッド推論システムを用いて推論性能を向上させる。 これらのシステムは、プログラム内のランダム変数を、象徴的に符号化された変数とサンプル値で符号化された変数に分割するためにヒューリスティックスを使用し、そのヒューリスティックスは、開発者が使用するパフォーマンス評価指標と必ずしも一致しない。 本研究では,ハイブリッド粒子フィルタリングにおけるランダム変数のパーティショニング制御を可能にするプログラミングインタフェースである推論計画を提案する。 さらに、開発者がアノテーションを使って推論システムが実装しなければならない推論計画を指定することができる新しいPPLであるSirenを紹介します。 推論計画が実装可能かどうかを静的に推論する開発者を支援するため,推論計画の満足度を決定するための抽象解釈に基づく静的解析をSierenに提示する。 我々は、この分析がシレンの意味論に関して健全であることを証明する。 評価の結果,提案手法では, 推定計画が平均1.76倍, 最大206倍の高速化を実現し, 推定計画が平均1.83倍, 平均595倍, 平均595倍の精度向上を実現していることがわかった。 さらに、静的解析は実際に正確であることを示し、33のベンチマークアルゴリズムの組み合わせのうち27に満足できる推論計画をすべて特定する。

Advanced probabilistic programming languages (PPLs) use hybrid inference systems to combine symbolic exact inference and Monte Carlo methods to improve inference performance. These systems use heuristics to partition random variables within the program into variables that are encoded symbolically and variables that are encoded with sampled values, and the heuristics are not necessarily aligned with the performance evaluation metrics used by the developer. In this work, we present inference plans, a programming interface that enables developers to control the partitioning of random variables during hybrid particle filtering. We further present Siren, a new PPL that enables developers to use annotations to specify inference plans the inference system must implement. To assist developers with statically reasoning about whether an inference plan can be implemented, we present an abstract-interpretation-based static analysis for Siren for determining inference plan satisfiability. We prove the analysis is sound with respect to Siren's semantics. Our evaluation applies inference plans to three different hybrid particle filtering algorithms on a suite of benchmarks and shows that the control provided by inference plans enables speed ups of 1.76x on average and up to 206x to reach target accuracy, compared to the inference plans implemented by default heuristics; the results also show that inference plans improve accuracy by 1.83x on average and up to 595x with less or equal runtime, compared to the default inference plans. We further show that the static analysis is precise in practice, identifying all satisfiable inference plans in 27 out of the 33 benchmark-algorithm combinations.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# マルチモーダル大言語モデルに基づく動画感情オープン語彙認識

Video Emotion Open-vocabulary Recognition Based on Multimodal Large Language Model ( http://arxiv.org/abs/2408.11286v1 )

ライセンス: Link先を確認
Mengying Ge, Dongkai Tang, Mingyang Li, (参考訳) マルチモーダル感情認識は大きな関心事である。 しかし、従来のデータセットは固定ラベルに基づいており、多くの場合、主要な感情に焦点を当て、複雑なシーンにおける詳細な感情の変化を無視するモデルになる。 本稿では、MLLM技術を用いてビデオからオープン語彙感情ラベルを生成する方法を紹介する。 このソリューションには、フレームワーク、データ生成と処理、トレーニング方法、結果生成、マルチモデルの共同判断などが含まれる。 MER2024課題のMER-OV(Open-Word Emotion Recognition)において,本手法は重要な優位性を実現し,複雑な感情計算の能力に優れていた。

Multimodal emotion recognition is a task of great concern. However, traditional data sets are based on fixed labels, resulting in models that often focus on main emotions and ignore detailed emotional changes in complex scenes. This report introduces the solution of using MLLMs technology to generate open-vocabulary emotion labels from a video. The solution includes the use of framework, data generation and processing, training methods, results generation and multi-model co-judgment. In the MER-OV (Open-Word Emotion Recognition) of the MER2024 challenge, our method achieved significant advantages, leading to its superior capabilities in complex emotion computation.
翻訳日:2024-08-22 18:48:55 公開日:2024-08-21
# 普遍的ブラインド画像復元のための生成拡散のモデリング

Taming Generative Diffusion for Universal Blind Image Restoration ( http://arxiv.org/abs/2408.11287v1 )

ライセンス: Link先を確認
Siwei Tu, Weidong Yang, Ben Fei, (参考訳) 拡散モデルは画像復元に広く利用されている。 しかし、従来のブラインド画像復元手法では、パラメータを最適化し、実際の応用を制限する一方で、分解のタイプを仮定する必要がある。 そこで本研究では,BIR-Dと呼ばれる汎用ブラインド画像復元に先立ち,最適化可能な畳み込みカーネルを用いて,拡散過程においてカーネルのパラメータを動的に更新し,複雑な状況下でもブラインド画像復元結果を得られるようにする。 さらに, 数学的推論に基づいて, 適応的指導尺度を選択するための実験式を提供し, 最適パラメータのグリッド探索の必要性を排除した。 実験により,我々のBIR-Dは,実世界および合成データセットにおいて,市販の教師なし手法よりも質的,定量的に,優れた実用性と汎用性を示した。 BIR-Dはマルチ誘導ブラインド画像復元を実現することができる。 さらに、BIR-Dは、複数の複雑な分解を行うイメージを復元し、実用的な応用を実証する。

Diffusion models have been widely utilized for image restoration. However, previous blind image restoration methods still need to assume the type of degradation model while leaving the parameters to be optimized, limiting their real-world applications. Therefore, we aim to tame generative diffusion prior for universal blind image restoration dubbed BIR-D, which utilizes an optimizable convolutional kernel to simulate the degradation model and dynamically update the parameters of the kernel in the diffusion steps, enabling it to achieve blind image restoration results even in various complex situations. Besides, based on mathematical reasoning, we have provided an empirical formula for the chosen of adaptive guidance scale, eliminating the need for a grid search for the optimal parameter. Experimentally, Our BIR-D has demonstrated superior practicality and versatility than off-the-shelf unsupervised methods across various tasks both on real-world and synthetic datasets, qualitatively and quantitatively. BIR-D is able to fulfill multi-guidance blind image restoration. Moreover, BIR-D can also restore images that undergo multiple and complicated degradations, demonstrating the practical applications.
翻訳日:2024-08-22 18:38:58 公開日:2024-08-21
# メンタルヘルスケアにおける大規模言語モデルの適用と評価 : 人為的な生成課題のスコーピング・レビュー

Applying and Evaluating Large Language Models in Mental Health Care: A Scoping Review of Human-Assessed Generative Tasks ( http://arxiv.org/abs/2408.11288v1 )

ライセンス: Link先を確認
Yining Hua, Hongbin Na, Zehan Li, Fenglin Liu, Xiao Fang, David Clifton, John Torous, (参考訳) 大規模言語モデル(LLM)はメンタルヘルスのための有望なツールとして登場し、人間のような反応を生成する能力を通じてスケーラブルなサポートを提供する。 しかし, 臨床環境におけるこれらのモデルの有効性は明らかになっていない。 このスコーピングレビューは、メンタルヘルスケアにおけるLLMの現在の生成的応用を評価することを目的としており、実際のシナリオにおいて、これらのモデルが人間の被験者とテストされた研究に焦点を当てている。 APA PsycNet, Scopus, PubMed, およびWeb of Scienceの体系的な検索では、726のユニークな記事が特定され、そのうち17が包含基準を満たした。 これらの研究は、臨床補助、カウンセリング、セラピー、情緒的支援などの応用を含んでいた。 しかし、評価法はしばしば非標準化され、ほとんどの研究はコンパビリティとロバスト性を制限するアドホックスケールに依存していた。 プライバシー、安全、公平性もしばしば過小評価された。 さらに、OpenAIのGPTシリーズのようなプロプライエタリなモデルへの依存は、透明性と再現性に対する懸念を高める。 LLMは、特に保護されていない地域では、メンタルヘルスへのアクセスを拡大する可能性を示しているが、現在の証拠は独立した介入としての使用を完全には支持していない。 より厳格で標準化された評価と倫理的監督は、これらのツールが安全かつ効果的に臨床実践に統合できることを保証するために必要である。

Large language models (LLMs) are emerging as promising tools for mental health care, offering scalable support through their ability to generate human-like responses. However, the effectiveness of these models in clinical settings remains unclear. This scoping review aimed to assess the current generative applications of LLMs in mental health care, focusing on studies where these models were tested with human participants in real-world scenarios. A systematic search across APA PsycNet, Scopus, PubMed, and Web of Science identified 726 unique articles, of which 17 met the inclusion criteria. These studies encompassed applications such as clinical assistance, counseling, therapy, and emotional support. However, the evaluation methods were often non-standardized, with most studies relying on ad hoc scales that limit comparability and robustness. Privacy, safety, and fairness were also frequently underexplored. Moreover, reliance on proprietary models, such as OpenAI's GPT series, raises concerns about transparency and reproducibility. While LLMs show potential in expanding mental health care access, especially in underserved areas, the current evidence does not fully support their use as standalone interventions. More rigorous, standardized evaluations and ethical oversight are needed to ensure these tools can be safely and effectively integrated into clinical practice.
翻訳日:2024-08-22 18:38:58 公開日:2024-08-21
# HMT-UNet:医療画像分割のためのHybird Mamba-Transformer Vision UNet

HMT-UNet: A hybird Mamba-Transformer Vision UNet for Medical Image Segmentation ( http://arxiv.org/abs/2408.11289v1 )

ライセンス: Link先を確認
Mingya Zhang, Limei Gu, Tingshen Ling, Xianping Tao, (参考訳) 医用画像セグメンテーションの分野では、CNNとTransformerの両方に基づくモデルが徹底的に研究されている。 しかし、CNNは長距離依存のモデリング機能に制限があるため、画像内のセマンティック情報を完全に活用することは困難である。 一方、二次計算の複雑さはトランスフォーマーにとって課題となる。 Mambaのような状態空間モデル(SSM)は有望な方法として認識されている。 長距離相互作用のモデリングにおいて優れた性能を示すだけでなく、線形計算の複雑さを保っている。 SSM(State Space Model)とTransformerのハイブリッド機構は、微妙な設計を経て、視覚的特徴の効率的なモデリング能力を高めることができる。 大規模な実験により、マンバのアーキテクチャの裏側にあるハイブリッド部分に自己保持機構を組み込むことで、長距離空間依存を捉えるためのモデリング能力が大幅に向上することが示された。 本稿では,SSMのハイブリッド機構を活用し,Hybird Transformer Vision Mamba UNet (HTM-UNet) という医用画像セグメンテーションのためのU字型アーキテクチャモデルを提案する。 我々はISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB、ETIS-Larib PolypDBパブリックデータセット、ZD-LCI-GIMプライベートデータセットに関する包括的な実験を行う。 以上の結果から,HTM-UNetは医用画像分割作業において競争力を発揮することが示された。 私たちのコードはhttps://github.com/simzhangbest/HMT-Unet.comで利用可能です。

In the field of medical image segmentation, models based on both CNN and Transformer have been thoroughly investigated. However, CNNs have limited modeling capabilities for long-range dependencies, making it challenging to exploit the semantic information within images fully. On the other hand, the quadratic computational complexity poses a challenge for Transformers. State Space Models (SSMs), such as Mamba, have been recognized as a promising method. They not only demonstrate superior performance in modeling long-range interactions, but also preserve a linear computational complexity. The hybrid mechanism of SSM (State Space Model) and Transformer, after meticulous design, can enhance its capability for efficient modeling of visual features. Extensive experiments have demonstrated that integrating the self-attention mechanism into the hybrid part behind the layers of Mamba's architecture can greatly improve the modeling capacity to capture long-range spatial dependencies. In this paper, leveraging the hybrid mechanism of SSM, we propose a U-shape architecture model for medical image segmentation, named Hybird Transformer vision Mamba UNet (HTM-UNet). We conduct comprehensive experiments on the ISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir, CVC-ColonDB, ETIS-Larib PolypDB public datasets and ZD-LCI-GIM private dataset. The results indicate that HTM-UNet exhibits competitive performance in medical image segmentation tasks. Our code is available at https://github.com/simzhangbest/HMT-Unet.
翻訳日:2024-08-22 18:38:58 公開日:2024-08-21
# ViIK:Fusing Collision Checkingを用いたフローベース視覚逆キネマティクス解法

ViIK: Flow-based Vision Inverse Kinematics Solver with Fusing Collision Checking ( http://arxiv.org/abs/2408.11293v1 )

ライセンス: Link先を確認
Qinglong Meng, Chongkun Xia, Xueqian Wang, (参考訳) Inverse Kinematics (IK) は、エンドエフェクタのターゲットポーズを満たすロボットの構成を見つけることである。 運動計画では、実現可能な軌道が見つからない場合に様々な構成が必要とされた。 一方、衝突チェック(CC)、eg Oriented bounding box(OBB)、Disdisrete Oriented Polytope(DOP)、Quickhull \cite{quickhull}は、動作計画のすべての目標設定が利用可能であるように、IKソルバが提供する各設定に対して行われる必要がある。 つまり、古典的なIKソルバとCCアルゴリズムは、構成毎に繰り返し実行されるべきである。 したがって、例えばクラスタ環境における運動計画など、要求される目標設定の数が大きくなると、準備時間が長くなる。 さらに、古典的な衝突検定アルゴリズムでは、入手が難しいような構造化写像が必要であった。 このような2つの問題を解決するために,視覚逆運動学(ViIK)と呼ばれる,逆運動学と衝突チェックを融合させることにより,様々な利用可能な構成を出力できるフローベース視覚法を提案する。 さらに、VIKは環境の知覚としてRGBイメージを使用する。 ViIKは40ミリ秒以内で1000個の構成を出力でき、精度は約3ミリ秒と1.5度である。 より高い精度は、古典的IKソルバによって数イテレーションで洗練されることで得られる。 自給自足率は2%以下である。 衝突と衝突の速度は、ほとんどの場面で10%以下である。 コードは、https://github.com/AdamQLMeng/ViIK.comで入手できる。

Inverse Kinematics (IK) is to find the robot's configurations that satisfy the target pose of the end effector. In motion planning, diverse configurations were required in case a feasible trajectory was not found. Meanwhile, collision checking (CC), e.g. Oriented bounding box (OBB), Discrete Oriented Polytope (DOP), and Quickhull \cite{quickhull}, needs to be done for each configuration provided by the IK solver to ensure every goal configuration for motion planning is available. This means the classical IK solver and CC algorithm should be executed repeatedly for every configuration. Thus, the preparation time is long when the required number of goal configurations is large, e.g. motion planning in cluster environments. Moreover, structured maps, which might be difficult to obtain, were required by classical collision-checking algorithms. To sidestep such two issues, we propose a flow-based vision method that can output diverse available configurations by fusing inverse kinematics and collision checking, named Vision Inverse Kinematics solver (ViIK). Moreover, ViIK uses RGB images as the perception of environments. ViIK can output 1000 configurations within 40 ms, and the accuracy is about 3 millimeters and 1.5 degrees. The higher accuracy can be obtained by being refined by the classical IK solver within a few iterations. The self-collision rates can be lower than 2%. The collision-with-env rates can be lower than 10% in most scenes. The code is available at: https://github.com/AdamQLMeng/ViIK.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# RedWhale: 継続的なトレーニングを効果的に行う韓国のLLM

RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining ( http://arxiv.org/abs/2408.11294v1 )

ライセンス: Link先を確認
Anh-Dung Vo, Minseong Jung, Wonbeen Lee, Daewoo Choi, (参考訳) 自然言語処理(NLP)の分野は、Large Language Models (LLMs) の開発で大きな進歩を遂げている。 しかし、この研究の多くは英語に焦点を当てており、韓国語のような低リソース言語を見落としていることが多い。 この監視は、韓国のユニークな非代数的トークン構造と、LLMトレーニングに必要なかなりのメモリと計算上の要求により、しばしばメモリ制約やメモリ外エラーを引き起こすため、課題を提起する。 これらの問題に対処するため,韓国語処理に適したモデルRedWhaleを提案する。 RedWhaleは、韓国の包括的コーパス事前処理パイプライン、特殊トークン化器、最適化されたモデル初期化技術、多段階事前学習戦略を含む効率的な継続事前学習アプローチを用いて開発されている。 これらのイノベーションは、高いレベルの精度と理解を維持しながら、トレーニング時間と計算コストを総括的に削減する。 言語間の共通言語的類似性を利用する言語間移動学習を活用することで、RedWhaleは韓国語処理を強化するための英語モデルを構築している。 実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れており、KoBEST(Koran Balanced Evaluation of Significant Tasks)は韓国のテキストの理解と生成に優れていた。 さらに、RedWhaleは970億のトークンを事前訓練した後でさえ収束の兆候を示しておらず、追加のトレーニングでさらなる改善の可能性を示している。 この研究は、特に韓国語におけるNLP能力の向上において、言語分割をブリッジする大きな進歩を示している。

The field of Natural Language Processing (NLP) has seen significant advancements with the development of Large Language Models (LLMs). However, much of this research remains focused on English, often overlooking low-resource languages like Korean. This oversight presents challenges due to the unique non-alphabetic token structure of Korean and the substantial memory and computational demands required for LLM training, which frequently lead to memory constraints and out-of-memory errors. To address these issues, we present RedWhale, a model specifically tailored for Korean language processing. RedWhale is developed using an efficient continual pretraining approach that includes a comprehensive Korean corpus preprocessing pipeline, a specialized tokenizer, an optimized model initialization technique, and a multistage pretraining strategy. These innovations collectively reduce training time and computational costs while maintaining high levels of accuracy and comprehension. By leveraging cross-lingual transfer learning, which exploits shared linguistic similarities across languages, RedWhale builds on English models to enhance Korean language processing. Experimental results demonstrate that RedWhale outperforms other leading models on Korean NLP benchmarks, including the Korean Balanced Evaluation of Significant Tasks (KoBEST), showing superior understanding and generation of Korean text. Furthermore, RedWhale showed no signs of convergence even after pretraining on 9.7 billion tokens, indicating the potential for further improvements with additional training. This work represents a significant advancement in bridging the linguistic divide, particularly in enhancing NLP capabilities for the Korean language.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# RePair: プロセスベースのフィードバックでプログラムの修正を自動化する

RePair: Automated Program Repair with Process-based Feedback ( http://arxiv.org/abs/2408.11296v1 )

ライセンス: Link先を確認
Yuze Zhao, Zhenya Huang, Yixiao Ma, Rui Li, Kai Zhang, Hao Jiang, Qi Liu, Linbo Zhu, Yu Su, (参考訳) プログラム信頼性の低下と修理費用のギャップは、自動プログラム修復(APR)の欠如を浮き彫りにする。 APRは、脆弱なプログラムをより堅牢なプログラムに変換するのに役立ち、プログラムの信頼性を高めながら、手動修理の経済的負担を軽減します。 商業規模の言語モデル(LM)は、APRを前例のないレベルに引き上げた。 しかし、100B未満のモデルでは、単一ステップの修正が望ましい効果を達成するのが困難であることが明らかになった。 さらに、人間は明示的なプロンプトを通じてLMと対話し、LMがコンパイラやテストケースからのフィードバックを受けないようにし、自動的に修復ポリシーを最適化する。 本稿では,20B未満の小規模LMが,プロセスの監視とフィードバックを通じて優れた性能を実現する方法について検討する。 まず、CodeNet4Repairというデータセットを構築し、基礎モデルの微調整を監督する複数の修復レコードを再利用します。 強化学習の奨励的な成果を生かし,批判者として機能する報酬モデルを構築し,微調整されたLMの行動に対するフィードバックを提供し,その政策を段階的に最適化する。 推論中は、修復効果が改善されなくなるか、最大ステップ限界に達するまで、LMが反復的にソリューションを生成する必要がある。 その結果, プロセスベースでは, より大きな結果に基づく生成方法よりも, クローズドソースの大規模LMの性能にほぼ匹敵する結果が得られた。

The gap between the trepidation of program reliability and the expense of repairs underscores the indispensability of Automated Program Repair (APR). APR is instrumental in transforming vulnerable programs into more robust ones, bolstering program reliability while simultaneously diminishing the financial burden of manual repairs. Commercial-scale language models (LM) have taken APR to unprecedented levels. However, the emergence reveals that for models fewer than 100B parameters, making single-step modifications may be difficult to achieve the desired effect. Moreover, humans interact with the LM through explicit prompts, which hinders the LM from receiving feedback from compiler and test cases to automatically optimize its repair policies. In this literature, we explore how small-scale LM (less than 20B) achieve excellent performance through process supervision and feedback. We start by constructing a dataset named CodeNet4Repair, replete with multiple repair records, which supervises the fine-tuning of a foundational model. Building upon the encouraging outcomes of reinforcement learning, we develop a reward model that serves as a critic, providing feedback for the fine-tuned LM's action, progressively optimizing its policy. During inference, we require the LM to generate solutions iteratively until the repair effect no longer improves or hits the maximum step limit. The results show that process-based not only outperforms larger outcome-based generation methods, but also nearly matches the performance of closed-source commercial large-scale LMs.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# 大規模視覚言語モデルの構築 : 初歩的な学習者に向けて

Making Large Vision Language Models to be Good Few-shot Learners ( http://arxiv.org/abs/2408.11297v1 )

ライセンス: Link先を確認
Fan Liu, Wenwen Cai, Jian Huo, Chuanyi Zhang, Delong Chen, Jun Zhou, (参考訳) FSC(Few-shot Classification)は、限られたデータから新しいクラスを認識することを含む、コンピュータビジョンにおける基本的な課題である。 従来の手法では、視覚的特徴の強化や追加のモダリティの導入に重点を置いていたが、LVLM(Large Vision Language Models)は、その豊富な知識と強力な視覚的知覚のために、有望な代替手段を提供する。 しかし、LVLMは、FSCタスクにおけるサポートデータから有用な情報を効果的に抽出するのではなく、特定の応答形式を学習するリスクがある。 本稿では,FSCにおけるLVLMの性能について検討し,学習不足や重度の位置バイアスの有無などの重要な問題を明らかにする。 上記の課題に対処するために、メタ学習戦略を採用して、モデルに“学習する学習”を教える。 命令微調整のための豊富なメタタスクセットを構築することで、LVLMは分類のための少数ショット支援データから情報を抽出する能力を高める。 さらに、ラベル拡張と候補選択により、LVLMのいくつかのショット学習能力を微調整および推論段階において強化する。 ラベル拡張は文字摂動戦略によって実装され、モデルがサポート情報にフォーカスすることを保証する。 候補選択は属性記述を利用して信頼できない候補をフィルタリングし、タスクを単純化する。 広範囲な実験により,本手法は汎用データセットと細粒度データセットの両方において優れた性能を発揮することが示された。 さらに,我々の候補選択戦略は,無トレーニングLVLMにとって有益であることが証明されている。

Few-shot classification (FSC) is a fundamental yet challenging task in computer vision that involves recognizing novel classes from limited data. While previous methods have focused on enhancing visual features or incorporating additional modalities, Large Vision Language Models (LVLMs) offer a promising alternative due to their rich knowledge and strong visual perception. However, LVLMs risk learning specific response formats rather than effectively extracting useful information from support data in FSC tasks. In this paper, we investigate LVLMs' performance in FSC and identify key issues such as insufficient learning and the presence of severe positional biases. To tackle the above challenges, we adopt the meta-learning strategy to teach models "learn to learn". By constructing a rich set of meta-tasks for instruction fine-tuning, LVLMs enhance the ability to extract information from few-shot support data for classification. Additionally, we further boost LVLM's few-shot learning capabilities through label augmentation and candidate selection in the fine-tuning and inference stage, respectively. Label augmentation is implemented via a character perturbation strategy to ensure the model focuses on support information. Candidate selection leverages attribute descriptions to filter out unreliable candidates and simplify the task. Extensive experiments demonstrate that our approach achieves superior performance on both general and fine-grained datasets. Furthermore, our candidate selection strategy has been proven beneficial for training-free LVLMs.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# ロングホライゾンゴール要求タスクのためのスキルステップ抽象化によるオフライン政策学習

Offline Policy Learning via Skill-step Abstraction for Long-horizon Goal-Conditioned Tasks ( http://arxiv.org/abs/2408.11300v1 )

ライセンス: Link先を確認
Donghoon Kim, Minjong Yoo, Honguk Woo, (参考訳) ゴール条件付き(GC)政策学習は、長い水平目標に直面する場合、報酬の空間性から生じる課題に直面することが多い。 この課題に対処するために、既存のデータからスキルを取得し、長期目標をこれらのスキルに合わせた短期目標のシーケンスに分解する、オフライン環境でのスキルベースのGCポリシ学習について検討する。 具体的には,目標分布のシフトによって影響を受ける長期GCタスクに対処するための 'オフラインGCポリシー学習' フレームワーク (GLvSA) を提案する。 このフレームワークでは、GCポリシーは、データ上のスキルステップの抽象化の漸進的なモデリングと合わせて、オフラインで徐々に学習される。 また、GCポリシー階層を考案し、フレームワーク内でのGCポリシー学習を加速するだけでなく、パラメータ効率の良いポリシーの微調整を可能にします。 迷路やフランカのキッチン環境での実験を通じて、幅広い長期目標にGCポリシーを適用する上で、GLvSAフレームワークの優位性と効率性を実証した。 このフレームワークは、競争力のあるゼロショットと少数ショットの適応性能を実現し、既存のGCポリシー学習やスキルベースの手法よりも優れています。

Goal-conditioned (GC) policy learning often faces a challenge arising from the sparsity of rewards, when confronting long-horizon goals. To address the challenge, we explore skill-based GC policy learning in offline settings, where skills are acquired from existing data and long-horizon goals are decomposed into sequences of near-term goals that align with these skills. Specifically, we present an `offline GC policy learning via skill-step abstraction' framework (GLvSA) tailored for tackling long-horizon GC tasks affected by goal distribution shifts. In the framework, a GC policy is progressively learned offline in conjunction with the incremental modeling of skill-step abstractions on the data. We also devise a GC policy hierarchy that not only accelerates GC policy learning within the framework but also allows for parameter-efficient fine-tuning of the policy. Through experiments with the maze and Franka kitchen environments, we demonstrate the superiority and efficiency of our GLvSA framework in adapting GC policies to a wide range of long-horizon goals. The framework achieves competitive zero-shot and few-shot adaptation performance, outperforming existing GC policy learning and skill-based methods.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# グラフニューラルネットワークを用いた参照依存選択のモデル化

Modeling Reference-dependent Choices with Graph Neural Networks ( http://arxiv.org/abs/2408.11302v1 )

ライセンス: Link先を確認
Liang Zhang, Guannan Liu, Junjie Wu, Yong Tan, (参考訳) 古典的なプロスペクト理論は、消費者の製品評価プロセスの基準依存性と比較特性を強調しているが、この理論をデータ駆動の選好定量化、特にレコメンダシステムの開発の領域においてうまく統合したモデルはほとんどない。 このギャップを埋めるために、データ駆動の観点から参照依存的嗜好をモデル化する新たな研究課題を提案し、この課題に関連する固有の課題に取り組むために、Attributed Reference-dependent Choice Model for Recommendation (ArcRec)と呼ばれる新しいディープラーニングベースのフレームワークを設計する。 ArcRecは、集計された履歴購入記録から参照ネットワークを構築することで、理論的な参照ポイントをインスタンス化し、製品属性固有のサブネットワークに分解し、グラフニューラルネットワークを介して表現する。 このように、消費者の参照ポイントは、過去の経験から個々の属性レベルにエンコードされるが、また、群衆の影響を反映することもできる。 ArcRecはまた、深いニューラルネットワークベースのユーティリティ機能を使用して、消費者の参照依存の嗜好の定量化に新たな貢献をしている。 最も重要なことは、ArcRecが新しいアトリビュートレベルのウィリングネス・トゥ・ペイ(Willingness-To-Pay)尺度をリファレンス依存ユーティリティ関数に導入し、製品に対する属性レベルの価格耐性を観察することで、消費者の商品属性の不均一なサリエンスをキャプチャする。 合成および実世界のオンラインショッピングデータセットに関する実証的な評価は、ArcRecの14の最先端ベースラインよりも優れたパフォーマンスを示している。

While the classic Prospect Theory has highlighted the reference-dependent and comparative nature of consumers' product evaluation processes, few models have successfully integrated this theoretical hypothesis into data-driven preference quantification, particularly in the realm of recommender systems development. To bridge this gap, we propose a new research problem of modeling reference-dependent preferences from a data-driven perspective, and design a novel deep learning-based framework named Attributed Reference-dependent Choice Model for Recommendation (ArcRec) to tackle the inherent challenges associated with this problem. ArcRec features in building a reference network from aggregated historical purchase records for instantiating theoretical reference points, which is then decomposed into product attribute specific sub-networks and represented through Graph Neural Networks. In this way, the reference points of a consumer can be encoded at the attribute-level individually from her past experiences but also reflect the crowd influences. ArcRec also makes novel contributions to quantifying consumers' reference-dependent preferences using a deep neural network-based utility function that integrates both interest-inspired and price-inspired preferences, with their complex interaction effects captured by an attribute-aware price sensitivity mechanism. Most importantly, ArcRec introduces a novel Attribute-level Willingness-To-Pay measure to the reference-dependent utility function, which captures a consumer's heterogeneous salience of product attributes via observing her attribute-level price tolerance to a product. Empirical evaluations on both synthetic and real-world online shopping datasets demonstrate ArcRec's superior performances over fourteen state-of-the-art baselines.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# データ駆動型長期予測のための特異値分解によるクープマンオートエンコーダ

Koopman AutoEncoder via Singular Value Decomposition for Data-Driven Long-Term Prediction ( http://arxiv.org/abs/2408.11303v1 )

ライセンス: Link先を確認
Jinho Choi, Sivaram Krishnan, Jihong Park, (参考訳) データ駆動技術であるクープマンオートエンコーダは,近年,ディープラーニング手法を用いた非線形ダイナミクスのモデリングで注目を集めている。 Koopman演算子固有の線形特性を考えると、その固有値を制御することで、長期予測性能を高めることができる。 しかしながら、固有値の制御は、高い計算複雑性と訓練過程におけるそれらの管理の難しさのために困難である。 この問題に対処するために,クープマン行列の特異値分解(SVD)を活用して,より長期的予測のために特異値を調整することを提案する。 実験により, 学習中, 特異値の損失項は単位円に近い固有値を効果的にもたらすことが示され, 提案手法は, 長期予測タスクにおいて, 既存のベースライン法よりも優れていた。

The Koopman autoencoder, a data-driven technique, has gained traction for modeling nonlinear dynamics using deep learning methods in recent years. Given the linear characteristics inherent to the Koopman operator, controlling its eigenvalues offers an opportunity to enhance long-term prediction performance, a critical task for forecasting future trends in time-series datasets with long-term behaviors. However, controlling eigenvalues is challenging due to high computational complexity and difficulties in managing them during the training process. To tackle this issue, we propose leveraging the singular value decomposition (SVD) of the Koopman matrix to adjust the singular values for better long-term prediction. Experimental results demonstrate that, during training, the loss term for singular values effectively brings the eigenvalues close to the unit circle, and the proposed approach outperforms existing baseline methods for long-term prediction tasks.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# FedMoE: 専門家の不均一な混合による個人化フェデレーション学習

FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts ( http://arxiv.org/abs/2408.11304v1 )

ライセンス: Link先を確認
Hanzi Mei, Dongqi Cai, Ao Zhou, Shangguang Wang, Mengwei Xu, (参考訳) 大規模言語モデル(LLM)がAI機能の境界を推し進めるにつれ、データに対する需要は増大している。 これらのデータの多くはプライベートであり、エッジデバイスに分散しているため、Federated Learning(FL)は微調整(FedLLM)のためのデファクト代替品である。 しかし、さまざまなデータ分散や多様なタスクタイプを含む、クライアント間の固有の異種性のために、大きな課題に直面している。 汎用的なFedLLMに向けて、並列フィードフォワードネットワークにより柔軟性が向上する、疎活性なMixture-of-Experts (MoE)アーキテクチャで従来の高密度モデルを置き換える。 資源制約のある環境でより実用的なものにするため、FedMoEはデータの不均一性に対処し、各クライアントに最適なサブMoEを構築し、その知識をグローバルなMoEに戻すための、効率的なパーソナライズされたFLフレームワークである。 FedMoEは2つの微調整ステージで構成されている。 最初の段階では、FedMoEは観測されたアクティベーションパターンに基づいてヒューリスティック検索を行うことで問題を単純化し、各クライアントに対して最適なサブモデルを特定する。 第2段階では、これらのサブモデルはさらなるトレーニングのためにクライアントに配布され、新しいモジュールアグリゲーション戦略を通じてサーバアグリゲーションに返される。 一方、FedMoEはグローバル・エキスパート・レコメンデーションを通じて、サブモデルを最適に段階的に調整する。 提案手法は従来のFL法よりも優れていることを示す実験結果を得た。

As Large Language Models (LLMs) push the boundaries of AI capabilities, their demand for data is growing. Much of this data is private and distributed across edge devices, making Federated Learning (FL) a de-facto alternative for fine-tuning (i.e., FedLLM). However, it faces significant challenges due to the inherent heterogeneity among clients, including varying data distributions and diverse task types. Towards a versatile FedLLM, we replace traditional dense model with a sparsely-activated Mixture-of-Experts (MoE) architecture, whose parallel feed-forward networks enable greater flexibility. To make it more practical in resource-constrained environments, we present FedMoE, the efficient personalized FL framework to address data heterogeneity, constructing an optimal sub-MoE for each client and bringing the knowledge back to global MoE. FedMoE is composed of two fine-tuning stages. In the first stage, FedMoE simplifies the problem by conducting a heuristic search based on observed activation patterns, which identifies a suboptimal submodel for each client. In the second stage, these submodels are distributed to clients for further training and returned for server aggregating through a novel modular aggregation strategy. Meanwhile, FedMoE progressively adjusts the submodels to optimal through global expert recommendation. Experimental results demonstrate the superiority of our method over previous personalized FL methods.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# UniFashion:マルチモーダルファッション検索と生成のための統合ビジョンランゲージモデル

UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation ( http://arxiv.org/abs/2408.11305v1 )

ライセンス: Link先を確認
Xiangyu Zhao, Yuehan Zhang, Wenlong Zhang, Xiao-Ming Wu, (参考訳) ファッションドメインは、マルチモーダル検索やマルチモーダル生成を含む、様々な実世界のマルチモーダルタスクを含んでいる。 人工知能が生成するコンテンツの急速な進歩、特にテキスト生成のための大規模言語モデルや視覚生成のための拡散モデルのような技術は、これらのマルチモーダルモデルをファッション分野に適用することに対する幅広い研究の関心を喚起している。 しかし,マルチモーダル・ファッション・ドメインの多様性から,画像からテキストへの埋め込みやテキスト・ツー・イメージ検索といったタスクは,この観点から見過ごされている。 マルチタスクシングルモデルに関する現在の研究は、画像生成に重点を置いていない。 本研究では、ファッション領域におけるマルチモーダル生成と検索タスクの課題を同時に解決し、画像生成と検索タスクとテキスト生成タスクを統合した統合フレームワークUniFashionを提案する。 UniFashionは拡散モデルとLLMを統合することで埋め込みタスクと生成タスクを統一し、制御可能かつ高忠実な生成を可能にする。 我々のモデルは、様々なファッションタスクにまたがる従来の単一タスクモデルよりも大幅に優れており、複雑な視覚言語タスクの管理に容易に適応できる。 この研究は、マルチモーダル生成と検索の間の潜在的な学習相乗効果を実証し、ファッション分野における将来の研究に有望な方向性を提供する。 ソースコードはhttps://github.com/xiangyu-mm/UniFashion.comで入手できる。

The fashion domain encompasses a variety of real-world multimodal tasks, including multimodal retrieval and multimodal generation. The rapid advancements in artificial intelligence generated content, particularly in technologies like large language models for text generation and diffusion models for visual generation, have sparked widespread research interest in applying these multimodal models in the fashion domain. However, tasks involving embeddings, such as image-to-text or text-to-image retrieval, have been largely overlooked from this perspective due to the diverse nature of the multimodal fashion domain. And current research on multi-task single models lack focus on image generation. In this work, we present UniFashion, a unified framework that simultaneously tackles the challenges of multimodal generation and retrieval tasks within the fashion domain, integrating image generation with retrieval tasks and text generation tasks. UniFashion unifies embedding and generative tasks by integrating a diffusion model and LLM, enabling controllable and high-fidelity generation. Our model significantly outperforms previous single-task state-of-the-art models across diverse fashion tasks, and can be readily adapted to manage complex vision-language tasks. This work demonstrates the potential learning synergy between multimodal generation and retrieval, offering a promising direction for future research in the fashion domain. The source code is available at https://github.com/xiangyu-mm/UniFashion.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# Kan4TSF:kanとkanベースのモデルは時系列予測に有効か?

KAN4TSF: Are KAN and KAN-based models Effective for Time Series Forecasting? ( http://arxiv.org/abs/2408.11306v1 )

ライセンス: Link先を確認
Xiao Han, Xinfeng Zhang, Yiling Wu, Zhenduo Zhang, Zhe Wu, (参考訳) 時系列予測は、過去のデータに基づいて変数の将来値を予測する重要なタスクである。 時系列予測技術は、初期の統計的学習方法から現在のディープラーニング方法まで、機械学習コミュニティと並行して開発されている。 既存の手法は大きな進歩を遂げているが、それでも2つの課題に悩まされている。 主流のディープラーニングに基づく手法の数学的理論は、ネットワークサイズと適合性の間に明確な関係を定めておらず、これらの手法は解釈可能性に欠けることが多い。 この目的のために,KAN(Kolmogorov-Arnold Network)を時系列予測研究に導入する。 まず,時系列予測のためのKAモデルであるReversible Mixture of Kan Expert (RMoK)モデルを提案する。 RMoKは、Kanの専門家に変数を割り当てるために、Mix-of-experts構造を使用する。 次に、実世界のデータセット上でRMoKと各種ベースラインのパフォーマンス、統合、速度を比較し、実験結果から、RMoKがほとんどのケースで最高のパフォーマンスを達成することを示す。 そして、可視化によって時間的特徴量とデータの周期性の関係を見いだし、RMoKのメカニズムを概説する。 そこで我々は,kan とkan-based model (RMoK) が時系列予測に有効であることが結論された。 Kan4TSFのコードは、https://github.com/2448845600/KAN4TSFで入手できる。

Time series forecasting is a crucial task that predicts the future values of variables based on historical data. Time series forecasting techniques have been developing in parallel with the machine learning community, from early statistical learning methods to current deep learning methods. Although existing methods have made significant progress, they still suffer from two challenges. The mathematical theory of mainstream deep learning-based methods does not establish a clear relation between network sizes and fitting capabilities, and these methods often lack interpretability. To this end, we introduce the Kolmogorov-Arnold Network (KAN) into time series forecasting research, which has better mathematical properties and interpretability. First, we propose the Reversible Mixture of KAN experts (RMoK) model, which is a KAN-based model for time series forecasting. RMoK uses a mixture-of-experts structure to assign variables to KAN experts. Then, we compare performance, integration, and speed between RMoK and various baselines on real-world datasets, and the experimental results show that RMoK achieves the best performance in most cases. And we find the relationship between temporal feature weights and data periodicity through visualization, which roughly explains RMoK's mechanism. Thus, we conclude that KAN and KAN-based models (RMoK) are effective in time series forecasting. Code is available at KAN4TSF: https://github.com/2448845600/KAN4TSF.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# EEG-Defender:大規模言語モデルの早期排他的生成による脱獄対策

EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Models ( http://arxiv.org/abs/2408.11308v1 )

ライセンス: Link先を確認
Chongwen Zhao, Zhihao Dou, Kaizhu Huang, (参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションで注目を集めている。 それにもかかわらず、制御された物質の合成や偽情報の伝播など、悪意ある目的のためにこれらのモデルを活用しようとするユーザもいるため、懸念が高まっている。 このようなリスクを軽減するため、アライメント技術の概念が開発されている。 しかし、最近の研究では、このアライメントは「ジェイルブレイク」と呼ばれる技術である高度な急進的な技術や敵の接尾辞を用いて損なわれる可能性があることが示唆されている。 我々の研究は、LLMの人間的な生成プロセスからヒントを得る。 ジェイルブレイクプロンプトは良性プロンプトと同様の出力ロジットを出力する可能性があるが、モデルの潜在空間への初期埋め込みは、悪意のあるプロンプトに類似する傾向にある。 そこで本研究では,LSMの早期変換器出力を悪意のある入力を検知する手段として利用し,直ちに生成を終了する手法を提案する。 この考え方に基づいて,LLMのためのEEG-Defenderと呼ばれる,シンプルながら重要な防御手法を導入する。 我々は3つのモデルにわたる10のジェイルブレイク手法に関する総合的な実験を行った。 その結果,EEG-Defender は攻撃成功率 (ASR) を,現在の SOTA の 50 % に対して約 85 % の差で低減でき,LLM の有用性と有効性に最小限の影響を及ぼすことを示した。

Large Language Models (LLMs) are increasingly attracting attention in various applications. Nonetheless, there is a growing concern as some users attempt to exploit these models for malicious purposes, including the synthesis of controlled substances and the propagation of disinformation. In an effort to mitigate such risks, the concept of "Alignment" technology has been developed. However, recent studies indicate that this alignment can be undermined using sophisticated prompt engineering or adversarial suffixes, a technique known as "Jailbreak." Our research takes cues from the human-like generate process of LLMs. We identify that while jailbreaking prompts may yield output logits similar to benign prompts, their initial embeddings within the model's latent space tend to be more analogous to those of malicious prompts. Leveraging this finding, we propose utilizing the early transformer outputs of LLMs as a means to detect malicious inputs, and terminate the generation immediately. Built upon this idea, we introduce a simple yet significant defense approach called EEG-Defender for LLMs. We conduct comprehensive experiments on ten jailbreak methods across three models. Our results demonstrate that EEG-Defender is capable of reducing the Attack Success Rate (ASR) by a significant margin, roughly 85\% in comparison with 50\% for the present SOTAs, with minimal impact on the utility and effectiveness of LLMs.
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# 近代ホップフィールドネットワークによるアウト・オブ・ディストリビューションデータ処理と耐故障性の改善

Improving Out-of-Distribution Data Handling and Corruption Resistance via Modern Hopfield Networks ( http://arxiv.org/abs/2408.11309v1 )

ライセンス: Link先を確認
Saleh Sargolzaei, Luis Rueda, (参考訳) 本研究は,コンピュータビジョンモデルによるアウト・オブ・ディストリビューションデータ処理能力の向上における,Modern Hopfield Networks (MHN) の可能性を探るものである。 現在のコンピュータビジョンモデルは、同じ分布から見えないサンプルを一般化することができるが、ブラーリングのような小さな摂動の影響を受けやすいため、現実のアプリケーションではその効果が制限される。 我々は,MHNをベースラインモデルに統合し,ロバスト性を高めることを提案する。 この統合は、あらゆるモデルのテスト時間中に実装でき、あらゆる敵防衛手法と組み合わせることができる。 提案手法は,MNIST-Cデータセットのモデル性能を継続的に改善し,平均劣化精度が13.84%向上し,平均破壊誤差(mCE)が57.49%低下し,ベースラインモデルと比較して相対mCEが60.61%低下したことを示す。 さらに、MHNが元の非破壊データに収束する能力についても検討する。 特に,本手法では,実世界展開における実運用性について,テスト時の適応や汚職の増大は不要である。 (公開コードはhttps://github.com/salehsargolzaee/Hopfield-integrated-test)

This study explores the potential of Modern Hopfield Networks (MHN) in improving the ability of computer vision models to handle out-of-distribution data. While current computer vision models can generalize to unseen samples from the same distribution, they are susceptible to minor perturbations such as blurring, which limits their effectiveness in real-world applications. We suggest integrating MHN into the baseline models to enhance their robustness. This integration can be implemented during the test time for any model and combined with any adversarial defense method. Our research shows that the proposed integration consistently improves model performance on the MNIST-C dataset, achieving a state-of-the-art increase of 13.84% in average corruption accuracy, a 57.49% decrease in mean Corruption Error (mCE), and a 60.61% decrease in relative mCE compared to the baseline model. Additionally, we investigate the capability of MHN to converge to the original non-corrupted data. Notably, our method does not require test-time adaptation or augmentation with corruptions, underscoring its practical viability for real-world deployment. (Source code publicly available at: https://github.com/salehsargolzaee/Hopfield-integrated-test)
翻訳日:2024-08-22 18:38:57 公開日:2024-08-21
# HiMA:Qubit-ScalingとQuantum Process-Level並列性のための階層型量子マイクロアーキテクチャ

HiMA: Hierarchical Quantum Microarchitecture for Qubit-Scaling and Quantum Process-Level Parallelism ( http://arxiv.org/abs/2408.11311v1 )

ライセンス: Link先を確認
Qi Zhou, Zi-Hao Mei, Han-Qing Shi, Liang-Liang Guo, Xiao-Yan Yang, Yun-Jie Wang, Xiao-Fan Xu, Cheng Xue, Wei-Cheng Kong, Jun-Chao Wang, Yu-Chun Wu, Zhao-Yun Chen, Guo-Ping Guo, (参考訳) 量子コンピューティングは、数千の量子ビットにスケールすると大幅に増幅される、無数の複雑な課題に対処する大きな可能性を秘めている。 しかし、大きな課題は、効率的でスケーラブルな量子制御システムを開発することである。 そこで本研究では,量子プロセスレベルの並列性を活用し,量子ビットスケーリングを容易にするために設計された新しい階層型マイクロアーキテクチャ(HiMA)を提案する。 このマイクロアーキテクチャは3つのコア要素に基づいている。 (i)離散クビットレベルドライブと読み出し (ii)プロセスベースの階層的トリガー機構、及び 第三に、効率的な量子プロセスレベルの並列化を実現するため、ステージングトリガ技術によるマルチプロセス。 我々は、72量子ビット可変超伝導量子処理ユニットの制御系としてHiMAを実装し、3層カスケードにより6144量子ビットに拡張可能なパブリック量子クラウドコンピューティングプラットフォームを提供する。 ベンチマークテストでは,5プロセス並列構成で最大4.89倍の高速化を実現した。 その結果、私たちの知る限り、CLOPS(Circuit Layer Operations Per Second)の最高レベルに達し、すべての公開プラットフォームで最大43,680に達したのです。

Quantum computing holds immense potential for addressing a myriad of intricate challenges, which is significantly amplified when scaled to thousands of qubits. However, a major challenge lies in developing an efficient and scalable quantum control system. To address this, we propose a novel Hierarchical MicroArchitecture (HiMA) designed to facilitate qubit scaling and exploit quantum process-level parallelism. This microarchitecture is based on three core elements: (i) discrete qubit-level drive and readout, (ii) a process-based hierarchical trigger mechanism, and (iii) multiprocessing with a staggered triggering technique to enable efficient quantum process-level parallelism. We implement HiMA as a control system for a 72-qubit tunable superconducting quantum processing unit, serving a public quantum cloud computing platform, which is capable of expanding to 6144 qubits through three-layer cascading. In our benchmarking tests, HiMA achieves up to a 4.89x speedup under a 5-process parallel configuration. Consequently, to the best of our knowledge, we have achieved the highest CLOPS (Circuit Layer Operations Per Second), reaching up to 43,680, across all publicly available platforms.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework

Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework ( http://arxiv.org/abs/2408.11312v1 )

ライセンス: Link先を確認
Xiao Han, Chen Zhu, Xiangyu Zhao, Hengshu Zhu, (参考訳) ビジュアルジオローカライゼーションは、画像と現実世界の地理的位置を正確に関連付けるために、詳細な知識と高度な推論スキルを必要とする。 一般に、データマッチングに基づく従来の手法は、グローバルランドマークの適切な視覚的記録を保存するという非現実性によって妨げられている。 近年、LVLM (Large Vision-Language Models) は、視覚質問応答 (VQA) による地理的局所化の能力を実証し、外部のジオタグ付き画像記録を必要としないソリューションを実現している。 しかし、1つのLVLMの性能は、その固有の知識と推論能力によって制限されている。 本稿では,複数のLVLMエージェントの固有知識をエージェント間通信により統合し,画像の効率的なジオローカライゼーションを実現する,新しい視覚的ジオローカライゼーションフレームワークである \name\ を紹介する。 さらに,本フレームワークでは,エージェント間の通信パターンの最適化,エージェント間の不要な議論の低減,フレームワークの効率向上のために,動的学習戦略を採用している。 提案手法の有効性を検証するため,視覚的ジオローカライゼーションタスクのための新しいデータセットであるGeoGlobeを構築した。 データセットの大規模なテストは、我々のアプローチが最先端の手法を大きく上回っていることを示している。

Visual geo-localization demands in-depth knowledge and advanced reasoning skills to associate images with real-world geographic locations precisely. In general, traditional methods based on data-matching are hindered by the impracticality of storing adequate visual records of global landmarks. Recently, Large Vision-Language Models (LVLMs) have demonstrated the capability of geo-localization through Visual Question Answering (VQA), enabling a solution that does not require external geo-tagged image records. However, the performance of a single LVLM is still limited by its intrinsic knowledge and reasoning capabilities. Along this line, in this paper, we introduce a novel visual geo-localization framework called \name\ that integrates the inherent knowledge of multiple LVLM agents via inter-agent communication to achieve effective geo-localization of images. Furthermore, our framework employs a dynamic learning strategy to optimize the communication patterns among agents, reducing unnecessary discussions among agents and improving the efficiency of the framework. To validate the effectiveness of the proposed framework, we construct GeoGlobe, a novel dataset for visual geo-localization tasks. Extensive testing on the dataset demonstrates that our approach significantly outperforms state-of-the-art methods.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# 肯定的疑念のない逆接接尾辞最適化: LLMによる効率的なブラックボックスジェイルブレーキングを最適化

Unlocking Adversarial Suffix Optimization Without Affirmative Phrases: Efficient Black-box Jailbreaking via LLM as Optimizer ( http://arxiv.org/abs/2408.11313v1 )

ライセンス: Link先を確認
Weipeng Jiang, Zhenting Wang, Juan Zhai, Shiqing Ma, Zhengyu Zhao, Chao Shen, (参考訳) 事前の安全確保努力にもかかわらず、主流のLSMは、ジェイルブレイク攻撃を受けると、有害で非倫理的なコンテンツを生成することができる。 既存のjailbreakメソッドは、テンプレートベースと最適化ベースの2つの主要なカテゴリに分類される。 前者はかなりの手作業とドメイン知識を必要とし、後者はGreedy Coordinate Gradient (GCG)によって例示され、トークンレベルの最適化によって有害なLCM出力の可能性を最大化しようとするが、ホワイトボックスアクセスの要求、事前構築された肯定的なフレーズの必要、低効率の障害など、いくつかの制限に直面している。 本稿では,最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク手法であるELIPSEを提案する。 LLMの強力な生成と最適化能力からインスピレーションを得て、私たちはジェイルブレイクの目標を自然言語の命令に変換するためにタスクプロンプトを使用します。 これによりLLMは悪意のあるクエリに対する逆サフィックスを生成する。 特に、有害度スコアラは連続的なフィードバックを提供し、LCMの自己回帰と反復最適化により、効果的接尾辞を自律的かつ効率的に作成することができる。 ECLIPSE はオープンソース LLM と GPT-3.5-Turbo で平均攻撃成功率 0.92 を達成し,GCG を 2.4 倍に上回った。 さらに、ECLIPSEはASRのテンプレートベースのメソッドと同等であり、攻撃効率が優れ、平均攻撃オーバーヘッドが83%削減されている。

Despite prior safety alignment efforts, mainstream LLMs can still generate harmful and unethical content when subjected to jailbreaking attacks. Existing jailbreaking methods fall into two main categories: template-based and optimization-based methods. The former requires significant manual effort and domain knowledge, while the latter, exemplified by Greedy Coordinate Gradient (GCG), which seeks to maximize the likelihood of harmful LLM outputs through token-level optimization, also encounters several limitations: requiring white-box access, necessitating pre-constructed affirmative phrase, and suffering from low efficiency. In this paper, we present ECLIPSE, a novel and efficient black-box jailbreaking method utilizing optimizable suffixes. Drawing inspiration from LLMs' powerful generation and optimization capabilities, we employ task prompts to translate jailbreaking goals into natural language instructions. This guides the LLM to generate adversarial suffixes for malicious queries. In particular, a harmfulness scorer provides continuous feedback, enabling LLM self-reflection and iterative optimization to autonomously and efficiently produce effective suffixes. Experimental results demonstrate that ECLIPSE achieves an average attack success rate (ASR) of 0.92 across three open-source LLMs and GPT-3.5-Turbo, significantly surpassing GCG in 2.4 times. Moreover, ECLIPSE is on par with template-based methods in ASR while offering superior attack efficiency, reducing the average attack overhead by 83%.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# 大規模言語モデルの確率論的医学予測

Probabilistic Medical Predictions of Large Language Models ( http://arxiv.org/abs/2408.11316v1 )

ライセンス: Link先を確認
Bowen Gu, Rishi J. Desai, Kueiyu Joshua Lin, Jie Yang, (参考訳) LLM(Large Language Models)は、フレキシブルで多様な臨床予測を生成するために、迅速な工学を通して臨床応用に有意な可能性を証明している。 しかし、それらは透明性に不可欠であり、臨床医が意思決定に柔軟な確率閾値を適用できるようにする予測確率の生成に挑戦する。 明示的なプロンプト命令は、テキスト生成による予測確率数の提供をLLMに誘導するが、数値推論におけるLSMの制限は、これらのテキスト生成確率の信頼性に関する懸念を引き起こす。 この信頼性を評価するために,テキスト生成から得られた明示的確率と,正しいラベルトークンを予測する確率に基づいて算出した暗黙的確率を比較した。 5つの医学データセットにまたがる6つの高度なオープンソースLSMを用いて実験したところ、明示的確率のパフォーマンスは、識別、精度、リコールに関して暗黙的な確率よりも一貫して低いことがわかった。 さらに、これらの差異は、小さなLCMと不均衡なデータセットで拡大され、慎重な解釈と応用の必要性を強調し、臨床文脈におけるLSMの頑健な確率推定方法の研究が進められた。

Large Language Models (LLMs) have demonstrated significant potential in clinical applications through prompt engineering, which enables the generation of flexible and diverse clinical predictions. However, they pose challenges in producing prediction probabilities, which are essential for transparency and allowing clinicians to apply flexible probability thresholds in decision-making. While explicit prompt instructions can lead LLMs to provide prediction probability numbers through text generation, LLMs' limitations in numerical reasoning raise concerns about the reliability of these text-generated probabilities. To assess this reliability, we compared explicit probabilities derived from text generation to implicit probabilities calculated based on the likelihood of predicting the correct label token. Experimenting with six advanced open-source LLMs across five medical datasets, we found that the performance of explicit probabilities was consistently lower than implicit probabilities with respect to discrimination, precision, and recall. Moreover, these differences were enlarged on small LLMs and imbalanced datasets, emphasizing the need for cautious interpretation and applications, as well as further research into robust probability estimation methods for LLMs in clinical contexts.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# TWLV-I:ビデオファンデーションモデルにおけるホロスティック評価の分析と考察

TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models ( http://arxiv.org/abs/2408.11318v1 )

ライセンス: Link先を確認
Hyeongmin Lee, Jin-Young Kim, Kyungjune Baek, Jihwan Kim, Hyojun Go, Seongsu Ha, Seokjin Han, Jiho Jang, Raehyuk Jung, Daewoo Kim, GeunOh Kim, JongMok Kim, Jongseok Kim, Junwan Kim, Soonwoo Kwon, Jangwon Lee, Seungjoon Park, Minjoon Seo, Jay Suh, Jaehyuk Yi, Aiden Lee, (参考訳) 本研究では,映像基礎モデルの公平かつ堅牢な評価について論じる。 言語や画像基礎モデルとは異なり、多くのビデオ基礎モデルは、サンプリング率、フレーム数、事前学習ステップなど)異なるパラメータで評価され、公正で堅牢な比較が難しい。 そこで本稿では,映像理解における2つの中核的能力(外観と動作理解)を測定するための,慎重に設計された評価フレームワークを提案する。 以上の結果から, UMT や InternVideo2 のようなテキスト管理や V-JEPA のような自己管理といった既存のビデオ基盤モデルでは,少なくとも1つの機能に制限があることがわかった。 代替として、モーションベースビデオと外観ベースビデオの両方にロバストな視覚表現を構築する新しいビデオ基盤モデルであるTWLV-Iを導入する。 V-JEPA (ViT-L) よりも4.6%, UMT (ViT-L) より7.7%改善した。 大型モデルと比較しても,DFN(ViT-H)に比べて7.2%,V-JEPA~(ViT-H)より2.7%,InternVideo2(ViT-g)より2.8%改善した。 本稿では,TWLV-Iによるビデオベンチマークから得られる埋め込みベクトルと,それらの埋め込みを直接利用できる評価ソースコードを提供する。 コードは"https://github.com/twelvelabs-io/video-embeddings-evaluation-framework"で公開されている。

In this work, we discuss evaluating video foundation models in a fair and robust manner. Unlike language or image foundation models, many video foundation models are evaluated with differing parameters (such as sampling rate, number of frames, pretraining steps, etc.), making fair and robust comparisons challenging. Therefore, we present a carefully designed evaluation framework for measuring two core capabilities of video comprehension: appearance and motion understanding. Our findings reveal that existing video foundation models, whether text-supervised like UMT or InternVideo2, or self-supervised like V-JEPA, exhibit limitations in at least one of these capabilities. As an alternative, we introduce TWLV-I, a new video foundation model that constructs robust visual representations for both motion- and appearance-based videos. Based on the average top-1 accuracy of linear probing on five action recognition benchmarks, pretrained only on publicly accessible datasets, our model shows a 4.6%p improvement compared to V-JEPA (ViT-L) and a 7.7%p improvement compared to UMT (ViT-L). Even when compared to much larger models, our model demonstrates a 7.2%p improvement compared to DFN (ViT-H), a 2.7%p improvement compared to V-JEPA~(ViT-H) and a 2.8%p improvement compared to InternVideo2 (ViT-g). We provide embedding vectors obtained by TWLV-I from videos of several commonly used video benchmarks, along with evaluation source code that can directly utilize these embeddings. The code is available on "https://github.com/twelvelabs-io/video-embeddings-evaluation-framework".
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# サルカズム理解における大規模言語モデルの評価に向けて

Towards Evaluating Large Language Models on Sarcasm Understanding ( http://arxiv.org/abs/2408.11319v1 )

ライセンス: Link先を確認
Yazhou Zhang, Chunwang Zou, Zheng Lian, Prayag Tiwari, Jing Qin, (参考訳) 大規模言語モデル (LLMs) の時代には,「システムI''~〜〜〜高速,無意識,直感的なタスク,例えば感情分析,テキスト分類など」という課題が解決されたと主張されている。 しかし、サルカズムは微妙な言語現象として、しばしば感情分析よりも高いレベルの抽象性を含む真の感情と意図を伝えるために、ハイパーボールやフィギュレーションのような修辞的な装置を用いる。 LLMの成功に関する議論が、皮肉な理解を考えると、完全には持続できないのではないかという懸念が高まっている。 この問題に対処するために、我々は11のSOTA LLMと8のSOTA事前訓練言語モデル(PLM)を選択し、異なるプロンプトアプローチ、すなわちゼロショットインプット/アウトプット(IO)プロンプト、少数ショットIOプロンプト、思考連鎖(CoT)プロンプトを通じて6つの広く使用されているベンチマークデータセットに対して包括的な評価を行う。 1)現在のLSMは6つのサルカサムベンチマークにおいて、教師付きPLMに基づくサルカズム検出ベースラインを過小評価している。 このことは、LLMのヒトの肉腫に対する理解を改善するために依然として重要な努力が必要であることを示唆している。 2) GPT-4 は様々なプロンプト法で他の LLM を一貫して大幅に上回り、平均 14.0\%$\uparrow$ である。 クロード3とChatGPTはGPT-4に続く次の最高の性能を示した。 (3)0ショット IO と few-shot CoT の 2 つの方法より優れている。 その理由は、全体論的、直感的で非合理的な認知過程であるサルカズムの検出が、段階的に論理的推論に固執しないことを主張しており、CoTは数学的推論タスクにおけるその有効性に比べて、サルカズムを理解するのに効果が低いからである。

In the era of large language models (LLMs), the task of ``System I''~-~the fast, unconscious, and intuitive tasks, e.g., sentiment analysis, text classification, etc., have been argued to be successfully solved. However, sarcasm, as a subtle linguistic phenomenon, often employs rhetorical devices like hyperbole and figuration to convey true sentiments and intentions, involving a higher level of abstraction than sentiment analysis. There is growing concern that the argument about LLMs' success may not be fully tenable when considering sarcasm understanding. To address this question, we select eleven SOTA LLMs and eight SOTA pre-trained language models (PLMs) and present comprehensive evaluations on six widely used benchmark datasets through different prompting approaches, i.e., zero-shot input/output (IO) prompting, few-shot IO prompting, chain of thought (CoT) prompting. Our results highlight three key findings: (1) current LLMs underperform supervised PLMs based sarcasm detection baselines across six sarcasm benchmarks. This suggests that significant efforts are still required to improve LLMs' understanding of human sarcasm. (2) GPT-4 consistently and significantly outperforms other LLMs across various prompting methods, with an average improvement of 14.0\%$\uparrow$. Claude 3 and ChatGPT demonstrate the next best performance after GPT-4. (3) Few-shot IO prompting method outperforms the other two methods: zero-shot IO and few-shot CoT. The reason is that sarcasm detection, being a holistic, intuitive, and non-rational cognitive process, is argued not to adhere to step-by-step logical reasoning, making CoT less effective in understanding sarcasm compared to its effectiveness in mathematical reasoning tasks.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# 機械学習を用いた転写学習と単光子音源品質の早期推定

Transfer Learning and the Early Estimation of Single-Photon Source Quality using Machine Learning Methods ( http://arxiv.org/abs/2408.11322v1 )

ライセンス: Link先を確認
David Jacob Kedziora, Anna Musiał, Wojciech Rudno-Rudziński, Bogdan Gabrys, (参考訳) 単一光子源(SPS)の使用は、現代の量子技術の急増の中で提案された多くのシステムやデバイスの中心である。 しかし、製造計画が不完全であり、単一光子放射純度はインターフェロメトリーによって実験的に検証されなければならない。 このようなプロセスは一般的に遅くてコストがかかるため、不完全な排出統計からSPSの品質をより迅速に推測できるかどうかの研究の動機となっている。 したがって、本研究は、従来の研究の続編であり、品質推定の標準的な方法、すなわち、物理的動機付け関数の最小二乗フィッティングにおいて大きな不確実性を示し、機械学習(ML)がより良くできるかを問うものである。 この研究は、模範量子エミッタを含む測定から得られた8つのデータセット、すなわち単一のInGaAs/GaAsエピタキシャル量子ドットを利用する。 具体的には、‘トランスファーラーニング’の形式で、5つのMLモデル、3つの線形および2つのアンサンブルベースのモデルが、7つのコンテキストからのデータに基づいてトレーニングされ、8日にテストされる。 検証基準は、線形回帰器でさえ、訓練された状況でテストされた場合の標準適合性よりも優れるが、転送学習の成功は保証されていない。 そこで本研究では,SPSコンテキストの相違,例えば特徴工学,モデル適応といった問題に対処するための今後の戦略について論じる。

The use of single-photon sources (SPSs) is central to numerous systems and devices proposed amidst a modern surge in quantum technology. However, manufacturing schemes remain imperfect, and single-photon emission purity must often be experimentally verified via interferometry. Such a process is typically slow and costly, which has motivated growing research into whether SPS quality can be more rapidly inferred from incomplete emission statistics. Hence, this study is a sequel to previous work that demonstrated significant uncertainty in the standard method of quality estimation, i.e. the least-squares fitting of a physically motivated function, and asks: can machine learning (ML) do better? The study leverages eight datasets obtained from measurements involving an exemplary quantum emitter, i.e. a single InGaAs/GaAs epitaxial quantum dot; these eight contexts predominantly vary in the intensity of the exciting laser. Specifically, via a form of `transfer learning', five ML models, three linear and two ensemble-based, are trained on data from seven of the contexts and tested on the eighth. Validation metrics quickly reveal that even a linear regressor can outperform standard fitting when it is tested on the same contexts it was trained on, but the success of transfer learning is less assured, even though statistical analysis, made possible by data augmentation, suggests its superiority as an early estimator. Accordingly, the study concludes by discussing future strategies for grappling with the problem of SPS context dissimilarity, e.g. feature engineering and model adaptation.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# ディープラーニングを用いた7T MRIにおける並列RF伝送設計の透過場不均一性の最適化

Optimizing Transmit Field Inhomogeneity of Parallel RF Transmit Design in 7T MRI using Deep Learning ( http://arxiv.org/abs/2408.11323v1 )

ライセンス: Link先を確認
Zhengyi Lu, Hao Liang, Xiao Wang, Xinqiang Yan, Yuankai Huo, (参考訳) 超高磁場(UHF)磁気共鳴イメージング(MRI)は信号対雑音比を高くし、空間分解能を高くする。 しかし、UHF MRIは、無線周波数(RF)磁場(B1+)の不均一性などの問題を導入し、不均一なフリップ角と画像強度異常をもたらす。 これらの問題は、画像品質とその医学的応用を著しく低下させる可能性がある。 本研究では,新たな深層学習戦略を通じて,B1+フィールドの均一性を論じる。 MLS(Magnitude Least Squares)の最適化のような従来の手法は有効であるが、時間がかかり、患者の存在に依存している。 RF Shim Prediction by Iteratively Projected Ridge Regressionやディープラーニングフレームワークといった最近の機械学習アプローチは、将来性を示しているが、広範なトレーニング時間や過度に単純化されたアーキテクチャといった制限に直面している。 本稿では,2段階の深層学習戦略を提案する。 まず、ランダム初期化適応モーメント推定を用いて、多チャンネルB1+フィールドから所望のRFシミング重みを求める。 次に、Residual Networks(ResNets)を用いて、B1+フィールドをRFシミング出力にマッピングするモデルを訓練する。 提案手法は, テストプロセスの事前計算参照最適化に頼らず, 残差関数を効率的に学習する。 従来のMLS最適化との比較研究は,高速化と精度の観点から,本手法の利点を実証している。 提案手法は、より高速で効率的なRFシミング設計を実現し、UHFの撮像品質を大幅に向上させる。 この進歩は、医療画像や診断における幅広い応用の可能性を秘めている。

Ultrahigh field (UHF) Magnetic Resonance Imaging (MRI) provides a higher signal-to-noise ratio and, thereby, higher spatial resolution. However, UHF MRI introduces challenges such as transmit radiofrequency (RF) field (B1+) inhomogeneities, leading to uneven flip angles and image intensity anomalies. These issues can significantly degrade imaging quality and its medical applications. This study addresses B1+ field homogeneity through a novel deep learning-based strategy. Traditional methods like Magnitude Least Squares (MLS) optimization have been effective but are time-consuming and dependent on the patient's presence. Recent machine learning approaches, such as RF Shim Prediction by Iteratively Projected Ridge Regression and deep learning frameworks, have shown promise but face limitations like extensive training times and oversimplified architectures. We propose a two-step deep learning strategy. First, we obtain the desired reference RF shimming weights from multi-channel B1+ fields using random-initialized Adaptive Moment Estimation. Then, we employ Residual Networks (ResNets) to train a model that maps B1+ fields to target RF shimming outputs. Our approach does not rely on pre-calculated reference optimizations for the testing process and efficiently learns residual functions. Comparative studies with traditional MLS optimization demonstrate our method's advantages in terms of speed and accuracy. The proposed strategy achieves a faster and more efficient RF shimming design, significantly improving imaging quality at UHF. This advancement holds potential for broader applications in medical imaging and diagnostics.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# HITS:メソッドスライシングによる高カバレッジLDMベースのユニットテスト生成

HITS: High-coverage LLM-based Unit Test Generation via Method Slicing ( http://arxiv.org/abs/2408.11324v1 )

ライセンス: Link先を確認
Zejun Wang, Kaibo Liu, Ge Li, Zhi Jin, (参考訳) 大規模言語モデル(LLM)は、Javaプロジェクトの単体テストの生成においてうまく振る舞っている。 しかし、プロジェクト内の複雑な焦点メソッドをカバーするパフォーマンスは貧弱である。 複雑なメソッドは多くの条件とループで構成されており、テストケースはすべての行とブランチをカバーするのに十分な多様性を必要とする。 しかし, LLMを用いた既存のテスト生成手法は, 入力解析を介さずに, LLMのメソッド・ツー・テスト全体を提供する。 LLMは全ての条件をカバーするためにテスト入力を推測するのが困難であり、結果として行や枝が失われる。 この問題に対処するために、焦点メソッドをスライスに分解し、LLMにスライス毎にテストケースを生成することを提案する。 本手法は解析範囲を単純化し,LLMがスライス毎により多くの行や枝をカバーしやすくする。 我々は、既存の最先端アプローチで使用されているプロジェクトから収集された複雑な焦点メソッドからなるデータセットを構築する。 実験の結果,本手法は,LLMと典型的なSBST法であるEvosuiteにおいて,ラインおよびブランチのカバレッジスコアにおいて,現在のテストケース生成方法よりも有意に優れていた。

Large language models (LLMs) have behaved well in generating unit tests for Java projects. However, the performance for covering the complex focal methods within the projects is poor. Complex methods comprise many conditions and loops, requiring the test cases to be various enough to cover all lines and branches. However, existing test generation methods with LLMs provide the whole method-to-test to the LLM without assistance on input analysis. The LLM has difficulty inferring the test inputs to cover all conditions, resulting in missing lines and branches. To tackle the problem, we propose decomposing the focal methods into slices and asking the LLM to generate test cases slice by slice. Our method simplifies the analysis scope, making it easier for the LLM to cover more lines and branches in each slice. We build a dataset comprising complex focal methods collected from the projects used by existing state-of-the-art approaches. Our experiment results show that our method significantly outperforms current test case generation methods with LLMs and the typical SBST method Evosuite regarding both line and branch coverage scores.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# 検索の思考を自動化する: 音と完全性への旅

Automating Thought of Search: A Journey Towards Soundness and Completeness ( http://arxiv.org/abs/2408.11326v1 )

ライセンス: Link先を確認
Daniel Cao, Michael Katz, Harsha Kokel, Kavitha Srinivas, Shirin Sohrabi, (参考訳) 大型言語モデル (LLMs) の定番の1つとして計画が続けられており、現在彼らの関心は検索に向けられている。 文献の多くは、言語モデルを世界モデルとして使用して検索空間を定義し、柔軟性のために音質を鍛えている。 最近の研究であるThought of Search (ToS)では、検索空間をコードで定義し、言語モデルがそのコードを生成することを提案した。 ToSはループに人間を必要とし、音の後継機能とゴールテストを生成する。 テストされたデータセットはすべて、100%の精度で解決されました。 同時に、LLMは複雑な推論タスクのためのコード生成と改良において大きな進歩を見せている。 この作業では、ToS(AutoToS)を自動化し、計画問題のループから人間を完全に取り除きます。 AutoToSは、ジェネリックおよびドメイン固有の単体テストからのフィードバックを通じて、音声および完全な検索コンポーネントの生成に向けたステップによって、言語モデルをガイドする。 評価されたすべての領域の様々なサイズのLCMを用いて、最小限のフィードバック繰り返しで100%の精度を達成する。

Planning remains one of the last standing bastions for large language models (LLMs), which now turn their attention to search. Most of the literature uses the language models as world models to define the search space, forgoing soundness for the sake of flexibility. A recent work, Thought of Search (ToS), proposed defining the search space with code, having the language models produce that code. ToS requires a human in the loop, collaboratively producing a sound successor function and goal test. The result, however, is worth the effort: all the tested datasets were solved with 100% accuracy. At the same time LLMs have demonstrated significant progress in code generation and refinement for complex reasoning tasks. In this work, we automate ToS (AutoToS), completely taking the human out of the loop of solving planning problems. AutoToS guides the language model step by step towards the generation of sound and complete search components, through feedback from both generic and domain specific unit tests. We achieve 100% accuracy, with minimal feedback iterations, using LLMs of various sizes on all evaluated domains.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# Plug, Play, and Fuse: 単語レベルの再分類によるゼロショットジョイントデコーディング

Plug, Play, and Fuse: Zero-Shot Joint Decoding via Word-Level Re-ranking Across Diverse Vocabularies ( http://arxiv.org/abs/2408.11327v1 )

ライセンス: Link先を確認
Sai Koneru, Matthias Huck, Miriam Exel, Jan Niehues, (参考訳) NLPの最近の進歩は、マルチモーダル入力の処理や特定の領域での優れた処理など、特別な強みを持つモデルを生み出している。 しかし、マルチモーダル翻訳のような現実世界のタスクは、翻訳と画像処理の両方を扱うなど、これらの強みの組み合わせを必要とすることが多い。 個々の翻訳モデルとビジョンモデルは強力だが、通常は単一のシステムで両方のタスクを実行する能力が欠けている。 これらのモデルを組み合わせることは、特に語彙の違いにより、従来のアンサンブル手法の有効性をN-bestリストの再ランク付けのようなポストジェネレーション技術に制限する問題を引き起こす。 そこで本研究では,デコードフェーズにおいて,追加のトレーニングを必要とせずに,異なるモデルの統合を可能にする,新たなゼロショットアンサンブル戦略を提案する。 提案手法は,単語レベルでのスコアを組み合わせて,単語がいつ完了したかを予測するヒューリスティックスを用いて,復号中にビームを再ランクする。 機械翻訳シナリオにおいて,本手法の有効性を実証し,音声と画像の両方を意識した翻訳生成を可能にするとともに,全体の翻訳品質を向上することを示す。 と。

Recent advancements in NLP have resulted in models with specialized strengths, such as processing multimodal inputs or excelling in specific domains. However, real-world tasks, like multimodal translation, often require a combination of these strengths, such as handling both translation and image processing. While individual translation and vision models are powerful, they typically lack the ability to perform both tasks in a single system. Combining these models poses challenges, particularly due to differences in their vocabularies, which limit the effectiveness of traditional ensemble methods to post-generation techniques like N-best list re-ranking. In this work, we propose a novel zero-shot ensembling strategy that allows for the integration of different models during the decoding phase without the need for additional training. Our approach re-ranks beams during decoding by combining scores at the word level, using heuristics to predict when a word is completed. We demonstrate the effectiveness of this method in machine translation scenarios, showing that it enables the generation of translations that are both speech- and image-aware while also improving overall translation quality\footnote{We will release the code upon paper acceptance.}.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# 大規模言語モデルによるニューラルアーキテクチャ探索における設計原理の伝達

Design Principle Transfer in Neural Architecture Search via Large Language Models ( http://arxiv.org/abs/2408.11330v1 )

ライセンス: Link先を確認
Xun Zhou, Liang Feng, Xingyu Wu, Zhichao Lu, Kay Chen Tan, (参考訳) トランスファーブルニューラルアーキテクチャサーチ(TNAS)は、現実のシナリオにおけるNASの実用性を高めるために、複数のタスクのための効率的なニューラルアーキテクチャを設計するために導入された。 TNASでは、従来の検索プロセスに蓄積されたアーキテクチャ知識を再利用して、新しいタスクのアーキテクチャ検索を温める。 しかし、既存のTNAS手法は依然として広範囲の検索空間を探索し、多数のアーキテクチャの評価を必要とする。 この課題を克服するために,本研究では,新しい伝達パラダイム,すなわち設計原理伝達を提案する。 本研究では, 各種構造部品が建築性能に与える影響を言語学的に記述し, 設計原理と呼ぶ。 それらは確立したアーキテクチャから学習され、未完成のアーキテクチャを捨てて検索スペースを減らすために再利用することができる。 改良された検索空間での検索は、新しいNASタスクの検索性能と効率の両方を高めることができる。 この目的のために,大規模言語モデル (LLM) を用いた設計原則伝達 (LAPT) フレームワークが考案された。 LAPTにおいて、LLMは与えられたアーキテクチャの集合から設計原則を自動推論するために適用され、その後、新しい検索結果に基づいてこれらの原則を段階的に洗練するために原則適応法が適用される。 実験の結果,LAPTはほとんどのタスクにおいて最先端のTNAS手法を破り,他のタスクと同等の性能を発揮することがわかった。

Transferable neural architecture search (TNAS) has been introduced to design efficient neural architectures for multiple tasks, to enhance the practical applicability of NAS in real-world scenarios. In TNAS, architectural knowledge accumulated in previous search processes is reused to warm up the architecture search for new tasks. However, existing TNAS methods still search in an extensive search space, necessitating the evaluation of numerous architectures. To overcome this challenge, this work proposes a novel transfer paradigm, i.e., design principle transfer. In this work, the linguistic description of various structural components' effects on architectural performance is termed design principles. They are learned from established architectures and then can be reused to reduce the search space by discarding unpromising architectures. Searching in the refined search space can boost both the search performance and efficiency for new NAS tasks. To this end, a large language model (LLM)-assisted design principle transfer (LAPT) framework is devised. In LAPT, LLM is applied to automatically reason the design principles from a set of given architectures, and then a principle adaptation method is applied to refine these principles progressively based on the new search results. Experimental results show that LAPT can beat the state-of-the-art TNAS methods on most tasks and achieve comparable performance on others.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# 複雑なネットワークにおけるメディアコンセンサスクラスタリングのための並列アルゴリズム

Parallel Algorithms for Median Consensus Clustering in Complex Networks ( http://arxiv.org/abs/2408.11331v1 )

ライセンス: Link先を確認
Md Taufique Hussain, Mahantesh Halappanavar, Samrat Chatterjee, Filippo Radicchi, Santo Fortunato, Ariful Azad, (参考訳) 我々は,グラフの多数の異なるクラスタリングソリューションのコンセンサスを求めるアルゴリズムを開発した。 この問題を中央値集合分割問題として定式化し、グリーディ最適化手法を提案する。 中央値集合分割を求める他の手法とは異なり、我々のアルゴリズムはグラフ構造を考慮に入れ、他の手法よりもはるかに高速な品質解を求める。 既知のコミュニティを持つグラフでは、コンセンサスパーティションは、代替アプローチよりも正確なコミュニティ構造をキャプチャします。 大規模グラフに適用するために,アルゴリズムから逐次依存関係を取り除き,並列アルゴリズムを設計する。 並列アルゴリズムは,64個の処理コアを単一セル実験による大規模実世界のグラフに利用することにより,35倍の高速化を実現する。

We develop an algorithm that finds the consensus of many different clustering solutions of a graph. We formulate the problem as a median set partitioning problem and propose a greedy optimization technique. Unlike other approaches that find median set partitions, our algorithm takes graph structure into account and finds a comparable quality solution much faster than the other approaches. For graphs with known communities, our consensus partition captures the actual community structure more accurately than alternative approaches. To make it applicable to large graphs, we remove sequential dependencies from our algorithm and design a parallel algorithm. Our parallel algorithm achieves 35x speedup when utilizing 64 processing cores for large real-world graphs from single-cell experiments.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# BUR Extract-Llama : 乳房超音波検査における臨床的概念抽出のためのLLM

BURExtract-Llama: An LLM for Clinical Concept Extraction in Breast Ultrasound Reports ( http://arxiv.org/abs/2408.11334v1 )

ライセンス: Link先を確認
Yuxuan Chen, Haoyan Yang, Hengkai Pan, Fardeen Siddiqui, Antonio Verdone, Qingyang Zhang, Sumit Chopra, Chen Zhao, Yiqiu Shen, (参考訳) 乳房超音波検査は異常の検出と診断に必須であり,放射線検査では病変の特徴や悪性度評価などの重要な所見が要約されている。 この重要な情報を抽出することは、これらのレポートの構造化されていない性質のために困難であり、言語的スタイルや一貫性のないフォーマットが多様である。 GPT-4のようなプロプライエタリなLCMは有効であるが、保護された健康情報を扱う際にはコストがかかりプライバシーの懸念が高まる。 本研究は,放射線学報告から臨床情報を抽出する社内LCMを開発するためのパイプラインを提案する。 まず、GPT-4を使用して小さなラベル付きデータセットを作成し、それからその上にLlama3-8Bモデルを微調整します。 GPT-4と同等のF1スコアは84.6%であった。 本研究は, GPT-4の性能だけでなく, コスト削減やデータプライバシの向上などを実現する社内LCMの実現可能性を示すものである。

Breast ultrasound is essential for detecting and diagnosing abnormalities, with radiology reports summarizing key findings like lesion characteristics and malignancy assessments. Extracting this critical information is challenging due to the unstructured nature of these reports, with varied linguistic styles and inconsistent formatting. While proprietary LLMs like GPT-4 are effective, they are costly and raise privacy concerns when handling protected health information. This study presents a pipeline for developing an in-house LLM to extract clinical information from radiology reports. We first use GPT-4 to create a small labeled dataset, then fine-tune a Llama3-8B model on it. Evaluated on clinician-annotated reports, our model achieves an average F1 score of 84.6%, which is on par with GPT-4. Our findings demonstrate the feasibility of developing an in-house LLM that not only matches GPT-4's performance but also offers cost reductions and enhanced data privacy.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# FATE: 温度予測のための焦点変調アテンションエンコーダ

FATE: Focal-modulated Attention Encoder for Temperature Prediction ( http://arxiv.org/abs/2408.11336v1 )

ライセンス: Link先を確認
Tajamul Ashraf, Janibul Bashir, (参考訳) 21世紀の大きな課題の1つは気候変動であり、海面の上昇、氷河の融解、嵐の頻度の増加によって証明されている。 正確な温度予測は、これらの影響を理解し緩和するために不可欠である。 従来のデータ駆動モデルはリカレントニューラルネットワーク(RNN)を使用することが多いが、特に長いシーケンスでは並列化の制限に直面している。 そこで本研究では,FocalNet Transformerアーキテクチャに基づく新しいアプローチを提案する。 我々のFATE(Foccal modulation Attention Encoder)フレームワークは、テンソル化変調を用いて気象データの空間的・時間的ニュアンスをキャプチャする。 既存の変圧器エンコーダ,3D CNN,LSTM,ConvLSTMモデルとの比較評価により,FATEは温度データにおける複雑なパターンの同定に優れていることが示された。 さらに,新しいラベル付きデータセットである気候変化パラメーターデータセット(CCPD)を提案し,JammuとKashmirの7つの気候関連パラメータに関する40年間のデータを含む。 米国、カナダ、欧州の実際の温度データセットによる実験では、現在の最先端モデルよりも、それぞれ12\%、23\%、28\%の精度の向上が示されている。 CCPDデータセットの精度も24倍に向上した。 再現性のある研究をサポートするため、私たちはソースコードと事前訓練されたFATEモデルを \href{https://github.com/Tajamul21/FATE}{https://github.com/Tajamul21/FATE} でリリースしました。

One of the major challenges of the twenty-first century is climate change, evidenced by rising sea levels, melting glaciers, and increased storm frequency. Accurate temperature forecasting is vital for understanding and mitigating these impacts. Traditional data-driven models often use recurrent neural networks (RNNs) but face limitations in parallelization, especially with longer sequences. To address this, we introduce a novel approach based on the FocalNet Transformer architecture. Our Focal modulation Attention Encoder (FATE) framework operates in a multi-tensor format, utilizing tensorized modulation to capture spatial and temporal nuances in meteorological data. Comparative evaluations against existing transformer encoders, 3D CNNs, LSTM, and ConvLSTM models show that FATE excels at identifying complex patterns in temperature data. Additionally, we present a new labeled dataset, the Climate Change Parameter dataset (CCPD), containing 40 years of data from Jammu and Kashmir on seven climate-related parameters. Experiments with real-world temperature datasets from the USA, Canada, and Europe show accuracy improvements of 12\%, 23\%, and 28\%, respectively, over current state-of-the-art models. Our CCPD dataset also achieved a 24\% improvement in accuracy. To support reproducible research, we have released the source code and pre-trained FATE model at \href{https://github.com/Tajamul21/FATE}{https://github.com/Tajamul21/FATE}.
翻訳日:2024-08-22 18:28:56 公開日:2024-08-21
# 自動データセット構築(ADC):サンプルコレクション、データキュレーションなど

Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond ( http://arxiv.org/abs/2408.11338v1 )

ライセンス: Link先を確認
Minghao Liu, Zonglin Di, Jiaheng Wei, Zhongruo Wang, Hengxiang Zhang, Ruixuan Xiao, Haoyu Wang, Jinlong Pang, Hao Chen, Ankit Shah, Hongxin Wei, Xinlei He, Zhaowei Zhao, Haobo Wang, Lei Feng, Jindong Wang, James Davis, Yang Liu, (参考訳) 大規模データ収集は、パーソナライズされたトレーニングデータの開発、トレーニングデータの不足の軽減、および微調整された特化モデルに不可欠である。 しかしながら、高品質なデータセットを迅速かつ正確に作成することは、アノテーションエラー、人的労働に関連するかなりの時間とコストによる課題である。 これらの問題に対処するために,データセット作成を無視できるコストと高効率で自動化する革新的な手法であるAutomatic Dataset Construction (ADC)を提案する。 画像分類タスクを出発点として、ADCはLLMを活用して詳細なクラス設計とコード生成を行い、関連するサンプルを検索エンジン経由で収集し、手動アノテーションの必要性を大幅に低減し、データ生成プロセスを高速化する。 これらの利点にもかかわらず、ADCはラベルエラー(ラベルノイズ)や不均衡なデータ分散(ラベルバイアス)といった現実的な課題にも直面する。 我々は,ラベル誤り検出,ノイズやバイアスデータによる堅牢な学習,高品質なトレーニングデータ,より堅牢なモデルトレーニング手順などの既存の手法を組み込んだオープンソースソフトウェアを提供する。 さらに、ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。 これらのデータセットは、その重要性にもかかわらず、ラベルノイズ検出専用のデータセットがほとんど存在しないため、不可欠である。 最後に、これらのデータセット上での既存の一般的な手法の性能を評価し、この分野におけるさらなる研究を容易にする。

Large-scale data collection is essential for developing personalized training data, mitigating the shortage of training data, and fine-tuning specialized models. However, creating high-quality datasets quickly and accurately remains a challenge due to annotation errors, the substantial time and costs associated with human labor. To address these issues, we propose Automatic Dataset Construction (ADC), an innovative methodology that automates dataset creation with negligible cost and high efficiency. Taking the image classification task as a starting point, ADC leverages LLMs for the detailed class design and code generation to collect relevant samples via search engines, significantly reducing the need for manual annotation and speeding up the data generation process. Despite these advantages, ADC also encounters real-world challenges such as label errors (label noise) and imbalanced data distributions (label bias). We provide open-source software that incorporates existing methods for label error detection, robust learning under noisy and biased data, ensuring a higher-quality training data and more robust model training procedure. Furthermore, we design three benchmark datasets focused on label noise detection, label noise learning, and class-imbalanced learning. These datasets are vital because there are few existing datasets specifically for label noise detection, despite its importance. Finally, we evaluate the performance of existing popular methods on these datasets, thereby facilitating further research in the field.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# EHL*:超高速ユークリッドパスフィニングのためのメモリ予算インデックス化

EHL*: Memory-Budgeted Indexing for Ultrafast Optimal Euclidean Pathfinding ( http://arxiv.org/abs/2408.11341v1 )

ライセンス: Link先を確認
Jinchun Du, Bojie Shen, Muhammad Aamir Cheema, (参考訳) ユークリッド短経路問題(Euclidean Shortest Path Problem、ESPP)は、多角形障害物を持つユークリッド平面の最も短い経路を見つけることを含む、多くの実世界の応用において古典的な問題である。 現在の最先端ソリューションであるEuclidean Hub Labeling (EHL)は、超高速なクエリパフォーマンスを提供し、実行効率を1~2桁向上させる。 しかし、このパフォーマンスはメモリオーバーヘッドの大きなコストを伴い、大規模なマップ上では最大数十ギガバイトのストレージを必要とするため、携帯電話や小型デバイスのようなメモリ制限のある環境での適用性が制限される可能性がある。 さらに、EHLのメモリ使用量はインデックス構築後にのみ決定でき、メモリ実行時のトレードオフを提供するが、メモリ使用率を完全に最適化するものではない。 本研究では,これらの制限を克服するEHL*と呼ばれる改良版を導入する。 EHL*の重要なコントリビューションは、クエリランタイムのパフォーマンスを最適化しながら、指定されたメモリ予算に準拠したインデックスを作成する機能である。 さらに、EHL*は、多くの実世界のアプリケーションで一般的なシナリオである、既知のクエリ分散を活用して、ランタイム効率をさらに高めることができる。 その結果,ETL*はクエリ実行時の性能に大きな影響を与えることなく,最大10~20倍のメモリ使用量を削減できることがわかった。

The Euclidean Shortest Path Problem (ESPP), which involves finding the shortest path in a Euclidean plane with polygonal obstacles, is a classic problem with numerous real-world applications. The current state-of-the-art solution, Euclidean Hub Labeling (EHL), offers ultra-fast query performance, outperforming existing techniques by 1-2 orders of magnitude in runtime efficiency. However, this performance comes at the cost of significant memory overhead, requiring up to tens of gigabytes of storage on large maps, which can limit its applicability in memory-constrained environments like mobile phones or smaller devices. Additionally, EHL's memory usage can only be determined after index construction, and while it provides a memory-runtime tradeoff, it does not fully optimize memory utilization. In this work, we introduce an improved version of EHL, called EHL*, which overcomes these limitations. A key contribution of EHL* is its ability to create an index that adheres to a specified memory budget while optimizing query runtime performance. Moreover, EHL* can leverage preknown query distributions, a common scenario in many real-world applications to further enhance runtime efficiency. Our results show that EHL* can reduce memory usage by up to 10-20 times without much impact on query runtime performance compared to EHL, making it a highly effective solution for optimal pathfinding in memory-constrained environments.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# 変圧器を用いた医用画像からの臨床環境対応放射線診断レポートの作成

Clinical Context-aware Radiology Report Generation from Medical Images using Transformers ( http://arxiv.org/abs/2408.11344v1 )

ライセンス: Link先を確認
Sonit Singh, (参考訳) 近年の自然言語処理分野、特にトランスフォーマーのような言語モデルの発展は、言語理解と言語生成に最先端の結果をもたらしている。 本研究では,胸部X線から放射能レポートを生成するためのトランスフォーマモデルについて検討する。 また,標準言語生成指標のみを用いて放射線学レポート生成を評価する際の限界も強調する。 次に, 変圧器を用いたラジオグラフィーレポート生成アーキテクチャを適用し, 変圧器を用いた復号器と変圧器による復号器の性能を比較した。 IU-CXRデータセットを用いて実験を行い、LSTMよりも優れた結果を示し、非常に高速であることを示した。 最後に、言語生成指標と分類指標の両方を用いて、放射線学レポート生成システムを評価することの必要性を特定し、その一貫性と診断値の観点から、生成されたレポートの堅牢な測定を行うのに役立つ。

Recent developments in the field of Natural Language Processing, especially language models such as the transformer have brought state-of-the-art results in language understanding and language generation. In this work, we investigate the use of the transformer model for radiology report generation from chest X-rays. We also highlight limitations in evaluating radiology report generation using only the standard language generation metrics. We then applied a transformer based radiology report generation architecture, and also compare the performance of a transformer based decoder with the recurrence based decoder. Experiments were performed using the IU-CXR dataset, showing superior results to its LSTM counterpart and being significantly faster. Finally, we identify the need of evaluating radiology report generation system using both language generation metrics and classification metrics, which helps to provide robust measure of generated reports in terms of their coherence and diagnostic value.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# 日常環境における動的時空間性に関するマルチモーダルデータセットとベンチマーク

Multimodal Datasets and Benchmarks for Reasoning about Dynamic Spatio-Temporality in Everyday Environments ( http://arxiv.org/abs/2408.11347v1 )

ライセンス: Link先を確認
Takanori Ugai, Kensho Hara, Shusaku Egami, Ken Fukuda, (参考訳) 我々は、Embodied AIの開発を支援するために、標準化されたアノテーションを用いた人工ビデオデータを作成するために、3Dシミュレータを使用しました。 質問応答(QA)データセットは、ロボットがホーム環境での人間の行動や環境をどの程度理解できるかを測定する。 予備実験は、私たちのデータセットがAIの日常生活の理解を測定するのに役立つことを示唆している。 \end{abstract}

We used a 3D simulator to create artificial video data with standardized annotations, aiming to aid in the development of Embodied AI. Our question answering (QA) dataset measures the extent to which a robot can understand human behavior and the environment in a home setting. Preliminary experiments suggest our dataset is useful in measuring AI's comprehension of daily life. \end{abstract}
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# 学習ロック:ニューラルネットワークによる多状態粒子フィルタリングのための粒子集合の強化

Learning Flock: Enhancing Sets of Particles for Multi~Sub-State Particle Filtering with Neural Augmentation ( http://arxiv.org/abs/2408.11348v1 )

ライセンス: Link先を確認
Itai Nuri, Nir Shlezinger, (参考訳) 複数のサブ状態を持つ動的システムにおける状態推定のためのアルゴリズムの先導系は、粒子フィルタ(PF)に基づいている。 PFは、多目的追跡(MTT)の場合のように、低レイテンシ要求(粒子数を制限する)で複雑なまたは近似されたモデリング(多くの粒子を必要とする)の下で動作する際にしばしば苦労する。 本研究では,LF(Learning flock)と呼ばれるPFに対するディープニューラルネットワーク(DNN)の拡張について述べる。 LFは、集合のすべての部分粒子間の関係に基づいて、集合の取得手順を無視しながら、フロック(英語版)と呼ばれる粒子重み集合を補正することを学ぶ。 提案するLFは, 異なるPF流に容易に組み込むことができ, 粒子数を削減した精度を維持し, 迅速な運転を容易にするように設計されている。 我々は,教師付きトレーニングと教師なしトレーニングの両方が可能であり,再学習を必要とせず,多数のサブ状態や粒子をサポートするモジュールを提供する専用トレーニングアルゴリズムを導入する。 レーダマルチターゲット追跡におけるLF増強の性能,頑健性,遅延性の向上,およびミスマッチした観測モデルの効果を緩和する能力について実験的に検討した。 我々はまた、最先端のDNN支援PFよりもLFの利点を比較し、実演し、LFが古典的なPFとDNNベースのフィルタの両方を強化することを示す。

A leading family of algorithms for state estimation in dynamic systems with multiple sub-states is based on particle filters (PFs). PFs often struggle when operating under complex or approximated modelling (necessitating many particles) with low latency requirements (limiting the number of particles), as is typically the case in multi target tracking (MTT). In this work, we introduce a deep neural network (DNN) augmentation for PFs termed learning flock (LF). LF learns to correct a particles-weights set, which we coin flock, based on the relationships between all sub-particles in the set itself, while disregarding the set acquisition procedure. Our proposed LF, which can be readily incorporated into different PFs flow, is designed to facilitate rapid operation by maintaining accuracy with a reduced number of particles. We introduce a dedicated training algorithm, allowing both supervised and unsupervised training, and yielding a module that supports a varying number of sub-states and particles without necessitating re-training. We experimentally show the improvements in performance, robustness, and latency of LF augmentation for radar multi-target tracking, as well its ability to mitigate the effect of a mismatched observation modelling. We also compare and illustrate the advantages of LF over a state-of-the-art DNN-aided PF, and demonstrate that LF enhances both classic PFs as well as DNN-based filters.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# 画像スコア:Mercuri検索のための人間の選好の学習と評価

Image Score: Learning and Evaluating Human Preferences for Mercari Search ( http://arxiv.org/abs/2408.11349v1 )

ライセンス: Link先を確認
Chingis Oinar, Miao Cao, Shanshan Fu, (参考訳) Mercariは日本で最大のC2Ceコマースマーケットプレースで、月間アクティブユーザー数は2000万を超えている。 検索は望ましい項目を見つけるための基本的な方法です。 ユーザに最適なサービスを提供するために積極的に活用していますが、画像品質評価のようなタスクに対する暗黙のフィードバックの相関は簡単ではありません。 機械学習(ML)における多くの伝統的な研究の行は、よくラベル付けされたトレーニングデータに対するDeep Learning(DL)モデルの満足できない欲求に動機付けられている。 弱みの監視とは、ラベルのないデータに対して、より高いレベルまたは/またはノイズの多い監視を活用することです。 大規模言語モデル(LLM)は、データラベリングタスクに積極的に研究され、使用されている。 我々は、電子商取引環境における人間の行動とよく相関する画像美学ラベルをLCMが作成できるように、Chain-of-Thought(CoT)を活用する方法について述べる。 LLMの活用は、明示的な人間の判断よりもコスト効率がよい一方で、Mercurariの顧客旅行最適化において非常に重要な、深い画像品質評価の説明可能性を大幅に改善する。 本稿では,電子商取引環境における画像品質の評価と予測のためのコスト効率の高いLCM駆動型アプローチを提案する。 LLMが生成したラベルはMercuri上でのユーザ行動と相関していることを示す。 最後に、オンライン実験の結果を示し、Webプラットフォーム上でのセールスの大幅な増加を達成しました。

Mercari is the largest C2C e-commerce marketplace in Japan, having more than 20 million active monthly users. Search being the fundamental way to discover desired items, we have always had a substantial amount of data with implicit feedback. Although we actively take advantage of that to provide the best service for our users, the correlation of implicit feedback for such tasks as image quality assessment is not trivial. Many traditional lines of research in Machine Learning (ML) are similarly motivated by the insatiable appetite of Deep Learning (DL) models for well-labelled training data. Weak supervision is about leveraging higher-level and/or noisier supervision over unlabeled data. Large Language Models (LLMs) are being actively studied and used for data labelling tasks. We present how we leverage a Chain-of-Thought (CoT) to enable LLM to produce image aesthetics labels that correlate well with human behavior in e-commerce settings. Leveraging LLMs is more cost-effective compared to explicit human judgment, while significantly improving the explainability of deep image quality evaluation which is highly important for customer journey optimization at Mercari. We propose a cost-efficient LLM-driven approach for assessing and predicting image quality in e-commerce settings, which is very convenient for proof-of-concept testing. We show that our LLM-produced labels correlate with user behavior on Mercari. Finally, we show our results from an online experimentation, where we achieved a significant growth in sales on the web platform.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# Vision HgNN: ハイパーノードのハイパーグラフは電子マイクログラフ

Vision HgNN: An Electron-Micrograph is Worth Hypergraph of Hypernodes ( http://arxiv.org/abs/2408.11351v1 )

ライセンス: Link先を確認
Sakhinana Sagar Srinivas, Rajat Kumar Sarkar, Sreeja Gangasani, Venkataramana Runkana, (参考訳) 電子マイクログラフを用いた材料キャラクタリゼーションは、半導体、量子材料、電池など様々な分野の応用において不可欠だが難しい課題である。 電子マイクログラフを分類する際の課題は、パターンの複雑さ、高レベルの詳細、不均衡なデータ分布(ロングテール分布)に限らない。 既存の手法では、電子マイクログラフの複雑な関係構造をモデル化するのは難しいため、異なる空間領域間の複雑な関係を効果的に捉えることができない。 本稿では,電子マイクログラフの複雑な関係をより良くモデル化し,材料特性の精度を向上させるために,概念的に代替的な手法であるハイパーグラフニューラルネットワーク(HgNN)のバックボーンアーキテクチャを提案する。 コスト効率のよいGPUハードウェアを利用することで、提案するフレームワークは一般的なベースラインを上回っます。 アブレーション実験の結果,提案フレームワークはベンチマークデータセット上での最先端性能の実現に有効であり,大規模電子マイクログラフベースのデータセットを扱うための計算およびメモリ要求の観点からも効率的であることが示された。

Material characterization using electron micrographs is a crucial but challenging task with applications in various fields, such as semiconductors, quantum materials, batteries, etc. The challenges in categorizing electron micrographs include but are not limited to the complexity of patterns, high level of detail, and imbalanced data distribution(long-tail distribution). Existing methods have difficulty in modeling the complex relational structure in electron micrographs, hindering their ability to effectively capture the complex relationships between different spatial regions of micrographs. We propose a hypergraph neural network(HgNN) backbone architecture, a conceptually alternative approach, to better model the complex relationships in electron micrographs and improve material characterization accuracy. By utilizing cost-effective GPU hardware, our proposed framework outperforms popular baselines. The results of the ablation studies demonstrate that the proposed framework is effective in achieving state-of-the-art performance on benchmark datasets and efficient in terms of computational and memory requirements for handling large-scale electron micrograph-based datasets.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# マルチタスク幾何学的深層学習を用いたタンパク質-リガンド複合体の一段階構造予測とスクリーニング

One-step Structure Prediction and Screening for Protein-Ligand Complexes using Multi-Task Geometric Deep Learning ( http://arxiv.org/abs/2408.11356v1 )

ライセンス: Link先を確認
Kelei He, Tiejun Dong, Jinhui Wu, Junfeng Zhang, (参考訳) タンパク質-リガンド複合体の構造を理解することは、薬物開発に不可欠である。 既存の仮想構造測定およびスクリーニング手法はドッキングによって支配され、その導出手法はディープラーニングと組み合わせられている。 しかし、サンプリングとスコアリングの手法は精度と効率を大幅に制限している。 ここでは,これらの2つの基本課題を,マルチタスク幾何学的深層学習に基づく単一モデル,すなわちLigPoseに正確に取り組めることを示す。 リガンドとタンパク質対をグラフとして表現することで、LigPoseは結合強度と原子間相互作用を補助的なタスクとして学習し、複合体の3次元構造を直接最適化する。 大規模な実験は、LigPoseが薬物研究における主要なタスクにおいて最先端のパフォーマンスを達成したことを示している。 その大幅な改善は、薬物開発のためのAIベースのパイプラインの有望なパラダイムを示している。

Understanding the structure of the protein-ligand complex is crucial to drug development. Existing virtual structure measurement and screening methods are dominated by docking and its derived methods combined with deep learning. However, the sampling and scoring methodology have largely restricted the accuracy and efficiency. Here, we show that these two fundamental tasks can be accurately tackled with a single model, namely LigPose, based on multi-task geometric deep learning. By representing the ligand and the protein pair as a graph, LigPose directly optimizes the three-dimensional structure of the complex, with the learning of binding strength and atomic interactions as auxiliary tasks, enabling its one-step prediction ability without docking tools. Extensive experiments show LigPose achieved state-of-the-art performance on major tasks in drug research. Its considerable improvements indicate a promising paradigm of AI-based pipeline for drug development.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# HumanCoser:Semantic-Aware Diffusion Modelによる階層型3Dヒューマンジェネレーション

HumanCoser: Layered 3D Human Generation via Semantic-Aware Diffusion Model ( http://arxiv.org/abs/2408.11357v1 )

ライセンス: Link先を確認
Yi Wang, Jian Ma, Ruizhi Shao, Qiao Feng, Yu-kun Lai, Kun Li, (参考訳) 本稿では,テキストプロンプトから物理的に階層化された3D人間を生成することを目的とする。 既存の方法は、全体として3Dの服を着た人間を生成するか、厳密でシンプルな衣服生成のみをサポートするかのいずれかで、仮想試着と部分レベルの編集に制限される。 そこで本研究では, 物理的に分離された拡散モデルに基づく, 実用的で複雑な衣服を用いて, 物理的に階層化された3次元人体生成を実現するために, 階層的に装身した新しい人体表現を提案する。 具体的には,人体から切り離された衣服を生成するための二重表現デカップリングフレームワークを,革新的な多層融合ボリュームレンダリング手法とともに提案する。 そこで本研究では,衣服の自由移動と再利用を可能にするSMPL方式の暗黙的フィールド変形ネットワークを提案する。 広汎な実験により、我々のアプローチは、複雑な衣服を持つ最先端の階層化された3次元人間世代を実現するだけでなく、仮想試着と階層化された人間のアニメーションもサポートすることが示された。

This paper aims to generate physically-layered 3D humans from text prompts. Existing methods either generate 3D clothed humans as a whole or support only tight and simple clothing generation, which limits their applications to virtual try-on and part-level editing. To achieve physically-layered 3D human generation with reusable and complex clothing, we propose a novel layer-wise dressed human representation based on a physically-decoupled diffusion model. Specifically, to achieve layer-wise clothing generation, we propose a dual-representation decoupling framework for generating clothing decoupled from the human body, in conjunction with an innovative multi-layer fusion volume rendering method. To match the clothing with different body shapes, we propose an SMPL-driven implicit field deformation network that enables the free transfer and reuse of clothing. Extensive experiments demonstrate that our approach not only achieves state-of-the-art layered 3D human generation with complex clothing but also supports virtual try-on and layered human animation.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# テキスト・ツー・イメージ・ジェネレーションにおけるジェンダーバイアス評価

Gender Bias Evaluation in Text-to-image Generation: A Survey ( http://arxiv.org/abs/2408.11358v1 )

ライセンス: Link先を確認
Yankun Wu, Yuta Nakashima, Noa Garcia, (参考訳) テキスト・ツー・イメージ・ジェネレーションの急速な発展は、特にジェンダーの偏見に関して、倫理的考察の高まりをもたらした。 テキストプロンプトが入力として与えられると、テキスト・ツー・イメージ・モデルはプロンプトに従って画像を生成する。 安定拡散(Stable Diffusion)やDALL-E 2(DALL-E2)のようなパイオニアモデルでは、自然言語のプロンプトから高忠実度画像を生成する際、顕著な能力を示している。 しかしながら、これらのモデルは「ソフトウェア開発者の写真」のようなプロンプトから人を生成する傾向から研究されるように、しばしばジェンダーバイアスを示す。 これらのモデルの広範な適用とアクセシビリティの向上を考えると、テキスト・ツー・イメージ・ジェネレーションの開発を規制するにはバイアス評価が不可欠である。 画像の品質や忠実度を評価するための確立されたメトリクスとは異なり、バイアスの評価は課題を示し、標準的なアプローチを欠いている。 皮膚のトーンなどの他の要因に関連するバイアスが研究されているが、性別バイアスは依然として最も広く研究されている。 本稿では、テキスト・画像生成におけるジェンダーバイアス評価に関する最近の研究について、バイアス評価設定、バイアス評価指標、発見と傾向について概説する。 BARTのようなSeq2Seqアーキテクチャを応用した拡散モデルであるDALL-E2とCLIPテキスト埋め込みを用いた拡散モデルであるStable DiffusionやDALL-E2といった最近の人気モデルの評価に重点を置いている。 最近の作業を分析し、トレンドを議論することで、今後の作業に対する洞察を提供することを目指している。

The rapid development of text-to-image generation has brought rising ethical considerations, especially regarding gender bias. Given a text prompt as input, text-to-image models generate images according to the prompt. Pioneering models such as Stable Diffusion and DALL-E 2 have demonstrated remarkable capabilities in producing high-fidelity images from natural language prompts. However, these models often exhibit gender bias, as studied by the tendency of generating man from prompts such as "a photo of a software developer". Given the widespread application and increasing accessibility of these models, bias evaluation is crucial for regulating the development of text-to-image generation. Unlike well-established metrics for evaluating image quality or fidelity, the evaluation of bias presents challenges and lacks standard approaches. Although biases related to other factors, such as skin tone, have been explored, gender bias remains the most extensively studied. In this paper, we review recent work on gender bias evaluation in text-to-image generation, involving bias evaluation setup, bias evaluation metrics, and findings and trends. We primarily focus on the evaluation of recent popular models such as Stable Diffusion, a diffusion model operating in the latent space and using CLIP text embedding, and DALL-E 2, a diffusion model leveraging Seq2Seq architectures like BART. By analyzing recent work and discussing trends, we aim to provide insights for future work.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# ハイパーグラフ学習による異常検出・制御・最適化のためのレコメンダシステム

Hypergraph Learning based Recommender System for Anomaly Detection, Control and Optimization ( http://arxiv.org/abs/2408.11359v1 )

ライセンス: Link先を確認
Sakhinana Sagar Srinivas, Rajat Kumar Sarkar, Venkataramana Runkana, (参考訳) 業界における実践的応用において、異常検出は根本的かつ困難な問題である。 現在のアプローチでは、異常検出のための高次元時系列(マルチセンサデータ)において、相互接続されたセンサーのネットワーク内の高次依存関係を無視している。 この目的のために,共同学習のための自己適応型異常検出フレームワークを提案する。 (a)離散ハイパーグラフ構造及び b) 階層型エンコーダデコーダアーキテクチャを用いて, 相互依存センサ間の時間的傾向と空間的関係をモデル化し, 課題を克服した。 ハイパーグラフ表現学習ベースのフレームワークは、ハイパーグラフ構造データ中の関係帰納バイアスを利用して、自己教師付き自己回帰タスクを通じてポイントワイズ単一ステップ先進予測を学習し、予測誤差に基づいて異常を予測する。 さらに,本フレームワークは,異常診断オントロジーを識別可能なアプローチで学習する。 ルート原因分析のための異常情報伝播に基づく計算ハイパーグラフを導出し、異常を治療するためのオフラインで最適な予測制御ポリシを通じて推奨する。 我々は,提案手法をベンチマークデータセット上で評価するために,一般的なベースラインと比較し,公平かつ厳密な比較を行う。 提案手法はベースラインモデルより優れ,SOTA性能を実現する。 本稿では,フレームワークの有効性を支えるためのアブレーション研究について報告する。

Anomaly detection is fundamental yet, challenging problem with practical applications in industry. The current approaches neglect the higher-order dependencies within the networks of interconnected sensors in the high-dimensional time series(multisensor data) for anomaly detection. To this end, we present a self-adapting anomaly detection framework for joint learning of (a) discrete hypergraph structure and (b) modeling the temporal trends and spatial relations among the interdependent sensors using the hierarchical encoder-decoder architecture to overcome the challenges. The hypergraph representation learning-based framework exploits the relational inductive biases in the hypergraph-structured data to learn the pointwise single-step-ahead forecasts through the self-supervised autoregressive task and predicts the anomalies based on the forecast error. Furthermore, our framework incentivizes learning the anomaly-diagnosis ontology through a differentiable approach. It derives the anomaly information propagation-based computational hypergraphs for root cause analysis and provides recommendations through an offline, optimal predictive control policy to remedy an anomaly. We conduct extensive experiments to evaluate the proposed method on the benchmark datasets for fair and rigorous comparison with the popular baselines. The proposed method outperforms the baseline models and achieves SOTA performance. We report the ablation studies to support the efficacy of the framework.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# タンパク質GPT : タンパク質特性予測と構造理解のためのマルチモーダルLCM

ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding ( http://arxiv.org/abs/2408.11363v1 )

ライセンス: Link先を確認
Yijia Xiao, Edward Sun, Yiqiao Jin, Qifan Wang, Wei Wang, (参考訳) 生物学的プロセス、薬物開発、バイオテクノロジーの進歩を理解するには、タンパク質の構造や配列を詳細に分析する必要がある。 このプロセスを合理化するために,タンパク質配列や構造をアップロードして,包括的なタンパク質分析や応答性問い合わせを行う,最先端のマルチモーダルタンパク質チャットシステムであるProteinGPTを導入する。 タンパク質GPTは、タンパク質配列と構造エンコーダを線形射影層とシームレスに統合し、表現適応を正確にし、大きな言語モデル(LLM)と組み合わせて、正確で文脈的に関係のある応答を生成する。 タンパク質GPTをトレーニングするために,アノテーション付き132,092タンパク質の大規模データセットを構築し,GPT-4oを用いた命令調整プロセスを最適化する。 この革新的なシステムは、ユーザがアップロードしたデータとプロンプトの正確なアライメントを保証し、タンパク質分析を簡素化する。 実験により、タンパク質GPTはタンパク質とその対応する質問に対する有望な応答を生成できることが示された。

Understanding biological processes, drug development, and biotechnological advancements requires detailed analysis of protein structures and sequences, a task in protein research that is inherently complex and time-consuming when performed manually. To streamline this process, we introduce ProteinGPT, a state-of-the-art multi-modal protein chat system, that allows users to upload protein sequences and/or structures for comprehensive protein analysis and responsive inquiries. ProteinGPT seamlessly integrates protein sequence and structure encoders with linear projection layers for precise representation adaptation, coupled with a large language model (LLM) to generate accurate and contextually relevant responses. To train ProteinGPT, we construct a large-scale dataset of 132,092 proteins with annotations, and optimize the instruction-tuning process using GPT-4o. This innovative system ensures accurate alignment between the user-uploaded data and prompts, simplifying protein analysis. Experiments show that ProteinGPT can produce promising responses to proteins and their corresponding questions.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# 画像反法医学研究の現状と動向:文献分析

Current Status and Trends in Image Anti-Forensics Research: A Bibliometric Analysis ( http://arxiv.org/abs/2408.11365v1 )

ライセンス: Link先を確認
Yihong Lu, Jianyi Liu, Ru Zhang, (参考訳) Image Anti-forensicsは、画像プライバシーとセキュリティ研究の分野で重要なトピックである。 画像中の人間の顔の操作や生成の容易さが増すにつれ、こうした偽造画像の潜在的な誤用が懸念される。 本研究の目的は,Web of Science Core Collection (WoSCC) データベースの出版物を解析し,画像の反鑑定に関する知識構造とホットスポットの研究を包括的にレビューすることである。 VOSViewerソフトウェアを用いた文献分析では、研究動向、主要な研究機関、最も影響力のある出版物、トップパブリッシング会場、そしてこの分野の最もアクティブなコントリビュータが明らかにされている。 これは、画像法医学における研究動向と進展を要約した初めての総合的文献計測研究である。 この情報は、画像の反法医学における将来の研究の参考として、最近および主要な研究の方向性を強調している。

Image anti-forensics is a critical topic in the field of image privacy and security research. With the increasing ease of manipulating or generating human faces in images, the potential misuse of such forged images is a growing concern. This study aims to comprehensively review the knowledge structure and research hotspots related to image anti-forensics by analyzing publications in the Web of Science Core Collection (WoSCC) database. The bibliometric analysis conducted using VOSViewer software has revealed the research trends, major research institutions, most influential publications, top publishing venues, and most active contributors in this field. This is the first comprehensive bibliometric study summarizing research trends and developments in image anti-forensics. The information highlights recent and primary research directions, serving as a reference for future research in image anti-forensics.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# GeoReasoner: 自然言語理解のための地理的に接地された文脈に基づく推論

GeoReasoner: Reasoning On Geospatially Grounded Context For Natural Language Understanding ( http://arxiv.org/abs/2408.11366v1 )

ライセンス: Link先を確認
Yibo Yan, Joey Lee, (参考訳) 人間の読書やコミュニケーションにおいて、個人は地理的実体を認識し、相互関係について情報的推論を行う地理空間的推論を行う傾向がある。 このような認知過程を模倣するために、現在の手法は従来の自然言語理解ツールキットを利用するか、またはジオ関連自然言語コーパスで事前訓練されたモデルを直接適用する。 しかし、これらの手法は2つの大きな課題に直面している。 一 未確認の地理空間シナリオによく当てはまらないこと。 二 地理データベースから地理情報とインターネットからの言語情報を統合することの重要性を軽視すること。 これらの課題に対処するために,ジオレゾナー(GeoReasoner)を提案する。 具体的には、まずLarge Language Models (LLM)を活用して、言語情報と地理空間情報に基づく総合的な位置記述を生成する。 また、方向と距離の情報を擬似文として扱うことで空間埋め込みに符号化する。 その結果、モデルがアンカーレベルと隣接レベルの両方の入力に基づいてトレーニングされ、ジオエンタリティ表現が学習される。 大規模な実験結果から,GeoReasonerの3つの課題 – トポノニム認識,トポノニムリンク,ジオエンタリティタイピング – が,最先端のベースラインに比べて優れていることが示された。

In human reading and communication, individuals tend to engage in geospatial reasoning, which involves recognizing geographic entities and making informed inferences about their interrelationships. To mimic such cognitive process, current methods either utilize conventional natural language understanding toolkits, or directly apply models pretrained on geo-related natural language corpora. However, these methods face two significant challenges: i) they do not generalize well to unseen geospatial scenarios, and ii) they overlook the importance of integrating geospatial context from geographical databases with linguistic information from the Internet. To handle these challenges, we propose GeoReasoner, a language model capable of reasoning on geospatially grounded natural language. Specifically, it first leverages Large Language Models (LLMs) to generate a comprehensive location description based on linguistic and geospatial information. It also encodes direction and distance information into spatial embedding via treating them as pseudo-sentences. Consequently, the model is trained on both anchor-level and neighbor-level inputs to learn geo-entity representation. Extensive experimental results demonstrate GeoReasoner's superiority in three tasks: toponym recognition, toponym linking, and geo-entity typing, compared to the state-of-the-art baselines.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# ニューロシンボリック推論と緩和を用いた確率的帰納的論理プログラミングに向けて

Towards Probabilistic Inductive Logic Programming with Neurosymbolic Inference and Relaxation ( http://arxiv.org/abs/2408.11367v1 )

ライセンス: Link先を確認
Fieke Hillerstrom, Gertjan Burghouts, (参考訳) 多くの帰納的論理プログラミング(ILP)手法は、確率的背景知識(例えば、知覚データや確率を持つニューラルネットワーク)からプログラムを学ぶことができない。 ニューロシンボリック推論、仮説選択のための連続基準(BCE)、仮説制約の緩和(NoisyCombo)を組み合わせてIPPを拡張することで、欠陥や確率的背景知識を扱うPropperを提案する。 ノイズの多いイメージのリレーショナルパターンでは、Propperは8つの例からプログラムを学ぶことができる。 グラフニューラルネットワークのようなバイナリILPや統計モデルよりも優れています。

Many inductive logic programming (ILP) methods are incapable of learning programs from probabilistic background knowledge, e.g. coming from sensory data or neural networks with probabilities. We propose Propper, which handles flawed and probabilistic background knowledge by extending ILP with a combination of neurosymbolic inference, a continuous criterion for hypothesis selection (BCE) and a relaxation of the hypothesis constrainer (NoisyCombo). For relational patterns in noisy images, Propper can learn programs from as few as 8 examples. It outperforms binary ILP and statistical models such as a Graph Neural Network.
翻訳日:2024-08-22 18:19:12 公開日:2024-08-21
# 参照分布学習によるグラフ分類:理論と実践

Graph Classification via Reference Distribution Learning: Theory and Practice ( http://arxiv.org/abs/2408.11370v1 )

ライセンス: Link先を確認
Zixiao Wang, Jicong Fan, (参考訳) グラフ分類は、グラフ間の類似性を定量化することやグラフをベクトルとして表現することの難しさから難しい問題であるが、グラフカーネルやグラフニューラルネットワーク(GNN)を使った方法がいくつかある。 グラフカーネルは計算コストや手動機能エンジニアリングに悩まされることが多いが、GNNはグローバルプール操作を一般的に利用しており、構造情報やセマンティック情報の喪失を危惧している。 グラフ参照分布学習(GRDL, Graph Reference Distribution Learning)は, グラフの効率的な分類法である。 GRDLは、GNN層が与える各グラフの潜在ノード埋め込みを離散分布として扱い、適応的に学習された参照分布に対する最大平均差に基づいて、グローバルプールなしで直接分類できる。 この新しいモデル(既存の理論は適用できない)を十分に理解し、その構成(例えば、ネットワークアーキテクチャ、参照のサイズ、数、正規化)を実践するために導くため、GRDLの一般化誤差境界を導出し、数値的に検証する。 さらに,我々の理論的および数値的な結果は,GRDLがグローバルプール操作を持つGNNよりも強力な一般化能力を有することを示している。 中規模および大規模グラフデータセットの実験では、GRDLが最先端のグラフよりも優れていることが示され、その顕著な効率を強調し、トレーニングと推論の段階で上位の競合より少なくとも10倍高速である。

Graph classification is a challenging problem owing to the difficulty in quantifying the similarity between graphs or representing graphs as vectors, though there have been a few methods using graph kernels or graph neural networks (GNNs). Graph kernels often suffer from computational costs and manual feature engineering, while GNNs commonly utilize global pooling operations, risking the loss of structural or semantic information. This work introduces Graph Reference Distribution Learning (GRDL), an efficient and accurate graph classification method. GRDL treats each graph's latent node embeddings given by GNN layers as a discrete distribution, enabling direct classification without global pooling, based on maximum mean discrepancy to adaptively learned reference distributions. To fully understand this new model (the existing theories do not apply) and guide its configuration (e.g., network architecture, references' sizes, number, and regularization) for practical use, we derive generalization error bounds for GRDL and verify them numerically. More importantly, our theoretical and numerical results both show that GRDL has a stronger generalization ability than GNNs with global pooling operations. Experiments on moderate-scale and large-scale graph datasets show the superiority of GRDL over the state-of-the-art, emphasizing its remarkable efficiency, being at least 10 times faster than leading competitors in both training and inference stages.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# 確率的解集合プログラミングによる決定理論問題の解法

Solving Decision Theory Problems with Probabilistic Answer Set Programming ( http://arxiv.org/abs/2408.11371v1 )

ライセンス: Link先を確認
Damiano Azzolini, Elena Bellodi, Rafael Kiesel, Fabrizio Riguzzi, (参考訳) 決定論の問題を解決するには、通常、期待される報酬を最適化し、おそらく環境の不確実性を考慮する一連の行動を見つける必要がある。 本稿では,確率的アンサーセットプログラミングによる決定理論問題を,決定原子とユーティリティ属性を介し,クレダル意味論の下で符号化する可能性について紹介する。 この課題を解決するために,代数的モデルカウントの3つの層に基づくアルゴリズムを提案する。 実験の結果,本アルゴリズムはプログラムの非自明なインスタンスを妥当な時間で管理できることがわかった。 論理プログラミングの理論と実践(TPLP)

Solving a decision theory problem usually involves finding the actions, among a set of possible ones, which optimize the expected reward, possibly accounting for the uncertainty of the environment. In this paper, we introduce the possibility to encode decision theory problems with Probabilistic Answer Set Programming under the credal semantics via decision atoms and utility attributes. To solve the task we propose an algorithm based on three layers of Algebraic Model Counting, that we test on several synthetic datasets against an algorithm that adopts answer set enumeration. Empirical results show that our algorithm can manage non trivial instances of programs in a reasonable amount of time. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# 効率的なマルチビヘイビアシークエンシャルレコメンデーションのための事前学習とカスタマイズ型プロンプト学習

Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation ( http://arxiv.org/abs/2408.11372v1 )

ライセンス: Link先を確認
Hao Wang, Yongqiang Han, Kefan Wang, Kai Cheng, Zhen Wang, Wei Guo, Yong Liu, Defu Lian, Enhong Chen, (参考訳) レコメンデーションシステムの領域では、ユーザーはアイテムと対話する際に様々な行動を示す。 この現象は、レコメンデーションパフォーマンスを高めるためにこれらの行動間の暗黙的な意味関係を学習する研究を刺激した。 しかし、これらの手法は高い計算複雑性を必要とすることが多い。 効率性に関する懸念に対処するために、事前学習は実行可能な解決策を提供する。 その目的は、広範囲な事前学習データから知識を抽出し、下流タスクのモデルを微調整することである。 それにもかかわらず、従来の事前学習手法は主に単一行動データに焦点を合わせており、マルチ行動データには大きなノイズが含まれている。 さらに、これらの手法で採用される完全な微調整戦略は、依然としてかなりの計算負担を課している。 この課題に対して、我々は、マルチビヘイビアシークエンシャルレコメンデーションに適した、最初の事前学習および即時学習パラダイムであるDPCPLを提案する。 具体的には、事前学習の段階では、複数の時間スケールでノイズをフィルタリングするために、新しい効率的な行動マイナー(EBM)を提案し、それによって複数の行動列の文脈意味論の理解を容易にする。 次に,事前学習モデルの有効性を効果的に活用するためのパーソナライズ,プログレッシブ,多様なプロンプトを生成するCustomized Prompt Learning (CPL)モジュールを提案する。 3つの実世界のデータセットに対する大規模な実験は、DPCPLが高い効率と有効性を示すだけでなく、パラメータ調整が最小限であるだけでなく、さまざまな下流タスクにおける最先端のパフォーマンスを超越することを示した。

In the realm of recommendation systems, users exhibit a diverse array of behaviors when interacting with items. This phenomenon has spurred research into learning the implicit semantic relationships between these behaviors to enhance recommendation performance. However, these methods often entail high computational complexity. To address concerns regarding efficiency, pre-training presents a viable solution. Its objective is to extract knowledge from extensive pre-training data and fine-tune the model for downstream tasks. Nevertheless, previous pre-training methods have primarily focused on single-behavior data, while multi-behavior data contains significant noise. Additionally, the fully fine-tuning strategy adopted by these methods still imposes a considerable computational burden. In response to this challenge, we propose DPCPL, the first pre-training and prompt-tuning paradigm tailored for Multi-Behavior Sequential Recommendation. Specifically, in the pre-training stage, we commence by proposing a novel Efficient Behavior Miner (EBM) to filter out the noise at multiple time scales, thereby facilitating the comprehension of the contextual semantics of multi-behavior sequences. Subsequently, we propose to tune the pre-trained model in a highly efficient manner with the proposed Customized Prompt Learning (CPL) module, which generates personalized, progressive, and diverse prompts to fully exploit the potential of the pre-trained model effectively. Extensive experiments on three real-world datasets have unequivocally demonstrated that DPCPL not only exhibits high efficiency and effectiveness, requiring minimal parameter adjustments but also surpasses the state-of-the-art performance across a diverse range of downstream tasks.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# 継続的学習と機械アンラーニングのための統一フレームワーク

A Unified Framework for Continual Learning and Machine Unlearning ( http://arxiv.org/abs/2408.11374v1 )

ライセンス: Link先を確認
Romit Chatterjee, Vikram Chundawat, Ayush Tarun, Ankur Mali, Murari Mandal, (参考訳) 継続的学習と機械学習は機械学習において重要な課題であり、通常は別々に対処される。 継続的な学習は、過去の情報を保存しながら新しい知識に適応することに焦点を当て、一方アンラーニングは、データの特定のサブセットを選択的に忘れることを含む。 本稿では, 制御された知識蒸留を利用して, 両課題に共同で取り組む新しい枠組みを提案する。 我々のアプローチは、最小限の忘れ込みと効果的な標的未学習で効率的な学習を可能にする。 固定メモリバッファを組み込むことで、システムは事前の知識を維持しながら新しい概念を学ぶことができる。 蒸留プロセスは、新しい情報を取得することと、必要に応じて特定のデータを忘れることとのバランスを確保するために慎重に管理される。 ベンチマークデータセットによる実験結果から,本手法は継続学習と機械学習の両方において,既存の手法の性能と一致しているか,上回っていることがわかった。 この統合されたフレームワークは、両方の課題を同時に解決する最初のものである。

Continual learning and machine unlearning are crucial challenges in machine learning, typically addressed separately. Continual learning focuses on adapting to new knowledge while preserving past information, whereas unlearning involves selectively forgetting specific subsets of data. In this paper, we introduce a novel framework that jointly tackles both tasks by leveraging controlled knowledge distillation. Our approach enables efficient learning with minimal forgetting and effective targeted unlearning. By incorporating a fixed memory buffer, the system supports learning new concepts while retaining prior knowledge. The distillation process is carefully managed to ensure a balance between acquiring new information and forgetting specific data as needed. Experimental results on benchmark datasets show that our method matches or exceeds the performance of existing approaches in both continual learning and machine unlearning. This unified framework is the first to address both challenges simultaneously, paving the way for adaptable models capable of dynamic learning and forgetting while maintaining strong overall performance.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# 全方位カメラと複数視野言語モデルを用いた反射型開語彙ナビゲーション

Reflex-Based Open-Vocabulary Navigation without Prior Knowledge Using Omnidirectional Camera and Multiple Vision-Language Models ( http://arxiv.org/abs/2408.11380v1 )

ライセンス: Link先を確認
Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Naoto Tsukamoto, Kei Okada, Masayuki Inaba, (参考訳) 各種のロボットナビゲーション手法が開発されているが、主に地図作成や学習を必要とするSLAM、強化学習等をベースとしている。 本研究では,地図構築や学習を一切必要としない最も単純な手法を考察し,それを行うための事前の知識を必要とせずに,ロボットのオープン語彙ナビゲーションを行う。 ロボットに全方向カメラと事前学習された視覚言語モデルを適用した。 全方位カメラは周囲の均一な視界を提供するため、軌道生成を含む複雑な探索行動は不要である。 複数の事前学習された視覚言語モデルをこの全方位画像に適用し、反射的な振る舞いを取り入れることで、ナビゲーションがシンプルになり、事前設定を必要としないことを示す。 移動ロボットFetchの実験に基づいて,本手法の興味深い特性と限界について考察した。

Various robot navigation methods have been developed, but they are mainly based on Simultaneous Localization and Mapping (SLAM), reinforcement learning, etc., which require prior map construction or learning. In this study, we consider the simplest method that does not require any map construction or learning, and execute open-vocabulary navigation of robots without any prior knowledge to do this. We applied an omnidirectional camera and pre-trained vision-language models to the robot. The omnidirectional camera provides a uniform view of the surroundings, thus eliminating the need for complicated exploratory behaviors including trajectory generation. By applying multiple pre-trained vision-language models to this omnidirectional image and incorporating reflective behaviors, we show that navigation becomes simple and does not require any prior setup. Interesting properties and limitations of our method are discussed based on experiments with the mobile robot Fetch.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# RAGLAB:Retrieval-Augmented Generationのためのモジュール型で研究指向の統一フレームワーク

RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation ( http://arxiv.org/abs/2408.11381v1 )

ライセンス: Link先を確認
Xuanwang Zhang, Yunze Song, Yidong Wang, Shuyun Tang, Xinfeng Li, Zhengran Zeng, Zhen Wu, Wei Ye, Wenyuan Xu, Yue Zhang, Xinyu Dai, Shikun Zhang, Qingsong Wen, (参考訳) 大きな言語モデル(LLM)は対話、推論、知識保持における人間レベルの能力を示す。 しかし、最も先進的なLLMでさえ、幻覚やその知識のリアルタイム更新といった課題に直面している。 現在の研究では、LLMに外部知識(Retrieval Augmented Generation (RAG)と呼ばれる技術)を組み込むことによって、このボトルネックに対処している。 しかし、2つの重要な問題がRAGの開発を制約した。 第一に、新しいRAGアルゴリズム間の包括的および公正な比較の欠如が増している。 第2に,LlamaIndexやLangChainといったオープンソースツールでは,高レベルの抽象化が採用されているため,透明性の欠如や,新たなアルゴリズムや評価指標の開発能力の制限が実現している。 このギャップを埋めるために、モジュール的で研究指向のオープンソースライブラリであるRAGLABを紹介します。 RAGLABは既存の6つのアルゴリズムを再現し、RAGアルゴリズムを調査するための包括的なエコシステムを提供する。 RAGLABを利用して、10ベンチマークで6つのRAGアルゴリズムを公正に比較する。 RAGLABでは、様々なアルゴリズムの性能を効率よく比較し、新しいアルゴリズムを開発することができる。

Large Language Models (LLMs) demonstrate human-level capabilities in dialogue, reasoning, and knowledge retention. However, even the most advanced LLMs face challenges such as hallucinations and real-time updating of their knowledge. Current research addresses this bottleneck by equipping LLMs with external knowledge, a technique known as Retrieval Augmented Generation (RAG). However, two key issues constrained the development of RAG. First, there is a growing lack of comprehensive and fair comparisons between novel RAG algorithms. Second, open-source tools such as LlamaIndex and LangChain employ high-level abstractions, which results in a lack of transparency and limits the ability to develop novel algorithms and evaluation metrics. To close this gap, we introduce RAGLAB, a modular and research-oriented open-source library. RAGLAB reproduces 6 existing algorithms and provides a comprehensive ecosystem for investigating RAG algorithms. Leveraging RAGLAB, we conduct a fair comparison of 6 RAG algorithms across 10 benchmarks. With RAGLAB, researchers can efficiently compare the performance of various algorithms and develop novel algorithms.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# 多言語ニューラルマシン翻訳モデルにおける位置埋め込みの交換性について

On the Interchangeability of Positional Embeddings in Multilingual Neural Machine Translation Models ( http://arxiv.org/abs/2408.11382v1 )

ライセンス: Link先を確認
Varun Gumma, Pranjal A. Chitale, Kalika Bali, (参考訳) 標準ニューラルネットワーク翻訳(NMT)モデルは伝統的に、長距離依存を捉えるのに不十分で、長文や文書レベルの翻訳には不効率な正弦波位置埋め込み(PE)を用いて訓練されてきた。 対照的に、最先端の大規模言語モデル(LLM)は相対的なPEを採用し、より優れた長さの一般化を示す。 本研究では,NMTモデルの位置埋め込みを絶対正弦波PEからRoPEやALiBiなどの相対的アプローチに効率的に切り替える可能性を探る。 以上の結果より, 副鼻腔PEをロPEとALiBiに置き換えることにより, 少ない品質データで微調整を行うことにより, 性能損失を低減できることがわかった。 さらに、位置埋め込み(NoPE)を使わずにトレーニングされたモデルは、エンコーダ・デコーダアーキテクチャーにとって実行可能なソリューションではない。 さらに、これらの相対的なPEをスクラッチからトレーニングしたモデルでさえ、微調整されたモデルにわずかに劣り、仮説の有効性と妥当性を裏付ける。

Standard Neural Machine Translation (NMT) models have traditionally been trained with Sinusoidal Positional Embeddings (PEs), which are inadequate for capturing long-range dependencies and are inefficient for long-context or document-level translation. In contrast, state-of-the-art large language models (LLMs) employ relative PEs, demonstrating superior length generalization. This work explores the potential for efficiently switching the Positional Embeddings of pre-trained NMT models from absolute sinusoidal PEs to relative approaches such as RoPE and ALiBi. Our findings reveal that sinusoidal PEs can be effectively replaced with RoPE and ALiBi with negligible or no performance loss, achieved by fine-tuning on a small fraction of high-quality data. Additionally, models trained without Positional Embeddings (NoPE) are not a viable solution for Encoder-Decoder architectures, as they consistently under-perform compared to models utilizing any form of Positional Embedding. Furthermore, even a model trained from scratch with these relative PEs slightly under-performs a fine-tuned model, underscoring the efficiency and validity of our hypothesis.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# 地球観測のためのデータ中心機械学習:必要十分かつ十分な特徴

Data-Centric Machine Learning for Earth Observation: Necessary and Sufficient Features ( http://arxiv.org/abs/2408.11384v1 )

ライセンス: Link先を確認
Hiba Najjar, Marlon Nuske, Andreas Dengel, (参考訳) 複数のモーダルにおける時空間データの可用性は、機械学習モデルの性能を高めるために広く活用されている。 適切なモデルアーキテクチャの設計への取り組みは飽和のレベルに近づいているが、データ中心の観点から考えると、データ利用効率とモデル一般化能力のさらなる向上を達成するためにこれらの取り組みを補完することができる。 この作品は、この方向性に寄与する。 モデル記述法を利用して、モデルが最適な性能に達するために必要な特徴と、この性能を達成するのに十分な最小の特徴を識別する。 我々は3つの時間的マルチモーダルな地理空間データセットに対するアプローチを評価し、複数のモデル説明手法を比較した。 以上の結果から,あるデータセットは時間的インスタンスの20%未満で最適な精度に到達でき,一方,他のデータセットでは単一帯域の時系列化が十分であることがわかった。

The availability of temporal geospatial data in multiple modalities has been extensively leveraged to enhance the performance of machine learning models. While efforts on the design of adequate model architectures are approaching a level of saturation, focusing on a data-centric perspective can complement these efforts to achieve further enhancements in data usage efficiency and model generalization capacities. This work contributes to this direction. We leverage model explanation methods to identify the features crucial for the model to reach optimal performance and the smallest set of features sufficient to achieve this performance. We evaluate our approach on three temporal multimodal geospatial datasets and compare multiple model explanation techniques. Our results reveal that some datasets can reach their optimal accuracy with less than 20% of the temporal instances, while in other datasets, the time series of a single band from a single modality is sufficient.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# 持続可能なコンプライアンスを解き放つ:EUのビジネスプロセス管理の分類を特徴づける

Unlocking Sustainability Compliance: Characterizing the EU Taxonomy for Business Process Management ( http://arxiv.org/abs/2408.11386v1 )

ライセンス: Link先を確認
Finn Klessascheck, Stephan A. Fahrenkrog-Petersen, Jan Mendling, Luise Pufahl, (参考訳) 持続可能なビジネス慣行を推進し、2050年までに気候中立を達成するため、EUは持続可能な活動の分類法を開発し、それが持続可能なビジネス慣行と正確にみなすことができるかを記述した。 分類が最近定着したのはごく最近だが、今後ますます多くの企業が、持続的に実行されたビジネスプロセスを通じて、収益のどれだけが生み出されたかを報告しなければならない。 企業において, プロセスが分類基準に規定された制約に適合するかどうかを評価するために, これらの基準がどの程度データ駆動方式で, ビジネスプロセス実行が規制制約に適合しているかを評価することができるかを検討する。 そこで我々は,LLMの助けを借りて分類学の制約を特徴付ける,数発の学習パイプラインを開発した。 分類学の制約の多くは、特にエネルギー、製造、輸送の分野において、適合性チェックに利用できる。 これにより、企業は、分類に関する規制の遵守を自動で監視し、どのような情報を抽出する必要があるのかを特徴付けるとともに、そのような評価が実現可能で、どこがそうでないのかをよりよく理解することが可能になる。

To promote sustainable business practices, and to achieve climate neutrality by 2050, the EU has developed the taxonomy of sustainable activities, which describes when exactly business practices can be considered sustainable. While the taxonomy has only been recently established, progressively more companies will have to report how much of their revenue was created via sustainably executed business processes. To help companies prepare to assess whether their business processes comply with the constraints outlined in the taxonomy, we investigate in how far these criteria can be used for conformance checking, that is, assessing in a data-driven manner, whether business process executions adhere to regulatory constraints. For this, we develop a few-shot learning pipeline to characterize the constraints of the taxonomy with the help of an LLM as to the process dimensions they relate to. We find that many constraints of the taxonomy are useable for conformance checking, particularly in the sectors of energy, manufacturing, and transport. This will aid companies in preparing to monitor regulatory compliance with the taxonomy automatically, by characterizing what kind of information they need to extract, and by providing a better understanding of sectors where such an assessment is feasible and where it is not.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# カーネルヒルベルト空間の再現における準局所化されたデュアルペアについて

On Quasi-Localized Dual Pairs in Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2408.11389v1 )

ライセンス: Link先を確認
Helmut Harbrecht, Rüdiger Kempf, Michael Multerer, (参考訳) 散乱データ近似では、選択されたラジアル基底関数の有限個の変換のスパンを近似空間として、その近似を表現するために変換の基底を用いる。 しかし、この自然選択は必ずしも必須ではなく、例えばラグランジュ基底のような異なる選択は可能であり、追加の機能を提供するかもしれない。 本稿では,その正準双対と異なる選択肢について論じる。 本研究では, ラグランジュ基底の局所化バージョン, ニュートン基底などの局所化直交基底, 多分解能版について, 試料を用いて構築した。 直交基底の選択は対称プレコンディショナーにつながるため特に有用である。 検討中のすべてのベースを数値的に比較して,分散データ近似の可能性を示す。 2つの空間次元でベンチマーク実験を行い、暗黙の面の再構成をコンピュータグラフィックスの応用として検討する。

In scattered data approximation, the span of a finite number of translates of a chosen radial basis function is used as approximation space and the basis of translates is used for representing the approximate. However, this natural choice is by no means mandatory and different choices, like, for example, the Lagrange basis, are possible and might offer additional features. In this article, we discuss different alternatives together with their canonical duals. We study a localized version of the Lagrange basis, localized orthogonal bases, such as the Newton basis, and multiresolution versions thereof, constructed by means of samplets. We argue that the choice of orthogonal bases is particularly useful as they lead to symmetric preconditioners. All bases under consideration are compared numerically to illustrate their feasibility for scattered data approximation. We provide benchmark experiments in two spatial dimensions and consider the reconstruction of an implicit surface as a relevant application from computer graphics.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# エレガントなベルの不等式の設計

Designing elegant Bell inequalities ( http://arxiv.org/abs/2408.11391v1 )

ライセンス: Link先を確認
Kwangil Bae, Junghee Ryu, Ilkwon Sohn, Wonhyuk Lee, (参考訳) エレガントベルの不等式(Elegant Bell inequality)は、その非常に悪用された性質で知られており、最大絡み合い、相互に偏りのない基底、対称的に完備な正の作用素値測度要素によって極大に違反している。 これまでに知られている唯一の財産である。 本稿では, 単純解析量子境界から高次元のベル不等式に類似した違反特徴を持つベル不等式を構築する方法を提案する。 そのような特徴を持つベルの不等式は、初めて3次元で導出される。 既存のベルの不等式よりも大きな違反を示すと同時に、測定回数も比較的少ない。

Elegant Bell inequality is well known for its much exploited property, being maximally violated by maximal entanglement, mutually unbiased bases, and symmetric informationally complete positive operator-valued measure elements. It is the only one with such property known so far. We present a method to construct Bell inequalities with violation feature analogous to original elegant Bell inequality in high dimension from a simple analytic quantum bound. A Bell inequality with such feature is derived in three dimension for the first time. It shows larger violation than existing Bell inequalities of similar classes while requiring arguably small number of measurements.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# バイオメトリック品質評価のための公正度尺度

Fairness measures for biometric quality assessment ( http://arxiv.org/abs/2408.11392v1 )

ライセンス: Link先を確認
André Dörsch, Torsten Schlett, Peter Munch, Christian Rathgeb, Christoph Busch, (参考訳) 品質評価アルゴリズムは、捕獲されたバイオメトリック標本の品質を測定する。 サンプルの品質は生体認証システムの認識性能に強く影響するため,十分な品質のサンプルのみを処理し,低品質のサンプルを廃棄することが不可欠である。 品質評価アルゴリズムは、人口集団間で非常に異なる品質スコアをもたらすことを意図してはいないが、品質スコアの相違は可能であり、その結果、廃棄率が異なる。 サンプル品質を評価する際に、品質評価アルゴリズムが人口動態特性を考慮していないこと、その結果、品質評価アルゴリズムが全ての個人に対して等しく機能することを保証するためには、公正度尺度を開発することが不可欠である。 本研究は、人口統計群間で品質成分を評価するための複数の公正度尺度を提案し、比較する。 提案された措置は、この重要な分野における今後の標準の候補として使われる可能性がある。

Quality assessment algorithms measure the quality of a captured biometric sample. Since the sample quality strongly affects the recognition performance of a biometric system, it is essential to only process samples of sufficient quality and discard samples of low-quality. Even though quality assessment algorithms are not intended to yield very different quality scores across demographic groups, quality score discrepancies are possible, resulting in different discard ratios. To ensure that quality assessment algorithms do not take demographic characteristics into account when assessing sample quality and consequently to ensure that the quality algorithms perform equally for all individuals, it is crucial to develop a fairness measure. In this work we propose and compare multiple fairness measures for evaluating quality components across demographic groups. Proposed measures, could be used as potential candidates for an upcoming standard in this important field.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# 第一のアクティベーションは:大規模言語モデルにおける動的アクティベーションのためのトレーニング不要な方法

First Activations Matter: Training-Free Methods for Dynamic Activation in Large Language Models ( http://arxiv.org/abs/2408.11393v1 )

ライセンス: Link先を確認
Chi Ma, Mincong Huang, Ying Zhang, Chao Wang, Yujie Wang, Lei Yu, Chuan Liu, Wei Lin, (参考訳) DejaVuやMoEficationのような動的アクティベーション(DA)技術は、大きな言語モデル(LLM)の推論効率を大幅に向上させる可能性を示している。 しかし、これらのテクニックは、しばしばReLUアクティベーション機能に依存するか、またはパフォーマンスを維持するために追加のパラメータとトレーニングを必要とする。 本稿では,シークエンス情報を利用したトレーニングフリーなThreshold-based Dynamic Activation(TDA)手法を提案する。 本手法は,タスク性能を著しく損なうことなく,生成速度を18~25倍に向上させるように設計され,既存のDA手法の限界に対処する。 さらに, LLM疎結合の根本原因を解明し, その重要な特徴である履歴関連活性化不確かさと意味非関連活性化不活性の2つを理論的に解析した。 我々の総合的な分析は、DA手法の堅牢な理論的基盤を提供するだけでなく、LLMの効率と有効性を最適化する上で、今後の研究の指針となる貴重な知見を提供する。

Dynamic activation (DA) techniques, such as DejaVu and MoEfication, have demonstrated their potential to significantly enhance the inference efficiency of large language models (LLMs). However, these techniques often rely on ReLU activation functions or require additional parameters and training to maintain performance. This paper introduces a training-free Threshold-based Dynamic Activation(TDA) method that leverage sequence information to exploit the inherent sparsity of models across various architectures. This method is designed to accelerate generation speed by 18-25\% without significantly compromising task performance, thereby addressing the limitations of existing DA techniques. Moreover, we delve into the root causes of LLM sparsity and theoretically analyze two of its critical features: history-related activation uncertainty and semantic-irrelevant activation inertia. Our comprehensive analyses not only provide a robust theoretical foundation for DA methods but also offer valuable insights to guide future research in optimizing LLMs for greater efficiency and effectiveness.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# MoE-LPR:大規模言語モデルの多言語拡張

MoE-LPR: Multilingual Extension of Large Language Models through Mixture-of-Experts with Language Priors Routing ( http://arxiv.org/abs/2408.11396v1 )

ライセンス: Link先を確認
Hao Zhou, Zhijun Wang, Shujian Huang, Xin Huang, Xue Han, Junlan Feng, Chao Deng, Weihua Luo, Jiajun Chen, (参考訳) 大規模言語モデル(LLM)は、事前学習データに言語が不均等に分布するため、しばしば英語中心である。 英語以外の言語能力の強化は、ポストプレトレーニングによってしばしば、原語の能力を壊滅的に忘れてしまう。 従来の手法では, 言語拡張のバランスを保ちながら, 言語拡張のバランスをとることの難しさが示唆された。 本稿では,この問題を緩和するためにMoE-LPR(Mixture-of-Experts with Language Priors Routing)という手法を提案する。 MoE-LPRは多言語能力を高めるために2段階のトレーニングアプローチを採用している。 まず、モデルはアップサイクリングによってMixture-of-Experts (MoE)アーキテクチャに事前トレーニングされ、元のパラメータはすべて凍結され、新しいエキスパートが追加される。 この段階では、オリジナル言語データを使わずに拡張言語に注目する。 そこで,本モデルでは,事前学習後1%未満のリプレイデータを用いて,元の言語の知識をレビューする。 複数のベンチマークで評価したところ、MoE-LPRは他の事前学習方法よりも優れていた。 元のパラメータを凍結することは、学習能力を保ちながら、元の言語知識を保存します。 LPRによるレビューは、パラメータ内での多言語知識の有効活用を可能にする。 さらに、MoEアーキテクチャは、全体のモデルパラメータを増やしながら、同じ推論オーバーヘッドを維持している。 大規模な実験は、拡張言語の改善と拡張性に優れたオリジナルの言語習熟性を維持するためのMoE-LPRの有効性を示す。 コードとスクリプトはhttps://github.com/zjwang21/MoE-LPR.gitで無料で入手できる。

Large Language Models (LLMs) are often English-centric due to the disproportionate distribution of languages in their pre-training data. Enhancing non-English language capabilities through post-pretraining often results in catastrophic forgetting of the ability of original languages. Previous methods either achieve good expansion with severe forgetting or slight forgetting with poor expansion, indicating the challenge of balancing language expansion while preventing forgetting. In this paper, we propose a method called MoE-LPR (Mixture-of-Experts with Language Priors Routing) to alleviate this problem. MoE-LPR employs a two-stage training approach to enhance the multilingual capability. First, the model is post-pretrained into a Mixture-of-Experts (MoE) architecture by upcycling, where all the original parameters are frozen and new experts are added. In this stage, we focus improving the ability on expanded languages, without using any original language data. Then, the model reviews the knowledge of the original languages with replay data amounting to less than 1% of post-pretraining, where we incorporate language priors routing to better recover the abilities of the original languages. Evaluations on multiple benchmarks show that MoE-LPR outperforms other post-pretraining methods. Freezing original parameters preserves original language knowledge while adding new experts preserves the learning ability. Reviewing with LPR enables effective utilization of multilingual knowledge within the parameters. Additionally, the MoE architecture maintains the same inference overhead while increasing total model parameters. Extensive experiments demonstrate MoE-LPR's effectiveness in improving expanded languages and preserving original language proficiency with superior scalability. Code and scripts are freely available at https://github.com/zjwang21/MoE-LPR.git.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# EAGLE: LLMを用いた視覚インストラクションチューニングによる幾何学的推論の高次化

EAGLE: Elevating Geometric Reasoning through LLM-empowered Visual Instruction Tuning ( http://arxiv.org/abs/2408.11397v1 )

ライセンス: Link先を確認
Zhihao Li, Yao Du, Yang Liu, Yan Zhang, Yufang Liu, Mengdi Zhang, Xunliang Cai, (参考訳) マルチモーダル大規模言語モデルは、最近、様々なマルチモーダルタスクにおいて、急速な開発と卓越性を経験してきた。 しかし、数学的な幾何学的な問題解決には相変わらず苦労している。 既存のMLLMは主にLLMバックボーンを最適化して幾何学的推論能力を得るが、視覚的理解の改善はめったに強調しない。 本稿では,図形に面したMLLMの視覚知覚性能について検討する。 以上の結果より,現在のMLLMは不正確な幾何学的知覚と幻覚に苦しむことが明らかとなった。 これらの制約に対処するため,LLM-Empowered visual instruction tuning を用いて幾何学的推論を行うための新しい2段階の視覚拡張MLLMフレームワークである EAGLE を提案する。 具体的には、予備段階では、完全に微調整されたCLIP ViTと凍結したLCMを含むMLLMに幾何学的画像キャプチャーペアを供給し、基本的な幾何学的知識をモデルに与えることを目的としている。 その後の段階において、視覚エンコーダにLoRAモジュールを組み込み、LLMバックボーンを解凍する。 これにより、モデルが質問と回答のペア内で固有のCoT合理性を活用することができ、MLLMにニュアンス化された視覚的手がかりに集中させ、全体的な知覚能力を高めることができる。 さらに,両段階のクロスモーダルプロジェクタを最適化し,適応的な視覚言語アライメントを促進する。 2段階の視覚強調を行った後、幾何専門家モデルEAGLE-7Bを開発した。 一般的なベンチマークに関する大規模な実験は、我々のモデルの有効性を実証している。 例えばGeoQAベンチマークでは、EAGLE-7Bは模範的なG-LLaVA 7Bモデルを2.9%上回るだけでなく、より大きなG-LLaVA 13Bモデルを上回っている。 MathVistaベンチマークでは、ERGLE-7BはプロプライエタリなモデルであるGPT-4Vに比べて3.8%改善されている。

Multi-modal Large Language Models have recently experienced rapid developments and excel in various multi-modal tasks. However, they still struggle with mathematical geometric problem solving, which requires exceptional visual perception proficiency. Existing MLLMs mostly optimize the LLM backbone to acquire geometric reasoning capabilities, while rarely emphasizing improvements in visual comprehension. In this paper, we first investigate the visual perception performance of MLLMs when facing geometric diagrams. Our findings reveal that current MLLMs severely suffer from inaccurate geometric perception and hallucinations. To address these limitations, we propose EAGLE, a novel two-stage end-to-end visual enhancement MLLM framework designed to ElevAte Geometric reasoning through LLM-Empowered visual instruction tuning. Specifically, in the preliminary stage, we feed geometric image-caption pairs into our MLLM that contains a fully fine-tuning CLIP ViT and a frozen LLM, aiming to endow our model with basic geometric knowledge. In the subsequent advanced stage, we incorporate LoRA modules into the vision encoder and unfreeze the LLM backbone. This enables the model to leverage the inherent CoT rationales within question-answer pairs, guiding the MLLM to focus on nuanced visual cues and enhancing its overall perceptual capacity. Moreover, we optimize the cross-modal projector in both stages to foster adaptive visual-linguistic alignments. After the two-stage visual enhancement, we develop the geometry expert model EAGLE-7B. Extensive experiments on popular benchmarks demonstrate the effectiveness of our model. For example, on the GeoQA benchmark, EAGLE-7B not only surpasses the exemplary G-LLaVA 7B model by 2.9%, but also marginally outperforms the larger G-LLaVA 13B model. On the MathVista benchmark, EAGLE-7B achieves remarkable 3.8% improvements compared with the proprietary model GPT-4V.
翻訳日:2024-08-22 18:09:27 公開日:2024-08-21
# 量子ガウス状態間のトレースノーム距離の推定について

On estimates of trace-norm distance between quantum Gaussian states ( http://arxiv.org/abs/2408.11400v1 )

ライセンス: Link先を確認
A. S. Holevo, (参考訳) F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431 の論文では、平均ベクトルと共分散行列を用いて2つの量子ガウス状態間のトレースノーム距離を推定し、エネルギー制約されたガウス状態の集合における$\varepsilon -$netの要素数の評価に使用した。 本論文では, 重なり合う状態と呼ばれる忠実度のような量に基づいて, 特に純粋あるいはゲージ不変状態の場合において, より直接的な推定結果を得る。 それらはモードの数に依存しないので、無限のモードを持つボゾン場にまで拡張することができる。 これらの導出は、ArXiv:2405.01431から有用な不等式を置き換えることを目的としていない。 本稿では,古典的確率論におけるガウス確率分布間の全分散距離の推定の非可換的類似として考察する。

In the paper of F.A. Mele, A.A. Mele, L. Bittel, J. Eisert, V. Giovannetti, L. Lami, L. Leone, S.F.E. Oliviero, ArXiv:2405.01431, estimates for the trace-norm distance between two quantum Gaussian states in terms of the mean vectors and covariance matrices were derived and used to evaluate the number of elements in the $\varepsilon -$net in the set of energy-constrained Gaussian states. In the present paper we obtain different estimates; our proof is based on a fidelity-like quantity which we call states overlap, and is more straightforward leading to estimates which are sometimes even more stringent, especially in the cases of pure or gauge-invariant states. They do not depend on number of modes and hence can be extended to the case of bosonic field with infinite number of modes. These derivations are not aimed to replace the useful inequalities from ArXiv:2405.01431; they just show an alternative approach to the problem leading to different results. The problem studied in this paper can be considered as a noncommutative analog of estimation of the total variance distance between Gaussian probability distributions in the classical probability theory.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# プロトタイプ部品ネットワークのためのFunnyBirds評価フレームワークの再検討

Revisiting FunnyBirds evaluation framework for prototypical parts networks ( http://arxiv.org/abs/2408.11401v1 )

ライセンス: Link先を確認
Szymon Opłatek, Dawid Rymarczyk, Bartosz Zieliński, (参考訳) ProtoPNetのようなプロトタイプ部品ネットワークは、ポストホック法よりも真に説明できる可能性から人気を博した。 しかし、このポテンシャルは長い間、厳密には理論的であり、それを支える体系的な研究は存在していない。 最近、FunnyBirdsベンチマークが導入されて、説明のさまざまな側面を評価するメトリクスが導入された。 しかし,このベンチマークでは,有界ボックスを使用するProtoPNet以外のすべての説明手法に対して,属性マップの可視化を採用している。 この選択は、FunnyBirdsの出版物で述べられている結論のスコアと疑問に大きく影響する。 本研究では,2種類のProtoPNet視覚化において得られた測定値(境界ボックスと類似度マップ)を総合的に比較した。 分析の結果,FunnyBirdsの異なる測定値から得られたように,類似性マップの利用はProtoPNetの本質とよく一致していることがわかった。 そこで我々は,説明可能性評価ベンチマークにおいて,原型部品ネットワークの可視化手法として類似性マップを提唱する。

Prototypical parts networks, such as ProtoPNet, became popular due to their potential to produce more genuine explanations than post-hoc methods. However, for a long time, this potential has been strictly theoretical, and no systematic studies have existed to support it. That changed recently with the introduction of the FunnyBirds benchmark, which includes metrics for evaluating different aspects of explanations. However, this benchmark employs attribution maps visualization for all explanation techniques except for the ProtoPNet, for which the bounding boxes are used. This choice significantly influences the metric scores and questions the conclusions stated in FunnyBirds publication. In this study, we comprehensively compare metric scores obtained for two types of ProtoPNet visualizations: bounding boxes and similarity maps. Our analysis indicates that employing similarity maps aligns better with the essence of ProtoPNet, as evidenced by different metric scores obtained from FunnyBirds. Therefore, we advocate using similarity maps as a visualization technique for prototypical parts networks in explainability evaluation benchmarks.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# 動画拡散モデル

Video Diffusion Models are Strong Video Inpainter ( http://arxiv.org/abs/2408.11402v1 )

ライセンス: Link先を確認
Minhyeok Lee, Suhwan Cho, Chajin Shin, Jungho Lee, Sunghun Yang, Sangyoun Lee, (参考訳) 画素や特徴レベルでの光学的流れを用いた伝搬型映像の塗布は近年注目されている。 しかし、光流予測の不正確さや時間経過に伴う雑音の伝搬といった制限がある。 これらの問題は、ビデオ全体を通して一様でないノイズや時間的整合性の問題をもたらす。 これらの問題に対処するため,我々はFFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。 我々は、FFF-VDIを、第1フレーム画像を非常に自然な映像に変換することができる、事前訓練された画像間拡散モデルの能力に着想を得た設計を行う。 これを適用するために、将来のフレームのノイズ潜時情報を伝搬して、第1フレームのノイズ潜時符号のマスキング領域を埋める。 次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。 提案モデルは、光学的フロー品質に依存した既存の手法の限界に対処し、より自然で時間的に一貫したビデオを生成する。 提案手法は,画像と映像の拡散モデルを映像の塗装作業に効果的に統合する最初の方法である。 種々の比較実験を通じて,提案モデルが高品質な多彩な塗布型を頑健に処理できることを実証した。

Propagation-based video inpainting using optical flow at the pixel or feature level has recently garnered significant attention. However, it has limitations such as the inaccuracy of optical flow prediction and the propagation of noise over time. These issues result in non-uniform noise and time consistency problems throughout the video, which are particularly pronounced when the removed area is large and involves substantial movement. To address these issues, we propose a novel First Frame Filling Video Diffusion Inpainting model (FFF-VDI). We design FFF-VDI inspired by the capabilities of pre-trained image-to-video diffusion models that can transform the first frame image into a highly natural video. To apply this to the video inpainting task, we propagate the noise latent information of future frames to fill the masked areas of the first frame's noise latent code. Next, we fine-tune the pre-trained image-to-video diffusion model to generate the inpainted video. The proposed model addresses the limitations of existing methods that rely on optical flow quality, producing much more natural and temporally consistent videos. This proposed approach is the first to effectively integrate image-to-video diffusion models into video inpainting tasks. Through various comparative experiments, we demonstrate that the proposed model can robustly handle diverse inpainting types with high quality.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# UAVによる物体検出のためのドメイン不変なプログレッシブ知識蒸留

Domain-invariant Progressive Knowledge Distillation for UAV-based Object Detection ( http://arxiv.org/abs/2408.11407v1 )

ライセンス: Link先を確認
Liang Yao, Fan Liu, Chuanyi Zhang, Zhiquan Ou, Ting Wu, (参考訳) 知識蒸留(KD)は、物体検出タスクにおけるモデル圧縮に有効な方法である。 限られた計算能力のため、UAV-OD(UAV-OD)はKD技術を用いて軽量検出器を得る。 既存の手法は、教師と学生のモデルの間の大規模なギャップによって生じる特徴空間の顕著な違いをしばしば見落としている。 この制限は蒸留過程における知識伝達の効率を損なう。 さらに、UAV画像の複雑な背景は、学生モデルがオブジェクトの特徴を効率的に学習することを困難にしている。 本稿では,UAV-ODのための新しい知識蒸留フレームワークを提案する。 具体的には, プログレッシブ蒸留法により, 教師モデルと学生モデルの特徴ギャップを緩和する。 そして、学生モデルの知識受容効率を高めるために、オブジェクトに関連する特徴を抽出する新しい特徴アライメント法を提供する。 最後に,提案手法の有効性を検証するため,広範囲な実験を行った。 提案手法は,2つのUAV-ODデータセットにおいて,最先端(SoTA)性能を実現することを実証した。

Knowledge distillation (KD) is an effective method for compressing models in object detection tasks. Due to limited computational capability, UAV-based object detection (UAV-OD) widely adopt the KD technique to obtain lightweight detectors. Existing methods often overlook the significant differences in feature space caused by the large gap in scale between the teacher and student models. This limitation hampers the efficiency of knowledge transfer during the distillation process. Furthermore, the complex backgrounds in UAV images make it challenging for the student model to efficiently learn the object features. In this paper, we propose a novel knowledge distillation framework for UAV-OD. Specifically, a progressive distillation approach is designed to alleviate the feature gap between teacher and student models. Then a new feature alignment method is provided to extract object-related features for enhancing student model's knowledge reception efficiency. Finally, extensive experiments are conducted to validate the effectiveness of our proposed approach. The results demonstrate that our proposed method achieves state-of-the-art (SoTA) performance in two UAV-OD datasets.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# 3次元集合保護のための多視点拡散モデルに対する潜在特徴と注意二重消去攻撃

Latent Feature and Attention Dual Erasure Attack against Multi-View Diffusion Models for 3D Assets Protection ( http://arxiv.org/abs/2408.11408v1 )

ライセンス: Link先を確認
Jingwei Sun, Xuchong Zhang, Changfeng Sun, Qicheng Bai, Hongbin Sun, (参考訳) MVDM(Multi-View Diffusion Models)は3次元幾何学的再構成の分野において顕著な改善を実現するが、知的財産に関する問題は無許可の模倣により注目されている。 近年、著作権保護のために敵対的攻撃を利用した作品もある。 しかし、これらすべての作業は、画像の内部的特徴のみを考慮する必要のある単一画像生成タスクに焦点を当てている。 生成した多視点画像間の幾何的・視覚的整合性を損なうことを考慮していないため,従来の手法はMVDMを攻撃するのに非効率である。 本稿では,MVDMによる知的財産権侵害問題に最初に対処する。 そこで本研究では,マルチビューとマルチドメインから生成した画像間の遅延特徴の分布と一貫性を同時に破壊する,新しい潜在特徴と注意二重消去攻撃を提案する。 SOTA MVDMで行った実験は,攻撃の有効性,移動性,防御手法に対する堅牢性の観点から,本手法が優れた性能を発揮することを示唆している。 そこで本稿では,MVDMによる3次元形状復元から3D資産を保護するための効率的な手法を提案する。

Multi-View Diffusion Models (MVDMs) enable remarkable improvements in the field of 3D geometric reconstruction, but the issue regarding intellectual property has received increasing attention due to unauthorized imitation. Recently, some works have utilized adversarial attacks to protect copyright. However, all these works focus on single-image generation tasks which only need to consider the inner feature of images. Previous methods are inefficient in attacking MVDMs because they lack the consideration of disrupting the geometric and visual consistency among the generated multi-view images. This paper is the first to address the intellectual property infringement issue arising from MVDMs. Accordingly, we propose a novel latent feature and attention dual erasure attack to disrupt the distribution of latent feature and the consistency across the generated images from multi-view and multi-domain simultaneously. The experiments conducted on SOTA MVDMs indicate that our approach achieves superior performances in terms of attack effectiveness, transferability, and robustness against defense methods. Therefore, this paper provides an efficient solution to protect 3D assets from MVDMs-based 3D geometry reconstruction.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# 永久接触によるロバストなタンパク質電気接合は、活性のない電荷輸送を10Kまで減少させる

Robust Protein Electrical Junctions with Permanent Contacts show Activation-less Charge Transport down to 10 K ( http://arxiv.org/abs/2408.11409v1 )

ライセンス: Link先を確認
Shailendra K. Saxena, Sudipta Bera, Tatyana Bendikov, Israel Pecht, Mordechai Sheves David Cahen, (参考訳) 永久接触を持つロバスト固相タンパク質接合(RPJs)は、そのような接合体を横断する電子輸送のメカニズムとその応用を解明するための幅広い研究に不可欠である。 今回,真空蒸着した炭素 (eC) で生成したRPJと,Au基板上の溶存液から自己組織化したBacteriorhodopsin (bR) の単層膜上に設定したAu電極について報告する。 bRの光誘起光サイクルと, bRのアミドIとIIの振動周波数は, eC沈着時に変化せず, 結果として生じる接合の収量は90%程度(非焼成)であり, それぞれ10~300K程度で安定であった。 これらのジャンクイオンの電流電圧特性は温度非依存性であり, ジャンクションは数ヶ月間安定であった。 したがって、このような頑丈な全固体タンパク質結合は、将来の生体分子電子デデバイスにおけるタンパク質の潜在的使用を調査するための貴重なツールを提供する。

Robust solid-state protein junctions (RPJs) with permanent contacts are essential for a wide range of studies aimed at elucidating the mechanisms for electron transport across such junctions and their possible applications. Here we report on first time, RPJs formed with vacuum-evaporated carbon (eC) followed by Au as top electrode set on a single bilayer of bacteriorhodopsin (bR), self-assembled from so-lution on an Au substrate. The light-induced photocycle of bR, as well as the amide I & II vibrational frequencies of bR, were unchanged upon eC deposition; the yield of the resulting junctions was reproducible ~ 90 % (non-shorted), and they were stable between ~ 10 and 300K. The current-voltage characteristics of these junc-tions were temperature-independent and the junctions were stable for several months. Hence, such robust all-solid-state protein junctions provide valuable tools for investigating the potential use of proteins in future bio-molecular electronic de-vices.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# SelfDRSC++: デュアルリバース転がりシャッター補正のための自己教師付き学習

SelfDRSC++: Self-Supervised Learning for Dual Reversed Rolling Shutter Correction ( http://arxiv.org/abs/2408.11411v1 )

ライセンス: Link先を確認
Wei Shang, Dongwei Ren, Wanying Zhang, Qilong Wang, Pengfei Zhu, Wangmeng Zuo, (参考訳) 現代の消費者向けカメラでは、ローリングシャッター(RS)撮像機構が一般的であり、これによりダイナミックなシーンに対してRS歪みが生じる。 RS歪みを補正するために、既存の手法では、高いフレームレート・グローバル・シャッター(GS)画像を必要とする完全に教師付き学習方式を採用している。 本稿では,Dual reversed RS distortion Correction (SelfDRSC++) のための自己教師型学習フレームワークを提案する。 まず、双方向相関マッチングブロックを組み込んだ軽量DRSCネットワークを導入し、光学流の結合最適化とRS特性の補正を行い、ネットワークパラメータの低減と補正性能の向上を図る。 その後、DRSCネットワークを効果的に訓練するために、入力と再構成された二重逆RS画像間のサイクル整合性を保証する自己教師付き学習戦略を提案する。 SelfDRSC++におけるRS再構成は、ビデオフレーム補間の特別な例として、RS歪み時間マップを利用して、予測されたGS画像から再構成されたRS画像の各行を補間する。 トレーニングプロセスを簡素化しながら優れたパフォーマンスを実現することで、SelfDRSC++は実行可能なワンステージの自己教師型トレーニングを可能にする。 さらに、開始と終了のRSスキャン時間に加えて、SelfDRSC++は任意の中間走査時間でGS画像の監視を可能にするため、学習したDRSCネットワークは高いフレームレートGSビデオを生成することができる。 コードとトレーニングされたモデルは、 \url{https://github.com/shangwei5/SelfDRSC_plus} で入手できる。

Modern consumer cameras commonly employ the rolling shutter (RS) imaging mechanism, via which images are captured by scanning scenes row-by-row, resulting in RS distortion for dynamic scenes. To correct RS distortion, existing methods adopt a fully supervised learning manner that requires high framerate global shutter (GS) images as ground-truth for supervision. In this paper, we propose an enhanced Self-supervised learning framework for Dual reversed RS distortion Correction (SelfDRSC++). Firstly, we introduce a lightweight DRSC network that incorporates a bidirectional correlation matching block to refine the joint optimization of optical flows and corrected RS features, thereby improving correction performance while reducing network parameters. Subsequently, to effectively train the DRSC network, we propose a self-supervised learning strategy that ensures cycle consistency between input and reconstructed dual reversed RS images. The RS reconstruction in SelfDRSC++ can be interestingly formulated as a specialized instance of video frame interpolation, where each row in reconstructed RS images is interpolated from predicted GS images by utilizing RS distortion time maps. By achieving superior performance while simplifying the training process, SelfDRSC++ enables feasible one-stage self-supervised training. Additionally, besides start and end RS scanning time, SelfDRSC++ allows supervision of GS images at arbitrary intermediate scanning times, thus enabling the learned DRSC network to generate high framerate GS videos. The code and trained models are available at \url{https://github.com/shangwei5/SelfDRSC_plusplus}.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# 繰り返し要素分割による一級線形時間分類

Linear-time One-Class Classification with Repeated Element-wise Folding ( http://arxiv.org/abs/2408.11412v1 )

ライセンス: Link先を確認
Jenni Raitoharju, (参考訳) 本稿では,一級分類の繰り返し要素分割法(REF)を提案する。 このアルゴリズムは、一級訓練データに対して要素回りの折り畳み操作を繰り返し標準化し適用する。 未知のテスト項目に対して等価なマッピングを行い、最終分布の起点までの項目の距離に基づいて分類予測を行う。 すべての操作が線形時間的複雑性を持つので、提案アルゴリズムは、一般的に使用されるより要求の多いアプローチに対する線形時間的代替手段を提供する。 さらに、REFは、堅牢なデフォルト設定を提供することで、一クラスの分類におけるハイパーパラメータ設定の課題を回避することができる。 実験により,提案手法は類似した分類性能を得られるか,あるいは様々なベンチマークデータセット上でより複雑なアルゴリズムよりも優れていることが示された。 REFのMatlabコードはhttps://github.com/JenniRaitoharju/REFで公開されている。

This paper proposes an easy-to-use method for one-class classification: Repeated Element-wise Folding (REF). The algorithm consists of repeatedly standardizing and applying an element-wise folding operation on the one-class training data. Equivalent mappings are performed on unknown test items and the classification prediction is based on the item's distance to the origin of the final distribution. As all the included operations have linear time complexity, the proposed algorithm provides a linear-time alternative for the commonly used computationally much more demanding approaches. Furthermore, REF can avoid the challenges of hyperparameter setting in one-class classification by providing robust default settings. The experiments show that the proposed method can produce similar classification performance or even outperform the more complex algorithms on various benchmark datasets. Matlab codes for REF are publicly available at https://github.com/JenniRaitoharju/REF.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# Pano2Room:単一室内パノラマからの新しいビュー合成

Pano2Room: Novel View Synthesis from a Single Indoor Panorama ( http://arxiv.org/abs/2408.11413v1 )

ライセンス: Link先を確認
Guo Pu, Yiming Zhao, Zhouhui Lian, (参考訳) 最近のシングルビュー3D生成法は、広範囲な3Dオブジェクトデータセットから抽出した知識を活用することで、大幅な進歩を遂げている。 しかし、現実の環境の複雑さと高品質な先行資源の不足により、単一の視点から3Dシーンを合成することが課題となっている。 本論文では,1枚のパノラマ画像から高品質な3D屋内シーンを自動再構成するパノ2ルームという新しい手法を提案する。 これらのパノラマ画像は、パノラマRGBDインペイントを使用して、任意のカメラで単一の場所から簡単に生成することができる。 鍵となる考え方は、最初に入力パノラマから予備メッシュを構築し、パノラマRGBDインペイントを用いて、フォトリアリスティックな3D一貫性を持つ疑似ノベルビューを収集しながら、反復的にこのメッシュを洗練することである。 最後に、洗練されたメッシュを3次元ガウススプラッティング場に変換し、収集した擬似ノベルビューでトレーニングする。 このパイプラインは、大きなオクルージョンが存在する場合でも、現実世界の3Dシーンの再構築を可能にし、詳細な幾何学によるフォトリアリスティックなノベルビューの合成を容易にする。 室内単体パノラマ合成における手法の優位性を評価するために, 大規模定性的および定量的な実験を行った。 私たちのコードとデータは、 \url{https://github.com/TrickyGo/Pano2Room}で利用可能です。

Recent single-view 3D generative methods have made significant advancements by leveraging knowledge distilled from extensive 3D object datasets. However, challenges persist in the synthesis of 3D scenes from a single view, primarily due to the complexity of real-world environments and the limited availability of high-quality prior resources. In this paper, we introduce a novel approach called Pano2Room, designed to automatically reconstruct high-quality 3D indoor scenes from a single panoramic image. These panoramic images can be easily generated using a panoramic RGBD inpainter from captures at a single location with any camera. The key idea is to initially construct a preliminary mesh from the input panorama, and iteratively refine this mesh using a panoramic RGBD inpainter while collecting photo-realistic 3D-consistent pseudo novel views. Finally, the refined mesh is converted into a 3D Gaussian Splatting field and trained with the collected pseudo novel views. This pipeline enables the reconstruction of real-world 3D scenes, even in the presence of large occlusions, and facilitates the synthesis of photo-realistic novel views with detailed geometry. Extensive qualitative and quantitative experiments have been conducted to validate the superiority of our method in single-panorama indoor novel synthesis compared to the state-of-the-art. Our code and data are available at \url{https://github.com/TrickyGo/Pano2Room}.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# 対話型AI心理学」と文脈内価値駆動型文書アライメントに向けて : 道徳的基礎理論による考察

Towards "Differential AI Psychology" and in-context Value-driven Statement Alignment with Moral Foundations Theory ( http://arxiv.org/abs/2408.11415v1 )

ライセンス: Link先を確認
Simon Münker, (参考訳) 社会科学における現代研究は、最新の統計言語モデルを利用して、コンテンツに注釈を付けたり、生成したりしている。 これらのモデルは、共通言語タスクでベンチマークリーディングを行い、模範的なタスク非依存の創発能力を示すが、それらを新しいドメイン外タスクに転送するには不十分である。 統計的ブラックボックスアプローチ(確率的オウム)の意義は言語モデル研究コミュニティにおいて顕著に批判されているが、新規な生成タスクの重要性は明らかではない。 本研究は,モーラル・ファンデーション理論のアンケートにおいて,パーソナライズされた言語モデルと調査参加者との整合性について検討する。 我々は、異なる政治的ペルソナにテキスト・トゥ・テキスト・モデルを適用し、繰り返しアンケートを行い、ペルソナとモデルの組み合わせの合成人口を生成する。 グループ内分散とクロスアライメントの分析は、モデルとペルソナの間に有意な差異を示す。 その結果, 適応型モデルでは, 政治的イデオロギーに対する調査で得られた評価を表わすのが困難であることが示唆された。 したがって、言語モデルを用いて社会的相互作用を模倣するには、心理的・社会学的ステレオタイプに合わせるために、文脈内最適化やパラメータ操作において測定可能な改善が必要である。 定量的なアライメントがなければ、政治的にニュアンスのあるコンテンツを生成することは不可能である。 これらの表現を強化するために,今後の研究のために道徳的価値文に基づくエージェントを生成するテスト可能なフレームワークを提案する。

Contemporary research in social sciences is increasingly utilizing state-of-the-art statistical language models to annotate or generate content. While these models perform benchmark-leading on common language tasks and show exemplary task-independent emergent abilities, transferring them to novel out-of-domain tasks is only insufficiently explored. The implications of the statistical black-box approach - stochastic parrots - are prominently criticized in the language model research community; however, the significance for novel generative tasks is not. This work investigates the alignment between personalized language models and survey participants on a Moral Foundation Theory questionnaire. We adapt text-to-text models to different political personas and survey the questionnaire repetitively to generate a synthetic population of persona and model combinations. Analyzing the intra-group variance and cross-alignment shows significant differences across models and personas. Our findings indicate that adapted models struggle to represent the survey-captured assessment of political ideologies. Thus, using language models to mimic social interactions requires measurable improvements in in-context optimization or parameter manipulation to align with psychological and sociological stereotypes. Without quantifiable alignment, generating politically nuanced content remains unfeasible. To enhance these representations, we propose a testable framework to generate agents based on moral value statements for future research.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# タグにするか、タグにしないか: CのユニオンをRustのタグ付きユニオンに翻訳する

To Tag, or Not to Tag: Translating C's Unions to Rust's Tagged Unions ( http://arxiv.org/abs/2408.11418v1 )

ライセンス: Link先を確認
Jaemin Hong, Sukyoung Ryu, (参考訳) 自動C-to-Rust翻訳は、レガシーシステムソフトウェアの信頼性を高めるための有望な方法である。 しかし、産業的に開発されたトランスレータであるC2Rustは、安全でない特徴を持つRustコードを生成し、翻訳の目的を損なう。 C2Rust生成コードで安全でない機能を削除するためのテクニックが提案されているが、これらの取り組みは、安全でない機能の限られたサブセットのみを対象としている。 安全でない重要な機能のひとつがunionであり、同じメモリストレージを共有する複数のフィールドからなる型である。 プログラマは、最後に書き込まれたフィールドを記録するために、構造体にタグ付きのユニオンを置くことが多いが、それでも間違ったフィールドにアクセスすることができる。 対照的に、Rustのタグ付きユニオンは、タグとユニオンを言語レベルで組み合わせ、適切な値アクセスを保証する。 そこで本研究では,C-to-Rust翻訳において,ユニオンをタグ付きユニオンに置き換える手法を提案する。 我々は,タグフィールドと対応するタグ値を識別することで,そのような置換を容易にする静的解析を開発する。 この分析には、計算構造体の値とこれらの結果のヒューリスティック解釈が含まれる。 拡張性を高めるために、我々は、関数の選択的解析を可能にする、声道内関数ワイズ分析を採用した。 提案手法は,(1)偽陽性のない74のタグフィールドと5つの偽陰性のみを同定し,(2)23のプログラムのうち17のプログラムがトランスフォーメーション後のテストに合格し,(3)スケーラブルで,192kLOCを4,910秒で解析・変換できる。

Automatic C-to-Rust translation is a promising way to enhance the reliability of legacy system software. However, C2Rust, an industrially developed translator, generates Rust code with unsafe features, undermining the translation's objective. While researchers have proposed techniques to remove unsafe features in C2Rust-generated code, these efforts have targeted only a limited subset of unsafe features. One important unsafe feature remaining unaddressed is a union, a type consisting of multiple fields sharing the same memory storage. Programmers often place a union with a tag in a struct to record the last-written field, but they can still access wrong fields. In contrast, Rust's tagged unions combine tags and unions at the language level, ensuring correct value access. In this work, we propose techniques to replace unions with tagged unions during C-to-Rust translation. We develop a static analysis that facilitates such replacement by identifying tag fields and the corresponding tag values. The analysis involves a must-points-to analysis computing struct field values and a heuristic interpreting these results. To enhance scalability, we adopt intraprocedural function-wise analysis, allowing selective analysis of functions. Our evaluation on 35 real-world C programs shows that the proposed approach is (1) precise, identifying 74 tag fields with no false positives and only five false negatives, (2) mostly correct, with 17 out of 23 programs passing tests post-transformation, and (3) scalable, capable of analyzing and transforming 192k LOC in 4,910 seconds.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# 電子-フォノン熱漏れを克服するオンチップ量子閉じ込め冷凍

On-chip quantum confinement refrigeration overcoming electron-phonon heat leaks ( http://arxiv.org/abs/2408.11420v1 )

ライセンス: Link先を確認
S. Autti, J. R. Prance, M. Prunnila, (参考訳) 回路ベースの量子デバイスはミリケルビン温度での電子の保持に依存している。 コヒーレンスと感度の向上、および新しい物理現象の発見は、オンチップ冷却技術を用いて、極端に低い電子温度を追求する動機となる。 ここでは、ゲート電圧で操作された2次元電子ガス(2DEG)が、基本的なフォノン熱リークによってのみ制限されたオンチップヒートシンクとして機能することを示す。 単発2DEGクーラーは、最大1秒までの保持時間で2倍の電子温度を低下させることができる。 このような冷却器の配列を連続的な冷却装置に統合することで、マイクロケルビンデバイス温度まで到達することができる。

Circuit-based quantum devices rely on keeping electrons at millikelvin temperatures. Improved coherence and sensitivity as well as discovering new physical phenomena motivate pursuing ever lower electron temperatures, accessible using on-chip cooling techniques. Here we show that a two-dimensional electron gas (2DEG), manipulated using gate voltages, works as an on-chip heat sink only limited by a fundamental phonon heat-leak. A single-shot 2DEG cooler can reduce the electron temperature by a factor of two with a hold time up to a second. Integrating an array of such coolers to obtain continuous cooldown in will allow reaching down to microkelvin device temperatures.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# EMO-LLaMA:インストラクションチューニングによる表情理解の強化

EMO-LLaMA: Enhancing Facial Emotion Understanding with Instruction Tuning ( http://arxiv.org/abs/2408.11424v1 )

ライセンス: Link先を確認
Bohao Xing, Zitong Yu, Xin Liu, Kaishen Yuan, Qilang Ye, Weicheng Xie, Huanjing Yue, Jingyu Yang, Heikki Kälviäinen, (参考訳) 表情認識(FER)は感情人工知能において重要な研究課題である。 近年、研究者は顕著な進歩を遂げた。 しかし、現在のFERパラダイムは、一般化の課題に直面し、自然言語に整合した意味情報を欠き、画像とビデオの両方を統一されたフレームワーク内で処理することに苦労し、マルチモーダルな感情理解や人間とコンピュータの相互作用に応用することを困難にしている。 最近、MLLM(Multimodal Large Language Models)が成功し、これらの問題に対処し、現在のFERパラダイムの限界を克服するアドバンテージを提供する。 しかし、事前訓練されたMLLMをFERに直接適用することは、まだいくつかの課題に直面している。 fer上の既存のオープンソースMLLMのゼロショット評価は、GPT-4VやSOTA法と比較して大きな性能差を示している。 本稿では,MLLMの表情理解能力を高めることを目的とする。 Geminiを用いて、まず5つのFERデータセットの命令データを生成する。 EMO-LLaMAと命名された新しいMLLMを提案する。このMLLMは、予め訓練された顔分析ネットワークから顔の事前情報を組み込んで、人間の顔情報を強化する。 具体的には、グローバルとローカルの両方の顔情報を抽出するFace Info Miningモジュールを設計する。 さらに,異なるグループ間の感情的差異を考慮し,手作りのプロンプトを用いて年齢・性別・人種特性を導入する。 大規模な実験により、EMO-LLaMAは静的および動的FERデータセット間でSOTA互換または競合的な結果が得られることが示された。 命令データセットとコードはhttps://github.com/xxtars/EMO-LLaMAで公開されている。

Facial expression recognition (FER) is an important research topic in emotional artificial intelligence. In recent decades, researchers have made remarkable progress. However, current FER paradigms face challenges in generalization, lack semantic information aligned with natural language, and struggle to process both images and videos within a unified framework, making their application in multimodal emotion understanding and human-computer interaction difficult. Multimodal Large Language Models (MLLMs) have recently achieved success, offering advantages in addressing these issues and potentially overcoming the limitations of current FER paradigms. However, directly applying pre-trained MLLMs to FER still faces several challenges. Our zero-shot evaluations of existing open-source MLLMs on FER indicate a significant performance gap compared to GPT-4V and current supervised state-of-the-art (SOTA) methods. In this paper, we aim to enhance MLLMs' capabilities in understanding facial expressions. We first generate instruction data for five FER datasets with Gemini. We then propose a novel MLLM, named EMO-LLaMA, which incorporates facial priors from a pretrained facial analysis network to enhance human facial information. Specifically, we design a Face Info Mining module to extract both global and local facial information. Additionally, we utilize a handcrafted prompt to introduce age-gender-race attributes, considering the emotional differences across different human groups. Extensive experiments show that EMO-LLaMA achieves SOTA-comparable or competitive results across both static and dynamic FER datasets. The instruction dataset and code are available at https://github.com/xxtars/EMO-LLaMA.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# バリア浸透に対するジェネレータ・コーディネート法における運動量の役割

Role of momentum in the generator-coordinate method applied to barrier penetration ( http://arxiv.org/abs/2408.11427v1 )

ライセンス: Link先を確認
K. Hagino, G. F. Bertsch, (参考訳) バリアトップエネルギーにおける核分裂は、通常、内部分裂チャネルに適用された1次元シュリンガー方程式によってモデル化されるが、その処理は、核ハミルトニアンに対する構成-相互作用アプローチにおいて正当化するのは難しい。 ここでは、生成コーディネート法(GCM)による有限運動量状態の包含が、GCMをベースとしたハミルトニアンがシュリンガー処理を再現できるエネルギー範囲を大幅に拡張することを示す。 バリアを横断する伝達確率はコーンの変分法(英語版)の離散バージョンによって計算されるが、これは相互作用するフェルミオンの他の系にも有用である。

Nuclear fission at barrier-top energies is conventionally modeled by a one-dimensional Schr\"odinger equation applied to internal fission channels, but that treatment is hard to justify in the configuration-interaction approach to nuclear Hamiltonians. Here we show that inclusion of states of finite momentum by the Generator Coordinate Method (GCM) considerably extends the range of energies at which GCM-based Hamiltonians could reproduce the Schr\"odinger treatment. The transmission probabilities for crossing the barrier are calculated by a discrete version of Kohn's variational method, which may also be useful for other systems of interacting fermions.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# 既存のコンテナワークロードからKubernetesへの移行 -- LLMベースのアプローチと評価

Migrating Existing Container Workload to Kubernetes -- LLM Based Approach and Evaluation ( http://arxiv.org/abs/2408.11428v1 )

ライセンス: Link先を確認
Masaru Ueno, Tetsuya Uchiumi, (参考訳) Kubernetesは、コンテナ化されたアプリケーションの管理を自動化する、広範なオープンソースシステムになっているが、その複雑さは、特にアプリケーション開発者にとっては、大きな障壁となる可能性がある。 ひとつのアプローチでは、開発者がKubernetesマニフェストを生成するのを支援するために、大きな言語モデル(LLM)が採用されている。 本研究では, アプリケーション開発者が広く採用している標準であるCompose仕様を入力として, マニフェストの合成におけるLCMの有効性を評価するためのベンチマーク手法を提案する。 提案手法により, LLM は単純な仕様ギャップを補う精度の高い結果が得られることがわかった。 しかし,可読性に対するインラインコメントは省略されることが多く,不明瞭な意図を持った非定型入力では完了精度が低かった。

Although Kubernetes has become a widespread open-source system that automates the management of containerized applications, its complexity can be a significant barrier, particularly for application developers unfamiliar with it. One approach employs large language models (LLMs) to assist developers in generating Kubernetes manifests; however it is currently impossible to determine whether the output satisfies given specifications and is comprehensible. In this study, we proposed a benchmarking method for evaluating the effectiveness of LLMs in synthesizing manifests, using the Compose specification -- a standard widely adopted by application developers -- as input. The proposed benchmarking method revealed that LLMs generally produce accurate results that compensate for simple specification gaps. However, we also observed that inline comments for readability were often omitted, and completion accuracy was low for atypical inputs with unclear intentions.
翻訳日:2024-08-22 17:59:43 公開日:2024-08-21
# 長距離ビジョンに基づく無人表面車両のUAV支援局部化

Long-Range Vision-Based UAV-assisted Localization for Unmanned Surface Vehicles ( http://arxiv.org/abs/2408.11429v1 )

ライセンス: Link先を確認
Waseem Akram, Siyuan Yang, Hailiang Kuang, Xiaoyu He, Muhayy Ud Din, Yihao Dong, Defu Lin, Lakmal Seneviratne, Shaoming He, Irfan Hussain, (参考訳) 地球測位システム(GPS)は,無人表面車両(USV)による海洋環境下でのフィールド操作において,必要不可欠なナビゲーション手法となっている。 しかし、GPSは自然の干渉や悪意のある妨害攻撃に弱いため、常に屋外で利用できるわけではない。 したがって、GPSの使用が制限されたり禁止されたりする際には、代替ナビゲーションシステムが必要である。 そこで本研究では,無人航空機(UAV)を用いて,GNSS規制海洋環境におけるUSVのローカライズを支援する手法を提案する。 我々のアプローチでは、UAVは一貫した高度で海岸線に沿って飛行し、カメラ画像の深層学習に基づくアプローチを用いてUSVを継続的に追跡、検出する。 その後、幾何学的情報とUAVからのデータリンク範囲を利用して、UAVに対するUSVの位置を推定するために三角法を適用した。 我々は,UAVのカメラアングルを,USVと画像中心間の画素誤差に基づいて位置決めプロセスを通じて調整し,精度を高めることを提案する。 さらに、視覚計測を拡張カルマンフィルタ(EKF)に統合して、堅牢な状態推定を行う。 提案手法の検証には,搭載センサーを搭載したUSVと,カメラを搭載したUAVを用いる。 UVとUAVの通信を容易にするため、異種ロボットインタフェースが確立されている。 実海洋環境における「ムハンマド・ビン・ザイド国際ロボットチャレンジ」(MBZIRC-2024)で実施した一連の実験を通じて,本手法の有効性を実証した。 得られた結果は,USVナビゲーションのためのGPSを補完する手法の可能性を示している。

The global positioning system (GPS) has become an indispensable navigation method for field operations with unmanned surface vehicles (USVs) in marine environments. However, GPS may not always be available outdoors because it is vulnerable to natural interference and malicious jamming attacks. Thus, an alternative navigation system is required when the use of GPS is restricted or prohibited. To this end, we present a novel method that utilizes an Unmanned Aerial Vehicle (UAV) to assist in localizing USVs in GNSS-restricted marine environments. In our approach, the UAV flies along the shoreline at a consistent altitude, continuously tracking and detecting the USV using a deep learning-based approach on camera images. Subsequently, triangulation techniques are applied to estimate the USV's position relative to the UAV, utilizing geometric information and datalink range from the UAV. We propose adjusting the UAV's camera angle based on the pixel error between the USV and the image center throughout the localization process to enhance accuracy. Additionally, visual measurements are integrated into an Extended Kalman Filter (EKF) for robust state estimation. To validate our proposed method, we utilize a USV equipped with onboard sensors and a UAV equipped with a camera. A heterogeneous robotic interface is established to facilitate communication between the USV and UAV. We demonstrate the efficacy of our approach through a series of experiments conducted during the ``Muhammad Bin Zayed International Robotic Challenge (MBZIRC-2024)'' in real marine environments, incorporating noisy measurements and ocean disturbances. The successful outcomes indicate the potential of our method to complement GPS for USV navigation.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# ラベルなし学習によるLLMにおける知識不足の診断と治療

Diagnosing and Remedying Knowledge Deficiencies in LLMs via Label-free Curricular Meaningful Learning ( http://arxiv.org/abs/2408.11431v1 )

ライセンス: Link先を確認
Kai Xiong, Xiao Ding, Li Du, Jiahao Ying, Ting Liu, Bing Qin, Yixin Cao, (参考訳) LLM(Large Language Models)は汎用的であり、広範囲なラベルのないテキストから情報をマイニングし、学習することで、印象的な一般化能力を示す。 しかし、彼らは、しばしば知識不足に起因する推論ミスを示しており、信頼と信頼性に影響を与える可能性がある。 ユーザは多様で包括的なクエリを提供できるが、十分な効果的なフィードバックを得ることが求められている。 さらに, ラベル付きサンプルを用いたLLMの総合評価は困難である。 これにより、リッチなラベルのないユーザクエリを通じて、LSMの欠陥を診断し、治療することが困難になる。 この課題に対処するために,ラベルのない曲的意味学習フレームワーク(LaMer)を提案する。 LaMer はまず相対エントロピーを用いてラベルのない環境で LLM の知識不足を自動的に診断し定量化する。 次に、診断された知識不足を治療するために、まず、有意義な学習を採用し、欠陥の深刻度に応じて拡張データを適応的に合成し、その後、LLMの知識不足を漸進的に改善するためのカリキュラム不足救済戦略を設計する。 実験の結果、LaMerはLLMの知識不足を効果的かつ効果的に診断し、改善し、7つのアウト・オブ・ディストリビューション(OOD)推論と言語理解ベンチマークにまたがって様々なLSMを改善し、トレーニングデータでベースラインに匹敵する結果を達成している。 LaMerは、診断にラベル付きデータセットに依存するメソッドを超越している。 ラベルフリーの手法は, LLM の効率的な開発に有効な知識不足診断ツールを提供することができる。

Large Language Models (LLMs) are versatile and demonstrate impressive generalization ability by mining and learning information from extensive unlabeled text. However, they still exhibit reasoning mistakes, often stemming from knowledge deficiencies, which can affect their trustworthiness and reliability. Although users can provide diverse and comprehensive queries, obtaining sufficient and effective feedback is demanding. Furthermore, evaluating LLMs comprehensively with limited labeled samples is difficult. This makes it a challenge to diagnose and remedy the deficiencies of LLMs through rich label-free user queries. To tackle this challenge, we propose a label-free curricular meaningful learning framework (LaMer). LaMer first employs relative entropy to automatically diagnose and quantify the knowledge deficiencies of LLMs in a label-free setting. Next, to remedy the diagnosed knowledge deficiencies, we apply curricular meaningful learning: first, we adopt meaningful learning to adaptively synthesize augmentation data according to the severity of the deficiencies, and then design a curricular deficiency remedy strategy to remedy the knowledge deficiencies of LLMs progressively. Experiments show that LaMer efficiently and effectively diagnoses and remedies knowledge deficiencies in LLMs, improving various LLMs across seven out-of-distribution (OOD) reasoning and language understanding benchmarks, achieving comparable results to baselines with just 40\% training data. LaMer even surpasses methods that rely on labeled datasets for deficiency diagnosis. In application, our label-free method can offer an effective knowledge deficiency diagnostic tool for efficient LLM development.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# T2VIndexer: 効率的なテキスト-ビデオ検索のための生成ビデオインデクサ

T2VIndexer: A Generative Video Indexer for Efficient Text-Video Retrieval ( http://arxiv.org/abs/2408.11432v1 )

ライセンス: Link先を確認
Yili Li, Jing Yu, Keke Gai, Bang Liu, Gang Xiong, Qi Wu, (参考訳) 現在のテキストビデオ検索法は、主にクエリとビデオ間のクロスモーダルマッチングを利用して類似度スコアを計算し、その結果をソートする。 本手法では,各候補ビデオとクエリのマッチングについて検討するが,時間的コストが大きく,特に候補の増加に伴って増加する。 生成モデルは自然言語処理やコンピュータビジョンで一般的であり、文書検索にうまく応用されているが、マルチモーダル検索への応用はいまだ探索されていない。 本稿では,検索効率を向上させるために,連続列列生成モデルであるT2VIndexerというモデルベースビデオインデクサを提案する。 T2VIndexerは高い精度を維持しながら検索時間を短縮することを目的としている。 この目的を達成するために,映像を短いシーケンスとして表現し,セマンティック情報を保存するために,ビデオ識別子エンコーディングとクエリ識別子拡張手法を提案する。 提案手法は,4つの標準データセット上での現在の最先端モデルの検索効率を一貫して向上させる。 MSR-VTT(+1.0%)、MSVD(+1.8%)、ActivityNet(+1.5%)、DiDeMo(+0.2%)の検索性能を向上させるために、元の検索時間の30\%~50\%のベースラインを可能にする。 コードはhttps://github.com/Lilidamowang/T2VIndexer-generativeSearchで公開されている。

Current text-video retrieval methods mainly rely on cross-modal matching between queries and videos to calculate their similarity scores, which are then sorted to obtain retrieval results. This method considers the matching between each candidate video and the query, but it incurs a significant time cost and will increase notably with the increase of candidates. Generative models are common in natural language processing and computer vision, and have been successfully applied in document retrieval, but their application in multimodal retrieval remains unexplored. To enhance retrieval efficiency, in this paper, we introduce a model-based video indexer named T2VIndexer, which is a sequence-to-sequence generative model directly generating video identifiers and retrieving candidate videos with constant time complexity. T2VIndexer aims to reduce retrieval time while maintaining high accuracy. To achieve this goal, we propose video identifier encoding and query-identifier augmentation approaches to represent videos as short sequences while preserving their semantic information. Our method consistently enhances the retrieval efficiency of current state-of-the-art models on four standard datasets. It enables baselines with only 30\%-50\% of the original retrieval time to achieve better retrieval performance on MSR-VTT (+1.0%), MSVD (+1.8%), ActivityNet (+1.5%), and DiDeMo (+0.2%). The code is available at https://github.com/Lilidamowang/T2VIndexer-generativeSearch.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# ツインマシン・アンラーニングによるアラインドデータ除去に向けて

Towards Aligned Data Removal via Twin Machine Unlearning ( http://arxiv.org/abs/2408.11433v1 )

ライセンス: Link先を確認
Yuyao Sun, Zhenxing Niu, Gang hua, Rong jin, (参考訳) 現代のプライバシ規制は、スクラッチから再トレーニングを必要とせずに、すでにトレーニング済みのMLモデルからデータを削除可能な、機械学習の進化を加速させた。 従来のアンラーニング手法は、除去データに対して最小の分類精度を達成するためにモデルを誘導する傾向にある。 それでも、機械学習の真の目的は、未学習モデルとゴールドモデル、すなわちゴールドモデルと同じ分類精度を達成することである。 この目的のために、ツインマシン・アンラーニング(TMU)アプローチを提案し、元のアンラーニング問題に対応する双子のアンラーニング問題を定義する。 その結果、ツイン問題で訓練された一般化ラベル予測器を元の問題に移すことができ、整列データ除去を容易にすることができる。 包括的実証実験により,本手法は未学習モデルと金モデルとのアライメントを著しく向上させることが示された。 一方,本手法では,モデルの精度を損なうことなくデータ除去が可能となる。

Modern privacy regulations have spurred the evolution of machine unlearning, a technique that enables the removal of data from an already trained ML model without requiring retraining from scratch. Previous unlearning methods tend to induce the model to achieve lowest classification accuracy on the removal data. Nonetheless, the authentic objective of machine unlearning is to align the unlearned model with the gold model, i.e., achieving the same classification accuracy as the gold model. For this purpose, we present a Twin Machine Unlearning (TMU) approach, where a twin unlearning problem is defined corresponding to the original unlearning problem. As a results, the generalization-label predictor trained on the twin problem can be transferred to the original problem, facilitating aligned data removal. Comprehensive empirical experiments illustrate that our approach significantly enhances the alignment between the unlearned model and the gold model. Meanwhile, our method allows data removal without compromising the model accuracy.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# リウヴィリアの例外点を取り巻く--簡単な考察

Encircling the Liouvillian exceptional points: a brief review ( http://arxiv.org/abs/2408.11435v1 )

ライセンス: Link先を確認
Konghao Sun, Wei Yi, (参考訳) 例外点は非エルミート・ハミルトニアンの分岐点特異点であり、開系力学において豊富な結果をもたらす。 例外点とその臨界現象は、量子ジャンプのない非エルミート的な設定で広く研究されているが、リンドブラッドのマスター方程式で表されるオープン量子系にも現れ、リウヴィリア固有スペクトルの退化系として同定されている。 これらのリウヴィリアの例外点はしばしば非エルミート・ハミルトニアンのそれと異なる性質を持ち、定常状態や定常状態近似力学の根本的な修正をもたらす。 リウヴィリアの例外点が原子の蒸気、超伝導量子ビット、超低温のイオンや原子などの量子系に広く存在するため、近年は注目が集まっている。 ここでは、Liouvillian例外点の動的帰結の重要な側面、すなわち、Liouvillian例外点を囲むパラメトリックによって誘導されるキラル状態移動について簡単なレビューを行う。 本総説では,実験で利用可能な原子系における現象の理論的記述と実験的観察について述べる。 また、多体効果の結果として、リウヴィリアの例外点に近い集合力学現象を明らかにするための現在進行中の取り組みについても論じる。 正式には、これらの現象は古典的開系において非線形性を持つものと量子量体に匹敵する現象であるが、量子応用の新たな可能性を持っている。

Exceptional points are the branch-point singularities of non-Hermitian Hamiltonians, and have rich consequences in open-system dynamics. While the exceptional points and their critical phenomena are widely studied in the non-Hermitian settings without quantum jumps, they also emerge in open quantum systems depicted by the Lindblad master equations, wherein they are identified as the degeneracies in the Liouvillian eigenspectrum. These Liouvillian exceptional points often have distinct properties compared to their counterparts in non-Hermitian Hamiltonians, leading to fundamental modifications of the steady states or the steady-state-approaching dynamics. Since the Liouvillian exceptional points widely exist in quantum systems such as the atomic vapours, superconducting qubits, and ultracold ions and atoms, they have received increasing amount of attention of late. Here we present a brief review on an important aspect of the dynamic consequence of Liouvillian exceptional points, namely the chiral state transfer induced by the parametric encircling the Liouvillian exceptional points. Our review focuses on the theoretical description and experimental observation of the phenomena in atomic systems that are experimentally accessible. We also discuss the on-going effort to unveil the collective dynamic phenomena close to the Liouvillian exceptional points, as a consequence of the many-body effects therein. Formally, these phenomena are the quantum-many-body counterparts to those in classical open systems with nonlinearity, but hold intriguing new potentials for quantum applications.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# DABench: データ駆動気象データ同化のためのベンチマークデータセット

DABench: A Benchmark Dataset for Data-Driven Weather Data Assimilation ( http://arxiv.org/abs/2408.11438v1 )

ライセンス: Link先を確認
Wuxin Wang, Weicheng Ni, Tao Han, Lei Bai, Boheng Duan, Kaijun Ren, (参考訳) 近年のディープラーニング(DL)の進歩は、最先端の気象予測システム(SOTA)と競合する大規模気象モデル(LWM)の開発につながっている。 これまでのところ、これらのモデルは入力として従来のNWP生成分析フィールドに依存しており、自律システムとは程遠い。 研究者らは、LWMの正確な初期フィールドを生成するために、データ駆動型データ同化(DA)モデルを検討しているが、標準ベンチマークの欠如は、データ駆動型DAアルゴリズム間の公正な評価を妨げている。 本稿では、ERA5データを利用したベンチマークデータセットであるDABenchを紹介し、エンド・ツー・エンドの気象予報システムの開発を導く。 DABench は,(1) 観測系シミュレーション実験法の指導下でのスパースとノイズのシミュレーション観測,(2) 予測に対する同化結果の影響を正確に評価しながら,背景場を生成するための熟練した事前学習天気予報モデル,(3) モデル比較のための標準評価指標,(4) DA変換器(DaT)と呼ばれる強力なベースライン,の4つの標準的特徴に寄与している。 DaTは4次元の変分DA事前知識をTransformerモデルに統合し、4DVarNetという物理的状態再構成においてSOTAより優れている。 さらに,DATと予測モデルを統合することで,エンドツーエンドのデータ駆動型天気予報システムの開発を実証する。 DABenchを利用してモデルを開発し、既存のベースラインのパフォーマンスを比較することで、データ駆動型天気予報システムの今後の進歩に寄与する。 コードはGithubリポジトリで、データセットはBaidu Driveで入手できる。

Recent advancements in deep learning (DL) have led to the development of several Large Weather Models (LWMs) that rival state-of-the-art (SOTA) numerical weather prediction (NWP) systems. Up to now, these models still rely on traditional NWP-generated analysis fields as input and are far from being an autonomous system. While researchers are exploring data-driven data assimilation (DA) models to generate accurate initial fields for LWMs, the lack of a standard benchmark impedes the fair evaluation among different data-driven DA algorithms. Here, we introduce DABench, a benchmark dataset utilizing ERA5 data as ground truth to guide the development of end-to-end data-driven weather prediction systems. DABench contributes four standard features: (1) sparse and noisy simulated observations under the guidance of the observing system simulation experiment method; (2) a skillful pre-trained weather prediction model to generate background fields while fairly evaluating the impact of assimilation outcomes on predictions; (3) standardized evaluation metrics for model comparison; (4) a strong baseline called the DA Transformer (DaT). DaT integrates the four-dimensional variational DA prior knowledge into the Transformer model and outperforms the SOTA in physical state reconstruction, named 4DVarNet. Furthermore, we exemplify the development of an end-to-end data-driven weather prediction system by integrating DaT with the prediction model. Researchers can leverage DABench to develop their models and compare performance against established baselines, which will benefit the future advancements of data-driven weather prediction systems. The code is available on this Github repository and the dataset is available at the Baidu Drive.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# BAdd: バイアス追加によるバイアス軽減

BAdd: Bias Mitigation through Bias Addition ( http://arxiv.org/abs/2408.11439v1 )

ライセンス: Link先を確認
Ioannis Sarridis, Christos Koutlis, Symeon Papadopoulos, Christos Diou, (参考訳) コンピュータビジョン(CV)データセットは、ディープラーニングモデルによって永続されるバイアスを示すことが多い。 最近の取り組みは、これらのバイアスを緩和し、公正な表現を促進することを目的としているが、それらは複雑な現実世界のシナリオで失敗する。 特に、単一属性の注入バイアスを持つベンチマークを含む制御実験において、既存の手法は優れているが、確立されたCVデータセットに複数属性のバイアスが存在することに苦慮している。 本稿では,これらの属性を表す特徴をバックボーンに組み込むことで,バイアスを導入した属性に不変な公平表現を学習する,シンプルで効果的な手法であるBAddを紹介する。 BAddは7つのベンチマークで評価され、競合性能を示し、単一のベンチマークとマルチ属性ベンチマークの両方で最先端の手法を上回っている。 特にBAddは、挑戦的なマルチ属性ベンチマーク、FB-Biased-MNIST、CelebAにおいて、+27.5%と+5.5%の絶対精度の向上を達成した。

Computer vision (CV) datasets often exhibit biases that are perpetuated by deep learning models. While recent efforts aim to mitigate these biases and foster fair representations, they fail in complex real-world scenarios. In particular, existing methods excel in controlled experiments involving benchmarks with single-attribute injected biases, but struggle with multi-attribute biases being present in well-established CV datasets. Here, we introduce BAdd, a simple yet effective method that allows for learning fair representations invariant to the attributes introducing bias by incorporating features representing these attributes into the backbone. BAdd is evaluated on seven benchmarks and exhibits competitive performance, surpassing state-of-the-art methods on both single- and multi-attribute benchmarks. Notably, BAdd achieves +27.5% and +5.5% absolute accuracy improvements on the challenging multi-attribute benchmarks, FB-Biased-MNIST and CelebA, respectively.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# LAHAJA:Hindi ASRシステム評価のためのロバストなマルチアクセントベンチマーク

LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems ( http://arxiv.org/abs/2408.11440v1 )

ライセンス: Link先を確認
Tahir Javed, Janki Nawale, Sakshi Joshi, Eldho George, Kaushal Bhogale, Deovrat Mehendale, Mitesh M. Khapra, (参考訳) ヒンディー語(ヒンディー語:Hindi)は、インドで最も話されている言語の一つである。 複数のアクセントでヒンディー語ASRシステムのロバストな評価を可能にするため,インドの83地区にまたがる132人の話者から得られたヒンディー語音声の合計12.5時間を用いて,多様なトピックやユースケースの読み書き音声を含むベンチマークLAHAJAを作成した。 LAHAJAの既存のオープンソースおよび商用モデルを評価し,その性能が劣っていることを確認した。 次に、異なるデータセットを使用してモデルをトレーニングし、優れた話者多様性を持つ多言語データに基づいてトレーニングされたモデルが、既存のモデルよりも大幅にパフォーマンスを向上していることに気付きます。 また,北東アジアと南インドにおける話者のパフォーマンス低下,特に名前付きエンティティや専門用語に重きを置きながら,詳細な分析を行った。

Hindi, one of the most spoken language of India, exhibits a diverse array of accents due to its usage among individuals from diverse linguistic origins. To enable a robust evaluation of Hindi ASR systems on multiple accents, we create a benchmark, LAHAJA, which contains read and extempore speech on a diverse set of topics and use cases, with a total of 12.5 hours of Hindi audio, sourced from 132 speakers spanning 83 districts of India. We evaluate existing open-source and commercial models on LAHAJA and find their performance to be poor. We then train models using different datasets and find that our model trained on multilingual data with good speaker diversity outperforms existing models by a significant margin. We also present a fine-grained analysis which shows that the performance declines for speakers from North-East and South India, especially with content heavy in named entities and specialized terminology.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# ジェネレーティブAIにおける疫学的不正

Epistemic Injustice in Generative AI ( http://arxiv.org/abs/2408.11441v1 )

ライセンス: Link先を確認
Jackie Kay, Atoosa Kasirzadeh, Shakir Mohamed, (参考訳) 本稿では、生成AIが集団知識の完全性を損なう可能性があり、情報を取得し、評価し、信頼するために依存するプロセスが、私たちの知識エコシステムや民主的談話に重大な脅威をもたらす可能性があることを考察する。 社会哲学や政治哲学に根ざして、我々は「emph{generative algorithmic epistemic injustice}」という概念を導入する。 我々は,この現象の4つの重要な側面を同定する: 増幅的および操作的証言的不正,および医療的無知とアクセス的不正である。 それぞれの次元を実世界の例で説明し、生成的AIがどのように誤った情報を生成または増幅し、表現的害を持続し、特に多言語的文脈において、てんかん的不平等を生み出すかを明らかにする。 これらの不公平さを強調することで、私たちは、抵抗、システム設計の原則、および、より公平な情報エコシステムを育むために生成AIを活用する2つのアプローチを提案し、民主的価値と知識生産の完全性を保護することを目的としている。

This paper investigates how generative AI can potentially undermine the integrity of collective knowledge and the processes we rely on to acquire, assess, and trust information, posing a significant threat to our knowledge ecosystem and democratic discourse. Grounded in social and political philosophy, we introduce the concept of \emph{generative algorithmic epistemic injustice}. We identify four key dimensions of this phenomenon: amplified and manipulative testimonial injustice, along with hermeneutical ignorance and access injustice. We illustrate each dimension with real-world examples that reveal how generative AI can produce or amplify misinformation, perpetuate representational harm, and create epistemic inequities, particularly in multilingual contexts. By highlighting these injustices, we aim to inform the development of epistemically just generative AI systems, proposing strategies for resistance, system design principles, and two approaches that leverage generative AI to foster a more equitable information ecosystem, thereby safeguarding democratic values and the integrity of knowledge production.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# 字幕正規化の分布特性

Distributional Properties of Subword Regularization ( http://arxiv.org/abs/2408.11443v1 )

ライセンス: Link先を確認
Marco Cognetta, Vilém Zouhar, Naoaki Okazaki, (参考訳) NLPで広く使用されているサブワード正規化は、正確なトークン化への依存を減らし、トレーニングコーパスを強化し、トレーニング中にモデルをよりユニークなコンテキストに公開することにより、モデルパフォーマンスを向上させる。 BPEとMaxMatchは2つの人気のあるサブワードトークン化スキームであり、確率的なドロップアウト正規化のバリエーションを持っている。 しかし、それらによって形成される分布の分析は行われていない。 これらの確率的変種は、単語ごとのトークン化の小さなセットに対して非常に偏りがあることが示される。 サブワード正規化の利点が前述の通りであるなら、偏りはこれらのスキームの有効性を人工的に制限する、という仮説を立てる。 そこで本稿では,既存のトークン化の確率的側面の代用として使用するトークン化を一様にサンプリングするアルゴリズムを提案する。

Subword regularization, used widely in NLP, improves model performance by reducing the dependency on exact tokenizations, augmenting the training corpus, and exposing the model to more unique contexts during training. BPE and MaxMatch, two popular subword tokenization schemes, have stochastic dropout regularization variants. However, there has not been an analysis of the distributions formed by them. We show that these stochastic variants are heavily biased towards a small set of tokenizations per word. If the benefits of subword regularization are as mentioned, we hypothesize that biasedness artificially limits the effectiveness of these schemes. Thus, we propose an algorithm to uniformly sample tokenizations that we use as a drop-in replacement for the stochastic aspects of existing tokenizers, and find that it improves machine translation quality.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# ニューラルネットワークによるトリガーフリーバックドア攻撃

A Practical Trigger-Free Backdoor Attack on Neural Networks ( http://arxiv.org/abs/2408.11444v1 )

ライセンス: Link先を確認
Jiahao Wang, Xianglong Zhang, Xiuzhen Cheng, Pengfei Hu, Guoming Zhang, (参考訳) ディープニューラルネットワークに対するバックドア攻撃は、特にDNNがセキュリティクリティカルなアプリケーションにますますデプロイされているため、重大なセキュリティ脅威として浮上している。 しかし、既存のほとんどの研究は、攻撃者が元のトレーニングデータにアクセスしていると仮定している。 この制限は、現実世界のシナリオでそのような攻撃を起動することの実用性を制限する。 さらに、特定のトリガーを使用して注入されたバックドアを起動すると、攻撃のステルス性が損なわれる。 これらの問題に対処するため、トレーニングデータへのアクセスを必要としないトリガーフリーのバックドア攻撃を提案する。 具体的には、攻撃者特定クラスの概念に悪意のあるデータの概念を取り入れた、新たな微調整アプローチを設計し、攻撃者特定クラスにトリガーフリーな悪意のあるデータを誤分類する。 さらに, モデル知識を維持するためにトレーニングデータに頼る代わりに, 知識蒸留法を用いて, 良性サンプル上での感染モデルの性能を維持するとともに, 弾性重み制約に基づくパラメータ重要度評価機構を導入し, 感染モデルの微調整を容易にする。 提案攻撃の有効性,実用性,ステルスネスを実世界の3つのデータセットで総合的に評価した。 さらに、補助データセットとモデルインバージョンを用いて攻撃を強化する可能性についても検討する。

Backdoor attacks on deep neural networks have emerged as significant security threats, especially as DNNs are increasingly deployed in security-critical applications. However, most existing works assume that the attacker has access to the original training data. This limitation restricts the practicality of launching such attacks in real-world scenarios. Additionally, using a specified trigger to activate the injected backdoor compromises the stealthiness of the attacks. To address these concerns, we propose a trigger-free backdoor attack that does not require access to any training data. Specifically, we design a novel fine-tuning approach that incorporates the concept of malicious data into the concept of the attacker-specified class, resulting the misclassification of trigger-free malicious data into the attacker-specified class. Furthermore, instead of relying on training data to preserve the model's knowledge, we employ knowledge distillation methods to maintain the performance of the infected model on benign samples, and introduce a parameter importance evaluation mechanism based on elastic weight constraints to facilitate the fine-tuning of the infected model. The effectiveness, practicality, and stealthiness of the proposed attack are comprehensively evaluated on three real-world datasets. Furthermore, we explore the potential for enhancing the attack through the use of auxiliary datasets and model inversion.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# GaussianOcc:Gaussian Splattingによる完全自己監督型3次元機能評価

GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting ( http://arxiv.org/abs/2408.11447v1 )

ライセンス: Link先を確認
Wanshui Gan, Fang Liu, Hongbin Xu, Ningkai Mo, Naoto Yokoya, (参考訳) 本稿では,ガウシアンスプラッティングとガウシアンスプラッティングの2つの手法を,周囲の視点での3次元占有率推定に応用するシステム手法であるガウシアンOccを紹介する。 第一に、自己監督型3D占有率推定の従来の方法は、トレーニング中にセンサーからの6Dポーズを地平線で行う必要がある。 この制限に対処するために、隣接するビュープロジェクションから完全に自己教師付きトレーニングを行うための正確なスケール情報を提供するために、GSPモジュールのガウス的スプレイティングを提案する。 さらに,2次元信号(深度マップ,セマンティックマップ)を用いた最終3次元ボクセル表現学習のボリュームレンダリングにも依存している。 本稿では,ガウススプラッティングの高速レンダリング特性を活用するために,Voxel空間(GSV)からのガウススプラッティングを提案する。 その結果,GussianOcc法では,計算コストの低い競争性能(トレーニングでは2.7倍,レンダリングでは5倍)で,完全自己教師付き(真理を示さない)3D占有率推定が可能となった。

We introduce GaussianOcc, a systematic method that investigates the two usages of Gaussian splatting for fully self-supervised and efficient 3D occupancy estimation in surround views. First, traditional methods for self-supervised 3D occupancy estimation still require ground truth 6D poses from sensors during training. To address this limitation, we propose Gaussian Splatting for Projection (GSP) module to provide accurate scale information for fully self-supervised training from adjacent view projection. Additionally, existing methods rely on volume rendering for final 3D voxel representation learning using 2D signals (depth maps, semantic maps), which is both time-consuming and less effective. We propose Gaussian Splatting from Voxel space (GSV) to leverage the fast rendering properties of Gaussian splatting. As a result, the proposed GaussianOcc method enables fully self-supervised (no ground truth pose) 3D occupancy estimation in competitive performance with low computational cost (2.7 times faster in training and 5 times faster in rendering).
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# Lookism:コンピュータビジョンにおける見過ごされた偏見

Lookism: The overlooked bias in computer vision ( http://arxiv.org/abs/2408.11448v1 )

ライセンス: Link先を確認
Aditya Gulati, Bruno Lepri, Nuria Oliver, (参考訳) 近年,コンピュータビジョンの進歩により,採用からセキュリティスクリーニングに至るまで,社会的に関係のあるアプリケーションに画像認識と生成システムが広く普及している。 しかしながら、これらのシステムにおける偏見の流行は、重大な倫理的・社会的懸念を引き起こしている。 この文脈で最も広く研究されているバイアスは、性別、人種、年齢に関するものである。 しかし、他のバイアスは、ルックリズム、すなわち、身体的外観に基づく個人の優先的な扱いなど、等しく広まり、有害である。 ルックリズムはコンピュータビジョンでは未熟だが、有害な社会的ステレオタイプを永続させることだけでなく、AI技術の公正性と傾きを損なうことによって、深い意味を持つことができる。 そこで本研究では,コンピュータビジョンモデルにおける批判バイアスとして,ルックリズムの体系的研究を提唱する。 既存の文献の総合的なレビューを通じて、ルックリズムとコンピュータビジョンの3つの領域を識別する。 実例とユーザスタディを用いて、それらを説明します。 我々は、外見の多様性を尊重し反映する公平なコンピュータビジョンシステムの開発を優先するよう、研究者、開発者、政策立案者に促す、ルックリズムに対処するための学際的アプローチを求めている。

In recent years, there have been significant advancements in computer vision which have led to the widespread deployment of image recognition and generation systems in socially relevant applications, from hiring to security screening. However, the prevalence of biases within these systems has raised significant ethical and social concerns. The most extensively studied biases in this context are related to gender, race and age. Yet, other biases are equally pervasive and harmful, such as lookism, i.e., the preferential treatment of individuals based on their physical appearance. Lookism remains under-explored in computer vision but can have profound implications not only by perpetuating harmful societal stereotypes but also by undermining the fairness and inclusivity of AI technologies. Thus, this paper advocates for the systematic study of lookism as a critical bias in computer vision models. Through a comprehensive review of existing literature, we identify three areas of intersection between lookism and computer vision. We illustrate them by means of examples and a user study. We call for an interdisciplinary approach to address lookism, urging researchers, developers, and policymakers to prioritize the development of equitable computer vision systems that respect and reflect the diversity of human appearances.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# モデルラベル学習によるゼロショット分類のための小型モデルの構築

Enabling Small Models for Zero-Shot Classification through Model Label Learning ( http://arxiv.org/abs/2408.11449v1 )

ライセンス: Link先を確認
Jia Zhang, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li, (参考訳) CLIPのような視覚言語モデル(VLM)は、テキストと画像の整列によって画像分類タスクにおいて印象的なゼロショット能力を示したが、タスク固有の専門家モデルに比べて性能が劣っている。 それとは対照的に、エキスパートモデルは専門領域では優れているが、新しいタスクに対するゼロショット能力は欠如している。 エキスパートモデルの高性能性とゼロショット能力の両方を得る方法は重要な研究方向である。 本稿では,モデルラベルを用いてモデルハブを構築し,それらの機能とモデルを整合させることで,ハブ内のモデルを効果的に選択・再利用することで,新たなタスクをゼロショットで解決できることを実証する。 モデルラベル学習(MLL)と呼ばれる新しいパラダイムを導入し、セマンティック指向非巡回グラフ(SDAG)を通してモデルと機能間のギャップを埋め、新しいタスクに有効なモデルを選択するアルゴリズムであるCHCOを利用する。 ファンデーションモデルパラダイムと比較すると、コストが安く、スケーラビリティが向上している。 7つの実世界のデータセットの実験により、MLLの有効性と効率が検証され、専門家モデルがゼロショットタスクに効果的に再利用できることが実証された。 私たちのコードは公開されます。

Vision-language models (VLMs) like CLIP have demonstrated impressive zero-shot ability in image classification tasks by aligning text and images but suffer inferior performance compared with task-specific expert models. On the contrary, expert models excel in their specialized domains but lack zero-shot ability for new tasks. How to obtain both the high performance of expert models and zero-shot ability is an important research direction. In this paper, we attempt to demonstrate that by constructing a model hub and aligning models with their functionalities using model labels, new tasks can be solved in a zero-shot manner by effectively selecting and reusing models in the hub. We introduce a novel paradigm, Model Label Learning (MLL), which bridges the gap between models and their functionalities through a Semantic Directed Acyclic Graph (SDAG) and leverages an algorithm, Classification Head Combination Optimization (CHCO), to select capable models for new tasks. Compared with the foundation model paradigm, it is less costly and more scalable, i.e., the zero-shot ability grows with the sizes of the model hub. Experiments on seven real-world datasets validate the effectiveness and efficiency of MLL, demonstrating that expert models can be effectively reused for zero-shot tasks. Our code will be released publicly.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# 楕円体による永続ホモロジー

Persistent Homology via Ellipsoids ( http://arxiv.org/abs/2408.11450v1 )

ライセンス: Link先を確認
Sara Kališnik, Bastian Rieck, Ana Žegarac, (参考訳) 永続ホモロジー(Persistent homology)は、トポロジカルデータ分析において最も一般的な手法の1つである。 永続ホモロジーを持つ解析の最初のステップは、点雲からフィルターと呼ばれる単体錯体のネスト配列を構築することである。 リップス、アルファ、および証人複合体が一般的な選択であるので、選択すべき様々な複合体が多数存在する。 本写本では, 楕円体複合体と呼ばれる, 幾何学的にインフォームドされた単体複合体の異なるタイプを構築している。 この複体は、例えば、リプスとアルファ錯体の構築に使用されるサンプル点を中心とする従来の(ユークリッド)球と比較して、接方向に沿った楕円体がデータをよりよく近似するという考えに基づいている。 主成分分析を用いて、サンプルから直接接空間を推定し、アルゴリズムを提示するとともに、楕円体複素数に基づく位相記述子を計算するための実装を行う。 さらに,エリスコイドバーコードと標準Ripsバーコードとの比較を行った。 このことから, 楕円体錯体は, 試料からのボトルネックを伴う多様体や空間のホモロジーを推定するのに特に有効であることが示唆された。 特に、そのデータのRipsコンプレックスを用いて得られた区間と比較して、地絡トポロジカル特徴に対応する持続間隔が長くなる。 さらに、楕円体バーコードにより、スパースサンプリングされた点雲の分類結果が改善される。 最後に, 楕円型バーコードは分類タスクにおいてRipsバーコードより優れていることを示す。

Persistent homology is one of the most popular methods in Topological Data Analysis. An initial step in any analysis with persistent homology involves constructing a nested sequence of simplicial complexes, called a filtration, from a point cloud. There is an abundance of different complexes to choose from, with Rips, Alpha, and witness complexes being popular choices. In this manuscript, we build a different type of a geometrically-informed simplicial complex, called an ellipsoid complex. This complex is based on the idea that ellipsoids aligned with tangent directions better approximate the data compared to conventional (Euclidean) balls centered at sample points that are used in the construction of Rips and Alpha complexes, for instance. We use Principal Component Analysis to estimate tangent spaces directly from samples and present algorithms as well as an implementation for computing ellipsoid barcodes, i.e., topological descriptors based on ellipsoid complexes. Furthermore, we conduct extensive experiments and compare ellipsoid barcodes with standard Rips barcodes. Our findings indicate that ellipsoid complexes are particularly effective for estimating homology of manifolds and spaces with bottlenecks from samples. In particular, the persistence intervals corresponding to a ground-truth topological feature are longer compared to the intervals obtained when using the Rips complex of the data. Furthermore, ellipsoid barcodes lead to better classification results in sparsely-sampled point clouds. Finally, we demonstrate that ellipsoid barcodes outperform Rips barcodes in classification tasks.
翻訳日:2024-08-22 17:49:48 公開日:2024-08-21
# シーケンスレコメンデーションのための双方向ゲート型マンバ

Bidirectional Gated Mamba for Sequential Recommendation ( http://arxiv.org/abs/2408.11451v1 )

ライセンス: Link先を確認
Ziwei Liu, Qidong Liu, Yejing Wang, Wanyu Wang, Pengyue Jia, Maolin Wang, Zitao Liu, Yi Chang, Xiangyu Zhao, (参考訳) 様々な領域において、複雑なユーザの嗜好を識別する優れた能力のために、SRS(Sequential Recommender Systems)が不可欠になっている。 典型的には、SRSはトランスフォーマーベースのアーキテクチャを使用して、後続のアイテムをシーケンス内で予測する。 しかしながら、これらのモデルに固有の二次計算の複雑さは、しばしば非効率につながり、リアルタイムの推薦の達成を妨げる。 最近の進歩であるMambaは、時系列予測において例外的な性能を示し、効率と精度の両方を大幅に向上させた。 しかし、Mambaを直接SRSに統合することはいくつかの課題をもたらす。 その本質的に一方向的な性質は、ユーザとイテムのインタラクションの全コンテキストをキャプチャするモデルの能力を制限する可能性がある一方で、状態推定の不安定性は、インタラクションシーケンス内の短期パターンを検出する能力を損なう可能性がある。 これらの問題を克服するために、新しいフレームワークである \textbf{\underline{S}}elect\textbf{\underline{I}}ve \textbf{\underline{G}}ated \textbf{\underline{MA}}mba (SIGMA)を導入する。 このフレームワークは、PF-Mamba (Partially Flipped Mamba) を利用して、コンテキストモデリングを改善するために特別に設計された双方向アーキテクチャを構築する。 さらに、指向性の重みを最適化し、PF-Mambaにおけるシーケンシャル情報の処理を強化するために、入力に敏感なDense Selective Gate(DS Gate)が使用される。 また,ショートシーケンスモデリングのために,短期依存関係を効率的に捉える機能抽出GRU (FE-GRU) を開発した。 実証的な結果は、SIGMAが5つの実世界のデータセットで現在のモデルより優れていることを示している。 実装コードは、再現性を容易にするために、 \url{https://github.com/ziwliu-cityu/SIMGA}で利用可能です。

In various domains, Sequential Recommender Systems (SRS) have become essential due to their superior capability to discern intricate user preferences. Typically, SRS utilize transformer-based architectures to forecast the subsequent item within a sequence. Nevertheless, the quadratic computational complexity inherent in these models often leads to inefficiencies, hindering the achievement of real-time recommendations. Mamba, a recent advancement, has exhibited exceptional performance in time series prediction, significantly enhancing both efficiency and accuracy. However, integrating Mamba directly into SRS poses several challenges. Its inherently unidirectional nature may constrain the model's capacity to capture the full context of user-item interactions, while its instability in state estimation can compromise its ability to detect short-term patterns within interaction sequences. To overcome these issues, we introduce a new framework named \textbf{\underline{S}}elect\textbf{\underline{I}}ve \textbf{\underline{G}}ated \textbf{\underline{MA}}mba (SIGMA). This framework leverages a Partially Flipped Mamba (PF-Mamba) to construct a bidirectional architecture specifically tailored to improve contextual modeling. Additionally, an input-sensitive Dense Selective Gate (DS Gate) is employed to optimize directional weights and enhance the processing of sequential information in PF-Mamba. For short sequence modeling, we have also developed a Feature Extract GRU (FE-GRU) to efficiently capture short-term dependencies. Empirical results indicate that SIGMA outperforms current models on five real-world datasets. Our implementation code is available at \url{https://github.com/ziwliu-cityu/SIMGA} to ease reproducibility.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# 部分的表現を用いた説明可能な深層強化学習

Using Part-based Representations for Explainable Deep Reinforcement Learning ( http://arxiv.org/abs/2408.11455v1 )

ライセンス: Link先を確認
Manos Kirtas, Konstantinos Tsampazis, Loukia Avramelou, Nikolaos Passalis, Nikolaos Passalis, (参考訳) 深層学習モデルを用いたパートベース表現の学習は,特徴表現から得られる潜在要因を単純な付加によって組み込むため,解釈可能な設計アプローチに有意な可能性を秘めている。 しかし、パートベース学習モデルのトレーニングは、特にモデルのパラメータに非負の制約を課すことで、不安定性や収束問題といったトレーニング上の困難を生じさせる。 さらに、多くの最適化手法に影響を与える固有の不安定性のために、深層強化学習(RL)にそのようなアプローチを適用することがさらに要求される。 本稿では,RLにおけるアクターモデルに対する非負のトレーニング手法を提案する。 この目的のために、我々は非負の初期化手法と、既存の手法と比較して勾配流を良くする改良された手話保存訓練手法を用いる。 本稿では,よく知られたCartpoleベンチマークを用いて提案手法の有効性を示す。

Utilizing deep learning models to learn part-based representations holds significant potential for interpretable-by-design approaches, as these models incorporate latent causes obtained from feature representations through simple addition. However, training a part-based learning model presents challenges, particularly in enforcing non-negative constraints on the model's parameters, which can result in training difficulties such as instability and convergence issues. Moreover, applying such approaches in Deep Reinforcement Learning (RL) is even more demanding due to the inherent instabilities that impact many optimization methods. In this paper, we propose a non-negative training approach for actor models in RL, enabling the extraction of part-based representations that enhance interpretability while adhering to non-negative constraints. To this end, we employ a non-negative initialization technique, as well as a modified sign-preserving training method, which can ensure better gradient flow compared to existing approaches. We demonstrate the effectiveness of the proposed approach using the well-known Cartpole benchmark.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# より低リソースな設定のためのFLORES+ベンチマークの拡張: Portuguese-Emakhuwa 機械翻訳評価

Expanding FLORES+ Benchmark for more Low-Resource Settings: Portuguese-Emakhuwa Machine Translation Evaluation ( http://arxiv.org/abs/2408.11457v1 )

ライセンス: Link先を確認
Felermino D. M. Antonio Ali, Henrique Lopes Cardoso, Rui Sousa-Silva, (参考訳) Open Language Data Initiativeの共有タスクの一部として、我々はFLORES+の評価セットを拡張し、モザンビークで広く話されている低リソース言語であるEmakhuwaを含むようにしました。 我々は,開発セットと開発セットをポルトガル語からエマフワ語に翻訳し,使用する翻訳プロセスと品質保証対策について詳述した。 我々の手法は、編集後評価や妥当性評価など、様々な品質チェックを含んでいた。 得られたデータセットは、ソースごとに複数の参照文から構成される。 本稿では,ニューラルネットワーク翻訳システムと既存の多言語翻訳モデルの微調整によるベースライン結果について述べる。 その結果,エマフワでは綴りの不整合が依然として課題であることが示唆された。 さらに、この評価セットではベースラインモデルの性能が低下し、エマフワの機械翻訳品質を高めるためのさらなる研究の必要性が強調された。 データはhttps://huggingface.co/datasets/LIACC/Emakhuwa-FLORESで公開されている。

As part of the Open Language Data Initiative shared tasks, we have expanded the FLORES+ evaluation set to include Emakhuwa, a low-resource language widely spoken in Mozambique. We translated the dev and devtest sets from Portuguese into Emakhuwa, and we detail the translation process and quality assurance measures used. Our methodology involved various quality checks, including post-editing and adequacy assessments. The resulting datasets consist of multiple reference sentences for each source. We present baseline results from training a Neural Machine Translation system and fine-tuning existing multilingual translation models. Our findings suggest that spelling inconsistencies remain a challenge in Emakhuwa. Additionally, the baseline models underperformed on this evaluation set, underscoring the necessity for further research to enhance machine translation quality for Emakhuwa. The data is publicly available at https://huggingface.co/datasets/LIACC/Emakhuwa-FLORES.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# 低照度オブジェクト追跡:ベンチマーク

Low-Light Object Tracking: A Benchmark ( http://arxiv.org/abs/2408.11463v1 )

ライセンス: Link先を確認
Pengzhi Zhong, Xiaoyu Guo, Defeng Huang, Xiaojun Peng, Yian Li, Qijun Zhao, Shuiwang Li, (参考訳) 近年、ビジュアルトラッキングの分野は、大規模なトレーニングデータセットの適用によって大きな進歩を遂げている。 これらのデータセットは高度なアルゴリズムの開発を支援し、ビジュアルオブジェクト追跡の精度と安定性を高めている。 しかし、ほとんどの研究は、低地環境におけるトラッキングの課題を無視して、好ましい照明環境に重点を置いている。 低照度シーンでは、照明は劇的に変化し、ターゲットは異なるテクスチャの特徴を欠いているかもしれないし、いくつかのシナリオでは、ターゲットは直接観測できないかもしれない。 これらの要因は、追跡性能を著しく低下させる可能性がある。 この問題に対処するために、低照度オブジェクト追跡用に特別に設計されたベンチマークであるLLOTを紹介します。 LLOTは、合計132Kフレームを持つ269の挑戦的なシーケンスで構成され、それぞれにバウンディングボックスを慎重にアノテートする。 この特別に設計されたデータセットは、低照度環境でのオブジェクト追跡技術の革新と進歩を促進することを目的としており、既存のベンチマークで適切にカバーされていない課題に対処する。 LLOTにおける既存手法の性能を評価するため,39の最先端追跡アルゴリズムを用いて広範囲な試験を行った。 その結果,低照度追跡性能にかなりの差が認められた。 そこで我々は,H-DCPTを提案する。H-DCPT,H-DCPT,H-DCPT,H-DCPT,H-DCPT,H-DCPT,H-DCPT。 H-DCPTは39種類の評価方法すべてに優れ,有意な改善が認められた。 我々は,我々のベンチマークとH-DCPTが,低照度条件下での物体追跡のための新規かつ正確な手法の開発を促進することを期待する。 LLOTとコードはhttps://github.com/OpenCodeGithub/H-DCPTで公開されている。

In recent years, the field of visual tracking has made significant progress with the application of large-scale training datasets. These datasets have supported the development of sophisticated algorithms, enhancing the accuracy and stability of visual object tracking. However, most research has primarily focused on favorable illumination circumstances, neglecting the challenges of tracking in low-ligh environments. In low-light scenes, lighting may change dramatically, targets may lack distinct texture features, and in some scenarios, targets may not be directly observable. These factors can lead to a severe decline in tracking performance. To address this issue, we introduce LLOT, a benchmark specifically designed for Low-Light Object Tracking. LLOT comprises 269 challenging sequences with a total of over 132K frames, each carefully annotated with bounding boxes. This specially designed dataset aims to promote innovation and advancement in object tracking techniques for low-light conditions, addressing challenges not adequately covered by existing benchmarks. To assess the performance of existing methods on LLOT, we conducted extensive tests on 39 state-of-the-art tracking algorithms. The results highlight a considerable gap in low-light tracking performance. In response, we propose H-DCPT, a novel tracker that incorporates historical and darkness clue prompts to set a stronger baseline. H-DCPT outperformed all 39 evaluated methods in our experiments, demonstrating significant improvements. We hope that our benchmark and H-DCPT will stimulate the development of novel and accurate methods for tracking objects in low-light conditions. The LLOT and code are available at https://github.com/OpenCodeGithub/H-DCPT.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# MambaOcc: 局所適応リオーダを用いたBEVによる運転予測のための視覚状態空間モデル

MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering ( http://arxiv.org/abs/2408.11464v1 )

ライセンス: Link先を確認
Yonglin Tian, Songlin Bai, Zhiyao Luo, Yutong Wang, Yisheng Lv, Fei-Yue Wang, (参考訳) 運転予測は集中的に注目され、自律運転システムの開発において大きな優位性を示している。 幾何情報と意味情報の両方の観点からの占有予測によるきめ細かい環境表現は、オープンシナリオ下での一般的な認識と安全な計画を促進する。 しかし、Voxelベースの3d高密度表現とTransformerベースの二次的注意を利用する既存の作業には、高い計算コストと重いパラメータがもたらされる。 本稿では,3次元シナリオ表現の負担を軽減するために,BEV機能を用いたマンバ型占有予測手法(MambaOcc)を提案する。 さらに,Mambaの配列順序に対する感度に対処するため,変形可能な畳み込みを有する局所適応整合(LAR)機構を提案し,畳み込み層とマンバからなるハイブリッドBEVエンコーダを設計する。 Occ3D-nuScenesデータセットの大規模な実験は、MambaOccが精度と計算効率の両方で最先端のパフォーマンスを達成することを示した。 例えば、FlashOccと比較して、MambaOccはパラメータの数を42 %、計算コストを39 %削減し、優れた結果をもたらす。 コードはhttps://github.com/Hub-Tian/MambaOcc.comから入手できる。

Occupancy prediction has attracted intensive attention and shown great superiority in the development of autonomous driving systems. The fine-grained environmental representation brought by occupancy prediction in terms of both geometry and semantic information has facilitated the general perception and safe planning under open scenarios. However, it also brings high computation costs and heavy parameters in existing works that utilize voxel-based 3d dense representation and Transformer-based quadratic attention. To address these challenges, in this paper, we propose a Mamba-based occupancy prediction method (MambaOcc) adopting BEV features to ease the burden of 3D scenario representation, and linear Mamba-style attention to achieve efficient long-range perception. Besides, to address the sensitivity of Mamba to sequence order, we propose a local adaptive reordering (LAR) mechanism with deformable convolution and design a hybrid BEV encoder comprised of convolution layers and Mamba. Extensive experiments on the Occ3D-nuScenes dataset demonstrate that MambaOcc achieves state-of-the-art performance in terms of both accuracy and computational efficiency. For example, compared to FlashOcc, MambaOcc delivers superior results while reducing the number of parameters by 42\% and computational costs by 39\%. Code will be available at https://github.com/Hub-Tian/MambaOcc.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# MeTTA: テスト時間適応による3次元テクスチャメッシュ再構成

MeTTA: Single-View to 3D Textured Mesh Reconstruction with Test-Time Adaptation ( http://arxiv.org/abs/2408.11465v1 )

ライセンス: Link先を確認
Kim Yu-Ji, Hyunwoo Ha, Kim Youwang, Jaeheung Surh, Hyowon Ha, Tae-Hyun Oh, (参考訳) 単一のビューイメージから3Dを再構築することは、長年の課題である。 この問題に対処するための一般的なアプローチの1つは、学習ベースの手法であるが、トレーニングデータ(アウト・オブ・ディストリビューション、OoD)に精通していないテストケースを扱うことは、さらなる課題をもたらす。 テスト時間における見知らぬサンプルに適応するため, 生成前を生かしたテスト時間適応(TTA)であるMeTTAを提案する。 3次元形状,外観,ポーズの連成最適化を設計し,OoDのケースを単一のビューイメージで処理する。 しかし、基準画像と推定視点による3次元形状のアライメントは誤っており、曖昧さにつながる可能性がある。 この曖昧さに対処するために、学習可能な仮想カメラとその自己校正を慎重に設計する。 実験では,既存の学習ベース3D再構成モデルの故障時のOoDシナリオを効果的に処理し,物理ベースレンダリング(PBR)テクスチャによるリアルな外観が得られることを示した。

Reconstructing 3D from a single view image is a long-standing challenge. One of the popular approaches to tackle this problem is learning-based methods, but dealing with the test cases unfamiliar with training data (Out-of-distribution; OoD) introduces an additional challenge. To adapt for unseen samples in test time, we propose MeTTA, a test-time adaptation (TTA) exploiting generative prior. We design joint optimization of 3D geometry, appearance, and pose to handle OoD cases with only a single view image. However, the alignment between the reference image and the 3D shape via the estimated viewpoint could be erroneous, which leads to ambiguity. To address this ambiguity, we carefully design learnable virtual cameras and their self-calibration. In our experiments, we demonstrate that MeTTA effectively deals with OoD scenarios at failure cases of existing learning-based 3D reconstruction models and enables obtaining a realistic appearance with physically based rendering (PBR) textures.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# 自己完結型否定テストセット

The Self-Contained Negation Test Set ( http://arxiv.org/abs/2408.11469v1 )

ライセンス: Link先を確認
David Kletz, Pascal Amsili, Marie Candito, (参考訳) 近年,予測言語モデル(PLM)の否定を解釈する能力を評価するために,いくつかの手法が提案されている。 本稿では,入力の極性の関数としてのPLMの予測の修正を英語で研究するGubelmann and Handschuh (2022) について述べる。 このテストでは、入力中の動詞の極性によって、特定のトークンは意味論的に排除されるか、マスクされた位置で許可される。 Gubelmann and Handschuh (2022) 実験を再現することで、この実験から得られる結論を弱める欠陥を発見した。 そこで我々は、より制御され、より体系的であり、英語における口頭否定の有無によってのみ変化する最小対を形成する例に基づいて、改良された自己完結ネグテスト(Self-Contained Neg Test)を提案する。 ロベルタベースとバートベースと大型モデルにテストを適用すると、ロベルタラージだけが期待に合致する傾向を示すのに対し、バートベースはほとんど否定に敏感であることを示す。 しかし、テストされたすべてのモデルにおいて、かなりの数のテストインスタンスにおいて、トップ-1予測は文脈によって意味的に禁止されるトークンのままであり、これは、否定現象を適切に扱うための改善の余地がどれだけあるかを示している。

Several methodologies have recently been proposed to evaluate the ability of Pretrained Language Models (PLMs) to interpret negation. In this article, we build on Gubelmann and Handschuh (2022), which studies the modification of PLMs' predictions as a function of the polarity of inputs, in English. Crucially, this test uses ``self-contained'' inputs ending with a masked position: depending on the polarity of a verb in the input, a particular token is either semantically ruled out or allowed at the masked position. By replicating Gubelmann and Handschuh (2022) experiments, we have uncovered flaws that weaken the conclusions that can be drawn from this test. We thus propose an improved version, the Self-Contained Neg Test, which is more controlled, more systematic, and entirely based on examples forming minimal pairs varying only in the presence or absence of verbal negation in English. When applying our test to the roberta and bert base and large models, we show that only roberta-large shows trends that match the expectations, while bert-base is mostly insensitive to negation. For all the tested models though, in a significant number of test instances the top-1 prediction remains the token that is semantically forbidden by the context, which shows how much room for improvement remains for a proper treatment of the negation phenomenon.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# TrackGo: フレキシブルで効率的なビデオ生成方法

TrackGo: A Flexible and Efficient Method for Controllable Video Generation ( http://arxiv.org/abs/2408.11475v1 )

ライセンス: Link先を確認
Haitao Zhou, Chuang Wang, Rui Nie, Jinxiao Lin, Dongdong Yu, Qian Yu, Changhu Wang, (参考訳) 近年、拡散に基づく制御可能なビデオ生成が著しく進歩している。 しかし、細粒度、洗練された運動軌跡、コヒーレントな背景運動を含む複雑なシナリオにおいて正確な制御を達成することは依然として困難である。 本稿では,条件付きビデオ生成に自由形マスクと矢印を利用する新しい手法であるTrackGoを紹介する。 この方法は、ビデオコンテンツを操作するための柔軟で正確なメカニズムをユーザに提供する。 また、予め訓練されたビデオ生成モデルの時間的自己アテンション層にシームレスに統合されるように設計された、効率的で軽量なアダプタである、制御実装のためのTrackAdapterを提案する。 この設計は、ビデオ中の動きに対応する領域を正確に活性化する、これらのレイヤのアテンションマップを活用する。 実験の結果,TrackAdapterによって強化された我々の新しい手法は,FVD,FID,ObjMCスコアなどの重要な指標に対して,最先端のパフォーマンスを実現することがわかった。 TrackGoのプロジェクトページは、https://zhtjtcz.github.io/TrackGo-Page/.com/で見ることができる。

Recent years have seen substantial progress in diffusion-based controllable video generation. However, achieving precise control in complex scenarios, including fine-grained object parts, sophisticated motion trajectories, and coherent background movement, remains a challenge. In this paper, we introduce TrackGo, a novel approach that leverages free-form masks and arrows for conditional video generation. This method offers users with a flexible and precise mechanism for manipulating video content. We also propose the TrackAdapter for control implementation, an efficient and lightweight adapter designed to be seamlessly integrated into the temporal self-attention layers of a pretrained video generation model. This design leverages our observation that the attention map of these layers can accurately activate regions corresponding to motion in videos. Our experimental results demonstrate that our new approach, enhanced by the TrackAdapter, achieves state-of-the-art performance on key metrics such as FVD, FID, and ObjMC scores. The project page of TrackGo can be found at: https://zhtjtcz.github.io/TrackGo-Page/
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# 偏光絡み合った光子のブロードバンド生成に$ >^{(3)}$テンソルの分散を利用する方法

How to use the dispersion in the $χ^{(3)}$ tensor for broadband generation of polarization-entangled photons ( http://arxiv.org/abs/2408.11477v1 )

ライセンス: Link先を確認
Valeria Vento, Francesco Ciccarello, Sakthi Pryia Amirtharaj, Christophe Galland, (参考訳) 偏光-絡み合った光子対は量子光学や技術で広く使われている資源であり、しばしば非線形過程を用いて生成される。 自発パラメトリックダウンコンバージョンに基づくほとんどのソースは、ポンプ、信号、アイドル周波数が位相整合条件を満たす必要があるため、比較的狭い光帯域を有する。 例えばスペクトル多重化を実現するために帯域幅を拡張するには、温度、結晶角、ポーリング時間などの実験パラメータを変更する必要がある。 ここでは,ダイヤモンド結晶中の自発4波混合による光子対の広帯域(光子毎のTHz)生成を,光工学を必要としない単純なコリニア幾何を用いて実証する。 我々のアプローチは、電子的および振動的寄与の間の量子干渉を$\chi^{(3)}$テンソルに活用する。 絡み合いは、ファイバ分散分光法と高速単光子検出器を用いて、帯域幅全体にわたるベル試験の単一実現を特徴とする。 結果は、$\chi^{(3)}$およびラマンテンソルの知識から予測される双光子波動関数と一致し、他の結晶材料へのアプローチの一般的な適用性を示す。

Polarization-entangled photon pairs are a widely used resource in quantum optics and technologies, and are often produced using a nonlinear process. Most sources based on spontaneous parametric downconversion have relatively narrow optical bandwidth because the pump, signal and idler frequencies must satisfy a phase-matching condition. Extending the bandwidth, for example to achieve spectral multiplexing, requires changing some experimental parameters such as temperature, crystal angle, poling period, etc. Here, we demonstrate broadband (tens of THz for each photon) generation of polarization-entangled photon pairs by spontaneous four-wave mixing in a diamond crystal, with a simple colinear geometry requiring no further optical engineering. Our approach leverages the quantum interference between electronic and vibrational contributions to the $\chi^{(3)}$ tensor. Entanglement is characterized in a single realization of a Bell test over the entire bandwidth using fiber dispersion spectroscopy and fast single-photon detectors. The results agree with the biphoton wavefunction predicted from the knowledge of the $\chi^{(3)}$ and Raman tensors and demonstrate the general applicability of our approach to other crystalline materials.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# 局所学習に基づくLAKD活性化マッピング蒸留

LAKD-Activation Mapping Distillation Based on Local Learning ( http://arxiv.org/abs/2408.11478v1 )

ライセンス: Link先を確認
Yaoze Zhang, Yuming Zhang, Yu Zhao, Yue Zhang, Feiyu Zhu, (参考訳) 知識蒸留は、コンパクトモデルの性能を高めるために、様々な基本的な視覚モデルに広く応用されている。 既存の知識蒸留法は、教師モデルから知識を得るために異なる蒸留ターゲットを設計することに焦点を当てている。 しかし、これらの手法は、しばしば蒸留された情報の効率的な利用を見落とし、様々な種類の情報を密結合させ、教師ネットワークからの知識が学習のネットワークにどのように役立つかを説明することは困難である。 本稿では,教師ネットワークからの蒸留情報をより効率的に活用し,高い解釈性と競争性能を実現する,新たな知識蒸留フレームワークであるLAKDを提案する。 このフレームワークは、分離分離分離機構と非指向性アクティベーションマッピングを通じて、独立した対話的トレーニング機構を確立する。 LAKDは教師の特徴を分離し、単純なものから複雑なものへと進歩的な相互作用訓練を促進する。 具体的には、生徒ネットワークは、教師から受け継がれた知識を分離するために、独立した勾配を持つローカルモジュールに分割される。 非方向性のアクティベーションマッピングにより、学生ネットワークは、粗い特徴知識を学習することで、異なるローカルモジュールからの知識を統合することができる。 CIFAR-10, CIFAR-100, ImageNetデータセットについて実験を行った結果, LAKD法は既存の手法よりも優れており, 常に異なるデータセットにおける最先端性能を実現していることがわかった。

Knowledge distillation is widely applied in various fundamental vision models to enhance the performance of compact models. Existing knowledge distillation methods focus on designing different distillation targets to acquire knowledge from teacher models. However, these methods often overlook the efficient utilization of distilled information, crudely coupling different types of information, making it difficult to explain how the knowledge from the teacher network aids the student network in learning. This paper proposes a novel knowledge distillation framework, Local Attention Knowledge Distillation (LAKD), which more efficiently utilizes the distilled information from teacher networks, achieving higher interpretability and competitive performance. The framework establishes an independent interactive training mechanism through a separation-decoupling mechanism and non-directional activation mapping. LAKD decouples the teacher's features and facilitates progressive interaction training from simple to complex. Specifically, the student network is divided into local modules with independent gradients to decouple the knowledge transferred from the teacher. The non-directional activation mapping helps the student network integrate knowledge from different local modules by learning coarse-grained feature knowledge. We conducted experiments on the CIFAR-10, CIFAR-100, and ImageNet datasets, and the results show that our LAKD method significantly outperforms existing methods, consistently achieving state-of-the-art performance across different datasets.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# 深発散ダイナミクスの学習

Learning Deep Dissipative Dynamics ( http://arxiv.org/abs/2408.11479v1 )

ライセンス: Link先を確認
Yuji Okamoto, Ryosuke Kojima, (参考訳) 本研究は、与えられた時系列データから学習したニューラルネットワークによって表現される力学系の「分散性」を厳密に保証する。 分散性は、安定性と入力出力安定性を一般化する力学系にとって重要な指標であり、ロボット工学、生物学的システム、分子動力学など様々なシステムで有効であることが知られている。 非線形カルマン・ヤクボヴィチ・ポポフ(KYP)補題の一般解を解析的に証明することにより,ニューラルネットワークで表される任意の力学を散逸的状態に変換する微分可能射影法と,変換された力学の学習法を提案する。 本手法は, 分散性の一般性を利用して, 訓練された力学系の安定性, 入力出力安定性, エネルギー保存を厳密に保証する。 最後に,ロボットアームや流体力学への応用を通じて,ドメイン外入力に対する手法の堅牢性を示す。 code here https://github.com/kojima-r/DeepDissipativeModel

This study challenges strictly guaranteeing ``dissipativity'' of a dynamical system represented by neural networks learned from given time-series data. Dissipativity is a crucial indicator for dynamical systems that generalizes stability and input-output stability, known to be valid across various systems including robotics, biological systems, and molecular dynamics. By analytically proving the general solution to the nonlinear Kalman-Yakubovich-Popov (KYP) lemma, which is the necessary and sufficient condition for dissipativity, we propose a differentiable projection that transforms any dynamics represented by neural networks into dissipative ones and a learning method for the transformed dynamics. Utilizing the generality of dissipativity, our method strictly guarantee stability, input-output stability, and energy conservation of trained dynamical systems. Finally, we demonstrate the robustness of our method against out-of-domain input through applications to robotic arms and fluid dynamics. Code here https://github.com/kojima-r/DeepDissipativeModel
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# OAPT: JPEGアーチファクト削除のためのオフセット対応分割変換器

OAPT: Offset-Aware Partition Transformer for Double JPEG Artifacts Removal ( http://arxiv.org/abs/2408.11480v1 )

ライセンス: Link先を確認
Qiao Mo, Yukang Ding, Jinhua Hao, Qiang Zhu, Ming Sun, Chao Zhou, Feiyu Chen, Shuyuan Zhu, (参考訳) ディープラーニングベースの手法は、単一のJPEGアーティファクト削除タスクにおいて顕著なパフォーマンスを示している。 しかし、既存の手法は、現実のシナリオでよく見られる二重JPEGイメージで劣化する傾向にある。 この問題に対処するため,OAPTと呼ばれるJPEGアーティファクトの二重削除のためのオフセット・アウェア分割変換器を提案する。 我々は8×8ブロック毎に最大4パターンのJPEG圧縮を解析し、類似したパターンをクラスタ化して復元の困難を解消するモデルの設計を行う。 OAPTは圧縮オフセット予測器と画像再構成器の2つのコンポーネントから構成される。 具体的には、予測器は、第1と第2の圧縮の間の画素オフセットを推定し、異なるパターンを分割するために使用される。 コンストラクタは主に複数のハイブリッドパーティションアテンションブロック(HPAB)に基づいており、バニラウィンドウベースの自己アテンションと、クラスタ化されたパターンの特徴に対するスパースアテンションを組み合わせたものである。 OAPTは2つのJPEG画像復元タスクにおいて0.16dB以上の精度で最先端の手法より優れていることを示した。 さらに、計算コストを増大させることなく、HPABのパターンクラスタリングモジュールは、他のトランスフォーマーベースの画像復元方法を強化するプラグインとして機能することができる。 コードはhttps://github.com/QMoQ/OAPT.gitで入手できる。

Deep learning-based methods have shown remarkable performance in single JPEG artifacts removal task. However, existing methods tend to degrade on double JPEG images, which are prevalent in real-world scenarios. To address this issue, we propose Offset-Aware Partition Transformer for double JPEG artifacts removal, termed as OAPT. We conduct an analysis of double JPEG compression that results in up to four patterns within each 8x8 block and design our model to cluster the similar patterns to remedy the difficulty of restoration. Our OAPT consists of two components: compression offset predictor and image reconstructor. Specifically, the predictor estimates pixel offsets between the first and second compression, which are then utilized to divide different patterns. The reconstructor is mainly based on several Hybrid Partition Attention Blocks (HPAB), combining vanilla window-based self-attention and sparse attention for clustered pattern features. Extensive experiments demonstrate that OAPT outperforms the state-of-the-art method by more than 0.16dB in double JPEG image restoration task. Moreover, without increasing any computation cost, the pattern clustering module in HPAB can serve as a plugin to enhance other transformer-based image restoration methods. The code will be available at https://github.com/QMoQ/OAPT.git .
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# E-Bench: テキスト駆動ビデオ編集品質評価のための主観的適応型ベンチマークスイート

E-Bench: Subjective-Aligned Benchmark Suite for Text-Driven Video Editing Quality Assessment ( http://arxiv.org/abs/2408.11481v1 )

ライセンス: Link先を確認
Shangkun Sun, Xiaoyu Liang, Songlin Fan, Wenxu Gao, Wei Gao, (参考訳) テキスト駆動のビデオ編集は、最近急速に発展してきた。 それにもかかわらず、編集されたビデオを評価することは大きな課題である。 現在のメトリクスは人間の知覚と一致しない傾向にあり、ビデオ編集に有効なメトリクスはいまだに欠落している。 そこで本研究では,テキスト駆動ビデオ編集の評価に適したベンチマークスイートであるE-Benchを紹介する。 このスイートには、ビデオ編集のためのビデオ品質アセスメント(VQA)データベースであるE-Bench DBが含まれている。 E-Bench DBは、さまざまな動きや主題を含む様々なソースビデオと、複数の異なる編集プロンプト、8つの異なるモデルの編集結果、および24人のアノテーションからの対応する平均オピニオンスコア(MOS)を含む。 E-Bench DBをベースとして,テキスト駆動ビデオ編集作業のための定量的なヒューマンアライメント計測であるE-Bench QAを提案する。 従来のVQA手法が強調する美的、歪み、その他の視覚的品質指標に加えて、E-Bench QAは、テキスト・ビデオアライメントと、ソース・編集ビデオ間の関連性モデリングに焦点を当てている。 人間の好みに合わせて優れたパフォーマンスが得られるビデオ編集のための新しいアセスメントネットワークを提案する。 我々の知る限り、E-Benchは、ビデオ編集のための最初の品質評価データセットと、この領域に対する効果的な主観的整合量尺度を導入している。 すべてのデータとコードはhttps://github.com/littlespray/E-Bench.comで公開される。

Text-driven video editing has recently experienced rapid development. Despite this, evaluating edited videos remains a considerable challenge. Current metrics tend to fail to align with human perceptions, and effective quantitative metrics for video editing are still notably absent. To address this, we introduce E-Bench, a benchmark suite tailored to the assessment of text-driven video editing. This suite includes E-Bench DB, a video quality assessment (VQA) database for video editing. E-Bench DB encompasses a diverse set of source videos featuring various motions and subjects, along with multiple distinct editing prompts, editing results from 8 different models, and the corresponding Mean Opinion Scores (MOS) from 24 human annotators. Based on E-Bench DB, we further propose E-Bench QA, a quantitative human-aligned measurement for the text-driven video editing task. In addition to the aesthetic, distortion, and other visual quality indicators that traditional VQA methods emphasize, E-Bench QA focuses on the text-video alignment and the relevance modeling between source and edited videos. It proposes a new assessment network for video editing that attains superior performance in alignment with human preferences. To the best of our knowledge, E-Bench introduces the first quality assessment dataset for video editing and an effective subjective-aligned quantitative metric for this domain. All data and code will be publicly available at https://github.com/littlespray/E-Bench.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# ソフトウェア設計ネットワークにおけるセキュリティ評価

Security Evaluation in Software-Defined Networks ( http://arxiv.org/abs/2408.11486v1 )

ライセンス: Link先を確認
Igor Ivkić, Dominik Thiede, Nicholas Race, Matthew Broadbent, Antonios Gouglidis, (参考訳) 近年、クラウドコンピューティングの重要性が高まり、データセンター(DC)ネットワークの要求が大幅に増加した。 この変更の主要な要因は仮想化であり、コンピューティングリソースを大規模にデプロイすることができる。 しかし、従来のDCは、ネットワークトポロジとネットワークエンドポイントの急増により、クラウドコンピューティングアプリケーションの柔軟な集中管理要件を満たすのに苦労しています。 Software-Defined Networks (SDN)は、データルーティングから制御関数を分離することで、これらの成長するネットワーク要求に対するソリューションを提供すると約束している。 この変更により、ネットワークの柔軟性が向上すると同時に、新たなセキュリティ問題も導入される。 本稿では、SDNアーキテクチャのセキュリティを評価するためのフレームワークについて述べる。 さらに,本フレームワークが脅威や脆弱性を識別し,リスクや重症度を算出し,その軽減に必要な対策を提示する方法について実験的に検証した。 提案されたフレームワークは、管理者がSDNセキュリティを評価し、特定された脅威に対処し、ネットワークセキュリティ要件を満たすのに役立つ。

Cloud computing has grown in importance in recent years which has led to a significant increase in Data Centre (DC) network requirements. A major driver of this change is virtualisation, which allows computing resources to be deployed on a large scale. However, traditional DCs, with their network topology and proliferation of network endpoints, are struggling to meet the flexible, centrally managed requirements of cloud computing applications. Software-Defined Networks (SDN) promise to offer a solution to these growing networking requirements by separating control functions from data routing. This shift adds more flexibility to networks but also introduces new security issues. This article presents a framework for evaluating security of SDN architectures. In addition, through an experimental study, we demonstrate how this framework can identify the threats and vulnerabilities, calculate their risks and severity, and provide the necessary measures to mitigate them. The proposed framework helps administrators to evaluate SDN security, address identified threats and meet network security requirements.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# DocTabQA: テーブルを使って長いドキュメントから質問を答える

DocTabQA: Answering Questions from Long Documents Using Tables ( http://arxiv.org/abs/2408.11490v1 )

ライセンス: Link先を確認
Haochen Wang, Kai Hu, Haoyu Dong, Liangcai Gao, (参考訳) 本稿では,DocTabQAと呼ばれる質問応答(QA)の新たな問題設定について検討する。 この設定内では、長いドキュメントが与えられたら、答を文書の内容から直接導かれる構造化テーブルに整理することで質問に答えることが目的である。 従来のQAアプローチとは異なり、DocTabQAは構造化されたテーブルを回答として活用し、情報を明確かつ体系的に伝達することで、ユーザの理解を深め、データポイント間の関係を強調する。 我々の知る限りでは、この問題は以前にも検討されていない。 本稿では,300の財務文書を含むQTabAデータセットについて紹介する。 まず、GPT-4のような大規模言語モデル(LLM)を利用してベースラインを確立する。 しかし、LLMが長い入力シーケンスから複雑な構造化出力を生成するのに困難に直面することは広く認識されている。 これらの課題を克服するために、DocTabTalkと呼ばれる2段階のフレームワークを提案する。 DocTabTalkには2つの重要な技術革新が含まれている。AlignLLaMAとTabTalkは、DocTabQAに取り組む際に、GPT-4を支援するために特別に調整されている。 QTabAとRotoWireの両方で実施した総合的な実験により、提案したDocTabQAタスクとテーブル生成タスクにおいて、我々のDocTabTalkはGPT-4の性能を大幅に向上させることが示された。 コードとデータセットは、さらなる研究のためにhttps://github.com/SmileWHC/DocTabQAで入手できる。

We study a new problem setting of question answering (QA), referred to as DocTabQA. Within this setting, given a long document, the goal is to respond to questions by organizing the answers into structured tables derived directly from the document's content. Unlike traditional QA approaches which predominantly rely on unstructured text to formulate responses, DocTabQA aims to leverage structured tables as answers to convey information clearly and systematically, thereby enhancing user comprehension and highlighting relationships between data points. To the best of our knowledge, this problem has not been previously explored. In this paper, we introduce the QTabA dataset, encompassing 300 financial documents, accompanied by manually annotated 1.5k question-table pairs. Initially, we leverage Large Language Models (LLMs) such as GPT-4 to establish a baseline. However, it is widely acknowledged that LLMs encounter difficulties when tasked with generating intricate, structured outputs from long input sequences. To overcome these challenges, we present a two-stage framework, called DocTabTalk, which initially retrieves relevant sentences from extensive documents and subsequently generates hierarchical tables based on these identified sentences. DocTabTalk incorporates two key technological innovations: AlignLLaMA and TabTalk, which are specifically tailored to assist GPT-4 in tackling DocTabQA, enabling it to generate well-structured, hierarchical tables with improved organization and clarity. Comprehensive experimental evaluations conducted on both QTabA and RotoWire datasets demonstrate that our DocTabTalk significantly enhances the performances of the GPT-4 in our proposed DocTabQA task and the table generation task. The code and dataset are available at https://github.com/SmileWHC/DocTabQA for further research.
翻訳日:2024-08-22 17:39:23 公開日:2024-08-21
# 余計なこと:安全に配慮したアクティベーションステアリングによるLCMの過大な安全性の軽減

Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering ( http://arxiv.org/abs/2408.11491v1 )

ライセンス: Link先を確認
Zouying Cao, Yifei Yang, Hai Zhao, (参考訳) 重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。 しかし、近年の研究では、安全性の問題が誇張されているため、安全性に配慮したLCMでは、良質なクエリを拒否する傾向があり、その利便性が制限されていることが示されている。 本稿では,LCMにおける過大な安全性の懸念を軽減するために,SCANS(Safety-Conscious Activation Steering)手法を提案する。 まず、SCANSはアクティベーション空間内のリファレルステアリングベクターを抽出し、ボキャブラリプロジェクションを用いてモデル拒絶行動に影響を与える特定の安全クリティカルなレイヤをアンカーする。 第二に、隠れた状態遷移を追跡することによって、SCANSはステアリング方向を特定し、それに従ってモデル動作を操縦し、誇張された安全性と適切な安全性のバランスをとる。 実験によると、SCANSは有害なクエリに対する防御能力を損なうことなく、XSTestとOKTestベンチマークで新しい最先端のパフォーマンスを実現し、ほとんど変化のないモデル能力を維持する。

Safety alignment is indispensable for Large language models (LLMs) to defend threats from malicious instructions. However, recent researches reveal safety-aligned LLMs prone to reject benign queries due to the exaggerated safety issue, limiting their helpfulness. In this paper, we propose a Safety-Conscious Activation Steering (SCANS) method to mitigate the exaggerated safety concerns in aligned LLMs. First, SCANS extracts the refusal steering vectors within the activation space and utilizes vocabulary projection to anchor some specific safety-critical layers which influence model refusal behavior. Second, by tracking the hidden state transition, SCANS identifies the steering direction and steers the model behavior accordingly, achieving a balance between exaggerated safety and adequate safety. Experiments show that SCANS achieves new state-of-the-art performance on XSTest and OKTest benchmarks, without impairing their defense capability against harmful queries and maintaining almost unchanged model capability.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# 観測ネットワークデータにおけるピア直接効果と間接効果の推定

Estimating Peer Direct and Indirect Effects in Observational Network Data ( http://arxiv.org/abs/2408.11492v1 )

ライセンス: Link先を確認
Xiaojing Du, Jiuyong Li, Debo Cheng, Lin Liu, Wentao Gao, Xiongren Chen, (参考訳) 多くのアプリケーションにおいて因果効果の推定は意思決定者にとって重要であるが、ピアインタラクションによる観測ネットワークデータでは特に困難である。 ネットワークデータ、特にピアエフェクトを含む因果効果を推定するために多くのアルゴリズムが提案されているが、それらはピアエフェクトの多様性を見落としていることが多い。 この問題に対処するために, ピア直接効果とピア間接効果の両方を考慮し, 個人自身の治療の効果を考慮し, これらの因果効果と証明の識別条件を提案する。 これらの因果効果を推定するために、注意機構を用いて、異なる隣人の影響を識別し、多層グラフニューラルネットワーク(GNN)による高次隣人効果を探索する。 さらに,ノードの特徴と表現の依存性を制御するため,GNNにHilbert-Schmidt Independence Criterion(HSIC)を組み込み,グラフの構造情報を完全に活用し,モデルの堅牢性と精度を高める。 2つの半合成データセットに対する大規模な実験により、我々のアプローチの有効性が確認された。 理論的には,ネットワークシステムにおける介入戦略を改善する可能性があり,ソーシャルネットワークや疫学などの分野にも応用できる。

Estimating causal effects is crucial for decision-makers in many applications, but it is particularly challenging with observational network data due to peer interactions. Many algorithms have been proposed to estimate causal effects involving network data, particularly peer effects, but they often overlook the variety of peer effects. To address this issue, we propose a general setting which considers both peer direct effects and peer indirect effects, and the effect of an individual's own treatment, and provide identification conditions of these causal effects and proofs. To estimate these causal effects, we utilize attention mechanisms to distinguish the influences of different neighbors and explore high-order neighbor effects through multi-layer graph neural networks (GNNs). Additionally, to control the dependency between node features and representations, we incorporate the Hilbert-Schmidt Independence Criterion (HSIC) into the GNN, fully utilizing the structural information of the graph, to enhance the robustness and accuracy of the model. Extensive experiments on two semi-synthetic datasets confirm the effectiveness of our approach. Our theoretical findings have the potential to improve intervention strategies in networked systems, with applications in areas such as social networks and epidemiology.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# XDT-CXR:胸部X線ゼロショットバイナリ分類におけるクロス放電伝達性の検討

XDT-CXR: Investigating Cross-Disease Transferability in Zero-Shot Binary Classification of Chest X-Rays ( http://arxiv.org/abs/2408.11493v1 )

ライセンス: Link先を確認
Umaima Rahman, Abhishek Basu, Muhammad Uzair Khattak, Aniq Ur Rahman, (参考訳) 本研究は, 医療画像におけるXDTの概念を考察し, 同一臓器に影響を及ぼす他の疾患に対してゼロショット分類を行うために, 一つの疾患で訓練されたバイナリ分類器の可能性に着目した。 胸部X線(CXR)を主要なモダリティとして用いて,肺疾患を訓練したモデルが,新たな肺疾患を予測できるかどうかを考察した。 XDTフレームワークはビジョンエンコーダの埋め込み空間を利用しており、カーネル変換によって、潜伏した空間における疾患のあるクラスと非障害のクラスを区別するのに役立つ。 この能力は、リソース制限された環境や、特定の疾患の頻度が低い地域では特に有益であり、従来の診断が失敗する可能性がある。 しかしながら、XDTフレームワークは現在二分分類に限られており、複数の疾患を区別するのではなく、疾患の有無を判断している。 この制限は、臨床環境での従来の診断検査に対するXDTの補充的役割を裏付けるものである。 さらに,フレームワークとしてのXDT-CXRは,他のゼロショット学習(ZSL)ベースラインと比較して,より良い予測を行うことができることを示した。

This study explores the concept of cross-disease transferability (XDT) in medical imaging, focusing on the potential of binary classifiers trained on one disease to perform zero-shot classification on another disease affecting the same organ. Utilizing chest X-rays (CXR) as the primary modality, we investigate whether a model trained on one pulmonary disease can make predictions about another novel pulmonary disease, a scenario with significant implications for medical settings with limited data on emerging diseases. The XDT framework leverages the embedding space of a vision encoder, which, through kernel transformation, aids in distinguishing between diseased and non-diseased classes in the latent space. This capability is especially beneficial in resource-limited environments or in regions with low prevalence of certain diseases, where conventional diagnostic practices may fail. However, the XDT framework is currently limited to binary classification, determining only the presence or absence of a disease rather than differentiating among multiple diseases. This limitation underscores the supplementary role of XDT to traditional diagnostic tests in clinical settings. Furthermore, results show that XDT-CXR as a framework is able to make better predictions compared to other zero-shot learning (ZSL) baselines.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# 大規模言語モデルのパラメータの関数をマップする変異生成画面

Mutagenesis screen to map the functionals of parameters of Large Language Models ( http://arxiv.org/abs/2408.11494v1 )

ライセンス: Link先を確認
Yue Hu, Kai Hu, Patrick X. Zhao, Javed Khan, Chengming Xu, (参考訳) 大規模言語モデル(LLM)は、非常に高度な人工知能を持ち、多くのタスクに優れています。 モデルの機能はそのパラメータに本質的に結びついているが、パラメータと機能の間の接続を探索する体系的な方法には欠けている。 同様の構造とパラメータ数を共有するモデルは、様々なタスク間で大きなパフォーマンス格差を示し、そのパフォーマンスを管理する様々なパターンについて調査する。 我々は、Llama2-7bとZephyrを解析するために、生物学的研究で用いられる方法にインスパイアされた変異原性スクリーンアプローチを採用した。 この手法は、モデルパラメータとそれらの機能の関係を調べるために、モデルの行列内の要素を最大または最小値に変更することを含む。 私たちの研究は、両方のモデルの中で様々なレベルの微細構造を発見しました。 多くのマトリックスは変異後の最大変異と最小変異の混合を示したが、他のマトリックスは主として1つのタイプに敏感であった。 特に、表現型、特に重篤な結果をもたらす突然変異は、軸に沿って集結する傾向にあった。 さらに、最大と最小の突然変異の位置は、両方のモデルでしばしば相補的なパターンを示し、ゲート行列は再配置後のユニークな2次元の非対称性を示す。 ゼファーでは、特定の突然変異は、記述的なアウトプットよりも詩的な、あるいは会話的な結果をもたらす。 これらの「ライター」突然変異は出力の高周波の初期単語に従ってグループ化され、行列が異なる場合でも行座標を共有する傾向が顕著であった。 我々の研究は、変異発生画面が、大きな言語モデルの複雑さを解読し、その潜在能力を拡大するための予期せぬ方法を特定し、AIシステムの基礎的な側面について深い洞察を与える効果的なツールであることを確認した。

Large Language Models (LLMs) have significantly advanced artificial intelligence, excelling in numerous tasks. Although the functionality of a model is inherently tied to its parameters, a systematic method for exploring the connections between the parameters and the functionality are lacking. Models sharing similar structure and parameter counts exhibit significant performance disparities across various tasks, prompting investigations into the varying patterns that govern their performance. We adopted a mutagenesis screen approach inspired by the methods used in biological studies, to investigate Llama2-7b and Zephyr. This technique involved mutating elements within the models' matrices to their maximum or minimum values to examine the relationship between model parameters and their functionalities. Our research uncovered multiple levels of fine structures within both models. Many matrices showed a mixture of maximum and minimum mutations following mutagenesis, but others were predominantly sensitive to one type. Notably, mutations that produced phenotypes, especially those with severe outcomes, tended to cluster along axes. Additionally, the location of maximum and minimum mutations often displayed a complementary pattern on matrix in both models, with the Gate matrix showing a unique two-dimensional asymmetry after rearrangement. In Zephyr, certain mutations consistently resulted in poetic or conversational rather than descriptive outputs. These "writer" mutations grouped according to the high-frequency initial word of the output, with a marked tendency to share the row coordinate even when they are in different matrices. Our findings affirm that the mutagenesis screen is an effective tool for deciphering the complexities of large language models and identifying unexpected ways to expand their potential, providing deeper insights into the foundational aspects of AI systems.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# 深層学習を加速するために入力特徴をスライスする:グラフニューラルネットワークを用いたケーススタディ

Slicing Input Features to Accelerate Deep Learning: A Case Study with Graph Neural Networks ( http://arxiv.org/abs/2408.11500v1 )

ライセンス: Link先を確認
Zhengjia Xu, Dingyang Lyu, Jinghui Zhang, (参考訳) グラフが大きくなるにつれて、単一のGPUメモリではフルバッチのGNNトレーニングが困難になる。 そのため、GNNトレーニングのスケーラビリティを高めるために、サンプリングベースでミニバッチトレーニングと分散グラフ学習を提案する研究もある。 しかし、これらの手法には、性能劣化や重通信といった欠点がある。 本稿では,機能スライスされた大規模グラフ学習手法であるSliceGCNを紹介する。 SliceGCNはノード機能をスライスし、各コンピューティングデバイス、すなわちGPUで部分的機能を処理する。 それぞれのGPUがシェアを処理すると、部分表現が取得され、連結されて完全な表現を形成し、単一のGPUメモリがグラフ構造全体を処理できるようになる。 これは、ミニバッチトレーニング(不完全グラフ構造による)に典型的な精度損失を回避し、メッセージパッシング(GNNの前方伝播プロセス)中のGPU間通信を減らすことを目的としている。 本研究では,スライシング特性による電位精度の低減について検討し,特徴融合とスライス符号化を提案する。 6つのノード分類データセットで実験を行い、興味深い分析結果を得た。 これらの結果は、SliceGCNはより小さなデータセットの効率を向上しないが、より大きなデータセットの効率を改善していることを示している。 さらに,SliceGCNとその変異体はより収束性が高く,機能融合やスライス符号化によりトレーニングの安定性が向上し,精度の変動を低減できることがわかった。

As graphs grow larger, full-batch GNN training becomes hard for single GPU memory. Therefore, to enhance the scalability of GNN training, some studies have proposed sampling-based mini-batch training and distributed graph learning. However, these methods still have drawbacks, such as performance degradation and heavy communication. This paper introduces SliceGCN, a feature-sliced distributed large-scale graph learning method. SliceGCN slices the node features, with each computing device, i.e., GPU, handling partial features. After each GPU processes its share, partial representations are obtained and concatenated to form complete representations, enabling a single GPU's memory to handle the entire graph structure. This aims to avoid the accuracy loss typically associated with mini-batch training (due to incomplete graph structures) and to reduce inter-GPU communication during message passing (the forward propagation process of GNNs). To study and mitigate potential accuracy reductions due to slicing features, this paper proposes feature fusion and slice encoding. Experiments were conducted on six node classification datasets, yielding some interesting analytical results. These results indicate that while SliceGCN does not enhance efficiency on smaller datasets, it does improve efficiency on larger datasets. Additionally, we found that SliceGCN and its variants have better convergence, feature fusion and slice encoding can make training more stable, reduce accuracy fluctuations, and this study also discovered that the design of SliceGCN has a potentially parameter-efficient nature.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# MSCPT: マルチスケールおよびコンテキストに着目したプロンプトチューニングによる一眼レフ画像分類

MSCPT: Few-shot Whole Slide Image Classification with Multi-scale and Context-focused Prompt Tuning ( http://arxiv.org/abs/2408.11505v1 )

ライセンス: Link先を確認
Minghao Han, Linhao Qu, Dingkang Yang, Xukun Zhang, Xiaoying Wang, Lihua Zhang, (参考訳) 多重インスタンス学習(MIL)は、スライド画像全体(WSI)の弱い教師付き分類のための標準パラダイムとなっている。 しかし、このパラダイムはトレーニングに多数のラベル付きWSIを使うことに依存しています。 トレーニングデータの欠如と稀な疾患の存在は,これらの方法に重大な課題をもたらす。 プロンプトチューニングと事前訓練されたビジョンランゲージモデル(VLM)は、Few-shot Weakly Supervised WSI(FSWC)タスクの効果的な解決策である。 それにもかかわらず、WSIsに自然画像用に設計されたプロンプトチューニング手法を適用することは、以下の3つの重要な課題を提示している。 1) これらの方法は,VLMのテキストモダリティからの事前知識を十分に活用することができない。 2)WSIにおける重要なマルチスケール・コンテキスト情報を見落とし、最適以下の結果をもたらす。 3) インスタンス集約手法の探索は欠如している。 これらの問題に対処するために、FSWCタスクのためのマルチスケールおよびコンテキスト中心のPrompt Tuning(MSCPT)手法を提案する。 特に、MSCPTは凍結した大きな言語モデルを用いて、多スケールの階層的なプロンプトチューニングを導く、病理的な視覚言語を事前知識として生成する。 さらに、WSI内で重要なコンテキスト情報を学習するためのグラフプロンプトチューニングモジュールを設計し、最後にWSIレベルの機能を得るために、非パラメトリックなクロスガイドインスタンスアグリゲーションモジュールを導入しました。 2つのVLMに基づいて、3つのデータセットの広範な実験と可視化を行い、MSCPTの強力な性能を実証した。

Multiple instance learning (MIL) has become a standard paradigm for weakly supervised classification of whole slide images (WSI). However, this paradigm relies on the use of a large number of labelled WSIs for training. The lack of training data and the presence of rare diseases present significant challenges for these methods. Prompt tuning combined with the pre-trained Vision-Language models (VLMs) is an effective solution to the Few-shot Weakly Supervised WSI classification (FSWC) tasks. Nevertheless, applying prompt tuning methods designed for natural images to WSIs presents three significant challenges: 1) These methods fail to fully leverage the prior knowledge from the VLM's text modality; 2) They overlook the essential multi-scale and contextual information in WSIs, leading to suboptimal results; and 3) They lack exploration of instance aggregation methods. To address these problems, we propose a Multi-Scale and Context-focused Prompt Tuning (MSCPT) method for FSWC tasks. Specifically, MSCPT employs the frozen large language model to generate pathological visual language prior knowledge at multi-scale, guiding hierarchical prompt tuning. Additionally, we design a graph prompt tuning module to learn essential contextual information within WSI, and finally, a non-parametric cross-guided instance aggregation module has been introduced to get the WSI-level features. Based on two VLMs, extensive experiments and visualizations on three datasets demonstrated the powerful performance of our MSCPT.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# IKUN for WMT24 General MT Task: LLMs for Multilingual Machine Translation (英語)

IKUN for WMT24 General MT Task: LLMs Are here for Multilingual Machine Translation ( http://arxiv.org/abs/2408.11512v1 )

ライセンス: Link先を確認
Baohao Liao, Christian Herold, Shahram Khadivi, Christof Monz, (参考訳) 本稿では,WMT24における汎用機械翻訳タスクのために開発された2つの多言語システム,IKUNとIKUN-Cを紹介する。 IKUNとIKUN-Cは、それぞれLlama-3-8bとMistral-7B-v0.3上に構築されたオープンシステムと制約されたシステムを表している。 どちらのシステムも、単一のモデルを使用して11の言語方向を処理するように設計されている。 自動評価指標によると、IKUN-Cは全ての制約されたシステムの中で6位と3位に、IKUNは2位と1位を確保した。 これらの奨励的な結果は、大規模言語モデル(LLM)が効果的な多言語機械翻訳に必要な習熟度に近づいていることを示唆している。 システムは2段階のアプローチに基づいており、まず10言語でモノリンガルデータに対して連続的な事前学習を行い、続いて11言語方向の高品質な並列データに微調整を行う。 IKUNとIKUN-Cの主な違いは、モノリンガル事前訓練戦略にある。 IKUN-Cは制約付きモノリンガルデータを使用して事前トレーニングされる一方、IKUNはOSCARデータセットからのモノリンガルデータを活用する。 第2段階では、どちらのシステムも NTREX, Flores, WMT16-23 から得られた並列データに基づいて細調整される。

This paper introduces two multilingual systems, IKUN and IKUN-C, developed for the general machine translation task in WMT24. IKUN and IKUN-C represent an open system and a constrained system, respectively, built on Llama-3-8b and Mistral-7B-v0.3. Both systems are designed to handle all 11 language directions using a single model. According to automatic evaluation metrics, IKUN-C achieved 6 first-place and 3 second-place finishes among all constrained systems, while IKUN secured 1 first-place and 2 second-place finishes across both open and constrained systems. These encouraging results suggest that large language models (LLMs) are nearing the level of proficiency required for effective multilingual machine translation. The systems are based on a two-stage approach: first, continuous pre-training on monolingual data in 10 languages, followed by fine-tuning on high-quality parallel data for 11 language directions. The primary difference between IKUN and IKUN-C lies in their monolingual pre-training strategy. IKUN-C is pre-trained using constrained monolingual data, whereas IKUN leverages monolingual data from the OSCAR dataset. In the second phase, both systems are fine-tuned on parallel data sourced from NTREX, Flores, and WMT16-23 for all 11 language pairs.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# 拘束型MDPにおける一般パラメータ式の最後のIterate Convergence

Last-Iterate Convergence of General Parameterized Policies in Constrained MDPs ( http://arxiv.org/abs/2408.11513v1 )

ライセンス: Link先を確認
Washim Uddin Mondal, Vaneet Aggarwal, (参考訳) 本稿では,CMDP(Constrained Markov Decision Process)の一般パラメータ化による学習の問題点について考察する。 提案アルゴリズムはエントロピーと二次正規化器を用いてこの目標を達成する。 変換された互換性近似誤差を持つパラメータ化ポリシークラスに対して、$\epsilon_{\mathrm{bias}}$, PDR-ANPGは、最終項目の$\epsilon$Optimity gapと$\epsilon$制約違反($\epsilon_{\mathrm{bias}}$)を達成し、サンプルの複雑さは$\tilde{\mathcal{O}}(\epsilon^{-2}\min\{\epsilon^{-2},\epsilon_{\mathrm{bias}}^{-\frac{1}{3}}\})である。 クラスが不完全であれば(\epsilon_{\mathrm{bias}}>0$)、サンプルの複雑さは$\tilde{\mathcal{O}}(\epsilon^{-2})$ for $\epsilon<(\epsilon_{\mathrm{bias}})^{\frac{1}{6}}$に減少する。 さらに、$\epsilon_{\mathrm{bias}}=0$の完全ポリシーに対して、我々のアルゴリズムは、最後のイテレートである$\epsilon$Optimity gapと$\epsilon$ constraint violation with $\tilde{\mathcal{O}}(\epsilon^{-4})$ sample complexityを達成する。 これは、汎用パラメータ化CMDPの最先端の最終保証の大幅な改善である。

We consider the problem of learning a Constrained Markov Decision Process (CMDP) via general parameterization. Our proposed Primal-Dual based Regularized Accelerated Natural Policy Gradient (PDR-ANPG) algorithm uses entropy and quadratic regularizers to reach this goal. For a parameterized policy class with transferred compatibility approximation error, $\epsilon_{\mathrm{bias}}$, PDR-ANPG achieves a last-iterate $\epsilon$ optimality gap and $\epsilon$ constraint violation (up to some additive factor of $\epsilon_{\mathrm{bias}}$) with a sample complexity of $\tilde{\mathcal{O}}(\epsilon^{-2}\min\{\epsilon^{-2},\epsilon_{\mathrm{bias}}^{-\frac{1}{3}}\})$. If the class is incomplete ($\epsilon_{\mathrm{bias}}>0$), then the sample complexity reduces to $\tilde{\mathcal{O}}(\epsilon^{-2})$ for $\epsilon<(\epsilon_{\mathrm{bias}})^{\frac{1}{6}}$. Moreover, for complete policies with $\epsilon_{\mathrm{bias}}=0$, our algorithm achieves a last-iterate $\epsilon$ optimality gap and $\epsilon$ constraint violation with $\tilde{\mathcal{O}}(\epsilon^{-4})$ sample complexity. It is a significant improvement of the state-of-the-art last-iterate guarantees of general parameterized CMDPs.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# 数学的表現間の行動距離の定量化

Quantifying Behavioural Distance Between Mathematical Expressions ( http://arxiv.org/abs/2408.11515v1 )

ライセンス: Link先を確認
Sebastian Mežnar, Sašo Džeroski, Ljupčo Todorovski, (参考訳) 既存の記号回帰法は、その構文的、構造的類似性に基づいて、候補数学的表現の空間を整理する。 しかし、このアプローチは可換性、連想性、算術演算の分配法則などの数学的対称性から生じる表現間の重要な等価性を見落としている。 その結果、与えられたデータセットに類似したエラーを持つ表現は、検索空間において互いに分離される。 これにより、局所勾配法では探索できない探索空間の粗いエラーランドスケープが導かれる。 そこで本稿では,類似した誤りを伴って表現をクラスタリングする行動距離(BED)の尺度を提案し,実装する。 実験結果から,BEDの確率的計算法は,その式を評価するためのサンプル値の控えめな数との整合性を実現することがわかった。 これは木に基づく構文距離に匹敵する計算効率をもたらす。 また,BEDは,記号回帰のための探索空間における誤り景観の滑らかさを著しく改善することを示した。

Existing symbolic regression methods organize the space of candidate mathematical expressions primarily based on their syntactic, structural similarity. However, this approach overlooks crucial equivalences between expressions that arise from mathematical symmetries, such as commutativity, associativity, and distribution laws for arithmetic operations. Consequently, expressions with similar errors on a given data set are apart from each other in the search space. This leads to a rough error landscape in the search space that efficient local, gradient-based methods cannot explore. This paper proposes and implements a measure of a behavioral distance, BED, that clusters together expressions with similar errors. The experimental results show that the stochastic method for calculating BED achieves consistency with a modest number of sampled values for evaluating the expressions. This leads to computational efficiency comparable to the tree-based syntactic distance. Our findings also reveal that BED significantly improves the smoothness of the error landscape in the search space for symbolic regression.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# AIストーリーテリングツールによる画像からのイマジネーション

Imagining from Images with an AI Storytelling Tool ( http://arxiv.org/abs/2408.11517v1 )

ライセンス: Link先を確認
Edirlei Soares de Lima, Marco A. Casanova, Antonio L. Furtado, (参考訳) 物語芸術の古来の伝統に触発されて、単一の画像や画像シーケンスを分析して物語を生成する方法が提示される。 提案手法は,GPT-4oのマルチモーダルな機能を利用して視覚的内容の解釈と,安定拡散XLモデルによるエンゲージメントなストーリーの作成を行う。 この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。 ユーザーは、コメディ、ロマンス、トラゲディ、サティア、ミステリーといった基本的なジャンルの慣習に従って物語の発展をガイドしたり、データ駆動型ストーリーを生成することを選んだり、あるいは、物語の構造をどう扱うかを決めるためにプロトタイプを自由にしておくことができる。 ユーザインタラクションは生成プロセスに沿って提供され、ユーザは別の章やイラストをリクエストしたり、同じ入力に基づいてストーリー生成を拒否したり再起動したりすることができます。 さらに、ユーザは入力画像にキャプションを付加することができ、システムの視覚内容の解釈に影響を与える。 生成したストーリの例とプロトタイプへのアクセス方法の詳細が提供されている。

A method for generating narratives by analyzing single images or image sequences is presented, inspired by the time immemorial tradition of Narrative Art. The proposed method explores the multimodal capabilities of GPT-4o to interpret visual content and create engaging stories, which are illustrated by a Stable Diffusion XL model. The method is supported by a fully implemented tool, called ImageTeller, which accepts images from diverse sources as input. Users can guide the narrative's development according to the conventions of fundamental genres - such as Comedy, Romance, Tragedy, Satire or Mystery -, opt to generate data-driven stories, or to leave the prototype free to decide how to handle the narrative structure. User interaction is provided along the generation process, allowing the user to request alternative chapters or illustrations, and even reject and restart the story generation based on the same input. Additionally, users can attach captions to the input images, influencing the system's interpretation of the visual content. Examples of generated stories are provided, along with details on how to access the prototype.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# EmoFace: メッシュアテンション付き感情コンテンツ分散音声駆動型3Dトーキング

EmoFace: Emotion-Content Disentangled Speech-Driven 3D Talking Face with Mesh Attention ( http://arxiv.org/abs/2408.11518v1 )

ライセンス: Link先を確認
Yihong Lin, Liang Peng, Jianqiao Hu, Xiandong Li, Wenxiong Kang, Songju Lei, Xianjia Wu, Huang Xu, (参考訳) 近年、ますます鮮明な3Dバーチャル・デジタル・ヒューマンの創造がホットな話題となっている。 現在、ほとんどの音声駆動の作業は、よりリアルな唇を達成するために、音素とビセムの関係を学ぶためのトレーニングモデルに焦点を当てている。 しかし、感情と表情の相関を効果的に捉えられなかった。 この問題を解決するために,EmoFaceと呼ばれる新しいモデルを提案する。 EmoFaceは、メッシュ頂点間の潜在的な機能依存を時間と空間で学習するのに役立つ、新しいMesh Attentionメカニズムを採用している。 また,教師の強制力と3次元顔アニメーションタスクのスケジュールサンプリングを組み合わせた効果的な自己成長学習手法を,私たちの知る限り初めて採用した。 さらに、EmoFaceは自己回帰モデルであるため、トレーニングデータの第一フレームがサイレントフレームでなければならないという要件はない。 3D-RAVDESS (5.0343\times 10^{-5}$mm for LVE and $1.0196\times 10^{-5}$mm for EVE) および一般用データセットVOCASET (2.8669\times 10^{-5}$mm for LVE and $0.4664\times 10^{-5}$mm for EVE) に関する総合的・質的な評価を行い、我々のアルゴリズムが最先端のパフォーマンスを達成することを示した。

The creation of increasingly vivid 3D virtual digital humans has become a hot topic in recent years. Currently, most speech-driven work focuses on training models to learn the relationship between phonemes and visemes to achieve more realistic lips. However, they fail to capture the correlations between emotions and facial expressions effectively. To solve this problem, we propose a new model, termed EmoFace. EmoFace employs a novel Mesh Attention mechanism, which helps to learn potential feature dependencies between mesh vertices in time and space. We also adopt, for the first time to our knowledge, an effective self-growing training scheme that combines teacher-forcing and scheduled sampling in a 3D face animation task. Additionally, since EmoFace is an autoregressive model, there is no requirement that the first frame of the training data must be a silent frame, which greatly reduces the data limitations and contributes to solve the current dilemma of insufficient datasets. Comprehensive quantitative and qualitative evaluations on our proposed high-quality reconstructed 3D emotional facial animation dataset, 3D-RAVDESS ($5.0343\times 10^{-5}$mm for LVE and $1.0196\times 10^{-5}$mm for EVE), and publicly available dataset VOCASET ($2.8669\times 10^{-5}$mm for LVE and $0.4664\times 10^{-5}$mm for EVE), demonstrate that our algorithm achieves state-of-the-art performance.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# フィードバック制御下における密閉状態からの局所抽出可能エネルギーの上界

Upper Bound on Locally Extractable Energy from Entangled Pure State under Feedback Control ( http://arxiv.org/abs/2408.11522v1 )

ライセンス: Link先を確認
Kanji Itoh, Yusuke Masaki, Hiroaki Matsueda, (参考訳) 局所ハミルトニアンの下でのサブシステムからのフィードバック制御による抽出可能エネルギー上の上界を導出する。 上界を与える不等式は、我々の有効熱力学における情報熱力学の第2法則に対応する。 さらに、初期状態と局所ハミルトニアンによってのみ決定されるより一般的な境界を導出する。 この境界は、抽出可能エネルギーと初期状態の絡み合い構造との間に明確な関係を与える。 また、上界の厳密性について検討し、その境界が簡単な例で達成可能であることを示す。

We introduce an effective thermodynamics for multipartite entangled pure states and derive an upper bound on extractable energy with feedback control from a subsystem under a local Hamiltonian. The inequality that gives the upper bound corresponds to the second law of information thermodynamics in our effective thermodynamics. In addition, we derive a more general bound that is determined only by an initial state and the local Hamiltonian. This bound gives an explicit relationship between the extractable energy and the entanglement structure of the initial state. We also investigate the tightness of the upper bounds and show that the bounds can be achieved in a simple example.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# LARR:意味的理解を伴うリアルタイムのシーン推薦を支援する大規模言語モデル

LARR: Large Language Model Aided Real-time Scene Recommendation with Semantic Understanding ( http://arxiv.org/abs/2408.11523v1 )

ライセンス: Link先を確認
Zhizhong Wan, Bin Yin, Junjie Xie, Fei Jiang, Xiang Li, Wei Lin, (参考訳) CTR(Click-Through Rate)予測は,食品デリバリーやeコマースなど,さまざまな面でユーザに対してパーソナライズされたレコメンデーションサービスを提供することを目的として,レコメンデーションシステム(RS)にとって極めて重要である。 しかし、従来のRSは協調的な信号に依存しており、リアルタイムのシーンに対する意味理解が欠如している。 また,Large Language Models (LLMs) を実用的な推奨目的に活用する上での大きな課題は,長文入力処理の効率性にあることも気付きました。 上記の問題を解くために,大言語モデル支援リアルタイムシーンレコメンデーション(LARR, Large Language Model Aided Real-time Scene Recommendation)を提案する。 具体的には、レコメンデーションドメイン固有の知識をLLMに注入し、次にRSは集約エンコーダを使用して、異なるLLMの出力からリアルタイムのシーン情報を構築する。 第一に、LLMは特別なトークンの助けを借りてレコメンデーションデータから構築されたコーパスに事前訓練される。 その後、LLMは3種類のサンプル構築戦略のコントラスト学習により微調整される。 このステップを通じて、LLMはテキスト埋め込みモデルに変換される。 最後に、LLMの異なるシーン特徴に対する出力をエンコーダで集約し、RS内の協調信号と整合させ、レコメンデーションモデルの性能を向上させる。

Click-Through Rate (CTR) prediction is crucial for Recommendation System(RS), aiming to provide personalized recommendation services for users in many aspects such as food delivery, e-commerce and so on. However, traditional RS relies on collaborative signals, which lacks semantic understanding to real-time scenes. We also noticed that a major challenge in utilizing Large Language Models (LLMs) for practical recommendation purposes is their efficiency in dealing with long text input. To break through the problems above, we propose Large Language Model Aided Real-time Scene Recommendation(LARR), adopt LLMs for semantic understanding, utilizing real-time scene information in RS without requiring LLM to process the entire real-time scene text directly, thereby enhancing the efficiency of LLM-based CTR modeling. Specifically, recommendation domain-specific knowledge is injected into LLM and then RS employs an aggregation encoder to build real-time scene information from separate LLM's outputs. Firstly, a LLM is continual pretrained on corpus built from recommendation data with the aid of special tokens. Subsequently, the LLM is fine-tuned via contrastive learning on three kinds of sample construction strategies. Through this step, LLM is transformed into a text embedding model. Finally, LLM's separate outputs for different scene features are aggregated by an encoder, aligning to collaborative signals in RS, enhancing the performance of recommendation model.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# RConE: マルチモーダル知識グラフを用いたマルチホップ論理的クエリアンサーのための粗いコーン埋め込み

RConE: Rough Cone Embedding for Multi-Hop Logical Query Answering on Multi-Modal Knowledge Graphs ( http://arxiv.org/abs/2408.11526v1 )

ライセンス: Link先を確認
Mayank Kharbanda, Rajiv Ratn Shah, Raghava Mutharaju, (参考訳) 知識グラフ(KG)上のマルチホップクエリ応答では、クエリに応答するために、開始ノードから1つ以上のホップをトラバースする。 パスベースおよび論理ベースの手法は、マルチホップ質問応答の最先端技術である。 前者はリンク予測タスクで使用される。 後者は複雑な論理的クエリに答えるためのものです。 論理的マルチホップクエリ技術は、KGとクエリを同じ埋め込み空間に埋め込む。 既存の作業には、クエリにおける接続($\wedge$)、disjunction($\vee$)、negation($\neg$)などのファーストオーダーロジック(FOL)演算子が含まれている。 現在のモデルでは、FOLクエリを実行するためのビルディングブロックがほとんどであるが、Multi-Modal Knowledge Graphs (MMKG) の場合、マルチモーダルエンティティの密集した情報を使用することはできない。 本稿では,クエリに応答するために必要なマルチモーダル情報をキャプチャする埋め込み手法RConEを提案する。 モデルの最初のショートリストは、回答を含む候補(マルチモーダル)エンティティである。 そして、それらのエンティティ内の解(サブエンティティ)を見つける。 いくつかの既存の研究は、MMKGにおける経路に基づく質問応答に対処している。 しかし,本研究では,MMKGを問合せする論理構造を初めて導入し,その答えとしてマルチモーダルなエンティティのサブエンティティを含む問合せに回答する。 一般公開されている4つのMMKGの大規模な評価は、RConEが現在の最先端よりも優れていることを示している。

Multi-hop query answering over a Knowledge Graph (KG) involves traversing one or more hops from the start node to answer a query. Path-based and logic-based methods are state-of-the-art for multi-hop question answering. The former is used in link prediction tasks. The latter is for answering complex logical queries. The logical multi-hop querying technique embeds the KG and queries in the same embedding space. The existing work incorporates First Order Logic (FOL) operators, such as conjunction ($\wedge$), disjunction ($\vee$), and negation ($\neg$), in queries. Though current models have most of the building blocks to execute the FOL queries, they cannot use the dense information of multi-modal entities in the case of Multi-Modal Knowledge Graphs (MMKGs). We propose RConE, an embedding method to capture the multi-modal information needed to answer a query. The model first shortlists candidate (multi-modal) entities containing the answer. It then finds the solution (sub-entities) within those entities. Several existing works tackle path-based question-answering in MMKGs. However, to our knowledge, we are the first to introduce logical constructs in querying MMKGs and to answer queries that involve sub-entities of multi-modal entities as the answer. Extensive evaluation of four publicly available MMKGs indicates that RConE outperforms the current state-of-the-art.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# Vizier Gaussian Process Banditアルゴリズム

The Vizier Gaussian Process Bandit Algorithm ( http://arxiv.org/abs/2408.11527v1 )

ライセンス: Link先を確認
Xingyou Song, Qiuyi Zhang, Chansoo Lee, Emily Fertig, Tzu-Kuo Huang, Lior Belenki, Greg Kochanski, Setareh Ariafar, Srinivas Vasudevan, Sagi Perel, Daniel Golovin, (参考訳) Google Vizierは、数百万の最適化を実行し、Googleで多くのリサーチとプロダクションシステムを加速し、大規模サービスとしてのベイジアン最適化の成功を実証した。 長年にわたり、そのアルゴリズムは、多くの研究活動とユーザフィードバックの集合的な経験を通じて、大幅に改善されてきた。 本稿では,Open Source Vizierが提供するデフォルトアルゴリズムの実装詳細と設計選択について論じる。 標準化されたベンチマークに関する我々の実験は、複数の実践モードで確立された業界ベースラインに対する堅牢性と汎用性を明らかにする。

Google Vizier has performed millions of optimizations and accelerated numerous research and production systems at Google, demonstrating the success of Bayesian optimization as a large-scale service. Over multiple years, its algorithm has been improved considerably, through the collective experiences of numerous research efforts and user feedback. In this technical report, we discuss the implementation details and design choices of the current default algorithm provided by Open Source Vizier. Our experiments on standardized benchmarks reveal its robustness and versatility against well-established industry baselines on multiple practical modes.
翻訳日:2024-08-22 17:27:26 公開日:2024-08-21
# 制約付き最適化を用いたスケーラブルな知識リファクタリング

Scalable Knowledge Refactoring using Constrained Optimisation ( http://arxiv.org/abs/2408.11530v1 )

ライセンス: Link先を確認
Minghao Liu, David M. Cerna, Filipe Gouveia, Andrew Cropper, (参考訳) 知識リファクタリングは、新しいルールを導入することでロジックプログラムを圧縮する。 現在のアプローチでは,大規模プログラムへのスケールアップに苦労しています。 この制限を克服するために、制約付き最適化リファクタリングアプローチを導入する。 最初の鍵となるアイデアは、ルールではなくリテラルに基づいて決定変数で問題をエンコードすることです。 第2の鍵となる考え方は、線形発明されたルールに焦点を当てることです。 複数の領域における実験結果から,従来の最先端手法よりも高速かつ圧縮性の高いプログラムを,場合によっては60%高速化できることが示された。

Knowledge refactoring compresses a logic program by introducing new rules. Current approaches struggle to scale to large programs. To overcome this limitation, we introduce a constrained optimisation refactoring approach. Our first key idea is to encode the problem with decision variables based on literals rather than rules. Our second key idea is to focus on linear invented rules. Our empirical results on multiple domains show that our approach can refactor programs quicker and with more compression than the previous state-of-the-art approach, sometimes by 60%.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# プロジェクトだ! マルチチャネルのデスペクチャリング

Just Project! Multi-Channel Despeckling, the Easy Way ( http://arxiv.org/abs/2408.11531v1 )

ライセンス: Link先を確認
Loïc Denis, Emanuele Dalsasso, Florence Tupin, (参考訳) 多チャンネルSAR画像におけるスペックル変動の低減は、偏光度分類や干渉高度推定などのSARイメージングの多くの応用において不可欠である。 シングルチャネル復号化はディープラーニング技術の応用から広く恩恵を受けているが、マルチチャネルSAR画像の拡張はより困難である。この記事では、既存のシングルチャネル復号化手法を利用する汎用フレームワークであるMuChaProを紹介する。 鍵となるアイデアは、多数の単一チャネルプロジェクションを生成し、これらのプロジェクションを復元し、それらを最終的なマルチチャネル推定に再結合することである。 この単純なアプローチは偏光度および/または干渉度モダリティに有効であることが示されている。 MuChaProの特長は、センサ固有のネットワークを学習するための自己教師型トレーニング戦略を適用する可能性である。

Reducing speckle fluctuations in multi-channel SAR images is essential in many applications of SAR imaging such as polarimetric classification or interferometric height estimation. While single-channel despeckling has widely benefited from the application of deep learning techniques, extensions to multi-channel SAR images are much more challenging.This paper introduces MuChaPro, a generic framework that exploits existing single-channel despeckling methods. The key idea is to generate numerous single-channel projections, restore these projections, and recombine them into the final multi-channel estimate. This simple approach is shown to be effective in polarimetric and/or interferometric modalities. A special appeal of MuChaPro is the possibility to apply a self-supervised training strategy to learn sensor-specific networks for single-channel despeckling.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# SAM-REF: セグメントのリファインメントのためのイメージプロンプトのシナジーを再考する

SAM-REF: Rethinking Image-Prompt Synergy for Refinement in Segment Anything ( http://arxiv.org/abs/2408.11535v1 )

ライセンス: Link先を確認
Chongkai Yu, Anqi Li, Xiaochao Qu, Luoqi Liu, Ting Liu, (参考訳) Segment Anything Model (SAM) の出現は、ジェネラリストモデルを用いた対話的セグメンテーションにおいて重要なマイルストーンとなる。 後期融合モデルとして、SAMはイメージ埋め込みを一度抽出し、後続の相互作用においてプロンプトとマージする。 この戦略は、誘導されたターゲットゾーンから詳細な情報を抽出する能力を制限する。 現在のスペシャリストモデルは、画像の組み合わせを符号化し、引き起こされたオブジェクトをターゲットにするよう促す初期の融合戦略を利用するが、画像上の反復的な複雑な計算は高いレイテンシをもたらす。 これらの問題の鍵は、画像とプロンプトを効率的に同期させることである。 我々は,早期核融合の精度と後期核融合の効率を維持しつつ,画像とプロンプトを完全に統合し,グローバルおよびローカルにプロンプトする2段階リファインメントフレームワークSAM-REFを提案する。 第一段階のGlobalDiff Refinerは、画像全体とプロンプトを組み合わせ、オブジェクト全体の詳細な情報をキャプチャする軽量のアーリーフュージョンネットワークである。 第2ステージのPatchDiff Refinerは、マスクに従ってオブジェクトの詳細ウィンドウを特定してプロンプトし、オブジェクトのローカル詳細を洗練します。 実験により,複数の相互作用を持つ複雑なケースに対処する上で,本手法の有効性と効率を実証した。 我々のSAM-REFモデルは、効率を損なうことなくセグメンテーション品質に関するほとんどの指標において、最先端の手法よりも優れています。

The advent of the Segment Anything Model (SAM) marks a significant milestone for interactive segmentation using generalist models. As a late fusion model, SAM extracts image embeddings once and merges them with prompts in later interactions. This strategy limits the models ability to extract detailed information from the prompted target zone. Current specialist models utilize the early fusion strategy that encodes the combination of images and prompts to target the prompted objects, yet repetitive complex computations on the images result in high latency. The key to these issues is efficiently synergizing the images and prompts. We propose SAM-REF, a two-stage refinement framework that fully integrates images and prompts globally and locally while maintaining the accuracy of early fusion and the efficiency of late fusion. The first-stage GlobalDiff Refiner is a lightweight early fusion network that combines the whole image and prompts, focusing on capturing detailed information for the entire object. The second-stage PatchDiff Refiner locates the object detail window according to the mask and prompts, then refines the local details of the object. Experimentally, we demonstrated the high effectiveness and efficiency of our method in tackling complex cases with multiple interactions. Our SAM-REF model outperforms the current state-of-the-art method in most metrics on segmentation quality without compromising efficiency.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# 物体中心型ロボットマニピュレーションのための身体学習に関する調査

A Survey of Embodied Learning for Object-Centric Robotic Manipulation ( http://arxiv.org/abs/2408.11537v1 )

ライセンス: Link先を確認
Ying Zheng, Lei Yao, Yuejiao Su, Yi Zhang, Yi Wang, Sicheng Zhao, Yiyi Zhang, Lap-Pui Chau, (参考訳) オブジェクト中心のロボット操作のための身体学習は、インボディードAIにおいて急速に発展し、挑戦的な分野である。 次世代のインテリジェントロボットの進化には不可欠であり、近年は大きな関心を集めている。 データ駆動機械学習とは異なり、具体化学習は環境との物理的相互作用と知覚フィードバックによるロボット学習に焦点を当てており、ロボット操作に特に適している。 本稿では,本分野の最新動向を包括的に調査し,既存の研究を3つの主要分野に分類する。 1)様々なデータ表現を通して対象のポーズや余裕を予測することを目的とした身体的知覚学習 2)強化学習や模倣学習などの手法を用いて最適なロボット決定を創出することに焦点を当てた政策学習 3)物体の把握・操作におけるタスクの特性に基づいてロボットのパフォーマンスを最適化するタスク指向学習。 さらに、公開データセット、評価指標、代表アプリケーション、現在の課題、今後の研究方向性について概観し、議論する。 この調査に関連するプロジェクトはhttps://github.com/RayYoh/OCRM_survey.comで公開されている。

Embodied learning for object-centric robotic manipulation is a rapidly developing and challenging area in embodied AI. It is crucial for advancing next-generation intelligent robots and has garnered significant interest recently. Unlike data-driven machine learning methods, embodied learning focuses on robot learning through physical interaction with the environment and perceptual feedback, making it especially suitable for robotic manipulation. In this paper, we provide a comprehensive survey of the latest advancements in this field and categorize the existing work into three main branches: 1) Embodied perceptual learning, which aims to predict object pose and affordance through various data representations; 2) Embodied policy learning, which focuses on generating optimal robotic decisions using methods such as reinforcement learning and imitation learning; 3) Embodied task-oriented learning, designed to optimize the robot's performance based on the characteristics of different tasks in object grasping and manipulation. In addition, we offer an overview and discussion of public datasets, evaluation metrics, representative applications, current challenges, and potential future research directions. A project associated with this survey has been established at https://github.com/RayYoh/OCRM_survey.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# 質問自動生成における大規模言語モデルの応用に関する研究:高校情報技術カリキュラムにおけるChatGLMを事例として

Research on the Application of Large Language Models in Automatic Question Generation: A Case Study of ChatGLM in the Context of High School Information Technology Curriculum ( http://arxiv.org/abs/2408.11539v1 )

ライセンス: Link先を確認
Yanxin Chen, Ling He, (参考訳) 本研究では,高校情報技術試験の自動生成における大規模言語モデル(LLM)ChatGLMの適用性について検討した。 厳密に設計された迅速なエンジニアリング戦略を通じて、モデルは多様な質問を生成するためにガイドされ、ドメインの専門家によって包括的に評価される。 評価次元には、ヒッティング(授業内容との整合度)、フィッティング(中核的な能力の具現化度)、明瞭さ(質問記述の明示性)、ウィリング(教師が授業で質問を使いたいという意志)が含まれる。 以上の結果から,ChatGLMは,ヒット率と適合性に有意な差はないものの,明快さと教師の使い勝手において人為的な質問よりも優れていたことが示唆された。 このことから,ChatGLMは質問生成の効率を高め,教師の負担を軽減する可能性があり,今後の教育アセスメントシステムの発展に新たな視点をもたらすことが示唆された。 将来の研究は、ChatGLMモデルのさらなる最適化を探求し、高い適合率とヒット率を維持しつつ、質問の明確さと教師の利用意欲を改善していくだろう。

This study investigates the application effectiveness of the Large Language Model (LLMs) ChatGLM in the automated generation of high school information technology exam questions. Through meticulously designed prompt engineering strategies, the model is guided to generate diverse questions, which are then comprehensively evaluated by domain experts. The evaluation dimensions include the Hitting(the degree of alignment with teaching content), Fitting (the degree of embodiment of core competencies), Clarity (the explicitness of question descriptions), and Willing to use (the teacher's willingness to use the question in teaching). The results indicate that ChatGLM outperforms human-generated questions in terms of clarity and teachers' willingness to use, although there is no significant difference in hit rate and fit. This finding suggests that ChatGLM has the potential to enhance the efficiency of question generation and alleviate the burden on teachers, providing a new perspective for the future development of educational assessment systems. Future research could explore further optimizations to the ChatGLM model to maintain high fit and hit rates while improving the clarity of questions and teachers' willingness to use them.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# DeRainGS:雨季の景観復元のためのガウス的スプレイティング

DeRainGS: Gaussian Splatting for Enhanced Scene Reconstruction in Rainy ( http://arxiv.org/abs/2408.11540v1 )

ライセンス: Link先を確認
Shuhong Liu, Xiang Chen, Hongming Chen, Quanfeng Xu, Mingrui Li, (参考訳) 降雨条件下での再建は、視認性の低下と視覚知覚の歪みによって大きな課題を生じさせる。 これらの条件は、自律的な計画から環境モニタリングまで、アプリケーションに不可欠な幾何学的マップの品質を著しく損なう可能性がある。 これらの課題に対応するために,雨環境における3次元再構成(DRRE)の新たな課題を紹介し,雨環境下での3次元シーンの再構築の複雑さに対処することを目的とした。 このタスクをベンチマークするために,雨害や雨滴の多彩な強度を特徴とする,合成画像と実世界の両方のシーン画像の多様なコレクションからなるHydroViewsデータセットを構築した。 さらに, 降雨環境の復元に適した3DGS法であるDeRainGSを提案する。 降雨シナリオの広範囲にわたる広範囲にわたる実験により,本手法は最先端の性能を実現し,既存の閉塞のない手法よりも圧倒的に優れた性能を発揮することが示された。

Reconstruction under adverse rainy conditions poses significant challenges due to reduced visibility and the distortion of visual perception. These conditions can severely impair the quality of geometric maps, which is essential for applications ranging from autonomous planning to environmental monitoring. In response to these challenges, this study introduces the novel task of 3D Reconstruction in Rainy Environments (3DRRE), specifically designed to address the complexities of reconstructing 3D scenes under rainy conditions. To benchmark this task, we construct the HydroViews dataset that comprises a diverse collection of both synthesized and real-world scene images characterized by various intensities of rain streaks and raindrops. Furthermore, we propose DeRainGS, the first 3DGS method tailored for reconstruction in adverse rainy environments. Extensive experiments across a wide range of rain scenarios demonstrate that our method delivers state-of-the-art performance, remarkably outperforming existing occlusion-free methods by a large margin.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# 合成画像のオンラインライフスパンにおける検出性能の進化

Evolution of Detection Performance throughout the Online Lifespan of Synthetic Images ( http://arxiv.org/abs/2408.11541v1 )

ライセンス: Link先を確認
Dimitrios Karageorgiou, Quentin Bammey, Valentin Porcellini, Bertrand Goupil, Denis Teyssou, Symeon Papadopoulos, (参考訳) オンラインに散布された合成画像は、最先端検出器の訓練および評価に使用されたものとは大きく異なる。 本研究は, オンラインライフスパンを通じて, 知覚的合成画像が進化するにつれて, 合成画像検出器の性能を解析するものである。 この分野の進歩にもかかわらず、現在最先端の検出器は、野生の合成画像と実際の画像の区別に苦慮している。 さらに,オンライン画像の初期出現から経過した時間は,ほとんどの検出器の性能に悪影響を及ぼすことを示した。 最終的に、検索支援検出手法を用いて、画像のオンラインライフスパン全体を通して初期検出性能を維持可能であることを実証し、平均検出効率を複数の最先端検出器で6.7%、平均検出効率を7.8%向上させることができる。

Synthetic images disseminated online significantly differ from those used during the training and evaluation of the state-of-the-art detectors. In this work, we analyze the performance of synthetic image detectors as deceptive synthetic images evolve throughout their online lifespan. Our study reveals that, despite advancements in the field, current state-of-the-art detectors struggle to distinguish between synthetic and real images in the wild. Moreover, we show that the time elapsed since the initial online appearance of a synthetic image negatively affects the performance of most detectors. Ultimately, by employing a retrieval-assisted detection approach, we demonstrate the feasibility to maintain initial detection performance throughout the whole online lifespan of an image and enhance the average detection efficacy across several state-of-the-art detectors by 6.7% and 7.8% for balanced accuracy and AUC metrics, respectively.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# ライダーバーグ励起反強磁性体による遠方原子間の量子ゲート

Quantum gates between distant atoms mediated by a Rydberg excitation antiferromagnet ( http://arxiv.org/abs/2408.11542v1 )

ライセンス: Link先を確認
Georgios Doultsinos, David Petrosyan, (参考訳) 量子バスの役割を担う中性原子の配列で接続された遠方の原子量子ビット間の量子ゲートを実装するための新しいプロトコルを提案する。 このプロトコルは、チャープレーザーパルスを用いてレイドバーグ励起の反強磁性状態に配列中の原子を断熱的に移動させることに基づいている。 隣り合う2つの量子ビットの状態に応じて、隣人の封鎖下で配列内の原子を興奮的に非励起化すると、システムは条件付き幾何学的な$\pi$-phaseを取得する。 ファンデルワールス相互作用原子の場合、リドベルク状態崩壊と非断熱誤差を最小化するパルスの最適パラメータの下で、ゲートの不忠実度は距離$L$と量子ビット間の原子数$N$を$\sim L^6/N^3$としてスケールする。 したがって、与えられた空間分離で量子ビットを接続する量子バスの原子数が増加すると、ゲートの忠実度は高くなる。

We present a novel protocol to implement quantum gates between distant atomic qubits connected by an array of neutral atoms playing the role of a quantum bus. The protocol is based on adiabatically transferring the atoms in the array to an antiferromagnetic-like state of Rydberg excitations using chirped laser pulses. Upon exciting and de-exciting the atoms in the array under the blockage of nearest neighbors, depending on the state of the two qubits, the system acquires a conditional geometric $\pi$-phase, while the dynamical phase cancels exactly, even when the atomic positions are disordered but nearly frozen in time, which requires sufficiently low temperatures. For van der Waals interacting atoms, under the optimal parameters of the pulses minimizing the Rydberg-state decay and non-adiabatic errors, the gate infidelity scales with the distance $L$ and the number of atoms $N$ between the qubits as $\sim L^6/N^3$. Hence, increasing the number of atoms in the quantum bus connecting the qubits at a given spatial separation will lead to higher gate fidelity.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# Javaバージョン間のローカルソフトウェアビルド可能性(登録レポート)

Local Software Buildability across Java Versions (Registered Report) ( http://arxiv.org/abs/2408.11544v1 )

ライセンス: Link先を確認
Matúš Sulír, Jaroslav Porubän, Sergej Chodarev, (参考訳) コンテキスト: Maven、Gradle、Antを使って、オープンソースのJavaプロジェクトのソースコードをダウンロードし、ローカルコンピュータ上でビルドすることは、研究者や実践者が行う一般的な活動です。 これまでに複数の研究で、こうした試みの約40~60%は失敗していることがわかった。 過去数年間の経験から、ビルド失敗の割合はさらに増加することが示唆されています。 目的: まず最初に,Javaバージョンの増加に伴ってビルド失敗プロジェクトの比率が増加するという仮説を実証的に確認したいと思います。 次に、失敗するプロジェクトの比率、ユニバーサルバージョン互換性、特定のJDKバージョンでの失敗、ビルドツールの成功率、ラッパー、失敗理由など、9つの補足的な研究質問が提案されている。 メソッド: ビルド設定ファイルを持ち、GitHubから基本的な品質基準を満たす、2500のランダムな純粋なJavaプロジェクトをサンプリングする。 Javaのバージョン6から23をインストールしたコンテナで、すべてのプロジェクトを自動ビルドしようとします。 成功または失敗は終了コードによって決定され、標準出力とエラーストリームは保存される。 分析の大部分は、再現可能なスクリプトを使用して自動的に実行される。

Context: Downloading the source code of open-source Java projects and building them on a local computer using Maven, Gradle, or Ant is a common activity performed by researchers and practitioners. Multiple studies so far found that about 40-60% of such attempts fail. Our experience from the last years suggests that the proportion of failed builds rises continually even further. Objective: First, we would like to empirically confirm our hypothesis that with increasing Java versions, the percentage of build-failing projects tends to grow. Next, nine supplementary research questions are proposed, related mainly to the proportions of failing projects, universal version compatibility, failures under specific JDK versions, success rates of build tools, wrappers, and failure reasons. Method: We will sample 2,500 random pure-Java projects having a build configuration file and fulfilling basic quality criteria from GitHub. We will try to automatically build every project in containers with Java versions 6 to 23 installed. Success or failure will be determined by exit codes, and standard output and error streams will be saved. A majority of the analysis will be performed automatically using reproducible scripts.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# UNetMamba:高解像度リモートセンシング画像のセマンティックセグメンテーションのための効率的なUNetライクなマンバ

UNetMamba: Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2408.11545v1 )

ライセンス: Link先を確認
Enze Zhu, Zhan Chen, Dingkai Wang, Hanru Shi, Xiaoxuan Liu, Lei Wang, (参考訳) 高解像度リモートセンシング画像のセマンティックセグメンテーションは、都市計画や災害評価といった下流の応用において重要な役割を担っている。 しかし、既存のTransformerベースの手法は精度と効率の制約に悩まされている。 このジレンマを克服するために,新しいマンバに基づくセマンティックセグメンテーションモデルであるUNetMambaを提案する。 高解像度画像内の複雑な情報を効率的にデコードできるMamba Segmentation Decoder (MSD) と、列車専用だがローカルコンテンツの認識を著しく向上できるLocal Supervision Module (LSM) が組み込まれている。 UNet-Mambaは、mIoUがLoveDAで0.87%、ISPRS Vaihingenで0.36%増加し、軽量化、メモリフットプリントの低さ、計算コストで高い効率を実現している。 ソースコードは間もなくhttps://github.com/EnzeZhu 2001/UNetMamba.comで公開される。

The semantic segmentation of high-resolution remote sensing images plays a crucial role in downstream applications such as urban planning and disaster assessment. However, existing Transformer-based methods suffer from the constraint between accuracy and efficiency. To overcome this dilemma, we propose UNetMamba, a novel Mamba-based semantic segmentation model. It incorporates a Mamba Segmentation Decoder (MSD) that can efficiently decode the complex information within high-resolution images, and a Local Supervision Module (LSM), which is train-only but can significantly enhance the perception of local contents. Extensive experiments demonstrate that UNet-Mamba outperforms the state-of-the-art methods with the mIoU increased by 0.87% on LoveDA and 0.36% on ISPRS Vaihingen, while achieving high efficiency through light weight, low memory footprint and low computational cost. The source code will soon be publicly available at https://github.com/EnzeZhu2001/UNetMamba.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# インコンテキスト学習における覚書化

Memorization In In-Context Learning ( http://arxiv.org/abs/2408.11546v1 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu, Steven Bethard, Eduardo Blanco, Ellen Riloff, (参考訳) In-context Learning (ICL) は,大規模言語モデル(LLM)の性能向上に有効な手法であることが証明されている。 しかし、これらのパフォーマンス改善の正確なメカニズムは不明だ。 この研究は、ICLが記憶されたトレーニングデータをどのように表すかを示し、この記憶と様々なICL体制(ゼロショット、少数ショット、多ショット)におけるパフォーマンスの相関を探求する最初のものである。 ICLは,(1)ゼロショット学習と比較して暗記を顕著に表す,(2)ラベルのない実演は,表向きの暗記において最も有効な要素である,(3)少数ショット状態における表向きの暗記が高水準(約40%)に達すると性能が向上する,(4)ゼロショット学習を上回る場合のパフォーマンスと暗記との間には,非常に強い相関関係がある,といった特徴がある。 全体として、我々の研究はICLの核心に隠れた現象(暗記)を発見し、重要な疑問を提起している。

In-context learning (ICL) has proven to be an effective strategy for improving the performance of large language models (LLMs) with no additional training. However, the exact mechanism behind these performance improvements remains unclear. This study is the first to show how ICL surfaces memorized training data and to explore the correlation between this memorization and performance across various ICL regimes: zero-shot, few-shot, and many-shot. Our most notable findings include: (1) ICL significantly surfaces memorization compared to zero-shot learning in most cases; (2) demonstrations, without their labels, are the most effective element in surfacing memorization; (3) ICL improves performance when the surfaced memorization in few-shot regimes reaches a high level (about 40%); and (4) there is a very strong correlation between performance and memorization in ICL when it outperforms zero-shot learning. Overall, our study uncovers a hidden phenomenon -- memorization -- at the core of ICL, raising an important question: to what extent do LLMs truly generalize from demonstrations in ICL, and how much of their success is due to memorization?
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# 任意の相互作用強度を持つ1次元ボースガス中の不純物:局在-非局在化遷移と自己局在の欠如

Impurities in a trapped 1D Bose gas of arbitrary interaction strength: localization-delocalization transition and absence of self-localization ( http://arxiv.org/abs/2408.11549v1 )

ライセンス: Link先を確認
Dennis Breu, Eric Vidal Marcos, Martin Will, Michael Fleischhauer, (参考訳) 我々は、任意のボソン-ボソン相互作用とボソン-不純物相互作用を持つ1次元ボース気体中の不純物について議論する。 特に強いボソン-ボソン相互作用の過程において、量子効果を完全に説明するために、密度行列再正規化群(DMRG)と弱相互作用するフェルミオンへのマッピングを利用した解析近似に基づく数値シミュレーションを用いる。 箱電位中の移動不純物は、不純物-ボソン相互作用の増加に伴って、非局在状態と電位エッジの1つに局在した溶液の相転移を受ける。 Gross-Pitaevski -- Schr\"odinger 方程式を結合した平均場アンサッツは、この遷移の合理的な予測を与えるが、自己局在されたポーラロン解の存在も予測する。 このことは、平均場アプローチがうまく機能することを期待する弱いボソン-ボソン相互作用の極限においても、不純物-ボソン相関が重要であることを示している。 さらに、任意の相互作用強度に対して重い不純物によって形成される単一ポラロンのエネルギーを計算し、大きなが有限なボソン-ボソン結合に対して解析的近似を与える。 最後に,ボルン・オッペンハイマー近似におけるポラロン-ポーラロン相互作用ポテンシャルを数値的に決定する。

We discuss impurities in a trapped one-dimensional Bose gas with arbitrary boson-boson and boson-impurity interactions. To fully account for quantum effects, in particular in the regime of strong boson-boson interactions, we employ numerical simulations based on the density-matrix renormalization group (DMRG) and analytic approximations exploiting the mapping to weakly interacting fermions. Mobile impurities in a box potential undergo a phase transition between a delocalized state and a solution localized at one of the potential edges upon increasing the impurity-boson interaction. While a mean-field ansatz based on coupled Gross-Pitaevski -- Schr\"odinger equations gives reasonable predictions of this transition, it also predicts the existence of a self-localized polaron solution, which we show to be an artifact of the underlying decoupling approximation. This demonstrates that impurity-boson correlations are important even in the limit of weak boson-boson interactions, where mean-field approaches are expected to work well. Furthermore we calculate the energy of a single polaron formed by a heavy impurity for arbitrary interaction strengths and give analytical approximations for large but finite boson-boson couplings. Finally we numerically determine the polaron-polaron interaction potential in Born-Oppenheimer approximation, which in the Tonks gas limit is oscillatory due to Friedel oscillations in the Bose gas.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# フラソフ・マクスウェル方程式の2ストリーム不安定性に関する量子計算:ハミルトニアンシミュレーションの数値評価

Quantum Calculation for Two-Stream Instability and Advection Test of Vlasov-Maxwell Equations: Numerical Evaluation of Hamiltonian Simulation ( http://arxiv.org/abs/2408.11550v1 )

ライセンス: Link先を確認
Hayato Higuchi, Juan W. Pedersen, Kiichiro Toyoizumi, Kohji Yoshikawa, Chusei Kiumi, Akimasa Yoshikawa, (参考訳) Vlasov-Maxwell方程式は、衝突のないプラズマの動力学シミュレーションを提供するが、古典的なコンピュータでそれらを数値的に解くことは、しばしば非現実的である。 これは6次元位相空間における時間発展によって課される計算資源の制約によるもので、これは広い空間スケールと時間スケールを必要とする。 本研究では,量子古典型ハイブリッドVlasov-Maxwellソルバを開発した。 具体的には、量子特異値変換(QSVT)に基づくハミルトニアンシミュレーションを、古典的なマックスウェル解法と組み合わせて実装する。 A100 GPUを用いたQiskit-Aer-GPU量子回路エミュレータにおける1次元対流試験と1D1V二ストリーム不安定試験の数値シミュレーションを行う。 量子アルゴリズムの計算複雑性は、古典的な$O(N^6T^2)$から$O(\text{poly}(\log(N,N,T))$に還元される可能性がある。 さらに,我々の量子アルゴリズムは,CFL(Courant-Friedrichs-Lewy)条件の制約による古典的アルゴリズムと比較して,より大きな時間ステップで堅牢であることを示す。

The Vlasov-Maxwell equations provide kinetic simulations of collisionless plasmas, but numerically solving them on classical computers is often impractical. This is due to the computational resource constraints imposed by the time evolution in the 6-dimensional phase space, which requires broad spatial and temporal scales. In this study, we develop a quantum-classical hybrid Vlasov-Maxwell solver. Specifically, the Vlasov solver implements the Hamiltonian simulation based on Quantum Singular Value Transformation (QSVT), coupled with a classical Maxwell solver. We perform numerical simulation of a 1D advection test and a 1D1V two-stream instability test on the Qiskit-Aer-GPU quantum circuit emulator with an A100 GPU. The computational complexity of our quantum algorithm can potentially be reduced from the classical $O(N^6T^2)$ to $O(\text{poly}(\log(N),N,T))$ for the $N$ grid system and simulation time $T$. Furthermore, the numerical analysis reveals that our quantum algorithm is robust under larger time steps compared with classical algorithms with the constraint of Courant-Friedrichs-Lewy (CFL) condition.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# ヒューマンアクティビティ認識のための説明可能なディープラーニングフレームワーク

Explainable Deep Learning Framework for Human Activity Recognition ( http://arxiv.org/abs/2408.11552v1 )

ライセンス: Link先を確認
Yiran Huang, Yexu Zhou, Haibin Zhao, Till Riedel, Michael Beigl, (参考訳) 人間活動認識(HAR)の領域では、複雑なモデルの意思決定プロセスを解明し、透明性と信頼を促進するために、説明可能な人工知能(XAI)の統合が不可欠である。 クラスアクティベーションマッピング(CAM)やアテンションメカニズムのような従来の説明手法は、さまざまな文脈において決定に不可欠な領域を強調するのに有効であるが、HARには不十分であることが証明されている。 この不適切さは、本質的に抽象的なHARデータの性質に起因し、これらの説明を曖昧にしている。 対照的に、時系列に対する最先端のポストホック解釈技術は、他の観点からモデルを説明することができる。 しかし、これは余分な努力を要する。 通常、説明を生成するのに10秒から20秒かかる。 これらの課題を克服するために,競争データ拡張の戦略的利用を通じて,HARモデルの解釈可能性と有効性を両立させる,新しいモデルに依存しないフレームワークを提案する。 この革新的なアプローチは特定のモデルアーキテクチャに頼らず、様々なHARモデルに適用性を広げる。 競争力のあるデータ拡張を実装することで,本フレームワークはモデル決定の直感的かつアクセシブルな説明を提供し,性能を損なうことなく,HARシステムの解釈可能性を大幅に向上させる。

In the realm of human activity recognition (HAR), the integration of explainable Artificial Intelligence (XAI) emerges as a critical necessity to elucidate the decision-making processes of complex models, fostering transparency and trust. Traditional explanatory methods like Class Activation Mapping (CAM) and attention mechanisms, although effective in highlighting regions vital for decisions in various contexts, prove inadequate for HAR. This inadequacy stems from the inherently abstract nature of HAR data, rendering these explanations obscure. In contrast, state-of-th-art post-hoc interpretation techniques for time series can explain the model from other perspectives. However, this requires extra effort. It usually takes 10 to 20 seconds to generate an explanation. To overcome these challenges, we proposes a novel, model-agnostic framework that enhances both the interpretability and efficacy of HAR models through the strategic use of competitive data augmentation. This innovative approach does not rely on any particular model architecture, thereby broadening its applicability across various HAR models. By implementing competitive data augmentation, our framework provides intuitive and accessible explanations of model decisions, thereby significantly advancing the interpretability of HAR systems without compromising on performance.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# AnyDesign: マスクフリー拡散によるVersatile Area FashionEditing

AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion ( http://arxiv.org/abs/2408.11553v1 )

ライセンス: Link先を確認
Yunfang Niu, Lingxiang Wu, Dong Yi, Jie Peng, Ning Jiang, Haiying Wu, Jinqiao Wang, (参考訳) ファッション画像編集は、与えられた指示に基づいて人物の外観を変更することを目的としている。 既存の方法はセグメンタやキーポイント抽出器のような補助的なツールを必要とし、柔軟性と統一されたフレームワークを欠いている。 さらに、これらの手法は、多くのデータセットがクリーンな背景の人々に焦点を当てており、トップ、パンツ、ドレスなどの一般的な衣服のみを含むため、扱える服の種類に制限されている。 これらの制限は、現実世界のシナリオにおける適用性を制限します。 本稿では、まず、人間生成のための既存のデータセットを拡張し、より広い範囲のアパレルとより複雑な背景を含むようにする。 この拡張データセットでは、トップ、ズボン、ドレス、スカート、ヘッドウェア、スカーフ、靴、靴下、バッグなどのさまざまなアイテムを身に着けている。 さらに,多目的領域におけるマスフリー編集を可能にする拡散法であるAnyDesignを提案する。 ユーザは、テキストまたは画像フォーマットで、対応するプロンプトとともに、人間のイメージを入力できる。 提案手法は,Fashion-Guidance Attention (FGA)モジュールを備えたFashion DiTを取り入れ,明示的なアパレルタイプとCLIP符号化アパレル機能を融合させる。 質的,定量的な両実験により,本手法は高品質なファッション編集を実現し,現代テキスト誘導ファッション編集方法より優れることを示した。

Fashion image editing aims to modify a person's appearance based on a given instruction. Existing methods require auxiliary tools like segmenters and keypoint extractors, lacking a flexible and unified framework. Moreover, these methods are limited in the variety of clothing types they can handle, as most datasets focus on people in clean backgrounds and only include generic garments such as tops, pants, and dresses. These limitations restrict their applicability in real-world scenarios. In this paper, we first extend an existing dataset for human generation to include a wider range of apparel and more complex backgrounds. This extended dataset features people wearing diverse items such as tops, pants, dresses, skirts, headwear, scarves, shoes, socks, and bags. Additionally, we propose AnyDesign, a diffusion-based method that enables mask-free editing on versatile areas. Users can simply input a human image along with a corresponding prompt in either text or image format. Our approach incorporates Fashion DiT, equipped with a Fashion-Guidance Attention (FGA) module designed to fuse explicit apparel types and CLIP-encoded apparel features. Both Qualitative and quantitative experiments demonstrate that our method delivers high-quality fashion editing and outperforms contemporary text-guided fashion editing methods.
翻訳日:2024-08-22 17:17:15 公開日:2024-08-21
# 複数の質問応答に対する共通性による選択の差別化

Differentiating Choices via Commonality for Multiple-Choice Question Answering ( http://arxiv.org/abs/2408.11554v1 )

ライセンス: Link先を確認
Wenqing Deng, Zhe Wang, Kewen Wang, Shirui Pan, Xiaowang Zhang, Zhiyong Feng, (参考訳) 複数選択質問応答(MCQA)は、すべての選択が質問に関連があり、意味的に類似している場合、特に困難になる。 しかし、このMCQAの設定は、正しい答えを選択するための貴重な手がかりを提供する可能性がある。 既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。 具体的には、推論の選択の中で意味的な共通点やニュアンスを活用できない。 本稿では,DCQAと呼ばれる共通性を識別・排除し,選択を識別する新しいMCQAモデルを提案する。 我々のモデルは、質問に対する各選択のトークンレベルの注意を捉え、質問のトークンを全ての選択(すなわち、共通点)と個々の選択(すなわち、ニュアンス)で区別する。 ニュアンスを選択の洗練された文脈として使用することにより、我々のモデルは微妙な違いで選択を効果的に区別し、正しい答えを選択するための正当化を提供することができる。 我々は5つのMCQAベンチマークの総合的な実験を行い、DCQAがベースラインモデルより一貫して優れていることを示した。 さらに,本ケーススタディでは,モデルの注意をより異なる特徴に向けることで,アプローチの有効性を示す。

Multiple-choice question answering (MCQA) becomes particularly challenging when all choices are relevant to the question and are semantically similar. Yet this setting of MCQA can potentially provide valuable clues for choosing the right answer. Existing models often rank each choice separately, overlooking the context provided by other choices. Specifically, they fail to leverage the semantic commonalities and nuances among the choices for reasoning. In this paper, we propose a novel MCQA model by differentiating choices through identifying and eliminating their commonality, called DCQA. Our model captures token-level attention of each choice to the question, and separates tokens of the question attended to by all the choices (i.e., commonalities) from those by individual choices (i.e., nuances). Using the nuances as refined contexts for the choices, our model can effectively differentiate choices with subtle differences and provide justifications for choosing the correct answer. We conduct comprehensive experiments across five commonly used MCQA benchmarks, demonstrating that DCQA consistently outperforms baseline models. Furthermore, our case study illustrates the effectiveness of the approach in directing the attention of the model to more differentiating features.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# GSTran: ポイントクラウドセグメンテーションのための統合幾何学とセマンティックコヒーレンス

GSTran: Joint Geometric and Semantic Coherence for Point Cloud Segmentation ( http://arxiv.org/abs/2408.11558v1 )

ライセンス: Link先を確認
Abiao Li, Chenlei Lv, Guofeng Mei, Yifan Zuo, Jian Zhang, Yuming Fang, (参考訳) 意味のあるローカル情報とグローバル情報を学ぶことは、ポイントクラウドセグメンテーションタスクにおいて依然として課題である。 ローカル情報を利用する場合、先行研究は異なるクラスから隣り合う情報を無差別に集約してクエリポイントを更新し、クエリポイントの特異な特徴を補う可能性がある。 並行して、グローバル情報を利用する場合の長距離コンテキスト依存の不正確なモデリングは、モデルの性能にも影響を及ぼす可能性がある。 これらの課題に対処するために,セグメント化タスクに適した新しいトランスフォーマネットワークであるGSTranを提案する。 提案するネットワークは主に,局所幾何学変換器と大域意味変換器の2つの主成分から構成される。 局所幾何学変換器モジュールでは,局所領域内の幾何学的格差を明示的に計算する。 これにより、幾何学的に類似した近傍点との親和性を増幅し、他の近傍点との関連を抑えることができる。 グローバルセマンティックトランスフォーマーモジュールでは,マルチヘッド投票戦略を設計する。 この戦略は空間範囲全体の意味的類似性を評価し、コンテキスト依存の正確なキャプチャを容易にする。 ShapeNetPartとS3DISベンチマークの実験では,提案手法の有効性が示され,他のアルゴリズムよりも優れていることが示された。 コードはhttps://github.com/LAB123-tech/GSTranで公開されている。

Learning meaningful local and global information remains a challenge in point cloud segmentation tasks. When utilizing local information, prior studies indiscriminately aggregates neighbor information from different classes to update query points, potentially compromising the distinctive feature of query points. In parallel, inaccurate modeling of long-distance contextual dependencies when utilizing global information can also impact model performance. To address these issues, we propose GSTran, a novel transformer network tailored for the segmentation task. The proposed network mainly consists of two principal components: a local geometric transformer and a global semantic transformer. In the local geometric transformer module, we explicitly calculate the geometric disparity within the local region. This enables amplifying the affinity with geometrically similar neighbor points while suppressing the association with other neighbors. In the global semantic transformer module, we design a multi-head voting strategy. This strategy evaluates semantic similarity across the entire spatial range, facilitating the precise capture of contextual dependencies. Experiments on ShapeNetPart and S3DIS benchmarks demonstrate the effectiveness of the proposed method, showing its superiority over other algorithms. The code is available at https://github.com/LAB123-tech/GSTran.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 2次元視覚基礎モデルガイダンスを用いた半教師付き3次元シーン補完

Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance ( http://arxiv.org/abs/2408.11559v1 )

ライセンス: Link先を確認
Duc-Hai Pham, Duc Dung Nguyen, Hoang-Anh Pham, Ho Lai Tuan, Phong Ha Nguyen, Khoi Nguyen, Rang Nguyen, (参考訳) 2次元視覚画像からの正確な3Dセマンティック占有の予測は、自律的なエージェントが計画とナビゲーションのために周囲を理解できるようにする上で不可欠である。 最先端の手法は通常、完全に教師されたアプローチを採用しており、高価なLiDARセンサーによって取得された巨大なラベル付きデータセットと、人間のアノテーションによる巧妙なボクセルワイドラベルを必要とする。 このアノテートプロセスのリソース集約性は、これらのメソッドのアプリケーションとスケーラビリティを著しく損なう。 我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。 提案手法では,2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成することにより,より効率的なトレーニングプロセスを実現する。 1)2D-3Dリフト法や3D-2Dトランスフォーマー法など,様々な3Dセマンティックシーン補完手法に適用可能な汎用性を示す。 2)SemanticKITTIとNYUv2の実験により示されたように,本手法は10%のラベル付きデータを用いて全教師付き性能の85%を達成している。 このアプローチは、データアノテーションに関連するコストと労力を削減するだけでなく、カメラベースのシステムで3Dセマンティック占有率を予測する可能性も示している。

Accurate prediction of 3D semantic occupancy from 2D visual images is vital in enabling autonomous agents to comprehend their surroundings for planning and navigation. State-of-the-art methods typically employ fully supervised approaches, necessitating a huge labeled dataset acquired through expensive LiDAR sensors and meticulous voxel-wise labeling by human annotators. The resource-intensive nature of this annotating process significantly hampers the application and scalability of these methods. We introduce a novel semi-supervised framework to alleviate the dependency on densely annotated data. Our approach leverages 2D foundation models to generate essential 3D scene geometric and semantic cues, facilitating a more efficient training process. Our framework exhibits notable properties: (1) Generalizability, applicable to various 3D semantic scene completion approaches, including 2D-3D lifting and 3D-2D transformer methods. (2) Effectiveness, as demonstrated through experiments on SemanticKITTI and NYUv2, wherein our method achieves up to 85% of the fully-supervised performance using only 10% labeled data. This approach not only reduces the cost and labor associated with data annotation but also demonstrates the potential for broader adoption in camera-based systems for 3D semantic occupancy prediction.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 産業品質管理における異常検出のための自己監督型反復リファインメント

Self-Supervised Iterative Refinement for Anomaly Detection in Industrial Quality Control ( http://arxiv.org/abs/2408.11561v1 )

ライセンス: Link先を確認
Muhammad Aqeel, Shakiba Sharifi, Marco Cristani, Francesco Setti, (参考訳) 本研究は,産業品質管理のための堅牢な異常検出手法である反復精錬プロセス(IRP)を紹介する。 IRPは、繰り返しデータ精錬戦略により欠陥検出精度を高め、ミスリードデータポイントを反復的に除去し、モデル性能とロバスト性を向上させる。 KSDD2(Kolektor SDD2)とMVTec AD(MVTec AD)の2つのベンチマークデータセットを用いて,ICPの有効性を検証する。 実験結果から,IRPは従来の異常検出モデル,特に高騒音環境において一貫して優れていた。 本研究は、産業環境における異常検出プロセスを大幅に強化するIRPの可能性を強調し、スパースデータとノイズデータの課題を効果的に管理する。

This study introduces the Iterative Refinement Process (IRP), a robust anomaly detection methodology designed for high-stakes industrial quality control. The IRP enhances defect detection accuracy through a cyclic data refinement strategy, iteratively removing misleading data points to improve model performance and robustness. We validate the IRP's effectiveness using two benchmark datasets, Kolektor SDD2 (KSDD2) and MVTec AD, covering a wide range of industrial products and defect types. Our experimental results demonstrate that the IRP consistently outperforms traditional anomaly detection models, particularly in environments with high noise levels. This study highlights the IRP's potential to significantly enhance anomaly detection processes in industrial settings, effectively managing the challenges of sparse and noisy data.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# AutoDirector:多感覚合成のためのオンライン自動スケジューリングエージェント

AutoDirector: Online Auto-scheduling Agents for Multi-sensory Composition ( http://arxiv.org/abs/2408.11564v1 )

ライセンス: Link先を確認
Minheng Ni, Chenfei Wu, Huaying Yuan, Zhengyuan Yang, Ming Gong, Lijuan Wang, Zicheng Liu, Wangmeng Zuo, Nan Duan, (参考訳) 生成モデルの進歩により、音楽、視覚、音声といった様々な感覚要素の合成は重要なリアリズムを達成している。 しかし、マルチ感覚出力を生成するためのアプローチは十分に検討されておらず、フィルムのディレクティブのような高価値シナリオへの適用を制限している。 1) 並列性の欠如と生産段階によるオンラインスケジューリング: 多感覚フィルムの製造においては、異なる感覚要素間の複雑な依存関係があり、各要素の生産時間が異なる。 2) ユーザとの多様なニーズと明確なコミュニケーション要求: ユーザは、ユーザからのフィードバックに基づいて映画コンテンツを継続的に調整し最適化するために、人間とコンピュータのインタラクションとイテレーションを必要とするドラフトを見るまで、ニーズを明確に表現することができないことが多い。 これらの問題に対処するため,私たちは,ロングショット,特殊効果,音楽スコアリング,ダビング,リップ同期をサポートする対話型多感合成フレームワークであるAutoDirectorを紹介した。 本フレームワークは,自動スケジューリングによる多感フィルム製造効率の向上と,ユーザニーズを満たす対話型タスクの修正と改善を支援する。 AutoDirectorは、人間と機械のコラボレーションの応用範囲を広げるだけでなく、映画監督の役割における人間とのコラボレーションにおけるAIの可能性も示している。

With the advancement of generative models, the synthesis of different sensory elements such as music, visuals, and speech has achieved significant realism. However, the approach to generate multi-sensory outputs has not been fully explored, limiting the application on high-value scenarios such as of directing a film. Developing a movie director agent faces two major challenges: (1) Lack of parallelism and online scheduling with production steps: In the production of multi-sensory films, there are complex dependencies between different sensory elements, and the production time for each element varies. (2) Diverse needs and clear communication demands with users: Users often cannot clearly express their needs until they see a draft, which requires human-computer interaction and iteration to continually adjust and optimize the film content based on user feedback. To address these issues, we introduce AutoDirector, an interactive multi-sensory composition framework that supports long shots, special effects, music scoring, dubbing, and lip-syncing. This framework improves the efficiency of multi-sensory film production through automatic scheduling and supports the modification and improvement of interactive tasks to meet user needs. AutoDirector not only expands the application scope of human-machine collaboration but also demonstrates the potential of AI in collaborating with humans in the role of a film director to complete multi-sensory films.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 多部系における絡み合いのない局所非局所集合

Genuinely nonlocal sets without entanglement in multipartite systems ( http://arxiv.org/abs/2408.11566v1 )

ライセンス: Link先を確認
Ying-Ying Lu, Hai-Qing Cao, Hui-Juan Zuo, Shao-Ming Fei, (参考訳) 多重部分集合の直交状態の集合が真に非局所であるとは、それが部分系のすべての分割において局所的に区別できないことである。 集合が局所可換であれば、それが真の非局所性を持つのは \uppercase\expandafter{\romannumeral 1} である。 さもなければ、それが真の非局所性を持つのは \uppercase\expandafter{\romannumeral 2} である。 問題の複雑さのため、一般のマルチパーティイト系における真の非局所集合の構成は、今のところ完全には解決されていない。 本稿では,まず,二部類系における非局所的積状態の集合について述べる。 一般$n$-パーティイト系 $\otimes^{n}_{i=1}\mathbb{C}^{d_{i}}$$[3\leq (d_{1}-1)\leq d_{2}\leq \cdots\leq d_{n},n\geq3]$ において、真に非局所的な型~\uppercase\expandafter{\romannumeral 1} を得る。 次に、$\mathbb{C}^{d_{1}}\otimes\mathbb{C}^{d_{2}}\otimes\mathbb{C}^{d_{3}}$$(3\leq d_{1}\leq d_{2}\leq d_{3})$および$\otimes^{n}_{i=1}\mathbb{C}^{d_{i}}$$(3\leq d_{1}\leq d_{2}\leq \cdots\leq d_{n},n\geq4)$の真の非局所性を持つ2つの構成を示す。 M. S. Li, Y. L. Wang, F. Shi, and M. H. Yung, J. Phys. A: Math. Theor. 54, 445301 (2021)] において、真の非局所的な型–\uppercase\expandafter{\romannumeral2} が存在するというオープンな問題にさらに肯定的に答え、量子情報処理における関連する応用を強調した。

A set of multipartite orthogonal states is genuinely nonlocal if it is locally indistinguishable in every bipartition of the subsystems. If the set is locally reducible, we say it has genuine nonlocality of type \uppercase\expandafter{\romannumeral 1}. Otherwise, we say it has genuine nonlocality of type \uppercase\expandafter{\romannumeral 2}. Due to the complexity of the problem, the construction of genuinely nonlocal sets in general multipartite systems has not been completely solved so far. In this paper, we first provide a nonlocal set of product states in bipartite systems. We obtain a genuinely nonlocal set of type~\uppercase\expandafter{\romannumeral 1} without entanglement in general $n$-partite systems $\otimes^{n}_{i=1}\mathbb{C}^{d_{i}}$ $[3\leq (d_{1}-1)\leq d_{2}\leq \cdots\leq d_{n},n\geq3]$. Then we present two constructions with genuine nonlocality of type~\uppercase\expandafter{\romannumeral 2} in $\mathbb{C}^{d_{1}}\otimes\mathbb{C}^{d_{2}}\otimes\mathbb{C}^{d_{3}}$ $(3\leq d_{1}\leq d_{2}\leq d_{3})$ and $\otimes^{n}_{i=1}\mathbb{C}^{d_{i}}$ $(3\leq d_{1}\leq d_{2}\leq \cdots\leq d_{n},n\geq4)$. Our results further positively answer the open problem that there does exist a genuinely nonlocal set of type~\uppercase\expandafter{\romannumeral2} in multipartite systems [M. S. Li, Y. L. Wang, F. Shi, and M. H. Yung, J. Phys. A: Math. Theor. 54, 445301 (2021)] and highlight its related applications in quantum information processing.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 効率的な3次元表現学習のための位置プロンプトチューニング

Positional Prompt Tuning for Efficient 3D Representation Learning ( http://arxiv.org/abs/2408.11567v1 )

ライセンス: Link先を確認
Shaochen Zhang, Zekun Qi, Runpei Dong, Xiuxiu Bai, Xing Wei, (参考訳) ポイントクラウド分析は大きな発展を遂げており、ポイントクラウドの分類やセグメンテーションなど、複数のダウンストリームタスクでうまく機能している。 トランスフォーマーアーキテクチャにおける位置符号化構造の単純さを意識して、高次元部分としての位置符号化と、マルチスケール情報を提供するパッチエンコーダを重要視する。 シーケンシャルトランスフォーマーとともに、位置エンコーディングを備えた全モジュールは、パッチからのローカル部分とセンターポイントからのグローバル部分の両方を位置エンコーディングとして考慮したマルチスケールの機能抽象化モジュールを包括的に構築する。 わずかなパラメータだけで、位置埋め込みモジュールはPEFT(Parameter-Efficient Fine-Tuning)タスクの設定に非常に適している。 したがって、これらのパラメータを微調整部分として解凍する。 同時に、我々は既存のプロンプトとアダプタのチューニング方法を見直し、新しいプロンプトの方法を提案し、動的調整としてアダプタでそれらを合成する。 ScanObjectNN OBJ_BGデータセットの95.01%の精度など、いくつかの主流データセットにおいて、PEFTタスクの手法、すなわち、トレーニングのためのパラメータの1.05%しか持たないPTTは、最先端の結果を得る。 コードはhttps://github.com/zsc000722/PPTでリリースされる。

Point cloud analysis has achieved significant development and is well-performed in multiple downstream tasks like point cloud classification and segmentation, etc. Being conscious of the simplicity of the position encoding structure in Transformer-based architectures, we attach importance to the position encoding as a high-dimensional part and the patch encoder to offer multi-scale information. Together with the sequential Transformer, the whole module with position encoding comprehensively constructs a multi-scale feature abstraction module that considers both the local parts from the patch and the global parts from center points as position encoding. With only a few parameters, the position embedding module fits the setting of PEFT (Parameter-Efficient Fine-Tuning) tasks pretty well. Thus we unfreeze these parameters as a fine-tuning part. At the same time, we review the existing prompt and adapter tuning methods, proposing a fresh way of prompts and synthesizing them with adapters as dynamic adjustments. Our Proposed method of PEFT tasks, namely PPT, with only 1.05% of parameters for training, gets state-of-the-art results in several mainstream datasets, such as 95.01% accuracy in the ScanObjectNN OBJ_BG dataset. Codes will be released at https://github.com/zsc000722/PPT.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# CHOTA: 細胞追跡のための高次精度メトリクス

CHOTA: A Higher Order Accuracy Metric for Cell Tracking ( http://arxiv.org/abs/2408.11571v1 )

ライセンス: Link先を確認
Timo Kaiser, Vladimir Ulman, Bodo Rosenhahn, (参考訳) 細胞追跡結果の評価は, 追跡法の開発を主導し, 生体医学的研究に大きな影響を及ぼす。 これは評価指標によって定量的に達成される。 残念なことに、現在の測定基準は局所的な正確さを好んでおり、世界のコヒーレンスに弱い報酬を与えており、高いレベルの生物学的分析を妨げている。 また,グローバルコヒーレンスを育成するために,セル特異的な高次追跡精度 (CHOTA metric) を提案し,セル検出と局所的関連性,グローバルコヒーレンス,および系統追跡のすべての側面について評価を行った。 そこで我々は,全細胞系統を包含する「軌道」という用語を新たに定義し,一般的な複数物体追跡から確立されたHOTA尺度に含めることにより,これを実現した。 さらに、我々の新しいCHOTA測定値と比較し、その利点を示すため、同時代の細胞追跡指標を詳細に調査する。 すべてのメトリクスは、最先端のリアルタイムセル追跡結果と、特定のトラッキングエラーをシミュレートする合成結果に基づいて、広範囲に評価される。 CHOTAはすべてのトラッキングエラーに敏感であり,細胞の全系統を再構築する手法が生物学的に関連していることを示す。 セルトラッキングで現在使用されているメトリクスに対して、堅牢で包括的な代替手段が導入されている。 Pythonコードはhttps://github.com/CellTrackingChallenge/py-ctcmetricsで入手できる。

The evaluation of cell tracking results steers the development of tracking methods, significantly impacting biomedical research. This is quantitatively achieved by means of evaluation metrics. Unfortunately, current metrics favor local correctness and weakly reward global coherence, impeding high-level biological analysis. To also foster global coherence, we propose the CHOTA metric (Cell-specific Higher Order Tracking Accuracy) which unifies the evaluation of all relevant aspects of cell tracking: cell detections and local associations, global coherence, and lineage tracking. We achieve this by introducing a new definition of the term 'trajectory' that includes the entire cell lineage and by including this into the well-established HOTA metric from general multiple object tracking. Furthermore, we provide a detailed survey of contemporary cell tracking metrics to compare our novel CHOTA metric and to show its advantages. All metrics are extensively evaluated on state-of-the-art real-data cell tracking results and synthetic results that simulate specific tracking errors. We show that CHOTA is sensitive to all tracking errors and gives a good indication of the biologically relevant capability of a method to reconstruct the full lineage of cells. It introduces a robust and comprehensive alternative to the currently used metrics in cell tracking. Python code is available at https://github.com/CellTrackingChallenge/py-ctcmetrics .
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 有限要素法による心電図における逆問題の時空間変動型正規化

Finite element-based space-time total variation-type regularization of the inverse problem in electrocardiographic imaging ( http://arxiv.org/abs/2408.11573v1 )

ライセンス: Link先を確認
Manuel Haas, Thomas Grandits, Thomas Pinetz, Thomas Beiert, Simone Pezzuto, Alexander Effland, (参考訳) 体表面電位測定による心活動の再構築は、心電図の逆問題を引き起こす。 数値的な結果を改善し、ユニークな結果を与えるために、多くの異なる正規化手法が提案されている。 本研究は,有限要素を用いた時空間全変量型正規化に基づく体表面電位マップから心電図を再構成する新しい手法を提案する。 いくつかの数値実験では,2次元の胴体データと3次元のウサギ心臓における心電図の再構築における時間空間正規化の利点が,最先端の手法と比較して優れていることが示されている。

Reconstructing cardiac electrical activity from body surface electric potential measurements results in the severely ill-posed inverse problem in electrocardiography. Many different regularization approaches have been proposed to improve numerical results and provide unique results. This work presents a novel approach for reconstructing the epicardial potential from body surface potential maps based on a space-time total variation-type regularization using finite elements, where a first-order primal-dual algorithm solves the underlying convex optimization problem. In several numerical experiments, the superior performance of this method and the benefit of space-time regularization for the reconstruction of epicardial potential on two-dimensional torso data and a three-dimensional rabbit heart compared to state-of-the-art methods are demonstrated.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# ドラマエンジン: 物語的エージェントのためのフレームワーク

Drama Engine: A Framework for Narrative Agents ( http://arxiv.org/abs/2408.11574v1 )

ライセンス: Link先を確認
Martin Pichlmair, Riddhi Raj, Charlene Putney, (参考訳) 本技術報告では,物語目的のために設計された大規模言語モデルとのエージェントインタラクションのための新しいフレームワークであるDrama Engineについて述べる。 このフレームワークはマルチエージェントシステムの原則を適用し、動的でコンテキスト対応のコンパニオンを作成する。 主な機能としては、デリゲートを備えたマルチエージェントワークフロー、動的プロンプトアセンブリ、モデルに依存しない設計などがある。 Drama Engineは、共同開発、ムードシステム、自動コンテキスト要約などのユニークな要素を導入している。 TypeScriptで実装されている。 このフレームワークのアプリケーションには、マルチエージェントチャットや、クリエイティブな執筆のための仮想同僚が含まれる。 本稿では,システムアーキテクチャ,アセンブリプロセス,デリゲート機構,モデレーション技術,潜在的な倫理的考察,今後の拡張について論じる。

This technical report presents the Drama Engine, a novel framework for agentic interaction with large language models designed for narrative purposes. The framework adapts multi-agent system principles to create dynamic, context-aware companions that can develop over time and interact with users and each other. Key features include multi-agent workflows with delegation, dynamic prompt assembly, and model-agnostic design. The Drama Engine introduces unique elements such as companion development, mood systems, and automatic context summarising. It is implemented in TypeScript. The framework's applications include multi-agent chats and virtual co-workers for creative writing. The paper discusses the system's architecture, prompt assembly process, delegation mechanisms, and moderation techniques, as well as potential ethical considerations and future extensions.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# RaNDT SLAM: 強度増分正規分布変換に基づくレーダSLAM

RaNDT SLAM: Radar SLAM Based on Intensity-Augmented Normal Distributions Transform ( http://arxiv.org/abs/2408.11576v1 )

ライセンス: Link先を確認
Maximilian Hilger, Nils Mandischer, Burkhard Corves, (参考訳) レスキューロボティクスは、非構造的で潜在的に視覚的な環境のために、認識アルゴリズムに高い要求を設定する。 波動周波数変調連続波レーダは、この種の環境でのSLAMに対する新たな検知モダリティである。 しかし、レーダーSLAMの複雑なノイズ特性は、特に屋内で、計算的に要求され、遅くなる。 本研究では,高速かつ正確なロボット軌道を生成する新しいレーダーSLAMフレームワークであるRaNDT SLAMを紹介する。 本手法は,レーダー強度測定による正規分布変換に基づく。 運動推定は、運動モデルの融合、IMUデータ、および強化正規分布変換の登録に基づく。 我々は新しいベンチマークデータセットとOxford Radar RobotCarデータセットでRaNDT SLAMを評価した。 新しいデータセットは、複数のセンシングモード(LiDAR、レーダー、IMU)に加えて、屋内および屋外環境を含んでいる。

Rescue robotics sets high requirements to perception algorithms due to the unstructured and potentially vision-denied environments. Pivoting Frequency-Modulated Continuous Wave radars are an emerging sensing modality for SLAM in this kind of environment. However, the complex noise characteristics of radar SLAM makes, particularly indoor, applications computationally demanding and slow. In this work, we introduce a novel radar SLAM framework, RaNDT SLAM, that operates fast and generates accurate robot trajectories. The method is based on the Normal Distributions Transform augmented by radar intensity measures. Motion estimation is based on fusion of motion model, IMU data, and registration of the intensity-augmented Normal Distributions Transform. We evaluate RaNDT SLAM in a new benchmark dataset and the Oxford Radar RobotCar dataset. The new dataset contains indoor and outdoor environments besides multiple sensing modalities (LiDAR, radar, and IMU).
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 代数的攻撃に対する高い非線形性と優れた抵抗性を考慮した効率よく実装可能なブール関数の構成

Constructions of Efficiently Implementable Boolean functions Possessing High Nonlinearity and Good Resistance to Algebraic Attacks ( http://arxiv.org/abs/2408.11583v1 )

ライセンス: Link先を確認
Claude Carlet, Palash Sarkar, (参考訳) 計算量が少ないこと、非線形性、(高速)代数免疫の間のトレードオフを現在最もよく知られている関数の2つの新しいクラスについて述べる。 新たな函数の非線形性と(高速な)代数的免疫は、以前に知られていたすべての有効実装可能な函数の性質を大幅に改善する。 2つの新しいクラスから適切に選択された関数は、ストリーム暗号の非線形フィルタモデルや、混乱を保証するためにブール関数を使用する他のストリーム暗号で使用されるフィルタ関数を設計する問題に対する優れた解決策を提供する。 特に、$n\leq 20$ の場合、実装効率が既知のすべての関数よりもはるかに低く、非線形性と(高速な)代数的免疫の同等の組合せが達成できることが示される。 正の整数 $\ell$ と $\delta$ が与えられたとき、線形バイアスが少なくとも 2^{-\ell}$ である2番目の族から、高速代数免疫は少なくとも $\delta$ (実験結果によってよく支持される予想に基づいて) であり、これは $\ell$ と $\delta$ で線型である時間と空間で実装できる。 さらに、我々の第2ファミリーの関数は同相なフレンドリな操作を用いて構築され、これらの関数は暗号の応用に適している。

We describe two new classes of functions which provide the presently best known trade-offs between low computational complexity, nonlinearity and (fast) algebraic immunity. The nonlinearity and (fast) algebraic immunity of the new functions substantially improve upon those properties of all previously known efficiently implementable functions. Appropriately chosen functions from the two new classes provide excellent solutions to the problem of designing filtering functions for use in the nonlinear filter model of stream ciphers, or in any other stream ciphers using Boolean functions for ensuring confusion. In particular, for $n\leq 20$, we show that there are functions in our first family whose implementation efficiences are significantly lower than all previously known functions achieving a comparable combination of nonlinearity and (fast) algebraic immunity. Given positive integers $\ell$ and $\delta$, it is possible to choose a function from our second family whose linear bias is provably at most $2^{-\ell}$, fast algebraic immunity is at least $\delta$ (based on conjecture which is well supported by experimental results), and which can be implemented in time and space which is linear in $\ell$ and $\delta$. Further, the functions in our second family are built using homomorphic friendly operations, making these functions well suited for the application of transciphering.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 悪意メールによる心理的要因の進化の特徴

Characterizing the Evolution of Psychological Factors Exploited by Malicious Emails ( http://arxiv.org/abs/2408.11584v1 )

ライセンス: Link先を確認
Theodore Longtchi, Shouhuai Xu, (参考訳) 悪意のあるメールなどのサイバーソーシャルエンジニアリング攻撃を含むサイバー攻撃は、常に時間とともに進化している。 そのため、その進化を理解することが重要である。 本稿では,悪質メールを悪質メールに活用できる心理的属性であるPFのレンズを用いて,悪意メールの進化を特徴付ける。 つまり、それらを送る攻撃者だ。 本研究の目的は,2004年から2024年までの21年間にわたって1,260件の悪意ある電子メールをケーススタディとして利用することである。 我々の発見によると、攻撃者は何度も多くのPF、特に人間の特性を反映したものを利用しようとしてきた。 攻撃者はますます9つのPFを悪用し、ほとんどは暗黙的またはステルス的な方法で利用している。 いくつかのPFは、しばしば一緒に利用される。 これらの洞察は、悪意のあるメールに対する将来の防御を設計する方法について光を当てた。

Cyber attacks, including cyber social engineering attacks, such as malicious emails, are always evolving with time. Thus, it is important to understand their evolution. In this paper we characterize the evolution of malicious emails through the lens of Psychological Factors, PFs, which are humans psychological attributes that can be exploited by malicious emails. That is, attackers who send them. For this purpose, we propose a methodology and apply it to conduct a case study on 1,260 malicious emails over a span of 21 years, 2004 to 2024. Our findings include attackers have been constantly seeking to exploit many PFs, especially the ones that reflect human traits. Attackers have been increasingly exploiting 9 PFs and mostly in an implicit or stealthy fashion. Some PFs are often exploited together. These insights shed light on how to design future defenses against malicious emails.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 悪意メールによる心理学的戦術と技法の進化を特徴づける

Characterizing the Evolution of Psychological Tactics and Techniques Exploited by Malicious Emails ( http://arxiv.org/abs/2408.11586v1 )

ライセンス: Link先を確認
Theodore Longtchi, Shouhuai Xu, (参考訳) 悪意のあるメールやサイバーソーシャルエンジニアリングの攻撃の状況は、常に進化している。 これらの攻撃に対して効果的な防御を設計するには、これらの攻撃によって活用される心理学的戦術、PTac、心理学的技法、PTechを深く理解する必要がある。 本稿では,悪意ある電子メールによるPTacsとPTechsの進化を特徴付ける手法を提案する。 本研究では,実世界のデータセットに方法論を適用した。 これはPTacsやPTechsが他のものよりもよく利用されるという多くの洞察につながります。 これらの洞察は、悪意のある電子メールを効果的に対処するための心理的に根ざした解決策を設計するための将来の研究の方向性を明かした。

The landscape of malicious emails and cyber social engineering attacks in general are constantly evolving. In order to design effective defenses against these attacks, we must deeply understand the Psychological Tactics, PTacs, and Psychological Techniques, PTechs, that are exploited by these attacks. In this paper we present a methodology for characterizing the evolution of PTacs and PTechs exploited by malicious emails. As a case study, we apply the methodology to a real-world dataset. This leads to a number insights, such as which PTacs or PTechs are more often exploited than others. These insights shed light on directions for future research towards designing psychologically-principled solutions to effectively counter malicious emails.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 大規模言語モデルは優れた攻撃者である:効率的で頑丈なテキストバックドア攻撃

Large Language Models are Good Attackers: Efficient and Stealthy Textual Backdoor Attacks ( http://arxiv.org/abs/2408.11587v1 )

ライセンス: Link先を確認
Ziqiang Li, Yueqi Zeng, Pengfei Xia, Lei Liu, Zhangjie Fu, Bin Li, (参考訳) 自然言語処理(NLP)分野の飛躍的な進歩により、トレーニングデータの需要は大幅に増加した。 コスト削減のため、ユーザや企業がデータ収集の労働集約的なタスクをサードパーティにアウトソースすることが一般的になっている。 残念なことに、最近の研究は、特にNLPシステムをバックドア攻撃の可能性に晒すことで、このプラクティスにまつわる固有のリスクを明らかにしている。 具体的には、これらの攻撃はトレーニングデータのごく一部を汚染することにより、トレーニングされたモデルの振る舞いを悪意ある制御を可能にする。 コンピュータビジョンのバックドアアタックとは異なり、テキストバックドアアタックは盗難攻撃の厳しい要件を課している。 しかし,既存の攻撃手法は,テキストデータに固有の高情報エントロピーのため,有効性とステルス性の間に大きなトレードオフがある。 本稿では,Large Language Models (LLMs) を利用した,効率的なテキストバックドア攻撃手法 EST-Bad を提案する。 私たちのEST-Badには、モデル固有の欠陥をトリガーとして最適化すること、LSMで密かにトリガーを注入すること、バックドアインジェクションの最も影響の大きいサンプルを慎重に選択することの3つの戦略が含まれています。 これらの手法の統合により、EST-Badは、各種テキスト分類器データセットにおける先行手法と比較して、優れたステルス性を保ちながら、競合攻撃性能の効率的な達成を実証する。

With the burgeoning advancements in the field of natural language processing (NLP), the demand for training data has increased significantly. To save costs, it has become common for users and businesses to outsource the labor-intensive task of data collection to third-party entities. Unfortunately, recent research has unveiled the inherent risk associated with this practice, particularly in exposing NLP systems to potential backdoor attacks. Specifically, these attacks enable malicious control over the behavior of a trained model by poisoning a small portion of the training data. Unlike backdoor attacks in computer vision, textual backdoor attacks impose stringent requirements for attack stealthiness. However, existing attack methods meet significant trade-off between effectiveness and stealthiness, largely due to the high information entropy inherent in textual data. In this paper, we introduce the Efficient and Stealthy Textual backdoor attack method, EST-Bad, leveraging Large Language Models (LLMs). Our EST-Bad encompasses three core strategies: optimizing the inherent flaw of models as the trigger, stealthily injecting triggers with LLMs, and meticulously selecting the most impactful samples for backdoor injection. Through the integration of these techniques, EST-Bad demonstrates an efficient achievement of competitive attack performance while maintaining superior stealthiness compared to prior methods across various text classifier datasets.
翻訳日:2024-08-22 17:07:27 公開日:2024-08-21
# 逆条件下での車両色認識の強化に向けて:データセットとベンチマーク

Toward Enhancing Vehicle Color Recognition in Adverse Conditions: A Dataset and Benchmark ( http://arxiv.org/abs/2408.11589v1 )

ライセンス: Link先を確認
Gabriel E. Lima, Rayson Laroca, Eduardo Santos, Eduil Nascimento Jr., David Menotti, (参考訳) 車両情報認識は様々な分野、特に刑事捜査において重要である。 車両色認識(VCR)は、視覚的に識別可能な車両の属性であり、部分閉塞や視点の変化の影響を受けないため、重要な研究の関心を集めている。 このタスクの既存の手法の成功にもかかわらず、文献で使用されるデータセットの比較的低い複雑さは、ほとんど見過ごされてきている。 この研究は、より困難なVCRシナリオを表す新しいデータセットをコンパイルすることで、このギャップに対処する。 6つのナンバープレート認識データセットから得られた画像は11色に分類され、公式車両登録情報を用いてアノテーションが検証された。 我々は、広く採用されているデータセットと提案したデータセットを用いて、4つのディープラーニングモデルの性能を評価し、ベンチマークを構築した。 その結果、我々のデータセットは、テストされたモデルにより大きな困難をもたらし、VCRのさらなる探索を必要とするシナリオを強調します。 興味深いことに、夜間のシーンは、最高のパフォーマンスモデルによるエラーのかなりの部分を占めている。 この研究は、将来のVCR研究の基礎を提供するとともに、細粒度車両分類の分野で貴重な洞察を提供する。

Vehicle information recognition is crucial in various practical domains, particularly in criminal investigations. Vehicle Color Recognition (VCR) has garnered significant research interest because color is a visually distinguishable attribute of vehicles and is less affected by partial occlusion and changes in viewpoint. Despite the success of existing methods for this task, the relatively low complexity of the datasets used in the literature has been largely overlooked. This research addresses this gap by compiling a new dataset representing a more challenging VCR scenario. The images - sourced from six license plate recognition datasets - are categorized into eleven colors, and their annotations were validated using official vehicle registration information. We evaluate the performance of four deep learning models on a widely adopted dataset and our proposed dataset to establish a benchmark. The results demonstrate that our dataset poses greater difficulty for the tested models and highlights scenarios that require further exploration in VCR. Remarkably, nighttime scenes account for a significant portion of the errors made by the best-performing model. This research provides a foundation for future studies on VCR, while also offering valuable insights for the field of fine-grained vehicle classification.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 量子非ガウス光子統計の損失耐性検証

Losses resistant verification of quantum non-Gaussian photon statistics ( http://arxiv.org/abs/2408.11590v1 )

ライセンス: Link先を確認
Riccardo Checchinato, Jan-Heinrich Littmann, Lukáš Lachman, Jaewon Lee, Sven Höfling, Christian Schneider, Radim Filip, Ana Predojević, (参考訳) 光の量子非ガウス状態は、量子技術における様々な応用に欠かせない基本的な性質を持つ。 しかし、これらの特徴の多くは、光学的損失と検出器の非効率のため、標準基準を用いて検出することは困難である。 光の統計が不明であるため、損失を正確に測定できるにもかかわらず、データの損失補正は信頼できない。 この問題に対処するために、既知の光学的損失と検出器の非効率性をその導出に組み込む量子非ガウス的証人を利用した損失軽減検証手法を用いる。 このアプローチは、単光子と光子対の非正規量子非ガウス状態を実験的に証明する、かなりの課題に対処することを可能にする。

Quantum non-Gaussian states of light have fundamental properties that are essential for a multitude of applications in quantum technology. However, many of these features are difficult to detect using standard criteria due to optical losses and detector inefficiency. As the statistics of light are unknown, the loss correction on the data is unreliable, despite the fact that the losses can be precisely measured. To address this issue, we employ a loss-mitigated verification technique utilising quantum non-Gaussian witnesses, which incorporate the known optical losses and detector inefficiency into their derivation. This approach allows us to address the considerable challenge of experimentally demonstrating unheralded quantum non-Gaussian states of single photons and photon pairs.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# ディープラーニングによる無線信号に基づく位置決めにおける効率的なデータ選択のためのアクティブラーニング

Active learning for efficient data selection in radio-signal based positioning via deep learning ( http://arxiv.org/abs/2408.11592v1 )

ライセンス: Link先を確認
Vincent Corlay, Milan Courcoux-Caro, (参考訳) 深層学習による無線信号に基づくユーザ機器の位置決めの問題点を考察する。 多くの教師付き学習タスクと同様に、重要な側面は、モデルをトレーニングするための関連するデータセットが利用可能であることだ。 しかし、セルラーネットワークでは、データ収集ステップは高い通信オーバーヘッドを引き起こす可能性がある。 結果として、データセットの必要なサイズを減らすために、ラベル付けされる位置を慎重に選択し、トレーニングに使用することが興味深いかもしれない。 そこで我々は,効率的なデータ収集のための能動的学習手法を提案する。 まず、ジェニーを用いた位置決め問題において、重要な利得(必要なデータセットの位置決め精度とサイズの両方)が得られることを示す。 これは、位置決めのための活発な学習の関心を検証する。 次に、このジェニーを近似するために \textcolor{blue}{practical} 法を提案する。

We consider the problem of user equipment (UE) positioning based on radio signals via deep learning. As in most supervised-learning tasks, a critical aspect is the availability of a relevant dataset to train a model. However, in a cellular network, the data-collection step may induce a high communication overhead. As a result, to reduce the required size of the dataset, it may be interesting to carefully choose the positions to be labelled and to be used in the training. We therefore propose an active learning approach for efficient data collection. We first show that significant gains (both in terms of positioning accuracy and size of the required dataset) can be obtained for the considered positioning problem using a genie. This validates the interest of active learning for positioning. We then propose a \textcolor{blue}{practical} method to approximate this genie.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# MCDubber:マルチモーダルなコンテキスト対応表現型ビデオダビング

MCDubber: Multimodal Context-Aware Expressive Video Dubbing ( http://arxiv.org/abs/2408.11593v1 )

ライセンス: Link先を確認
Yuan Zhao, Zhenqi Jia, Rui Liu, De Hu, Feilong Bao, Guanglai Gao, (参考訳) 自動ビデオダビング(AVD)は、与えられたスクリプトを取得し、唇の動きと韻律表現性に合わせた音声を生成することを目的としている。 現在のAVDモデルは、合成音声の韻律を高めるために、主に現在の文の視覚情報を利用する。 しかし, 生成したダビングの韻律とマルチモーダルな文脈との整合性は考慮する必要がある。 この側面は以前の研究で見過ごされてきた。 この問題に対処するため,大域的文脈韻律の整合性を確保するために,マルチモーダルなコンテキスト対応ビデオダビングモデルである「textbf{MCDubber}」を提案する。 MCDubber は,(1) 文脈持続時間調整器は,テキストフレームと唇フレーム間のコンテキスト認識アライメントを学習すること,(2) 文脈韻律予測器は,グローバルコンテキストの視覚的シーケンスを読み取って,コンテキスト認識のグローバルエネルギーとピッチを予測すること,(3) コンテキスト音響復号器は,隣接する接地トラスメルスペクトルの助けを借りて,最終的にグローバルコンテキストメルスペクトルを予測すること,の3つの主成分から構成される。 このプロセスを通じて、MCDubberは、ダビング時の現行文の韻律表現性に対するマルチモーダルコンテキストの影響を十分に検討する。 出力コンテキスト mel-spectrograms から対象文に属する抽出したmel-spectrogram は、最後の必要なダビングオーディオである。 Chemベンチマークデータセットの大規模な実験により、我々のMCDubberは、全ての高度なベースラインと比較してダビング表現性を著しく改善することが示された。 コードとデモはhttps://github.com/XiaoYuanJun-zy/MCDubber.comで公開されている。

Automatic Video Dubbing (AVD) aims to take the given script and generate speech that aligns with lip motion and prosody expressiveness. Current AVD models mainly utilize visual information of the current sentence to enhance the prosody of synthesized speech. However, it is crucial to consider whether the prosody of the generated dubbing aligns with the multimodal context, as the dubbing will be combined with the original context in the final video. This aspect has been overlooked in previous studies. To address this issue, we propose a Multimodal Context-aware video Dubbing model, termed \textbf{MCDubber}, to convert the modeling object from a single sentence to a longer sequence with context information to ensure the consistency of the global context prosody. MCDubber comprises three main components: (1) A context duration aligner aims to learn the context-aware alignment between the text and lip frames; (2) A context prosody predictor seeks to read the global context visual sequence and predict the context-aware global energy and pitch; (3) A context acoustic decoder ultimately predicts the global context mel-spectrogram with the assistance of adjacent ground-truth mel-spectrograms of the target sentence. Through this process, MCDubber fully considers the influence of multimodal context on the prosody expressiveness of the current sentence when dubbing. The extracted mel-spectrogram belonging to the target sentence from the output context mel-spectrograms is the final required dubbing audio. Extensive experiments on the Chem benchmark dataset demonstrate that our MCDubber significantly improves dubbing expressiveness compared to all advanced baselines. The code and demos are available at https://github.com/XiaoYuanJun-zy/MCDubber.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# トップN勧告のキャリブレーション

Calibrating the Predictions for Top-N Recommendations ( http://arxiv.org/abs/2408.11596v1 )

ライセンス: Link先を確認
Masahiro Sato, (参考訳) 多くのアプリケーションにおいて、ユーザの好みをよく分類した予測が不可欠である。 推薦システムは一般にユーザ向けのトップNアイテムを選択するため、すべてのアイテムではなく、トップNアイテムのキャリブレーションが重要である。 従来の校正手法は,すべての項目で評価した場合の校正性能に優れるにもかかわらず,上位N項目の誤校正予測をもたらすことを示す。 本稿では,トップN推奨項目の誤校正について述べる。 まず,この目的のための評価指標を定義し,トップN項目に着目したキャリブレーションモデルを最適化するための汎用手法を提案する。 上位N項目をランク別に分類し、ランクに依存したトレーニングウェイトを持つグループごとに異なるキャリブレーションモデルを最適化する。 提案手法の有効性を,多種多様なレコメンデータモデルを用いて,明示的および暗黙的なフィードバックデータセットで検証する。

Well-calibrated predictions of user preferences are essential for many applications. Since recommender systems typically select the top-N items for users, calibration for those top-N items, rather than for all items, is important. We show that previous calibration methods result in miscalibrated predictions for the top-N items, despite their excellent calibration performance when evaluated on all items. In this work, we address the miscalibration in the top-N recommended items. We first define evaluation metrics for this objective and then propose a generic method to optimize calibration models focusing on the top-N items. It groups the top-N items by their ranks and optimizes distinct calibration models for each group with rank-dependent training weights. We verify the effectiveness of the proposed method for both explicit and implicit feedback datasets, using diverse classes of recommender models.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 焦点損失, 温度スケーリング, 良さの関連による校正の改善

Improving Calibration by Relating Focal Loss, Temperature Scaling, and Properness ( http://arxiv.org/abs/2408.11598v1 )

ライセンス: Link先を確認
Viacheslav Komisarenko, Meelis Kull, (参考訳) クロスエントロピーのような適切な損失は、訓練データに基づいてよく校正されたクラス確率を生成するために分類器をインセンティブ化する。 一般化のギャップのため、これらの分類器はテストデータに過信され、温度スケーリングのようなキャリブレーション法を強制する傾向にある。 焦点損失は適切なものではないが、それを用いたトレーニングは、テストデータでよりキャリブレーションされた分類器をもたらすことがしばしば示されている。 最初のコントリビューションは、焦点損失トレーニングがクロスエントロピートレーニングよりもキャリブレーションが優れている理由について、簡単な説明である。 このため、焦点損失は信頼性向上変換と適切な損失に分解できることを示す。 そのため、焦点損失はモデルにトレーニングデータに対する信頼度の低い予測を与えるように押し付け、その結果、一般化ギャップのため、テストデータに対するキャリブレーションが向上する。 第2に、温度スケーリングと、その信頼性上昇変換による焦点損失の強い関係を明らかにし、これを焦点校正写像と呼ぶ。 第3に、焦点温度のスケーリング - 焦点温度のキャリブレーションと温度のスケーリングを組み合わせた新しいポストホックキャリブレーション法を提案する。 3つの画像分類データセットに対する実験により、焦点温度のスケーリングは標準温度のスケーリングよりも優れていることが示された。

Proper losses such as cross-entropy incentivize classifiers to produce class probabilities that are well-calibrated on the training data. Due to the generalization gap, these classifiers tend to become overconfident on the test data, mandating calibration methods such as temperature scaling. The focal loss is not proper, but training with it has been shown to often result in classifiers that are better calibrated on test data. Our first contribution is a simple explanation about why focal loss training often leads to better calibration than cross-entropy training. For this, we prove that focal loss can be decomposed into a confidence-raising transformation and a proper loss. This is why focal loss pushes the model to provide under-confident predictions on the training data, resulting in being better calibrated on the test data, due to the generalization gap. Secondly, we reveal a strong connection between temperature scaling and focal loss through its confidence-raising transformation, which we refer to as the focal calibration map. Thirdly, we propose focal temperature scaling - a new post-hoc calibration method combining focal calibration and temperature scaling. Our experiments on three image classification datasets demonstrate that focal temperature scaling outperforms standard temperature scaling.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# チェーン・オブ・ソートファインチューニングによる因果認識共感応答生成

Cause-Aware Empathetic Response Generation via Chain-of-Thought Fine-Tuning ( http://arxiv.org/abs/2408.11599v1 )

ライセンス: Link先を確認
Xinhao Chen, Chong Yang, Man Lan, Li Cai, Yang Chen, Tu Hu, Xinlin Zhuang, Aimin Zhou, (参考訳) 共感反応生成は、対話の文脈を理解し、表現された感情に反応する能力を持つエージェントを与える。 先行研究は、主に話者の感情的ラベルを活用することに重点を置いているが、感情的反応生成において感情の重要性を無視することは、感情的理解と認知的推論のモデル能力の妨げとなる。 本稿では,大規模言語モデル (LLM) 上での CoT (Chain-of-Thought) プロンプトを通じて,感情と原因を統合した原因認識型共感生成手法を提案する。 提案手法は,インタプリタの指導と,インタプリタにおける共感的リスナの役割意識の向上により,LLMの共感能力を大幅に向上させることができる。 さらに、COMETからの因果的外部知識をプロンプトに組み込むことにより、生成の多様性を改善し、内部知識と外部知識の衝突を同時に軽減することを提案する。 評価実験の結果,LLaMA-7bに対する我々のアプローチは,自動評価と人的評価の両方において最先端の性能を達成することが示された。

Empathetic response generation endows agents with the capability to comprehend dialogue contexts and react to expressed emotions. Previous works predominantly focus on leveraging the speaker's emotional labels, but ignore the importance of emotion cause reasoning in empathetic response generation, which hinders the model's capacity for further affective understanding and cognitive inference. In this paper, we propose a cause-aware empathetic generation approach by integrating emotions and causes through a well-designed Chain-of-Thought (CoT) prompt on Large Language Models (LLMs). Our approach can greatly promote LLMs' performance of empathy by instruction tuning and enhancing the role awareness of an empathetic listener in the prompt. Additionally, we propose to incorporate cause-oriented external knowledge from COMET into the prompt, which improves the diversity of generation and alleviates conflicts between internal and external knowledge at the same time. Experimental results on the benchmark dataset demonstrate that our approach on LLaMA-7b achieves state-of-the-art performance in both automatic and human evaluations.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 不均一システムにおける信頼計算 : 調査と意義

Confidential Computing on Heterogeneous Systems: Survey and Implications ( http://arxiv.org/abs/2408.11601v1 )

ライセンス: Link先を確認
Qifan Wang, David Oswald, (参考訳) 近年,CPU,グラフィックス処理ユニット(GPU),アプリケーション固有集積回路(ASIC),フィールドプログラマブルゲートアレイ(FPGA),ニューラル処理ユニット(NPU)など,複数のコンピューティングコアを統合した高性能な異種システムへの需要が高まっている。 CPUとGPUの組み合わせは、その汎用性から特に人気がある。 しかし、これらの異種システムは、セキュリティとプライバシーの重大なリスクに直面している。 プライバシ保護技術の進歩、特にハードウェアベースのTEE(Trusted Execution Environments)は、GPUアプリケーションに対して効果的な保護を提供する。 それでも、異種システムにおけるTEEsをGPUに拡張する際の潜在的なセキュリティリスクは不確実であり、さらなる調査が必要である。 これらのリスクを深く調査するため、既存のGPU TEE設計を調査し、その重要な意味を要約し、比較する。 さらに、これらの脅威を軽減するため、GPUや従来のTEEをCPUにデプロイする上で、既存の強力な攻撃についてレビューします。 我々は、GPU TEEによって導入された潜在的な攻撃面を特定し、セキュアなGPU TEEを設計するための重要な考慮事項について洞察を提供する。 この調査は、異種システム、特にGPUのための新しいTEEが開発され、潜在的なセキュリティ脅威を理解し、効率的かつセキュアなシステムを構築する必要性を強調している。

In recent years, the widespread informatization and rapid data explosion have increased the demand for high-performance heterogeneous systems that integrate multiple computing cores such as CPUs, Graphics Processing Units (GPU s), Application Specific Integrated Circuits ( ASICs), Field Programmable Gate Arrays (FPGAs), and Neural Processing Units (NPU s). The combination of CPU and GPU is particularly popular due to its versatility. However, these heterogeneous systems face significant security and privacy risks. Advances in privacy-preserving techniques, especially hardware-based Trusted Execution Environments ( TEE s), offer effective protection for GPU applications. Nonetheless, the potential security risks involved in extending TEE s to GPUs in heterogeneous systems remain uncertain and need further investigation. To investigate these risks in depth, we study the existing popular GPU TEE designs and summarize and compare their key implications. Additionally, we review existing powerful attacks on GPUs and traditional TEE s deployed on CPUs, along with the efforts to mitigate these threats. We identify potential attack surfaces introduced by GPU TEE s and provide insights into key considerations for designing secure GPU TEEs. This survey is timely as new TEE s for heterogeneous systems, particularly GPUs, are being developed, highlighting the need to understand potential security threats and build both efficient and secure systems.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 電子・フォノン4波混合によるブロードバンド偏波の創発的絡み合い

Emergent broadband polarization entanglement from electronic and phononic four-wave mixing indistinguishability ( http://arxiv.org/abs/2408.11602v1 )

ライセンス: Link先を確認
Diego Sier, Lucas Valente, Tiago A. Freitas, Marcelo F. Santos, Carlos H. Monken, Raul Corrêa, Ado Jorio, (参考訳) 近ごろ[PRA 108, L051501 (2023)]では、中心対称立方体系において、ブロードバンド強度レーザー場からの2光子をストークスと反ストークスの絡み合った光子に変換できることが示されている。 ここでは、光物質系の変化に基づく絡み合いマップを設計し、ダイヤモンドについて(ダイヤモンドについて)適切に説明、実証、定量化し、そのようなシステムが提供する可能性を探る。 特に,4波混合プロセスにおける電子自由度と音速自由度の間の干渉から生じるブロードバンド偏光絡みは,ストークス・アンチストークスラマンシフト,散乱幾何学,レーザー帯域幅といったパラメータに依存し,情報処理におけるそのような現象の探索の道を開くことを示す。

Recently [PRA 108, L051501 (2023)], it has been shown that in a centrosymmetric cubic system, two-photons from a broadband intense laser field can be converted into a pair of Stokes and anti-Stokes entangled photons. Here we properly explain, demonstrate, quantify (for diamond) and explore the possibilities offered by such system, designing an entanglement map based on changes in the light-matter system. In particular, we show how the broadband polarization entanglement, that emerges from the interference between electronic and phononic degrees of freedom in the four-wave mixing process, depends on parameters such as Stokes-anti-Stokes Raman shift, scattering geometry and laser bandwidth, opening the avenue of exploration of such phenomenon in information processing.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 量子ジアファンチン方程式ファインダ

A Quantum Diophantine Equation Solution Finder ( http://arxiv.org/abs/2408.11606v1 )

ライセンス: Link先を確認
Lara Tatli, Paul Stevenson, (参考訳) ディオファンチン方程式は多変量方程式であり、通常は多項式であり、整数解のみが認められる。 解を見つけるためのブルート力法は、可能な整数解を体系的に置換し、等式をチェックすることである。 Groverのアルゴリズムは量子検索アルゴリズムであり、リスト内のマーク付きインデックスを非常に効率的に見つけることができる。 指数をディオファンチン方程式の整数変数として扱うことで、グロバーのアルゴリズムは古典的な方法よりも効率的にブルート力の解を見つけることができる。 最も単純なディオファンチン方程式の例を示す。

Diophantine equations are multivariate equations, usually polynomial, in which only integer solutions are admitted. A brute force method for finding solutions would be to systematically substitute possible integer solutions and check for equality. Grover's algorithm is a quantum search algorithm which can find marked indices in a list very efficiently. By treating the indices as the integer variables in the diophantine equation, Grover's algorithm can be used to find solutions in brute force way more efficiently than classical methods. We present an example for the simplest possible diophantine equation.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 関数近似と経験的平均場推定を用いた平均場ゲームのためのネットワーク通信

Networked Communication for Mean-Field Games with Function Approximation and Empirical Mean-Field Estimation ( http://arxiv.org/abs/2408.11607v1 )

ライセンス: Link先を確認
Patrick Benjamin, Alessandro Abate, (参考訳) 近年の研究では、コミュニケーションネットワークを介して接続される分散エージェントが、経験的システムの単一かつ非エポゾリックな実行から平均フィールドゲームにおける平衡を学習できるアルゴリズムが提供されている。 このアルゴリズムは、プレイヤーの観察空間のサイズを計算的に制限しているため、小さな状態空間以外は扱えないし、エゴプレイヤーの状態によっては、いわゆる「人口依存」ポリシーに一般化できない。 この制限は,これまで有限水平,エピソディック,集中化の設定にのみ用いられてきたMunchausen Online Mirror Descent法に基づいて,既存の設定に関数近似を導入することで解決される。 これにより、各プレイヤーの政策の観察に人口平均分布を含めることができるが、分散化されたエージェントがこのグローバル情報にアクセス可能であると仮定することは非現実的であり、従って、エージェントがローカルな周辺地域に基づいてグローバルな経験的分布を推定できる新しいアルゴリズムも提供し、与えられたネットワーク上の通信を通じてこの推定を改善することができる。 本実験では, 分散化エージェントが人口依存政策の平均フィールド分布を推定できることを示すとともに, ネットワーク化されたエージェントが, 機能近似設定において, 独立エージェントと集中エージェントの両方を, 表の設定よりもさらに大きなマージンで上回るように, ポリシー情報を交換することで, ネットワーク化されたエージェントが, 独立エージェントと集中エージェントの両方より優れていることを示す。

Recent works have provided algorithms by which decentralised agents, which may be connected via a communication network, can learn equilibria in Mean-Field Games from a single, non-episodic run of the empirical system. However, these algorithms are given for tabular settings: this computationally limits the size of players' observation space, meaning that the algorithms are not able to handle anything but small state spaces, nor to generalise beyond policies depending on the ego player's state to so-called 'population-dependent' policies. We address this limitation by introducing function approximation to the existing setting, drawing on the Munchausen Online Mirror Descent method that has previously been employed only in finite-horizon, episodic, centralised settings. While this permits us to include the population's mean-field distribution in the observation for each player's policy, it is arguably unrealistic to assume that decentralised agents would have access to this global information: we therefore additionally provide new algorithms that allow agents to estimate the global empirical distribution based on a local neighbourhood, and to improve this estimate via communication over a given network. Our experiments showcase how the communication network allows decentralised agents to estimate the mean-field distribution for population-dependent policies, and that exchanging policy information helps networked agents to outperform both independent and even centralised agents in function-approximation settings, by an even greater margin than in tabular settings.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 赤ちゃんを殺すな - 仲裁中のAIを例に

Don't Kill the Baby: The Case for AI in Arbitration ( http://arxiv.org/abs/2408.11608v1 )

ライセンス: Link先を確認
Michael Broyde, Yiyang Mei, (参考訳) 2022年にGenerative AI(GenAI)が導入されて以来、人間のインテリジェンスをシミュレートし、コンテンツを生成する能力は熱意と関心を喚起している。 多くの批判は、AIがバイアスを持続し、感情的不協和を生じ、仕事を捨て、倫理的疑問を提起する可能性に焦点を当てているが、これらの懸念は、特に法的文脈において、AIの実践的な利点を見落としていることが多い。 本稿では、AIの仲裁への統合について検討し、連邦仲裁法(FAA)により、従来の予約にもかかわらず、当事者がAI駆動仲裁を契約的に選択できると主張している。 この論文は、AIの人格に関する議論から、AIを仲裁に取り入れる実践的な側面へと焦点を移し、両者が同意すればAIが効果的な仲裁役を担えると主張する、そして、その柔軟性と自律性を前提として、法分野におけるより広いAI採用の理想的な出発点として仲裁を位置づける、そして(3)AIと人間の仲裁を実証的に比較することの重要性を強調し、将来の研究の方向性を概説する。 仲裁におけるAIの使用を提唱することで、契約上の自律性への敬意と、AIの可能性を完全に実現可能な環境の構築の重要性を強調します。 この論文は、リチャード・ポズナー判事の洞察に基づいて、仲裁におけるAIの倫理的義務は、技術的強みと仲裁契約の自発的な性質の文脈で理解されるべきであると主張している。 最終的に同社は、仲裁におけるAIに対するバランスの取れたオープンなアプローチを要求し、紛争解決の効率性、公正性、柔軟性を高める可能性を認識している。

Since the introduction of Generative AI (GenAI) in 2022, its ability to simulate human intelligence and generate content has sparked both enthusiasm and concern. While much criticism focuses on AI's potential to perpetuate bias, create emotional dissonance, displace jobs, and raise ethical questions, these concerns often overlook the practical benefits of AI, particularly in legal contexts. This article examines the integration of AI into arbitration, arguing that the Federal Arbitration Act (FAA) allows parties to contractually choose AI-driven arbitration, despite traditional reservations. The article makes three key contributions: (1) It shifts the focus from debates over AI's personhood to the practical aspects of incorporating AI into arbitration, asserting that AI can effectively serve as an arbitrator if both parties agree; (2) It positions arbitration as an ideal starting point for broader AI adoption in the legal field, given its flexibility and the autonomy it grants parties to define their standards of fairness; and (3) It outlines future research directions, emphasizing the importance of empirically comparing AI and human arbitration, which could lead to the development of distinct systems. By advocating for the use of AI in arbitration, this article underscores the importance of respecting contractual autonomy and creating an environment that allows AI's potential to be fully realized. Drawing on the insights of Judge Richard Posner, the article argues that the ethical obligations of AI in arbitration should be understood within the context of its technological strengths and the voluntary nature of arbitration agreements. Ultimately, it calls for a balanced, open-minded approach to AI in arbitration, recognizing its potential to enhance the efficiency, fairness, and flexibility of dispute resolution
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 新友:注釈生成のための効率的なLCMシステム

Xinyu: An Efficient LLM-based System for Commentary Generation ( http://arxiv.org/abs/2408.11609v1 )

ライセンス: Link先を確認
Yiquan Wu, Bo Tang, Chenyang Xi, Yu Yu, Pengyu Wang, Yifei Liu, Kun Kuang, Haiying Deng, Zhiyu Li, Feiyu Xiong, Jie Hu, Peng Cheng, Zhonghao Wang, Yi Wang, Yi Luo, Mingchuan Yang, (参考訳) 解説は、様々な議論と証拠を提示することで、読者にイベントの深い理解を提供する。 しかし、熟練したコメンテーターにとっても、コメンテータを作成するのに時間がかかります。 大規模言語モデル(LLM)は、自然言語生成のプロセスを単純化しているが、コメント作成における直接的な適用は、ユニークなタスク要求のため、依然として課題に直面している。 これらの要件は、次の2つのレベルに分類される。 1) 十分に構造化され論理的に整合した物語を作成することを含む基本的な要件。 2) 質の議論を発生させ、証拠を提出する先進的な要件。 本稿では,中国語の注釈作成において,コメンテーターを支援するための効率的なLLMベースのシステムであるXinyuを紹介する。 基本要件を満たすため、我々は生成プロセスを逐次ステップに分解し、ターゲット戦略を提案し、各ステップごとに微調整(SFT)を監督する。 高度な要件に対処するために、議論のための議論ランキングモデルを提案し、最新のイベントや古典書を含む包括的なエビデンスデータベースを構築し、その結果、検索拡張生成(RAG)技術によるエビデンスのサブスタンスを強化する。 2段階の要件に応じて、より公平に生成されたコメントを評価するために、コメント生成における5つの異なる視点を考慮した総合的な評価指標を導入する。 本システムの有効性を実験により検証した。 また、実際のシナリオではコメンテーターの効率が大幅に向上し、コメント作成に要する平均時間は4時間から20分に短縮された。 重要なのは、こうした効率の向上がコメントの質を損なうことはないことだ。

Commentary provides readers with a deep understanding of events by presenting diverse arguments and evidence. However, creating commentary is a time-consuming task, even for skilled commentators. Large language models (LLMs) have simplified the process of natural language generation, but their direct application in commentary creation still faces challenges due to unique task requirements. These requirements can be categorized into two levels: 1) fundamental requirements, which include creating well-structured and logically consistent narratives, and 2) advanced requirements, which involve generating quality arguments and providing convincing evidence. In this paper, we introduce Xinyu, an efficient LLM-based system designed to assist commentators in generating Chinese commentaries. To meet the fundamental requirements, we deconstruct the generation process into sequential steps, proposing targeted strategies and supervised fine-tuning (SFT) for each step. To address the advanced requirements, we present an argument ranking model for arguments and establish a comprehensive evidence database that includes up-to-date events and classic books, thereby strengthening the substantiation of the evidence with retrieval augmented generation (RAG) technology. To evaluate the generated commentaries more fairly, corresponding to the two-level requirements, we introduce a comprehensive evaluation metric that considers five distinct perspectives in commentary generation. Our experiments confirm the effectiveness of our proposed system. We also observe a significant increase in the efficiency of commentators in real-world scenarios, with the average time spent on creating a commentary dropping from 4 hours to 20 minutes. Importantly, such an increase in efficiency does not compromise the quality of the commentaries.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# DTN:マルチタスクレコメンデーションのためのディープマルチタスク特化機能インタラクションネットワーク

DTN: Deep Multiple Task-specific Feature Interactions Network for Multi-Task Recommendation ( http://arxiv.org/abs/2408.11611v1 )

ライセンス: Link先を確認
Yaowen Bi, Yuteng Lian, Jie Cui, Jun Liu, Peijian Wang, Guanghui Li, Xuejun Chen, Jinglin Zhao, Hao Wen, Jing Zhang, Zhaoqi Zhang, Wenzhuo Song, Yang Sun, Weiwei Zhang, Mingchen Cai, Guanxing Zhang, (参考訳) ニューラルベースマルチタスク学習(MTL)は多くのレコメンデーションアプリケーションにうまく適用されている。 しかし、これらのMTLモデル(例えば、MMoE, PLE)は、複雑な高次特徴を捉えるのに不可欠であり、現実世界のレコメンデータシステムのランキングモデルで広く使われている、最適化中の機能相互作用を考慮しなかった。 さらに,MTLにおける様々なタスクにまたがる特徴重要度分析を通じて,同じ特徴がMTLにおいて異なるタスクにまたがって著しく異なる重要性を持つという興味深い相違現象が観察された。 これらの課題に対処するために,新しいモデル構造設計を用いたDeep Multiple Task-specific Feature Interactions Network (DTN)を提案する。 DTNは,MTLネットワークにおける複数のタスク固有機能インタラクション手法とタスク依存ネットワークを導入し,タスク固有機能インタラクション表現を学習し,汎用的な設定による共同表現学習の効率を向上させる。 我々はDTNを63億以上のサンプルからなる実世界のEコマースレコメンデーションデータセットに適用し、DTNが最先端のMTLモデルを大幅に上回ったことを示した。 さらに,大規模EコマースレコメンデータシステムにおけるDTNのオンライン評価では,クリック数3.28%,注文数3.10%,GMV(Gross Merchandise Value)2.70%の増加が確認された。 最後に、公開ベンチマークデータセット上で行われた大規模なオフライン実験は、DTNがレコメンデーション以外の様々なシナリオに適用できることを示し、ランキングモデルの性能を高めている。

Neural-based multi-task learning (MTL) has been successfully applied to many recommendation applications. However, these MTL models (e.g., MMoE, PLE) did not consider feature interaction during the optimization, which is crucial for capturing complex high-order features and has been widely used in ranking models for real-world recommender systems. Moreover, through feature importance analysis across various tasks in MTL, we have observed an interesting divergence phenomenon that the same feature can have significantly different importance across different tasks in MTL. To address these issues, we propose Deep Multiple Task-specific Feature Interactions Network (DTN) with a novel model structure design. DTN introduces multiple diversified task-specific feature interaction methods and task-sensitive network in MTL networks, enabling the model to learn task-specific diversified feature interaction representations, which improves the efficiency of joint representation learning in a general setup. We applied DTN to our company's real-world E-commerce recommendation dataset, which consisted of over 6.3 billion samples, the results demonstrated that DTN significantly outperformed state-of-the-art MTL models. Moreover, during online evaluation of DTN in a large-scale E-commerce recommender system, we observed a 3.28% in clicks, a 3.10% increase in orders and a 2.70% increase in GMV (Gross Merchandise Value) compared to the state-of-the-art MTL models. Finally, extensive offline experiments conducted on public benchmark datasets demonstrate that DTN can be applied to various scenarios beyond recommendations, enhancing the performance of ranking models.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 都市サステナビリティのための複合下水道システムのデータ駆動モデリング : 実証評価

Data-driven Modeling of Combined Sewer Systems for Urban Sustainability: An Empirical Evaluation ( http://arxiv.org/abs/2408.11619v1 )

ライセンス: Link先を確認
Vipin Singh, Tianheng Ling, Teodor Chiaburu, Felix Biessmann, (参考訳) 気候変動は複雑な問題を引き起こし、極端な気象現象が頻繁になり、モデル化が困難になる。 例としては、複合下水道システム(CSS)の力学がある。 降雨時の過バーデンCSSは未処理排水を水面に流し込む。 極端な降雨の影響をモデル化するための古典的なアプローチは、大規模な都市インフラを作るのが特に困難である物理シミュレーションに依存している。 ディープラーニング(DL)モデルは、下水道システムの複雑な力学をモデル化するためのコスト効率の良い代替手段を提供する。 本研究では,大都市における下水道システムの動態を3年間の計測データを用いて予測するための,最新のDL時系列モデルの総合的評価を行った。 特に,下水道システム内の全変数にアクセス可能なグローバルモデルと,ローカルセンサの制限されたデータに制限されたローカルモデルを比較することで,ネットワーク障害時の予測精度を維持するためのDLモデルの可能性を検討する。 本研究は,ネットワークの停止条件下においても,DLモデルを用いて下水道システムの負荷変動を正確に予測できることを示した。 これらの結果から, DLモデルはCSSにおける負荷再分配のバランスを効果的に支援し, 都市インフラの持続可能性やレジリエンスを高めることが示唆された。

Climate change poses complex challenges, with extreme weather events becoming increasingly frequent and difficult to model. Examples include the dynamics of Combined Sewer Systems (CSS). Overburdened CSS during heavy rainfall will overflow untreated wastewater into surface water bodies. Classical approaches to modeling the impact of extreme rainfall events rely on physical simulations, which are particularly challenging to create for large urban infrastructures. Deep Learning (DL) models offer a cost-effective alternative for modeling the complex dynamics of sewer systems. In this study, we present a comprehensive empirical evaluation of several state-of-the-art DL time series models for predicting sewer system dynamics in a large urban infrastructure, utilizing three years of measurement data. We especially investigate the potential of DL models to maintain predictive precision during network outages by comparing global models, which have access to all variables within the sewer system, and local models, which are limited to data from a restricted set of local sensors. Our findings demonstrate that DL models can accurately predict the dynamics of sewer system load, even under network outage conditions. These results suggest that DL models can effectively aid in balancing the load redistribution in CSS, thereby enhancing the sustainability and resilience of urban infrastructures.
翻訳日:2024-08-22 16:57:19 公開日:2024-08-21
# 最適輸送のためのAnnealed Sinkhorn:収束、正規化、偏り

Annealed Sinkhorn for Optimal Transport: convergence, regularization path and debiasing ( http://arxiv.org/abs/2408.11620v1 )

ライセンス: Link先を確認
Lénaïc Chizat, (参考訳) Sinkhornのアルゴリズムは、大規模な最適輸送(OT)問題を解決する方法である。 この文脈では、速度精度のトレードオフを決定する逆温度パラメータ$\beta$が関係する。 このトレードオフを改善するために、実践者はしばしばこのアルゴリズムの変種であるAnaaled Sinkhornを使う。これは、$t$が反復数であるような非減少シーケンス$(\beta_t)_{t\in \mathbb{N}}$を使用する。 しかし、非常に遅いスケジュールである$\beta_t=\Theta(\log t)$に加えて、この変種が実際にOTを解くことが保証されているかどうかは不明である。 コンケーブアニーリングスケジュールが OT を漸近的に解くことは、$\beta_t\to+\infty$ と $\beta_t-\beta_{t-1}\to 0$ の場合に限る。 この証明はオンラインミラー・ダイアンスと等価性に基づいており、さらに、アナルド・シンクホーンの反復は、緩和されたエントロピーのOT問題の列、正規化経路の解に従うことを示唆している。 この経路の分析によれば、よく知られた$\Theta(\beta^{-1}_t)$の"エントロピー"エラーに加えて、アニーリング手順は$\Theta(\beta_{t}-\beta_{t-1})$の"レラックス"エラーを誘導する。 最良のエラートレードオフは、スケジュール $\beta_t = \Theta(\sqrt{t})$ で達成される。 この制限を超えて、緩和誤差を低減し、より高速なアニーリングスケジュールを可能にする、Annealed Sinkhornの簡単な修正を提案する。 おもちゃの実験では、このアルゴリズムの単一実行は、標準的なシンクホーンのアルゴリズムの前の全速度精度のパレートにまたがる、偏りのあるアナーレド・シンクホーンのアルゴリズムの有効性を観察する。

Sinkhorn's algorithm is a method of choice to solve large-scale optimal transport (OT) problems. In this context, it involves an inverse temperature parameter $\beta$ that determines the speed-accuracy trade-off. To improve this trade-off, practitioners often use a variant of this algorithm, Annealed Sinkhorn, that uses an nondecreasing sequence $(\beta_t)_{t\in \mathbb{N}}$ where $t$ is the iteration count. However, besides for the schedule $\beta_t=\Theta(\log t)$ which is impractically slow, it is not known whether this variant is guaranteed to actually solve OT. Our first contribution answers this question: we show that a concave annealing schedule asymptotically solves OT if and only if $\beta_t\to+\infty$ and $\beta_t-\beta_{t-1}\to 0$. The proof is based on an equivalence with Online Mirror Descent and further suggests that the iterates of Annealed Sinkhorn follow the solutions of a sequence of relaxed, entropic OT problems, the regularization path. An analysis of this path reveals that, in addition to the well-known "entropic" error in $\Theta(\beta^{-1}_t)$, the annealing procedure induces a "relaxation" error in $\Theta(\beta_{t}-\beta_{t-1})$. The best error trade-off is achieved with the schedule $\beta_t = \Theta(\sqrt{t})$ which, albeit slow, is a universal limitation of this method. Going beyond this limitation, we propose a simple modification of Annealed Sinkhorn that reduces the relaxation error, and therefore enables faster annealing schedules. In toy experiments, we observe the effectiveness of our Debiased Annealed Sinkhorn's algorithm: a single run of this algorithm spans the whole speed-accuracy Pareto front of the standard Sinkhorn's algorithm.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# 昇降モデルによる予算制約下での費用対効果インセンティブレコメンデーションのエンド・ツー・エンド化

End-to-End Cost-Effective Incentive Recommendation under Budget Constraint with Uplift Modeling ( http://arxiv.org/abs/2408.11623v1 )

ライセンス: Link先を確認
Zexu Sun, Hao Yang an Dugang Liu, Yunpeng Weng, Xing Tang, Xiuqiang He, (参考訳) 現代のオンラインプラットフォームでは、インセンティブはユーザーエンゲージメントを高め、プラットフォーム収益を増加させる重要な要素である。 近年では、個々の顧客にインセンティブを割り当てる戦略的アプローチとして、アップリフトモデリングが導入されている。 特に現実世界のアプリケーションでは、オンラインプラットフォームは特定の予算制約で顧客にインセンティブを与えるだけである。 この問題は、マルチチョイス・クナプサック問題として再定義できる。 この最適化は、投資のリターンを最大化するために、各顧客に対して最適なインセンティブを選択することを目的としている。 この分野での最近の研究は、しばしば2段階のアプローチを用いて予算配分問題に取り組む。 因果推論手法は,顧客の期待する応答曲線がインセンティブが増大するにつれて単調でスムーズであるべきという,オンラインマーケティングにおけるドメイン知識を無視することが多い。 2) 2段階間の最適性差は, 限られた予算制約下での昇降予測のためのインセンティブ推奨情報の喪失により, 下位最適割当性能が低下する。 これらの課題に対処するため,予算制約下での新たなコスト・エフェクティブ・インセンティブ・レコメンデーション(E3IR)モデルを提案する。 具体的には、アップリフト予測モジュールと微分可能なアロケーションモジュールの2つのモジュールから構成される。 昇降予測モジュールでは、隣接処理とマーケティング領域の制約(モノトニックとスムーズ)との漸進的な改善を捉えるために予測ヘッドを構築する。 整数線形プログラミング(ILP)をアロケーションモジュール内の微分可能な層入力として組み込む。 さらに、我々は、公開および実際の製品データセットに関する広範な実験を行い、既存の2段階のアプローチと比較して、E3IRがアロケーション性能を改善することを実証した。

In modern online platforms, incentives are essential factors that enhance user engagement and increase platform revenue. Over recent years, uplift modeling has been introduced as a strategic approach to assign incentives to individual customers. Especially in many real-world applications, online platforms can only incentivize customers with specific budget constraints. This problem can be reformulated as the multi-choice knapsack problem. This optimization aims to select the optimal incentive for each customer to maximize the return on investment. Recent works in this field frequently tackle the budget allocation problem using a two-stage approach. However, this solution is confronted with the following challenges: (1) The causal inference methods often ignore the domain knowledge in online marketing, where the expected response curve of a customer should be monotonic and smooth as the incentive increases. (2) An optimality gap between the two stages results in inferior sub-optimal allocation performance due to the loss of the incentive recommendation information for the uplift prediction under the limited budget constraint. To address these challenges, we propose a novel End-to-End Cost-Effective Incentive Recommendation (E3IR) model under budget constraints. Specifically, our methods consist of two modules, i.e., the uplift prediction module and the differentiable allocation module. In the uplift prediction module, we construct prediction heads to capture the incremental improvement between adjacent treatments with the marketing domain constraints (i.e., monotonic and smooth). We incorporate integer linear programming (ILP) as a differentiable layer input in the allocation module. Furthermore, we conduct extensive experiments on public and real product datasets, demonstrating that our E3IR improves allocation performance compared to existing two-stage approaches.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# 不完全な情報を用いた合理的モニタによる実行時検証

Runtime Verification via Rational Monitor with Imperfect Information ( http://arxiv.org/abs/2408.11627v1 )

ライセンス: Link先を確認
Angelo Ferrando, Vadim Malvone, (参考訳) ソフトウェアシステム、特に自律的なシステムの信頼は難しい。 これを解決するために、形式的な検証技術は、これらのシステムが期待通りに振る舞うことを保証できる。 実行時検証(RV)は、実行中のシステムの振る舞いを検証するための、先進的で軽量な方法である。 しかし、従来のRVは完全な情報を前提としており、モニタリングコンポーネントが全てを正確に認識している。 この仮定はしばしば失敗し、特にセンサーが故障している可能性がある現実の環境で自律システムが動作している。 さらに、従来のRVでは、モニターは受動的であり、システムの情報を解釈できないため、不完全なデータに対処できない。 本研究では、線形時間論理特性の標準RVを拡張し、モニタが不完全な情報を持ち、合理的に振る舞うシナリオに対応する。 検証パイプラインを更新するために必要なエンジニアリング手順を概説し、ロボットシステムを含むケーススタディで実装を実演する。

Trusting software systems, particularly autonomous ones, is challenging. To address this, formal verification techniques can ensure these systems behave as expected. Runtime Verification (RV) is a leading, lightweight method for verifying system behaviour during execution. However, traditional RV assumes perfect information, meaning the monitoring component perceives everything accurately. This assumption often fails, especially with autonomous systems operating in real-world environments where sensors might be faulty. Additionally, traditional RV considers the monitor to be passive, lacking the capability to interpret the system's information and thus unable to address incomplete data. In this work, we extend standard RV of Linear Temporal Logic properties to accommodate scenarios where the monitor has imperfect information and behaves rationally. We outline the necessary engineering steps to update the verification pipeline and demonstrate our implementation in a case study involving robotic systems.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# 未解決スピンアンサンブルの量子誤差補正

Quantum error correction for unresolvable spin ensemble ( http://arxiv.org/abs/2408.11628v1 )

ライセンス: Link先を確認
Harsh Sharma, Himadri Shekhar Dhar, Hoi-Kwan Lau, (参考訳) スピンアンサンブルは有望な量子技術プラットフォームであるが、それらのユーティリティはこれらのシステムの特定のデコヒーレンスに対して量子エラー補正(QEC)を実行する能力に依存している。 アンサンブルのための典型的なQECは、個々の解決されたキュービットに対処する必要があるが、ほとんどの現実的なアーキテクチャでは事実上難しい。 ここでは、未解決スピンアンサンブルに対するQECスキームを提案する。 基本的に混ざり合っている励起状態の縮退重畳を用いることで、縮退、崩壊、汲み上げなどの個人的および集団的誤りを防げるコードを見つける。 本稿では,集団計測と制御のみで情報回復を実現する方法を示し,メモリ寿命の延長とロス耐性センシングへの応用を解説する。

Spin ensembles are promising quantum technological platforms, but their utility relies on the ability to perform quantum error correction (QEC) for the specific decoherence in these systems. Typical QEC for ensembles requires addressing individually resolved qubits, but this is practically challenging in most realistic architectures. Here, we propose QEC schemes for unresolvable spin ensembles. By using degenerate superpositions of excited states, which are fundamentally mixed, we find codes that can protect against both individual and collective errors, including dephasing, decay, and pumping. We show how information recovery can be achieved with only collective measurement and control, and illustrate its applications in extending memory lifetime and loss-tolerant sensing.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# 最適学習のためのマルコフモデル

A Markovian Model for Learning-to-Optimize ( http://arxiv.org/abs/2408.11629v1 )

ライセンス: Link先を確認
Michael Sucker, Peter Ochs, (参考訳) 本稿では,最適化アルゴリズムを念頭に置いて確率的反復アルゴリズムの確率論的モデルを提案する。 このモデルに基づいて、学習アルゴリズムの軌道上で定義される関数に対するPAC-Bayesian一般化境界、例えば、期待される(漸近的でない)収束率と停止基準に達するための期待時間を示す。 したがって、このモデルでは、経験的性能に基づいて確率的アルゴリズムを学習することができるだけでなく、実際の収束率と実際の収束時間に関する結果も得られる。 我々は、モデルが学習から最適化よりも一般的な環境で有効であるため、他の分野のアプリケーションにも関心がある、と強調する。 最後に,本主張の有効性を示す5つの実用的な実験を行った。

We present a probabilistic model for stochastic iterative algorithms with the use case of optimization algorithms in mind. Based on this model, we present PAC-Bayesian generalization bounds for functions that are defined on the trajectory of the learned algorithm, for example, the expected (non-asymptotic) convergence rate and the expected time to reach the stopping criterion. Thus, not only does this model allow for learning stochastic algorithms based on their empirical performance, it also yields results about their actual convergence rate and their actual convergence time. We stress that, since the model is valid in a more general setting than learning-to-optimize, it is of interest for other fields of application, too. Finally, we conduct five practically relevant experiments, showing the validity of our claims.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# GHz表面波空洞における横モードのイメージング

Imaging transverse modes in a GHz surface acoustic wave cavity ( http://arxiv.org/abs/2408.11630v1 )

ライセンス: Link先を確認
M. Fisicaro, T. A. Steenbergen, Y. C. Doedes, K. Heeck, W. Löffler, (参考訳) 表面音響波(SAW)装置の完全なキャラクタリゼーションには、音場の空間分布を撮像する必要があるが、デジタルトランスデューサ(IDT)を検出器として使用する場合、標準的な全電気測定では不可能である。 ここでは、強く集束したレーザビームをプローブとして用いた繊維ベース走査型ミッチェルソン干渉計を提案する。 ヘテロダイン回路と組み合わせることで、SAW変位の振幅と位相を周波数および空間的に測定することができる。 本研究では、1GHzのSAWキャビティを解析し、全電気測定では解決できない周波数重なりの逆モードの存在を明らかにした。 これらの横モードの周波数重なりはモード重畳につながり、複素音場を2次分解して解析する。

Full characterization of surface acoustic wave (SAW) devices requires imaging the spatial distribution of the acoustic field, which is not possible with standard all-electrical measurements where an interdigital transducer (IDT) is used as a detector. Here we present a fiber-based scanning Michelson interferometer employing a strongly focused laser beam as a probe. Combined with a heterodyne circuit, this setup enables frequency- and spatially-resolved measurements of the amplitude and phase of the SAW displacement. We demonstrate this by investigating a 1 GHz SAW cavity, revealing the presence of frequency-overlapping transverse modes, which are not resolved with an all-electrical measurement. The frequency overlap of these transverse modes leads to mode superpositions, which we analyze by quadrature decomposition of the complex acoustic field.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# Linuxのフリーズパッケージバージョンがもたらす影響の解明と軽減

Uncovering and Mitigating the Impact of Frozen Package Versions for Fixed-Release Linux ( http://arxiv.org/abs/2408.11631v1 )

ライセンス: Link先を確認
Wei Tang, (参考訳) ミラーの進化によって生じる固定リリースLinuxのエコシステムギャップを理解するために,Debianエコシステムを包括的に研究した。 この研究はDebianパッケージの収集とDebianエコシステムの依存性グラフの構築に関わっている。 Debianミラーの歴史的なスナップショットを利用して、古いものを含むすべてのDebianリリースの依存性グラフの進化を回復しました。 依存グラフの分析とその進化を通じて,(1)互換性問題と(2)Debianエコシステムにおけるセキュリティ脅威という2つの重要な側面から検討した。 この結果から,Linuxパッケージマネージャの利用と設計に関する貴重な知見が得られた。 実験的な研究で明らかになった課題に対処し、リリース間のエコシステムギャップを埋めるため、ネイティブDebianミラーに基づいた依存関係環境の分離を可能にする新しいパッケージ管理手法を提案する。 我々は、現在のツールの不十分さを効果的に改善できる、ccenvという名の作業プロトタイプを提示する。

Towards understanding the ecosystem gap of fixed-release Linux that is caused by the evolution of mirrors, we conducted a comprehensive study of the Debian ecosystem. This study involved the collection of Debian packages and the construction of the dependency graph of the Debian ecosystem. Utilizing historic snapshots of Debian mirrors, we were able to recover the evolution of the dependency graph for all Debian releases, including obsolete ones. Through the analysis of the dependency graph and its evolution, we investigated from two key aspects: (1) compatibility issues and (2) security threats in the Debian ecosystem. Our findings provide valuable insights into the use and design of Linux package managers. To address the challenges revealed in the empirical study and bridge the ecosystem gap between releases, we propose a novel package management approach allowing for separate dependency environments based on native Debian mirrors. We present a working prototype, named ccenv, which can effectively remedy the inadequacy of current tools.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# 強化学習のための解釈可能な決定木ポリシーの最適化

Optimizing Interpretable Decision Tree Policies for Reinforcement Learning ( http://arxiv.org/abs/2408.11632v1 )

ライセンス: Link先を確認
Daniël Vos, Sicco Verwer, (参考訳) 近年,ディープラーニングを活用した強化学習技術は飛躍的な進歩を遂げている。 しかし、ニューラルネットワークの複雑さは、実践者が自分の行動を理解するのを妨げます。 決定木はその固有の解釈可能性について教師あり学習において注目を集めており、モデリング者は学習後の正確な予測過程を理解することができる。 本稿では、強化学習環境におけるニューラルネットワークを置き換えるために、解釈可能な決定木ポリシーを最適化する問題を考察する。 これまでの作業は、木の構造を緩和し、木の葉のみを最適化すること、あるいは、ニューラルネットワークポリシーの振る舞いを決定木で概ね模倣するために模倣学習技術を適用した。 本稿では,政策勾配を用いて決定木を直接最適化する決定木ポリシー最適化(DTPO)アルゴリズムを提案する。 本手法では, 決定木ヒューリスティックスを回帰解析に利用し, 政策最適化を行う。 我々はDTPOが強化学習における決定木ポリシーを最適化する模擬学習アルゴリズムと競合するアルゴリズムであることを実証的に示す。

Reinforcement learning techniques leveraging deep learning have made tremendous progress in recent years. However, the complexity of neural networks prevents practitioners from understanding their behavior. Decision trees have gained increased attention in supervised learning for their inherent interpretability, enabling modelers to understand the exact prediction process after learning. This paper considers the problem of optimizing interpretable decision tree policies to replace neural networks in reinforcement learning settings. Previous works have relaxed the tree structure, restricted to optimizing only tree leaves, or applied imitation learning techniques to approximately copy the behavior of a neural network policy with a decision tree. We propose the Decision Tree Policy Optimization (DTPO) algorithm that directly optimizes the complete decision tree using policy gradients. Our technique uses established decision tree heuristics for regression to perform policy optimization. We empirically show that DTPO is a competitive algorithm compared to imitation learning algorithms for optimizing decision tree policies in reinforcement learning.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# Dagsterを用いたコスト効果のあるビッグデータオーケストレーション:マルチプラットフォームアプローチ

Cost-Effective Big Data Orchestration Using Dagster: A Multi-Platform Approach ( http://arxiv.org/abs/2408.11635v1 )

ライセンス: Link先を確認
Hernan Picatto, Georg Heiler, Peter Klimek, (参考訳) ビッグデータ技術の急速な進歩は、堅牢で効率的なデータ処理ソリューションの必要性を浮き彫りにした。 DatabricksやAmazon Web Services Elastic MapReduceといった従来のSparkベースのプラットフォーム・アズ・ア・サービス(PaaS)ソリューションは強力な分析機能を提供するが、多くの場合、高い運用コストとベンダのロックインの問題をもたらす。 これらのプラットフォームは、ユーザフレンドリだが、コスト構造や透明な価格設定の欠如により、大きな非効率をもたらす可能性がある。 本稿では,Dagsterを用いた費用対効果と柔軟なオーケストレーションフレームワークを提案する。 私たちのソリューションは、Sparkの実行環境を統合することで、単一のPaaSプロバイダへの依存を減らすことを目的としています。 Dagsterのオーケストレーション機能によって、データ処理の効率が向上し、最高のコーディングプラクティスを強制し、運用コストを大幅に削減できることを示す。 実装では、EMRよりも12%の性能向上と、DBRに比べて40%のコスト削減を実現し、1パイプライン当たり300ユーロ以上の節約を実現しました。 私たちのゴールは、ベンダーロックインに関連するリスクを軽減しつつ、パフォーマンスとスケーラビリティを維持または改善する、フレキシブルで開発者制御型のコンピューティング環境を提供することです。 提案するフレームワークは、継続的開発と運用効率に不可欠な、高速なプロトタイピングとテストをサポートし、より持続可能な大規模データ処理モデルに寄与する。

The rapid advancement of big data technologies has underscored the need for robust and efficient data processing solutions. Traditional Spark-based Platform-as-a-Service (PaaS) solutions, such as Databricks and Amazon Web Services Elastic MapReduce, provide powerful analytics capabilities but often result in high operational costs and vendor lock-in issues. These platforms, while user-friendly, can lead to significant inefficiencies due to their cost structures and lack of transparent pricing. This paper introduces a cost-effective and flexible orchestration framework using Dagster. Our solution aims to reduce dependency on any single PaaS provider by integrating various Spark execution environments. We demonstrate how Dagster's orchestration capabilities can enhance data processing efficiency, enforce best coding practices, and significantly reduce operational costs. In our implementation, we achieved a 12% performance improvement over EMR and a 40% cost reduction compared to DBR, translating to over 300 euros saved per pipeline run. Our goal is to provide a flexible, developer-controlled computing environment that maintains or improves performance and scalability while mitigating the risks associated with vendor lock-in. The proposed framework supports rapid prototyping and testing, which is essential for continuous development and operational efficiency, contributing to a more sustainable model of large data processing.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# 旋回モデルと拡張における離散要素のプライベートカウント

Private Counting of Distinct Elements in the Turnstile Model and Extensions ( http://arxiv.org/abs/2408.11637v1 )

ライセンス: Link先を確認
Monika Henzinger, A. R. Sricharan, Teresa Anna Steiner, (参考訳) ストリーム内の異なる要素をプライベートにカウントすることは、機械学習における多くのアプリケーションにおける基本的なデータ分析問題である。 ターンタイルモデルにおいて、Jain et al [NeurIPS2023] は、任意の要素の最大リフレナンシによってパラメータ化されるこの問題の研究を開始した。 アイテムレベルの$(\epsilon,\delta)$-differentially privateアルゴリズムは、そのパラメータ化に関して加算誤差が厳密である。 本研究では,スパースベクトル法に基づく非常に単純なアルゴリズムが,項目レベルの$(\epsilon,\delta)$-差分プライバシと項目レベルの$\epsilon$-差分プライバシに対して,異なるパラメータ化,すなわちすべてのフリップパンシーの和に対して,厳密な加算誤差を実現することを示す。 2つ目の結果は、この問題に対する既存の微分プライベートアルゴリズムを含む、大規模なアルゴリズムのクラスにおいて、アイテムレベルの差分プライバシからイベントレベルの差分プライバシまでのバウンドが低いことを示すバウンドである。 これはJainらによるオープンな質問に答えます [NeurIPS2023]。

Privately counting distinct elements in a stream is a fundamental data analysis problem with many applications in machine learning. In the turnstile model, Jain et al. [NeurIPS2023] initiated the study of this problem parameterized by the maximum flippancy of any element, i.e., the number of times that the count of an element changes from 0 to above 0 or vice versa. They give an item-level $(\epsilon,\delta)$-differentially private algorithm whose additive error is tight with respect to that parameterization. In this work, we show that a very simple algorithm based on the sparse vector technique achieves a tight additive error for item-level $(\epsilon,\delta)$-differential privacy and item-level $\epsilon$-differential privacy with regards to a different parameterization, namely the sum of all flippancies. Our second result is a bound which shows that for a large class of algorithms, including all existing differentially private algorithms for this problem, the lower bound from item-level differential privacy extends to event-level differential privacy. This partially answers an open question by Jain et al. [NeurIPS2023].
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# 言語に基づく音声検索を改善する推定音声字幕対応

Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval ( http://arxiv.org/abs/2408.11641v1 )

ライセンス: Link先を確認
Paul Primus, Florian Schmid, Gerhard Widmer, (参考訳) デュアルエンコーダをベースとした音声検索システムは、整合性と不整合性を持つオーディオ・キャプション・ペアのセットにおいて、コントラスト学習によって最適化される。 これにより、2つのモダリティから対応するアイテムが互いに近接する共有埋め込み空間が導かれる。 音声キャプチャデータセットは、通常、一致する記録と記述のペアのみを含むため、データセットからランダムに引き出されたキャプションとオーディオをペアにすることで、ミスマッチペアを作成するのが一般的である。 これは、ランダムにサンプリングされたキャプションが、偶然に部分的に、あるいは完全にオーディオ記録を記述できるため、理想的ではない。 しかし、全ての可能なペアの対応情報は注釈を付けるのに費用がかかるため、一般的には利用できない。 そこで本研究では,複数の検索モデルに対して,推定対応を伴わない2段階の学習手順を提案する。 第2段階では、これらのモデルによって予測される音声カプセル対応が予測ターゲットとして機能する。 提案手法をClosoV2とAudioCapsベンチマークで評価し,単一モデルが生成し,推定した対応から学習する制限付き自己蒸留環境においても,検索性能が向上することを示す。 さらに,本手法は現在の最先端技術よりも1.6pp%高い性能を示した。 ClothoV2ベンチマークのmAP@10。

Dual-encoder-based audio retrieval systems are commonly optimized with contrastive learning on a set of matching and mismatching audio-caption pairs. This leads to a shared embedding space in which corresponding items from the two modalities end up close together. Since audio-caption datasets typically only contain matching pairs of recordings and descriptions, it has become common practice to create mismatching pairs by pairing the audio with a caption randomly drawn from the dataset. This is not ideal because the randomly sampled caption could, just by chance, partly or entirely describe the audio recording. However, correspondence information for all possible pairs is costly to annotate and thus typically unavailable; we, therefore, suggest substituting it with estimated correspondences. To this end, we propose a two-staged training procedure in which multiple retrieval models are first trained as usual, i.e., without estimated correspondences. In the second stage, the audio-caption correspondences predicted by these models then serve as prediction targets. We evaluate our method on the ClothoV2 and the AudioCaps benchmark and show that it improves retrieval performance, even in a restricting self-distillation setting where a single model generates and then learns from the estimated correspondences. We further show that our method outperforms the current state of the art by 1.6 pp. mAP@10 on the ClothoV2 benchmark.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# Ar, Ne, N$_2$ガス中の$^{85}$Rb蒸気のリドバーグ電磁誘導透過

Rydberg electromagnetically induced transparency of $^{85}$Rb vapor in Ar, Ne and N$_2$ gases ( http://arxiv.org/abs/2408.11648v1 )

ライセンス: Link先を確認
Bineet Dash, Nithiwadee Thaicharoen, Eric Paradis, Alisher Duspayev, Georg Raithel, (参考訳) 高圧下での不活性ガスを含むルビジウム(Rb)気相セルにおけるリドバーグ電磁誘導透過(EIT)の実験的検討を報告する。 不活性ガスを含まないRb気相セルを基準として,数mTorrから5Trrまでの圧力下でアルゴン,ネオン,窒素ガスを含むRb気相セル中のEITスペクトルの周波数シフトと線幅拡大を測定した。 結果は、Rydberg電子と不活性ガス原子の間の$s$波散乱と、Rydberg原子による不活性ガス原子の偏光効果を含む擬ポテンシャルモデルと質的に一致する。 この結果は、低圧高周波放電における磁場診断のための全光・非侵襲分光プローブとして、Rydberg-EITを確立する上で重要である。

An experimental study on Rydberg electromagnetically induced transparency (EIT) in rubidium (Rb) vapor cells containing inert gases at pressures $\le 5$ Torr is reported. Using an inert-gas-free Rb vapor cell as a reference, we measure frequency shift and line broadening of the EIT spectra in Rb vapor cells with argon, neon or nitrogen gases at pressures ranging from a few mTorr to 5 Torr. The results qualitatively agree with a pseudo-potential model that includes $s$-wave scattering between the Rydberg electron and the inert-gas atoms, and the effect of polarization of the inert-gas atoms by the Rydberg atoms. Our results are important for establishing Rydberg-EIT as an all-optical and non-intrusive spectroscopic probe for field diagnostics in low-pressure radio-frequency discharges.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# ビデオ・ツー・テキスト歩行者監視(VTPM) - コンピュータビジョンと大規模言語モデルを活用したプライバシ保護歩行者活動監視

Video-to-Text Pedestrian Monitoring (VTPM): Leveraging Computer Vision and Large Language Models for Privacy-Preserve Pedestrian Activity Monitoring at Intersections ( http://arxiv.org/abs/2408.11649v1 )

ライセンス: Link先を確認
Ahmed S. Abdelrahman, Mohamed Abdel-Aty, Dongdong Wang, (参考訳) コンピュータビジョンは先進的な研究手法を持ち、様々な分野のシステムサービスを強化している。 道路安全を改善するための交通監視システムの中核となる要素であるが、これらの監視システムはビデオに現れる歩行者のプライバシーを保護せず、その身元を明らかにする可能性がある。 本稿では,交差点における歩行者の動きを監視し,交通信号や気象情報を含むリアルタイムのテキストレポートを生成するVTPMについて紹介する。 VTPMは歩行者検出と追跡にコンピュータビジョンモデルを使用し、ビデオフレームあたり0.05秒のレイテンシを実現する。 さらに、交通信号データを組み込むことで、90.2%の精度で交差違反を検出する。 提案フレームワークはPhi-3 mini-4kを搭載し、歩行者活動のリアルタイムなテキストレポートを生成するとともに、交差違反、紛争、気象の影響を0.33秒のレイテンシで記述する。 生成されたテキストレポートの包括的解析を強化するため、Phi-3メディアは、これらの生成されたテキストレポートの歴史的解析のために微調整される。 この微調整により、交差点における歩行者の安全についてより信頼性の高い分析が可能となり、パターンや安全クリティカルイベントを効果的に検出できる。 提案されたVTPMは、テキストレポートを使用してメモリ使用量の削減、最大2億3300万の節約、プライバシーの問題の排除、包括的なインタラクティブな歴史的分析を可能にすることで、ビデオ映像のより効率的な代替手段を提供する。

Computer vision has advanced research methodologies, enhancing system services across various fields. It is a core component in traffic monitoring systems for improving road safety; however, these monitoring systems don't preserve the privacy of pedestrians who appear in the videos, potentially revealing their identities. Addressing this issue, our paper introduces Video-to-Text Pedestrian Monitoring (VTPM), which monitors pedestrian movements at intersections and generates real-time textual reports, including traffic signal and weather information. VTPM uses computer vision models for pedestrian detection and tracking, achieving a latency of 0.05 seconds per video frame. Additionally, it detects crossing violations with 90.2% accuracy by incorporating traffic signal data. The proposed framework is equipped with Phi-3 mini-4k to generate real-time textual reports of pedestrian activity while stating safety concerns like crossing violations, conflicts, and the impact of weather on their behavior with latency of 0.33 seconds. To enhance comprehensive analysis of the generated textual reports, Phi-3 medium is fine-tuned for historical analysis of these generated textual reports. This fine-tuning enables more reliable analysis about the pedestrian safety at intersections, effectively detecting patterns and safety critical events. The proposed VTPM offers a more efficient alternative to video footage by using textual reports reducing memory usage, saving up to 253 million percent, eliminating privacy issues, and enabling comprehensive interactive historical analysis.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# CIPHER: サイバーセキュリティのインテリジェントな侵入テスト支援者

CIPHER: Cybersecurity Intelligent Penetration-testing Helper for Ethical Researcher ( http://arxiv.org/abs/2408.11650v1 )

ライセンス: Link先を確認
Derry Pratama, Naufal Suryanto, Andro Aprila Adiputra, Thi-Thu-Huong Le, Ahmada Yusril Kadiptya, Muhammad Iqbal, Howon Kim, (参考訳) サイバーセキュリティの重要なコンポーネントである浸透テストは、脆弱性を見つけるのに広範囲な時間と労力を必要とする。 この分野のベジニアは、しばしばコミュニティや専門家との協力的なアプローチの恩恵を受ける。 そこで我々はCIPHER(Cybersecurity Intelligent Peretration-testing Helper for Ethical researchers)を開発した。 私たちは、脆弱なマシンの300以上の高品質な書き込み、ハッキングテクニック、オープンソースの侵入テストツールのドキュメントを使用してCIPHERをトレーニングしました。 さらに我々は,大規模な言語モデルに適した完全自動ペンテスティングシミュレーションベンチマークを確立するために,インテグレーション・アクション・推論・結果(FARR)フロー拡張(en:Fundings, Action, Reasoning, results)を導入した。 このアプローチは、従来のサイバーセキュリティのQ\&Aベンチマークにおける大きなギャップを埋め、AIの技術知識、推論能力、動的侵入テストシナリオにおける実用性を評価するための、現実的で厳格な標準を提供する。 我々の評価では、CIPHERは、Llama 3 70BやQwen1.5 72B Chatのような、同じ大きさの他のオープンソース浸透試験モデルや、さらに大きな最先端モデルと比較して、正確な提案応答を提供することで、最高の全体的なパフォーマンスを達成しました。 このことは、汎用LLMの現在の能力が、侵入テストプロセスを通じてユーザを効果的に導くのに不十分であることを示している。 また、スケーリングによる改善の可能性や、FARR Flow Augmentationの結果を用いたより良いベンチマークの開発についても論じる。 私たちのベンチマークはhttps://github.com/ibndias/CIPHER.comで公開されます。

Penetration testing, a critical component of cybersecurity, typically requires extensive time and effort to find vulnerabilities. Beginners in this field often benefit from collaborative approaches with the community or experts. To address this, we develop CIPHER (Cybersecurity Intelligent Penetration-testing Helper for Ethical Researchers), a large language model specifically trained to assist in penetration testing tasks. We trained CIPHER using over 300 high-quality write-ups of vulnerable machines, hacking techniques, and documentation of open-source penetration testing tools. Additionally, we introduced the Findings, Action, Reasoning, and Results (FARR) Flow augmentation, a novel method to augment penetration testing write-ups to establish a fully automated pentesting simulation benchmark tailored for large language models. This approach fills a significant gap in traditional cybersecurity Q\&A benchmarks and provides a realistic and rigorous standard for evaluating AI's technical knowledge, reasoning capabilities, and practical utility in dynamic penetration testing scenarios. In our assessments, CIPHER achieved the best overall performance in providing accurate suggestion responses compared to other open-source penetration testing models of similar size and even larger state-of-the-art models like Llama 3 70B and Qwen1.5 72B Chat, particularly on insane difficulty machine setups. This demonstrates that the current capabilities of general LLMs are insufficient for effectively guiding users through the penetration testing process. We also discuss the potential for improvement through scaling and the development of better benchmarks using FARR Flow augmentation results. Our benchmark will be released publicly at https://github.com/ibndias/CIPHER.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# 自由フェルミオン系における量子エンタングルメントと非ハーモニティ性

Quantum Entanglement and non-Hermiticity in free fermion systems ( http://arxiv.org/abs/2408.11652v1 )

ライセンス: Link先を確認
Li-Mei Chen, Yao Zhou, Shuai A. Chen, Peng Ye, (参考訳) 本稿では,非エルミート量子系における絡み合いの一般化と応用について述べる。 我々は、リンドブラッドマスター方程式による非エルミート量子系の実現と、特異な特徴を示す典型的な非エルミート自由フェルミオン系のレビューから始める。 エルミート系における絡み合い量と相関行列の関係について, 教育学的考察を行った。 この基礎の上に構築され、エンタングルメントの概念がエルミート自由フェルミオン系から非エルミート系へどのように拡張されるかに焦点を当て、出現する一般的な性質のレビューを行う。 最後に, 絡み合いエントロピーが非エルミート物理学を特徴づける強力な診断ツールであることを示し, 様々な応用を強調した。 絡み合いスペクトルは非エルミート位相系の位相特性も反映するが、独自の非エルミート絡み合い挙動も議論されている。 レビューは、いくつかの今後の方向性で締めくくられている。

As a short topical review, this article reports progress on the generalization and applications of entanglement in non-Hermitian quantum systems. We begin by examining the realization of non-Hermitian quantum systems through the Lindblad master equation, alongside a review of typical non-Hermitian free-fermion systems that exhibit unique features. A pedagogical discussion is provided on the relationship between entanglement quantities and the correlation matrix in Hermitian systems. Building on this foundation, we focus on how entanglement concepts are extended to non-Hermitian systems from their Hermitian free-fermion counterparts, with a review of the general properties that emerge. Finally, we highlight various applications, demonstrating that entanglement entropy remains a powerful diagnostic tool for characterizing non-Hermitian physics. The entanglement spectrum also reflects the topological characteristics of non-Hermitian topological systems, while unique non-Hermitian entanglement behaviors are also discussed. The review is concluded with several future directions.
翻訳日:2024-08-22 16:47:35 公開日:2024-08-21
# 光子統計と構造光による量子超解像顕微鏡

Quantum super-resolution microscopy by photon statistics and structured light ( http://arxiv.org/abs/2408.11654v1 )

ライセンス: Link先を確認
Fabio Picariello, Elena Losero, Sviatoslav Ditalia Tchernij, Pauline Boucher, Marco Genovese, Ivano Ruo-Berchera, Ivo Pietro Degiovanni, (参考訳) 本稿では,光子統計量測定に基づく量子超解像イメージング技術とその高精度なモデリングについて述べる。 我々の再構成アルゴリズムは任意の種類の非ポアソニアンエミッターに適応し、対応する古典的なSOFI法より優れる。 これは、$\sqrt{j}$でスケールするサブ回折分解の改善を提供する。 より顕著なことに、構造的照明と組み合わせることで、j による線形改善が達成できる。 シミュレーションと実験により, 従来のSOFIよりも明らかに優れていること, 特に低励起光条件下では, 繊細な試料の非侵襲超解像顕微鏡に期待できる道筋が得られた。

We present an advanced quantum super-resolution imaging technique based on photon statistics measurement and its accurate modeling. Our reconstruction algorithm adapts to any kind of non-Poissonian emitters, outperforming the corresponding classical SOFI method. It offers sub-diffraction resolution improvement that scales with the $\sqrt{j}$, where $j$ is the highest order central moments of the photocounts. More remarkably, in combination with structured illumination a linear improvement with j can be reached. Through simulations and experiments, we prove our method's clear superiority over traditional SOFI, especially in low excitation light conditions, providing a promising avenue for non-invasive super-resolution microscopy of delicate samples.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# Macformer:ランダムなマクロリン機能を持つトランスフォーマー

Macformer: Transformer with Random Maclaurin Feature Attention ( http://arxiv.org/abs/2408.11656v1 )

ライセンス: Link先を確認
Yuhan Guo, Lizhong Ding, Ye Yuan, Guoren Wang, (参考訳) ランダム特徴注意(RFA)は、ソフトマックス関数を近似するためにランダムフーリエ特徴(RFF)法を採用し、効率的な変換器の構築を可能にする線形時間と空間の注意機構をもたらす。 RFAにインスパイアされたMacformerは、ランダムなMaclaurin機能(RMF)を用いて様々なドット生成カーネルを近似し、長い列に対する注意計算を高速化するトランスフォーマーアーキテクチャである。 MacformerはRandom Maclaurin Feature Attention (RMFA)とScaling Batch Normalization (ppSBN)で構成されており、前者はドット生成の核化された注意に対する偏りのない近似であり、後者はRMFAのエラーを保証する2段階の正規化機構である。 我々は,RMFAとpSBNの効率を実証する玩具実験を行い,LRAベンチマークを用いて,異なるドット生成カーネルを用いたMacformerの加速と精度を検証した。 Macformerの実験結果は、我々の理論分析と一致している。

Random feature attention (RFA) adopts random fourier feature (RFF) methods to approximate the softmax function, resulting in a linear time and space attention mechanism that enables the construction of an efficient Transformer. Inspired by RFA, we propose Macformer, a Transformer architecture that employs random Maclaurin features (RMF) to approximate various dot-product kernels, thereby accelerating attention computations for long sequence. Macformer consists of Random Maclaurin Feature Attention (RMFA) and pre-post Scaling Batch Normalization (ppSBN), the former is an unbiased approximation for dot-product kernelized attention and the later is a two-stage regularization mechanism guaranteeing the error of RMFA. We conducted toy experiments to demonstrate the efficiency of RMFA and ppSBN, and experiments on long range arena (LRA) benchmark to validate the acceleration and accuracy of Macformer with different dot-product kernels. Experiment results of Macformer are consistent with our theoretical analysis.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# 畳み込みニューラルネットワーク(CNN)を用いた5G NR PRACH検出

5G NR PRACH Detection with Convolutional Neural Networks (CNN): Overcoming Cell Interference Challenges ( http://arxiv.org/abs/2408.11659v1 )

ライセンス: Link先を確認
Desire Guel, Arsene Kabore, Didier Bassole, (参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)を用いた5Gニューラジオ(5G-NR)ネットワークにおける干渉検出の新しい手法を提案する。 5Gネットワークにおける干渉は、密集したユーザ機器の配置と無線環境の複雑さの増加により、高品質なサービスに挑戦する。 我々のCNNモデルでは,PRACH信号の空間的・時間的特性を利用して物理ランダムアクセスチャネル(PRACH)の検出を行い,検出精度とロバスト性を向上させる。 制御された干渉条件下でシミュレーションされたPRACH信号の包括的データセットを生成し、モデルを訓練し、検証した。 実験の結果,従来のPRACH検出手法よりも精度,精度,リコール,F1スコアが優れていた。 本研究は、5Gネットワークにおける干渉管理の推進におけるAI/ML技術の可能性を示し、ネットワーク性能と信頼性を最適化するための将来の研究と実践的応用の基盤を提供する。

In this paper, we present a novel approach to interference detection in 5G New Radio (5G-NR) networks using Convolutional Neural Networks (CNN). Interference in 5G networks challenges high-quality service due to dense user equipment deployment and increased wireless environment complexity. Our CNN-based model is designed to detect Physical Random Access Channel (PRACH) sequences amidst various interference scenarios, leveraging the spatial and temporal characteristics of PRACH signals to enhance detection accuracy and robustness. Comprehensive datasets of simulated PRACH signals under controlled interference conditions were generated to train and validate the model. Experimental results show that our CNN-based approach outperforms traditional PRACH detection methods in accuracy, precision, recall and F1-score. This study demonstrates the potential of AI/ML techniques in advancing interference management in 5G networks, providing a foundation for future research and practical applications in optimizing network performance and reliability.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# 固有構造知識と2次元連結GNNによるフェデレーショングラフ学習の最適化

Optimizing Federated Graph Learning with Inherent Structural Knowledge and Dual-Densely Connected GNNs ( http://arxiv.org/abs/2408.11662v1 )

ライセンス: Link先を確認
Longwen Wang, Jianchun Liu, Zhi Liu, Jinyang Huang, (参考訳) Federated Graph Learning(FGL)は、クライアントがプライベートデータを公開せずに、分散型で強力なグラフニューラルネットワーク(GNN)を協調的にトレーニングすることを可能にする新興技術である。 それでも、FGLは、特に様々な領域において、様々なノード構造とエッジ構造を持つグラフの厳密な非独立かつ独立に分散した(非IID)性質の課題に直面している。 したがって、これらの構造に固有の知識を探索することが極めて重要である。 しかし、既存の手法では、グラフデータに固有の構造的知識を見落としたり、資源需要が大幅に増加する(例えば、FLOPや通信帯域幅)コストでそれを捉えたり、分散パラダイムに有害である。 そこで本研究では,構造的知識の利用効率を最適化する新しいFGLフレームワークであるFedDenseを提案する。 FedDenseは、多様で未公開な構造の知識をよりよく取得するために、まず、ノード機能とともにグラフデータ自体に固有の構造的知識を明示的にエンコードする。 さらに、FedDenseはDual-Densely Connected (DDC) GNNアーキテクチャを導入し、各層に集約された特徴マップに埋め込まれたマルチスケール機能(つまり、ワンホップからマルチホップ)と構造的洞察を利用する。 本研究は,FGLにおける資源制限の活用に加えて,DDCアーキテクチャ上に非常に狭い層を創出し,資源コストを大幅に削減するために選択的なパラメータ共有戦略を採用することを目的としている。 4つの異なるドメインで15のデータセットを使用して広範な実験を行い、FedDenseが最小限のリソースを要求しながら、トレーニングパフォーマンスの大きなマージンでベースラインを一貫して上回っていることを示した。

Federated Graph Learning (FGL) is an emerging technology that enables clients to collaboratively train powerful Graph Neural Networks (GNNs) in a distributed manner without exposing their private data. Nevertheless, FGL still faces the challenge of the severe non-Independent and Identically Distributed (non-IID) nature of graphs, which possess diverse node and edge structures, especially across varied domains. Thus, exploring the knowledge inherent in these structures becomes significantly crucial. Existing methods, however, either overlook the inherent structural knowledge in graph data or capture it at the cost of significantly increased resource demands (e.g., FLOPs and communication bandwidth), which can be detrimental to distributed paradigms. Inspired by this, we propose FedDense, a novel FGL framework that optimizes the utilization efficiency of inherent structural knowledge. To better acquire knowledge of diverse and underexploited structures, FedDense first explicitly encodes the structural knowledge inherent within graph data itself alongside node features. Besides, FedDense introduces a Dual-Densely Connected (DDC) GNN architecture that exploits the multi-scale (i.e., one-hop to multi-hop) feature and structure insights embedded in the aggregated feature maps at each layer. In addition to the exploitation of inherent structures, we consider resource limitations in FGL, devising exceedingly narrow layers atop the DDC architecture and adopting a selective parameter sharing strategy to reduce resource costs substantially. We conduct extensive experiments using 15 datasets across 4 different domains, demonstrating that FedDense consistently surpasses baselines by a large margin in training performance, while demanding minimal resources.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# ダイヤモンド量子センサを用いた大規模多重ナノスケール磁力計

Massively multiplexed nanoscale magnetometry with diamond quantum sensors ( http://arxiv.org/abs/2408.11666v1 )

ライセンス: Link先を確認
Kai-Hung Cheng, Zeeshawn Kazi, Jared Rovny, Bichen Zhang, Lila Nassar, Jeff D. Thompson, Nathalie P. de Leon, (参考訳) ダイヤモンド中の単一窒素空孔(NV)中心は高感度ナノスケールセンシングに広く用いられているが、従来の手法では共焦点顕微鏡を用いて個々の中心を逐次測定し、スループットを制限し、非局所的な物理的特性にアクセスしている。 ここでは,低ノイズカメラを用いて多数のNVセンターを同時に読み取ることのできる多重化NVセンシングプラットフォームの設計と実装を行う。 このプラットフォームを用いて、数百の個々のNV中心のスピン状態を並列に操作・読み出し、共焦点測定に匹敵する磁場感度を実現する。 また、低NV中心スピン状態読み出し雑音に対するスピン・チャージ・コンバージョン・リードアウトの並列化版を実装し、これを多重共分散磁気メトリーとして使用し、同時に4つのNV中心から6つの2点磁場相関器を計測した。 測定できる相関器の数は、利用可能なレーザーパワーによってのみ制限され、扉を非常に多重化された共分散磁気メトリーに開放する。 我々のプラットフォームはスループットを大幅に向上させ、ダイヤモンド量子センサを用いたナノスケールセンシングの応用を拡大する。

Single nitrogen vacancy (NV) centers in diamond have been used extensively for high-sensitivity nanoscale sensing, but conventional approaches use confocal microscopy to measure individual centers sequentially, limiting throughput and access to non-local physical properties. Here we design and implement a multiplexed NV sensing platform that allows us to read out many single NV centers simultaneously using a low-noise camera. Using this platform, we coherently manipulate and read out the spin states of hundreds of individual NV centers in parallel, achieving comparable magnetic field sensitivity to confocal measurements. We also implement a parallelized version of spin-to-charge-conversion readout for low NV center spin state readout noise and use it to demonstrate multiplexed covariance magnetometry, in which we measure six two-point magnetic field correlators from four NV centers simultaneously. The number of correlators we can measure is limited only by the available laser power, opening the door to massively multiplexed covariance magnetometry. Our platform significantly increases the throughput and broadens the applications of nanoscale sensing using diamond quantum sensors.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# 超伝導量子回路のin situmixerキャリブレーション

In situ mixer calibration for superconducting quantum circuits ( http://arxiv.org/abs/2408.11671v1 )

ライセンス: Link先を確認
Nan Wu, Jing Lin, Changrong Xie, Zechen Guo, Wenhui Huang, Libo Zhang, Yuxuan Zhou, Xuandong Sun, Jiawei Zhang, Weijie Guo, Xiayu Linpeng, Song Liu, Yang Liu, Wenhui Ren, Ziyu Tao, Ji Jiang, Ji Chu, Jingjing Niu, Youpeng Zhong, Dapeng Yu, (参考訳) ミキサーは、主に量子状態の正確な制御と読み出しを可能にするために信号の周波数変換を容易にすることで、超伝導量子コンピューティングにおいて重要な役割を果たす。 しかし、不完全、特にキャリアリークと不要なサイドバンド信号は、制御の忠実さを著しく損なう可能性がある。 これらの欠陥を緩和するためには、正規かつ正確なミキサーキャリブレーションが不可欠であるが、大規模な量子制御において重大な課題となる。 本稿では,超伝導量子ビットを用いたin situキャリブレーション手法と結果に着目したミキサーキャリブレーション手法を提案する。 提案手法は、不完全な信号に対するキュービットの応答を利用して、配線構成を変更することなく校正を行う。 本手法の有効性を,単一量子ゲートの忠実度と量子コヒーレンス時間のベンチマークにより実験的に検証した。

Mixers play a crucial role in superconducting quantum computing, primarily by facilitating frequency conversion of signals to enable precise control and readout of quantum states. However, imperfections, particularly carrier leakage and unwanted sideband signal, can significantly compromise control fidelity. To mitigate these defects, regular and precise mixer calibrations are indispensable, yet they pose a formidable challenge in large-scale quantum control. Here, we introduce an in situ calibration technique and outcome-focused mixer calibration scheme using superconducting qubits. Our method leverages the qubit's response to imperfect signals, allowing for calibration without modifying the wiring configuration. We experimentally validate the efficacy of this technique by benchmarking single-qubit gate fidelity and qubit coherence time.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# バックドア攻撃に対する視覚状態空間モデルのロバスト性を探る

Exploring Robustness of Visual State Space model against Backdoor Attacks ( http://arxiv.org/abs/2408.11679v1 )

ライセンス: Link先を確認
Cheng-Yi Lee, Cheng-Chang Tsai, Chia-Mu Yu, Chun-Shien Lu, (参考訳) Visual State Space Model (VSS) は様々なコンピュータビジョンタスクにおいて顕著な性能を示した。 しかし、開発過程では、バックドア攻撃はセキュリティに深刻な課題をもたらしている。 このような攻撃は、特定のトリガーがアクティベートされた時に、感染したモデルがターゲットラベルを予測し、モデルが通常、良質なサンプルで振る舞います。 本稿では,バックドアアタックのレンズを通してVSSのロバスト性を理解するための系統実験を行い,特に状態空間モデル(SSM)機構がロバスト性に与える影響について述べる。 まず、異なるバックドアトリガに対するVSSの脆弱性を調査し、パッチ内のコンテキスト情報をキャプチャするSSMメカニズムにより、VSSモデルは、SSMのないモデルと比較してバックドアトリガにより影響を受けやすいことを明らかにした。 さらに,VSSモデルの処理技術に対する感度を分析し,これらのトリガが効果的に破壊されていることを明らかにする。 これらの観測に基づいて、パッチの摂動に抵抗するために各パッチに再帰するVSSモデルの効果的なバックドアを検討する。 3つのデータセットにわたる大規模な実験とさまざまなバックドアアタックにより、VSSモデルはTransformers(ViT)と互換性があるが、Gated CNNよりも堅牢ではないことが明らかになった。

Visual State Space Model (VSS) has demonstrated remarkable performance in various computer vision tasks. However, in the process of development, backdoor attacks have brought severe challenges to security. Such attacks cause an infected model to predict target labels when a specific trigger is activated, while the model behaves normally on benign samples. In this paper, we conduct systematic experiments to comprehend on robustness of VSS through the lens of backdoor attacks, specifically how the state space model (SSM) mechanism affects robustness. We first investigate the vulnerability of VSS to different backdoor triggers and reveal that the SSM mechanism, which captures contextual information within patches, makes the VSS model more susceptible to backdoor triggers compared to models without SSM. Furthermore, we analyze the sensitivity of the VSS model to patch processing techniques and discover that these triggers are effectively disrupted. Based on these observations, we consider an effective backdoor for the VSS model that recurs in each patch to resist patch perturbations. Extensive experiments across three datasets and various backdoor attacks reveal that the VSS model performs comparably to Transformers (ViTs) but is less robust than the Gated CNNs, which comprise only stacked Gated CNN blocks without SSM.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# 防衛の第一線:強固な第一層は敵の攻撃を緩和する

First line of defense: A robust first layer mitigates adversarial attacks ( http://arxiv.org/abs/2408.11680v1 )

ライセンス: Link先を確認
Janani Suresh, Nancy Nayak, Sheetal Kalyani, (参考訳) 敵対的トレーニング(AT)は計算オーバーヘッドを著しく増加させ、本質的に堅牢なアーキテクチャの設計への関心が高まっている。 ニューラルネットワークの第1層が暗黙の対向ノイズフィルタ(ANF)として機能することを示す。 このフィルタは、カーネルサイズが大きくなり、畳み込みフィルタが増加し、最大値演算が可能である。 本稿では,ResNet,VGG,EfficientNetなどのアーキテクチャにおいて,このフィルタを第1層として統合することにより,対向的に堅牢なネットワークが得られることを示す。 提案手法は,ATを使わずに既存の頑健なアーキテクチャよりも高い精度を達成し,幅広いデータセットにまたがる敵対的学習アーキテクチャと競合する。 我々の発見を裏付けて、我々はそれを証明した。 a)我々の方法の判定領域はより良いマージンを持つ。 b) 可視化された損失面はより滑らかである。 c) ANFの出力における変化ピーク信号対雑音比(mPSNR)が高い。 (d)高周波成分はより減衰し、 (e)ANFを組み込んだアーキテクチャは、ベースラインアーキテクチャよりもガウスノイズのデノナイジングが優れている。 すべての実験のコードは \url{https://github.com/janani-suresh-97/first-line-defence.git} で公開されている。

Adversarial training (AT) incurs significant computational overhead, leading to growing interest in designing inherently robust architectures. We demonstrate that a carefully designed first layer of the neural network can serve as an implicit adversarial noise filter (ANF). This filter is created using a combination of large kernel size, increased convolution filters, and a maxpool operation. We show that integrating this filter as the first layer in architectures such as ResNet, VGG, and EfficientNet results in adversarially robust networks. Our approach achieves higher adversarial accuracies than existing natively robust architectures without AT and is competitive with adversarial-trained architectures across a wide range of datasets. Supporting our findings, we show that (a) the decision regions for our method have better margins, (b) the visualized loss surfaces are smoother, (c) the modified peak signal-to-noise ratio (mPSNR) values at the output of the ANF are higher, (d) high-frequency components are more attenuated, and (e) architectures incorporating ANF exhibit better denoising in Gaussian noise compared to baseline architectures. Code for all our experiments are available at \url{https://github.com/janani-suresh-97/first-line-defence.git}.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# LiFCal: バンドル調整によるオンライン光フィールドカメラキャリブレーション

LiFCal: Online Light Field Camera Calibration via Bundle Adjustment ( http://arxiv.org/abs/2408.11682v1 )

ライセンス: Link先を確認
Aymeric Fleith, Doaa Ahmed, Daniel Cremers, Niclas Zeller, (参考訳) 我々は、MLAベースの光フィールドカメラのための新しい幾何学的オンラインキャリブレーションパイプラインLiFCalを提案する。 LiFCalは、正確なキャリブレーション対象のない移動カメラシーケンスからモデルパラメータを正確に決定し、任意のメートル法スケーリング制約を統合する。 光場カメラモデルの内在的パラメータ、シーンポイントのスパースセットの3次元座標、マイクロイメージポイント上で直接定義された単一バンドル調整におけるカメラポーズを最適化する。 我々は,LiFCalが,異なる入力シーケンスを用いて焦点焦点カメラを確実にかつ繰り返しキャリブレーションし,本質的なカメラパラメータを最先端の手法に極めて近いものにすると同時に,ターゲットレスシーンに適用し,完全かつ連続的なパイプラインでオンラインに実装する,という2つの大きな利点を提供することを示した。 さらに、深度推定やSLAMといった下流タスクにおいて、得られたカメラパラメータの品質を示す。 Webページ: https://lifcal.github.io/

We propose LiFCal, a novel geometric online calibration pipeline for MLA-based light field cameras. LiFCal accurately determines model parameters from a moving camera sequence without precise calibration targets, integrating arbitrary metric scaling constraints. It optimizes intrinsic parameters of the light field camera model, the 3D coordinates of a sparse set of scene points and camera poses in a single bundle adjustment defined directly on micro image points. We show that LiFCal can reliably and repeatably calibrate a focused plenoptic camera using different input sequences, providing intrinsic camera parameters extremely close to state-of-the-art methods, while offering two main advantages: it can be applied in a target-free scene, and it is implemented online in a complete and continuous pipeline. Furthermore, we demonstrate the quality of the obtained camera parameters in downstream tasks like depth estimation and SLAM. Webpage: https://lifcal.github.io/
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# ランダム化によるマルコフ開量子系の高速量子シミュレーション

Faster Quantum Simulation Of Markovian Open Quantum Systems Via Randomisation ( http://arxiv.org/abs/2408.11683v1 )

ライセンス: Link先を確認
I. J. David, I. Sinayskiy, F. Petruccione, (参考訳) オープン量子系の力学を量子コンピュータでシミュレーションする場合、進化の物理性を保ちながらシステムの振る舞いを正確に近似することが不可欠である。 伝統的に、マルコフ開量子系では、これは一階と二階のトロッタースズキ積公式または確率的アルゴリズムを用いて達成されている。 本研究ではランダム化を用いたマルコフ開量子系シミュレーションのための新しい非確率的アルゴリズムを提案する。 第1次および第2次ランダム化されたトロッタスズキ公式やQDRIFTチャネルを含む我々の手法は、システムの進化の物理性を維持するだけでなく、量子シミュレーションのスケーラビリティと精度を向上させる。 我々はこれらの手法の誤差境界とステップ数制限を導出し、ハミルトンのシミュレーション証明で一般的に用いられる混合補題の必要性を回避した。 また、これらのランダム化アルゴリズムの2つの実装手法として、古典的なサンプリングと量子フォークを提案し、決定論的トロッタスズキ積公式よりもゲート複雑性の利点を示す。 この研究は、オープン量子系のシミュレーションにランダム化技術を適用し、より高速で正確なシミュレーションを可能にする可能性を強調した最初のものである。

When simulating the dynamics of open quantum systems with quantum computers, it is essential to accurately approximate the system's behaviour while preserving the physicality of its evolution. Traditionally, for Markovian open quantum systems, this has been achieved using first and second-order Trotter-Suzuki product formulas or probabilistic algorithms. In this work, we introduce novel non-probabilistic algorithms for simulating Markovian open quantum systems using randomisation. Our methods, including first and second-order randomised Trotter-Suzuki formulas and the QDRIFT channel, not only maintain the physicality of the system's evolution but also enhance the scalability and precision of quantum simulations. We derive error bounds and step count limits for these techniques, bypassing the need for the mixing lemma typically employed in Hamiltonian simulation proofs. We also present two implementation approaches for these randomised algorithms: classical sampling and quantum forking, demonstrating their gate complexity advantages over deterministic Trotter-Suzuki product formulas. This work is the first to apply randomisation techniques to the simulation of open quantum systems, highlighting their potential to enable faster and more accurate simulations.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# Qudit-qudits状態に対するスペクトルからの絶対分離性の基準

Criteria of absolutely separability from spectrum for qudit-qudits states ( http://arxiv.org/abs/2408.11684v1 )

ライセンス: Link先を確認
Liang Xiong, Nung-Sing Sze, (参考訳) スペクトルからの分離性は、量子絡み合いにおいて重要かつ進行中の研究トピックである。 本研究では、二分項状態空間 $\mathcal{H}_{mn}=\mathcal{H}_m \otimes \mathcal{H}_n$ における四分項状態のスペクトルからの絶対分離性に関する特性について検討する。 まず、ヒルベルト空間 $\mathcal{H}_{4n}$ における絶対分離状態に必要な十分条件を提案する。 これらの条件は、固有値の対称行列化から生じる12の行列の正の半定値と等価である。 さらに、この十分条件を一般の$\mathcal{H}_{mn}$に拡張できることを示し、文献の既存の結論を改善する。 これらの十分条件は、最初の数個のリードと最後の数個のリード固有値にのみ依存し、絶対分離状態を決定する複雑さを著しく減少させる。 一方、$\mathcal{H}_{mn}$ の状態が絶対分離可能でないことを判断するための追加の十分な条件も導入する。 これらの条件は混合状態の固有値にのみ依存する。 私たちの十分な条件は、簡単に実装できるだけでなく、簡単です。 応用として、一般の絶対可分状態に対する固有値と純粋性境界に対する距離境界を導出する。

Separability from the spectrum is a significant and ongoing research topic in quantum entanglement. In this study, we investigate properties related to absolute separability from the spectrum in qudits-qudits states in the bipartite states space $\mathcal{H}_{mn}=\mathcal{H}_m \otimes \mathcal{H}_n$. Firstly, we propose the necessary and sufficient conditions for absolute separable states in the Hilbert space $\mathcal{H}_{4n}$. These conditions are equivalent to the positive semidefiniteness of twelve matrices resulting from the symmetric matricizations of eigenvalues. Furthermore, we demonstrate that this sufficient condition can be extended to the general $\mathcal{H}_{mn}$ case, improving existing conclusions in the literature. These sufficient conditions depend only on the first few leading and last few leading eigenvalues, significantly reducing the complexity of determining absolute separable states. On the other hand, we also introduce additional sufficient conditions for determining that states in $\mathcal{H}_{mn}$ are not absolutely separable. These conditions only depend on $2m-1$ eigenvalues of the mixed states. Our sufficient conditions are not only simple and easy to implement. As applications, we derive distance bounds for eigenvalues and purity bounds for general absolutely separable states.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# シュレーディンガー橋のプラグイン推定

Plug-in estimation of Schrödinger bridges ( http://arxiv.org/abs/2408.11686v1 )

ライセンス: Link先を確認
Aram-Alexandre Pooladian, Jonathan Niles-Weed, (参考訳) 2つの確率分布の間のSchr\"odinger Bridgeを推定する手法を提案する。 既存の手法とは異なり、我々の手法は未知のドリフトに合うように、前方および後方拡散を反復的にシミュレーションしたり、ニューラルネットワークを訓練する必要がなくなる。 その代わりに、ソースとターゲットサンプル間の静的エントロピー最適輸送問題の解法から得られるポテンシャルを修正して、2つの測度間のブリッジを定義する時間依存ドリフトの自然なプラグイン推定器が得られることを示す。 最小の仮定の下では、我々の提案は「emph{Sinkhorn bridge}」と呼ばれ、目標測度の内在次元に依存する収束率を持つシュリンガー橋を確実に推定することを示した。 提案手法は, サンプリング領域と, 理論的, 統計的エントロピー的最適輸送の結果を組み合わせたものである。

We propose a procedure for estimating the Schr\"odinger bridge between two probability distributions. Unlike existing approaches, our method does not require iteratively simulating forward and backward diffusions or training neural networks to fit unknown drifts. Instead, we show that the potentials obtained from solving the static entropic optimal transport problem between the source and target samples can be modified to yield a natural plug-in estimator of the time-dependent drift that defines the bridge between two measures. Under minimal assumptions, we show that our proposal, which we call the \emph{Sinkhorn bridge}, provably estimates the Schr\"odinger bridge with a rate of convergence that depends on the intrinsic dimensionality of the target measure. Our approach combines results from the areas of sampling, and theoretical and statistical entropic optimal transport.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# 解釈可能な長期的行動品質評価

Interpretable Long-term Action Quality Assessment ( http://arxiv.org/abs/2408.11687v1 )

ライセンス: Link先を確認
Xu Dong, Xinran Liu, Wanqing Li, Anthony Adeyemi-Ejeye, Andrew Gilbert, (参考訳) 長時間の行動品質評価(AQA)は、ビデオにおける活動の実行を評価する。 しかし、この長さは細かな解釈可能性の課題を示しており、現在のAQA法では、個々のクリップの詳細な意味を欠き、平均的なクリップ特徴によって単一のスコアを生成するのが一般的である。 長期的なビデオは、複雑なアクションと多様性のためにさらなる困難を伴い、解釈可能性の課題が悪化する。 クエリベースのトランスフォーマーネットワークは、有望な長期モデリング機能を提供するが、AQAにおける解釈性は、時間的スキッピング(Temporal Skipping)と呼ばれる現象により不満足であり、モデルが自己保持層をスキップして出力劣化を防止している。 そこで本研究では,注意損失関数とクエリ初期化手法を提案し,性能と解釈可能性を向上させる。 さらに、人間の判断で観察されるスコアパターンを近似し、従来の単スコア回帰を置き換え、解釈可能性の合理性を向上させるために、重み付け回帰モジュールを導入する。 提案手法は,3つの実世界,長期AQAベンチマークの最先端結果を実現する。 私たちのコードは、https://github.com/dx 199771/Interpretability-AQAで利用可能です。

Long-term Action Quality Assessment (AQA) evaluates the execution of activities in videos. However, the length presents challenges in fine-grained interpretability, with current AQA methods typically producing a single score by averaging clip features, lacking detailed semantic meanings of individual clips. Long-term videos pose additional difficulty due to the complexity and diversity of actions, exacerbating interpretability challenges. While query-based transformer networks offer promising long-term modeling capabilities, their interpretability in AQA remains unsatisfactory due to a phenomenon we term Temporal Skipping, where the model skips self-attention layers to prevent output degradation. To address this, we propose an attention loss function and a query initialization method to enhance performance and interpretability. Additionally, we introduce a weight-score regression module designed to approximate the scoring patterns observed in human judgments and replace conventional single-score regression, improving the rationality of interpretability. Our approach achieves state-of-the-art results on three real-world, long-term AQA benchmarks. Our code is available at: https://github.com/dx199771/Interpretability-AQA
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# 2次およびハミルトン系における状態変数の物理インフォームド発見

Physics-informed Discovery of State Variables in Second-Order and Hamiltonian Systems ( http://arxiv.org/abs/2408.11691v1 )

ライセンス: Link先を確認
Félix Chavelli, Zi-Yu Khoo, Dawen Wu, Jonathan Sze Choong Low, Stéphane Bressan, (参考訳) 力学系のモデリングは、自然現象や工学的なシステムを記述するだけでなく、予測や制御にも広く関心を寄せている。 現在のデータ駆動型アプローチは、しばしば関連する状態変数の事前知識を前提とするか、過度にパラメータ化された状態空間をもたらす。 Boyuan Chenと彼の共著者は、自由度を推定し、動的システムの状態変数を見つけようとするニューラルネットワークモデルを提案した。 革新的なアプローチにもかかわらず、このベースラインモデルは、解析するシステムを管理する物理原理とは関係がなく、信頼性の低い状態変数に繋がる。 本研究では, 2階ハミルトニアン系の物理特性を利用してベースラインモデルを制約する手法を提案する。 提案モデルでは,非冗長かつ解釈可能な状態変数の最小セットを特定することにより,ベースラインモデルよりも優れる。

The modeling of dynamical systems is a pervasive concern for not only describing but also predicting and controlling natural phenomena and engineered systems. Current data-driven approaches often assume prior knowledge of the relevant state variables or result in overparameterized state spaces. Boyuan Chen and his co-authors proposed a neural network model that estimates the degrees of freedom and attempts to discover the state variables of a dynamical system. Despite its innovative approach, this baseline model lacks a connection to the physical principles governing the systems it analyzes, leading to unreliable state variables. This research proposes a method that leverages the physical characteristics of second-order Hamiltonian systems to constrain the baseline model. The proposed model outperforms the baseline model in identifying a minimal set of non-redundant and interpretable state variables.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# M2CS:大規模超伝導量子プロセッサのためのマイクロ波計測制御システム

M2CS: A Microwave Measurement and Control System for Large-scale Superconducting Quantum Processors ( http://arxiv.org/abs/2408.11696v1 )

ライセンス: Link先を確認
Jiawei Zhang, Xuandong Sun, Zechen Guo, Yuefeng Yuan, Yubin Zhang, Ji Chu, Wenhui Huang, Yongqi Liang, Jiawei Qiu, Daxiong Sun, Ziyu Tao, Jiajian Zhang, Weijie Guo, Ji Jiang, Xiayu Linpeng, Yang Liu, Wenhui Ren, Jingjing Niu, Youpeng Zhong, Dapeng Yu, (参考訳) 超伝導量子コンピューティングは前例のないペースで進歩し続けており、量子プロセッサとホストコンピュータ間の重要なコンデュットとして機能する特殊な電子機器の革新に対する強い需要がある。 本稿では、大規模超伝導量子プロセッサ専用のマイクロ波計測制御システム(M2CS)について紹介する。 M2CSは、全体的なパフォーマンス、スケーラビリティ、柔軟性のバランスをとる、コンパクトなモジュラー設計である。 M2CSの電子実験は、商用機器に匹敵する重要な指標を示している。 トランスモン超伝導量子ビットのベンチマークテストでは、さらにクビットのコヒーレンスとゲートの忠実度が最先端の結果と同等であることを示し、中間スケールの量子プロセッサ上で実行される量子実験の厳密な要求を満たすM2CSの能力を確認した。 このシステムのコンパクトでスケーラブルな設計は、1000キュービットを超える測定と制御の要求を満たすためのさらなる拡張のための重要な余地を提供し、また、トラップされたイオンやシリコン量子ドットのような他の量子コンピューティングプラットフォームにも適用することができる。 M2CSアーキテクチャは、マイクロ波動力学的インダクタンス検出器やフェーズドアレイレーダシステムなど、幅広いシナリオにも適用することができる。

As superconducting quantum computing continues to advance at an unprecedented pace, there is a compelling demand for the innovation of specialized electronic instruments that act as crucial conduits between quantum processors and host computers. Here, we introduce a Microwave Measurement and Control System (M2CS) dedicated for large-scale superconducting quantum processors. M2CS features a compact modular design that balances overall performance, scalability, and flexibility. Electronic tests of M2CS show key metrics comparable to commercial instruments. Benchmark tests on transmon superconducting qubits further show qubit coherence and gate fidelities comparable to state-of-the-art results, confirming M2CS's capability to meet the stringent requirements of quantum experiments run on intermediate-scale quantum processors. The system's compact and scalable design offers significant room for further enhancements that could accommodate the measurement and control requirements of over 1000 qubits, and can also be adopted to other quantum computing platforms such as trapped ions and silicon quantum dots. The M2CS architecture may also be applied to wider range of scenarios, such as microwave kinetic inductance detectors, as well as phased array radar systems.
翻訳日:2024-08-22 16:37:45 公開日:2024-08-21
# ディトラクタ存在下での新しいビュー合成のためのロバスト3次元ガウススプレーティング

Robust 3D Gaussian Splatting for Novel View Synthesis in Presence of Distractors ( http://arxiv.org/abs/2408.11697v1 )

ライセンス: Link先を確認
Paul Ungermann, Armin Ettenhofer, Matthias Nießner, Barbara Roessle, (参考訳) 3D Gaussian Splattingは、素晴らしいビュー合成結果を示している。しかしながら、静的なシーンの入力データを汚染する動的オブジェクトに対して脆弱である。 ディトラクタは、ビュー依存効果やフローティングアーティファクトの結果として表現されるため、レンダリング品質に深刻な影響を与える。 本研究の目的は, 3次元ガウス最適化において, クリーンな再構築を実現するために, それらの障害を識別・無視することである。 この目的のために、最適化中の画像残差を調べる自己教師型アプローチを採用し、イントラクタによって改ざんされた可能性のある領域を判定する。 さらに,事前訓練されたセグメンテーションネットワークを利用してオブジェクト認識を実現し,イントラクタのより正確な排除を可能にする。 このようにして、損失定式化において効果的にそれらを無視するために、トラクタのセグメンテーションマスクを得る。 提案手法は,3次元ガウススプラッティングに比べてPSNRが1.86dB向上し,多種多種多種多種多種多種多種多種多種多種多種多様のレンダリング品質が向上することを示した。

3D Gaussian Splatting has shown impressive novel view synthesis results; nonetheless, it is vulnerable to dynamic objects polluting the input data of an otherwise static scene, so called distractors. Distractors have severe impact on the rendering quality as they get represented as view-dependent effects or result in floating artifacts. Our goal is to identify and ignore such distractors during the 3D Gaussian optimization to obtain a clean reconstruction. To this end, we take a self-supervised approach that looks at the image residuals during the optimization to determine areas that have likely been falsified by a distractor. In addition, we leverage a pretrained segmentation network to provide object awareness, enabling more accurate exclusion of distractors. This way, we obtain segmentation masks of distractors to effectively ignore them in the loss formulation. We demonstrate that our approach is robust to various distractors and strongly improves rendering quality on distractor-polluted scenes, improving PSNR by 1.86dB compared to 3D Gaussian Splatting.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# Goal-directed ASP を用いたシステム保証事例のセマンティック解析の自動化

Automating Semantic Analysis of System Assurance Cases using Goal-directed ASP ( http://arxiv.org/abs/2408.11699v1 )

ライセンス: Link先を確認
Anitha Murugesan, Isaac Wong, Joaquín Arias, Robert Stroud, Srivatsan Varadarajan, Elmer Salazar, Gopal Gupta, Robin Bloomfield, John Rushby, (参考訳) 保証ケースは、安全とセキュリティが重要となるシステムの認証に関する議論と証拠を示すための構造化された方法を提供する。 しかしながら、これらの保証ケースの作成と評価は、適度な複雑さのシステムであっても複雑で困難である可能性がある。 そのため、これらのタスクのための新しい自動化手法を開発する必要性が高まっている。 既存の保証ケースツールは構造的側面の自動化に重点を置いているが、保証引数のセマンティックコヒーレンスと正確性を完全に評価する能力は欠如している。 従来の作業では、推論プロセス、エビデンス利用、およびデファタ(デファタ)と反証拠の明確な記述を優先するAssurance 2.0フレームワークを導入しました。 本稿では,共通センス推論と解集合プログラミングの解法,特にs(CASP)を用いて,意味ルールに基づく分析機能を備えた Assurance 2.0 の拡張手法を提案する。 これらの分析手法を用いることで、論理的整合性、妥当性、不実現性など、保証事例のユニークな意味的側面を考察する。 これらの分析の応用は、システム開発者と評価者の両方に、保証ケースに対する信頼性を高めます。

Assurance cases offer a structured way to present arguments and evidence for certification of systems where safety and security are critical. However, creating and evaluating these assurance cases can be complex and challenging, even for systems of moderate complexity. Therefore, there is a growing need to develop new automation methods for these tasks. While most existing assurance case tools focus on automating structural aspects, they lack the ability to fully assess the semantic coherence and correctness of the assurance arguments. In prior work, we introduced the Assurance 2.0 framework that prioritizes the reasoning process, evidence utilization, and explicit delineation of counter-claims (defeaters) and counter-evidence. In this paper, we present our approach to enhancing Assurance 2.0 with semantic rule-based analysis capabilities using common-sense reasoning and answer set programming solvers, specifically s(CASP). By employing these analysis techniques, we examine the unique semantic aspects of assurance cases, such as logical consistency, adequacy, indefeasibility, etc. The application of these analyses provides both system developers and evaluators with increased confidence about the assurance case.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# 一般化可能なアセンブリ状態認識に向けた教師付き表現学習

Supervised Representation Learning towards Generalizable Assembly State Recognition ( http://arxiv.org/abs/2408.11700v1 )

ライセンス: Link先を確認
Tim J. Schoonbeek, Goutham Balachandran, Hans Onvlee, Tim Houben, Shao-Hsuan Hung, Jacek Kustra, Peter H. N. de With, Fons van der Sommen, (参考訳) アセンブリ状態認識は、アセンブリ手順の実行を促進し、効率の向上とエラーの最小化のためのフィードバックを提供する。 しかし、アセンブリ状態の認識は、部品が頻繁に更新され、実行エラーに対するロバスト性はまだ調査されていないため、スケーラビリティにおいて課題となる。 これらの課題に対処するために、表現学習と新たな中間状態情報損失関数修正(ISIL)に基づくアプローチを提案する。 ISILは、状態間のラベルのない遷移を活用し、すべてのテスト済みアーキテクチャと損失に対して、クラスタリングと分類性能の大幅な改善を示す。 実行エラーのない画像に特化して訓練されているにもかかわらず、エラー状態の徹底的な解析は、我々のアプローチが様々なタイプの実行エラーを持つ正しい状態と状態とを正確に区別していることを示している。 提案アルゴリズムの統合により、労働者に有意義な支援を提供し、産業環境における手続き上の誤りによる予期せぬ損失を軽減することができる。 コードは、https://timschoonbeek.github.io/state_rec.comで入手できる。

Assembly state recognition facilitates the execution of assembly procedures, offering feedback to enhance efficiency and minimize errors. However, recognizing assembly states poses challenges in scalability, since parts are frequently updated, and the robustness to execution errors remains underexplored. To address these challenges, this paper proposes an approach based on representation learning and the novel intermediate-state informed loss function modification (ISIL). ISIL leverages unlabeled transitions between states and demonstrates significant improvements in clustering and classification performance for all tested architectures and losses. Despite being trained exclusively on images without execution errors, thorough analysis on error states demonstrates that our approach accurately distinguishes between correct states and states with various types of execution errors. The integration of the proposed algorithm can offer meaningful assistance to workers and mitigate unexpected losses due to procedural mishaps in industrial settings. The code is available at: https://timschoonbeek.github.io/state_rec
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# FedGS: 不均一な医用画像分割のためのFederated Gradient Scaling

FedGS: Federated Gradient Scaling for Heterogeneous Medical Image Segmentation ( http://arxiv.org/abs/2408.11701v1 )

ライセンス: Link先を確認
Philip Schutte, Valentina Corbetta, Regina Beets-Tan, Wilson Silva, (参考訳) 深層学習(DL)自動化医療画像セグメンテーションにおけるフェデレーションラーニング(FL)は、患者データを共有せずに協調的なモデルトレーニングを可能にすることにより、プライバシの保護を支援する。 しかし、FLは機関間のデータ不均一性の問題に直面し、最適以下のグローバルモデルに繋がる。 FLにおける拡散表現学習(DRL)の統合は、データを異なる表現に分離することで堅牢性を高めることができる。 既存のDRL法では、異質性はスタイルの特徴にのみ含まれており、病変の大きさや形状のようなコンテンツベースの多様性を見渡せると仮定している。 FLアグリゲーション手法であるFedGSを提案し, 全体の有効性を保ちながら, 小型で表現不足なターゲットでのセグメンテーション性能を向上させる。 FedGSは、特に小さな病変に対して、PolypGenとLiTSデータセット間で、FedAvgよりも優れたパフォーマンスを示している。 コードと事前訓練されたチェックポイントは以下のリンクで利用可能である。

Federated Learning (FL) in Deep Learning (DL)-automated medical image segmentation helps preserving privacy by enabling collaborative model training without sharing patient data. However, FL faces challenges with data heterogeneity among institutions, leading to suboptimal global models. Integrating Disentangled Representation Learning (DRL) in FL can enhance robustness by separating data into distinct representations. Existing DRL methods assume heterogeneity lies solely in style features, overlooking content-based variability like lesion size and shape. We propose FedGS, a novel FL aggregation method, to improve segmentation performance on small, under-represented targets while maintaining overall efficacy. FedGS demonstrates superior performance over FedAvg, particularly for small lesions, across PolypGen and LiTS datasets. The code and pre-trained checkpoints are available at the following link: https://github.com/Trustworthy-AI-UU-NKI/Federated-Learning-Disentanglement
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# FRAP:Adaptive Prompt Weightingによる忠実でリアルなテキスト・ツー・イメージ生成

FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting ( http://arxiv.org/abs/2408.11706v1 )

ライセンス: Link先を確認
Liyao Jiang, Negar Hassanpour, Mohammad Salameh, Mohan Sai Singamsetti, Fengyu Sun, Wei Lu, Di Niu, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトが与えられた場合,高品質な画像を生成できることが示されている。 しかし、プロンプト・イメージのアライメントを確保することは大きな課題であり、すなわちプロンプトのセマンティクスと忠実に一致した画像を生成する。 最近の研究は、潜伏したコードを最適化することで忠実さを向上しようと試みており、これは潜伏したコードを分布から外し、非現実的な画像を生成する可能性がある。 本稿では,画像の即時的アライメントと認証を改善するために,一点あたりのプロンプト重みを適応的に調整する,シンプルで効果的なアプローチであるFRAPを提案する。 我々は,各トークンの重み係数を適応的に更新するオンラインアルゴリズムを設計し,オブジェクトの存在とオブジェクト-修飾子ペアの結合を促進する統一目的関数を最小化する。 FRAPは,COCO-Subjectデータセット上でのD&Bよりも4秒高速に,最近の遅延コード最適化手法に比べて平均遅延が低く,複雑なデータセットからのプロンプトに対するプロンプトのプロンプトが有意に高い画像を生成する。 さらに、CLIP-IQA-Real測定値の視覚的比較と評価により、FRAPは即時アライメントを改善するだけでなく、現実的な外観を持つより正確な画像を生成することを示す。 また、FRAPと即時書き直しLLMを組み合わせることで、その劣化した即時画像アライメントを回復し、即時画像アライメントと画質の改善を観察する。

Text-to-image (T2I) diffusion models have demonstrated impressive capabilities in generating high-quality images given a text prompt. However, ensuring the prompt-image alignment remains a considerable challenge, i.e., generating images that faithfully align with the prompt's semantics. Recent works attempt to improve the faithfulness by optimizing the latent code, which potentially could cause the latent code to go out-of-distribution and thus produce unrealistic images. In this paper, we propose FRAP, a simple, yet effective approach based on adaptively adjusting the per-token prompt weights to improve prompt-image alignment and authenticity of the generated images. We design an online algorithm to adaptively update each token's weight coefficient, which is achieved by minimizing a unified objective function that encourages object presence and the binding of object-modifier pairs. Through extensive evaluations, we show FRAP generates images with significantly higher prompt-image alignment to prompts from complex datasets, while having a lower average latency compared to recent latent code optimization methods, e.g., 4 seconds faster than D&B on the COCO-Subject dataset. Furthermore, through visual comparisons and evaluation on the CLIP-IQA-Real metric, we show that FRAP not only improves prompt-image alignment but also generates more authentic images with realistic appearances. We also explore combining FRAP with prompt rewriting LLM to recover their degraded prompt-image alignment, where we observe improvements in both prompt-image alignment and image quality.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# 生成した単体テストの理解性を高めるために大規模言語モデルを活用する

Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests ( http://arxiv.org/abs/2408.11710v1 )

ライセンス: Link先を確認
Amirhossein Deljouyi, Roham Koohestani, Maliheh Izadi, Andy Zaidman, (参考訳) 自動ユニットテストジェネレータ、特にEvoSuiteのような検索ベースのソフトウェアテスティングツールは、高いカバレッジでテストを生成することができる。 これらのジェネレータは単体テストを書くことの負担を軽減するが、生成したテストを理解するという点で、しばしばソフトウェアエンジニアに課題を提起する。 これを解決するために,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上させる。 この拡張は、テストデータのコンテキスト化、識別子の命名の改善、記述的なコメントの追加を通じて実現します。 大学と産業界の両方の32人の参加者によるコントロールされた実験を通じて、単体テストの理解可能性が、ソフトウェア技術者のバグ修正タスクの実行能力にどのように影響するかを調査した。 私たちは、理解可能なテストケースの重要性を強調する現実世界のシナリオをシミュレートするためにバグフィックスを選択しました。 UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。 テスト後の質問紙調査の結果,テスト名,テストデータ,変数名の改善がバグフィックスプロセスの改善に寄与していることが判明した。

Automated unit test generators, particularly search-based software testing tools like EvoSuite, are capable of generating tests with high coverage. Although these generators alleviate the burden of writing unit tests, they often pose challenges for software engineers in terms of understanding the generated tests. To address this, we introduce UTGen, which combines search-based software testing and large language models to enhance the understandability of automatically generated test cases. We achieve this enhancement through contextualizing test data, improving identifier naming, and adding descriptive comments. Through a controlled experiment with 32 participants from both academia and industry, we investigate how the understandability of unit tests affects a software engineer's ability to perform bug-fixing tasks. We selected bug-fixing to simulate a real-world scenario that emphasizes the importance of understandable test cases. We observe that participants working on assignments with UTGen test cases fix up to 33% more bugs and use up to 20% less time when compared to baseline test cases. From the post-test questionnaire, we gathered that participants found that enhanced test names, test data, and variable names improved their bug-fixing process.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# ControlCol: 自動話者ビデオカラー化における制御性

ControlCol: Controllability in Automatic Speaker Video Colorization ( http://arxiv.org/abs/2408.11711v1 )

ライセンス: Link先を確認
Rory Ward, John G. Breslin, Peter Corcoran, (参考訳) 自動的に白黒のスピーカービデオに色を加えることは、非常に望ましいテクニックだ。 最高の結果を得るために人間との相互作用を必要とする芸術的プロセスである。 既存のビデオの自動着色システムの多くは、ユーザが着色プロセスをガイドする機会をほとんど提供しない。 本研究では,ユーザに対して,最先端技術に対して高いカラー化品質を維持しつつ,ユーザに対して制御性を提供する,新しい自動話者映像カラー化システムを提案する。 このシステムを ControlCol と名付けます。 ControlColは、PSNR、SSIM、FID、FVDがメトリクスとして使用される場合、Grid and Lombard Gridデータセットの最先端のDeOldifyよりも3.5%パフォーマンスがよい。 この結果は,DeOldify の時間の90%が ControlCol の方が好まれる,という人間の評価にも裏付けられている。 例のビデオは補足資料で見ることができる。

Adding color to black-and-white speaker videos automatically is a highly desirable technique. It is an artistic process that requires interactivity with humans for the best results. Many existing automatic video colorization systems provide little opportunity for the user to guide the colorization process. In this work, we introduce a novel automatic speaker video colorization system which provides controllability to the user while also maintaining high colorization quality relative to state-of-the-art techniques. We name this system ControlCol. ControlCol performs 3.5% better than the previous state-of-the-art DeOldify on the Grid and Lombard Grid datasets when PSNR, SSIM, FID and FVD are used as metrics. This result is also supported by our human evaluation, where in a head-to-head comparison, ControlCol is preferred 90% of the time to DeOldify. Example videos can be seen in the supplementary material.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# 個別窒素空孔中心のスケーラブル並列測定

Scalable parallel measurement of individual nitrogen-vacancy centers ( http://arxiv.org/abs/2408.11715v1 )

ライセンス: Link先を確認
Matthew Cambria, Saroj Chand, Shimon Kolkowitz, (参考訳) ダイヤモンド中の窒素空孔(NV)中心は固体スピン欠陥であり、量子センシングや量子情報処理に広く採用されている。 通常、実験は単一の孤立したNV中心または多くのNV中心の未解決アンサンブルで行われ、測定速度と空間分解能のトレードオフや個々の欠陥の制御が生じる。 本研究では,複数の光学的に解決されたNV中心を並列に処理することで,このトレードオフを回避できる実験プラットフォームを提案する。 我々は、より大きな集合から複数のNV中心に対して電荷とスピン状態の操作を選択的に行い、10個のNV中心の電子スピン状態を並列に操作・測定する。 さらに,この測定の高信号対雑音比は,45個の一意相関係数の同時測定に対応して,10NV中心のスピン状態間のショット対ショット対相関の検出を可能にすることを示した。 我々は、我々のプラットフォームを何千もの個別に解決されたNVセンターで並列実験にスケールする方法を議論することで締めくくった。 これらの結果は、個々のスピン欠陥を用いた高スループット実験を可能にし、最近開発された相関センシング技術の応用のための自然なプラットフォームを提供する。

The nitrogen-vacancy (NV) center in diamond is a solid-state spin defect that has been widely adopted for quantum sensing and quantum information processing applications. Typically, experiments are performed either with a single isolated NV center or with an unresolved ensemble of many NV centers, resulting in a trade-off between measurement speed and spatial resolution or control over individual defects. In this work, we introduce an experimental platform that bypasses this trade-off by addressing multiple optically resolved NV centers in parallel. We perform charge- and spin-state manipulations selectively on multiple NV centers from within a larger set, and we manipulate and measure the electronic spin states of 10 NV centers in parallel. Further, we show that the high signal-to-noise ratio of the measurements enables the detection of shot-to-shot pairwise correlations between the spin states of 10 NV centers, corresponding to the simultaneous measurement of 45 unique correlation coefficients. We conclude by discussing how our platform can be scaled to parallel experiments with thousands of individually resolved NV centers. These results enable high-throughput experiments with individual spin defects, and provide a natural platform for the application of recently developed correlated sensing techniques.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# スケーラブルで非定型的グラフィカルモデル推定

Scalable and non-iterative graphical model estimation ( http://arxiv.org/abs/2408.11718v1 )

ライセンス: Link先を確認
Kshitij Khare, Syed Rahman, Bala Rajaratnam, Jiayuan Zhou, (参考訳) グラフィカルモデルは、現代の統計学や機械学習の多くの分野で広く応用されている。 反復的比例フィッティング(IPF)とその変種は、非方向のグラフィカルモデル推定のデフォルトメソッドとなり、フィールド内ではユビキタスである。 IPFは反復的なアプローチであるため、現代の高次元データレジームに対して容易にスケーラブルであるとは限らない。 本稿では,高次元における正定値グラフィカルモデル推定のための新規かつ高速な非定値的手法を提案する。 さらに,提案手法には他にも多くの魅力的な特性がある。 まず, 次元 p が大きくなるにつれて, 提案手法が計算複雑性や性能の点で最先端のグラフよりも優れたグラフの割合が 1 であることを示す。 第二に、提案手法は高次元空間選択のためのスケーラブルな非定位しきい値法と容易に組み合わせることができる。 第三に,提案手法は高次元統計的保証を有する。 さらに,提案手法は,統計的精度を損なうことなく,スケーラビリティを実現することを示す数値実験を行った。 第4に、ガウス確率に依存するIPFとは異なり、提案手法はより堅牢である。

Graphical models have found widespread applications in many areas of modern statistics and machine learning. Iterative Proportional Fitting (IPF) and its variants have become the default method for undirected graphical model estimation, and are thus ubiquitous in the field. As the IPF is an iterative approach, it is not always readily scalable to modern high-dimensional data regimes. In this paper we propose a novel and fast non-iterative method for positive definite graphical model estimation in high dimensions, one that directly addresses the shortcomings of IPF and its variants. In addition, the proposed method has a number of other attractive properties. First, we show formally that as the dimension p grows, the proportion of graphs for which the proposed method will outperform the state-of-the-art in terms of computational complexity and performance tends to 1, affirming its efficacy in modern settings. Second, the proposed approach can be readily combined with scalable non-iterative thresholding-based methods for high-dimensional sparsity selection. Third, the proposed method has high-dimensional statistical guarantees. Moreover, our numerical experiments also show that the proposed method achieves scalability without compromising on statistical precision. Fourth, unlike the IPF, which depends on the Gaussian likelihood, the proposed method is much more robust.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# 最適・準最適深層学習モデルの学習パラメータについて

On Learnable Parameters of Optimal and Suboptimal Deep Learning Models ( http://arxiv.org/abs/2408.11720v1 )

ライセンス: Link先を確認
Ziwei Zheng, Huizhi Liang, Vaclav Snasel, Vito Latora, Panos Pardalos, Giuseppe Nicosia, Varun Ojha, (参考訳) ディープラーニングモデルの構造的および運用的側面について,特に学習可能なパラメータ(重み)統計,分布,ノード間相互作用,可視化のニュアンスに注目した。 重みパターンのばらつきと全体のネットワーク性能の相関関係を定式化することにより,様々な深層学習モデルの最適・準最適性能について検討する。 我々の経験分析は、MNIST、Fashion-MNIST、CIFAR-10といった広く知られているデータセットや、ディープニューラルネットワーク(DNN)、畳み込みニューラルネットワーク(CNN)、ビジョントランスフォーマー(ViT)といった様々なディープラーニングモデルにまたがって拡張されており、ネットワークの成功と相関する学習可能なパラメータの特徴を特定できる。 ディープラーニングモデルの多様なアーキテクチャに関する広範な実験を通じて、我々はDNNの機能と効率に影響を与える重要な要素に光を当てた。 その結果、データセットやモデルに関わらず、成功したネットワークは、収束した重み統計と分布において、他の成功したネットワークと常に類似していることが判明した。 さらに,本研究では,DNN,CNN,ViTなどの幅広い深層学習モデルの学習パラメータが類似した学習特性を示すことを示す。

We scrutinize the structural and operational aspects of deep learning models, particularly focusing on the nuances of learnable parameters (weight) statistics, distribution, node interaction, and visualization. By establishing correlations between variance in weight patterns and overall network performance, we investigate the varying (optimal and suboptimal) performances of various deep-learning models. Our empirical analysis extends across widely recognized datasets such as MNIST, Fashion-MNIST, and CIFAR-10, and various deep learning models such as deep neural networks (DNNs), convolutional neural networks (CNNs), and vision transformer (ViT), enabling us to pinpoint characteristics of learnable parameters that correlate with successful networks. Through extensive experiments on the diverse architectures of deep learning models, we shed light on the critical factors that influence the functionality and efficiency of DNNs. Our findings reveal that successful networks, irrespective of datasets or models, are invariably similar to other successful networks in their converged weights statistics and distribution, while poor-performing networks vary in their weights. In addition, our research shows that the learnable parameters of widely varied deep learning models such as DNN, CNN, and ViT exhibit similar learning characteristics.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# テキスト・画像拡散モデルの反復的対象数最適化

Iterative Object Count Optimization for Text-to-image Diffusion Models ( http://arxiv.org/abs/2408.11721v1 )

ライセンス: Link先を確認
Oz Zafar, Lior Wolf, Idan Schwartz, (参考訳) 我々はテキスト・ツー・イメージ・モデルにおいて、指定された数のオブジェクトを正確に生成するという永続的な課題に対処する。 画像とテキストのペアから学習する現在のモデルは、トレーニングデータが任意のオブジェクトに対して可能なすべてのオブジェクトを表現できないため、本質的にカウントに苦慮している。 そこで本研究では,オブジェクトのポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。 第1に、オブジェクトの視点によって異なる潜在的な集約のためのスケーリングハイパーパラメータが必要であり、第2に、分類器誘導技術はノイズの多い中間拡散ステップで動作する修正モデルを必要とする。 これらの課題に対処するために,テキストコンディショニングの埋め込みを変更し,ハイパーパラメータを動的に調整しながら,推論画像の精度を向上させるオンライントレーニングモードを提案する。 我々の方法には3つの利点がある。 (i)検出モデルに基づく非導出可能なカウント技術を考えることができる。 (II)カウント技術や画像生成手法の迅速な変更を容易にするゼロショットプラグアンドプレイソリューションである。 三 最適化された計数トークンを再利用して、追加の最適化なしに正確な画像を生成することができる。 様々なオブジェクトの生成を評価し,精度を大幅に向上させた。 プロジェクトのページはhttps://ozzafar.github.io/count_token.comで公開されている。

We address a persistent challenge in text-to-image models: accurately generating a specified number of objects. Current models, which learn from image-text pairs, inherently struggle with counting, as training data cannot depict every possible number of objects for any given object. To solve this, we propose optimizing the generated image based on a counting loss derived from a counting model that aggregates an object\'s potential. Employing an out-of-the-box counting model is challenging for two reasons: first, the model requires a scaling hyperparameter for the potential aggregation that varies depending on the viewpoint of the objects, and second, classifier guidance techniques require modified models that operate on noisy intermediate diffusion steps. To address these challenges, we propose an iterated online training mode that improves the accuracy of inferred images while altering the text conditioning embedding and dynamically adjusting hyperparameters. Our method offers three key advantages: (i) it can consider non-derivable counting techniques based on detection models, (ii) it is a zero-shot plug-and-play solution facilitating rapid changes to the counting techniques and image generation methods, and (iii) the optimized counting token can be reused to generate accurate images without additional optimization. We evaluate the generation of various objects and show significant improvements in accuracy. The project page is available at https://ozzafar.github.io/count_token.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# 量子近似最適化アルゴリズムによるNextG無線チャネル符号のデコーダアーキテクチャ

A Quantum Approximate Optimization Algorithm-based Decoder Architecture for NextG Wireless Channel Codes ( http://arxiv.org/abs/2408.11726v1 )

ライセンス: Link先を確認
Srikar Kasi, James Sud, Kyle Jamieson, Gokul Subramanian Ravi, (参考訳) FEC(Forward Error Correction)は、ノイズや干渉があるにもかかわらず、無線ネットワークにおける信頼性の高いデータフローを提供する。 しかし、その処理は、計算に精通した復号処理のため、無線ネットワークのリソースのかなりの部分を必要とする。 これにより、ネットワーク設計者はパフォーマンスと実装の複雑さを妥協せざるを得ない。 本稿では、量子近似最適化アルゴリズム(QAOA)に基づくFECデコードのための新しい処理アーキテクチャについて検討し、デコード性能・複雑さのトレードオフを解決するための量子コンピューティング手法の可能性を評価する。 我々は、人気のあるNextG無線低密度パリティチェック(LDPC)と極符号を対象とした、QAOAベースのFECデコーダであるFDeQを提案する。 QAOAベースのデコーディングを実用性に向けて加速するために、FDeQはFECデコーディングタスク間の時間的類似性を利用する。 この類似性は、時間変化のある無線チャネルノイズ、周囲の干渉、ペイロードデータにも依存しない特定のFEC符号の固定構造によって実現される。 我々はFDeQを,理想的(ノイズのない)およびノイズの多いQAOAシミュレーションの両方で様々なシステムパラメータ設定で評価し,FEC符号ブロック長の最先端の古典復号器と同等の誤差性能で復号することを示す。 さらに、FDeQが最先端の古典的FECデコーダより優れるシナリオを強調し、実用無線ネットワークにおけるFDeQの適用のために、必要なキュービット数とゲート時間の観点から将来の量子デバイスに対する定量的な目標を予測する総合的なリソース推定分析を提案する。

Forward Error Correction (FEC) provides reliable data flow in wireless networks despite the presence of noise and interference. However, its processing demands significant fraction of a wireless network's resources, due to its computationally-expensive decoding process. This forces network designers to compromise between performance and implementation complexity. In this paper, we investigate a novel processing architecture for FEC decoding, one based on the quantum approximate optimization algorithm (QAOA), to evaluate the potential of this emerging quantum compute approach in resolving the decoding performance-complexity tradeoff. We present FDeQ, a QAOA-based FEC Decoder design targeting the popular NextG wireless Low Density Parity Check (LDPC) and Polar codes. To accelerate QAOA-based decoding towards practical utility, FDeQ exploits temporal similarity among the FEC decoding tasks. This similarity is enabled by the fixed structure of a particular FEC code, which is independent of any time-varying wireless channel noise, ambient interference, and even the payload data. We evaluate FDeQ at a variety of system parameter settings in both ideal (noiseless) and noisy QAOA simulations, and show that FDeQ achieves successful decoding with error performance at par with state-of-the-art classical decoders at low FEC code block lengths. Furthermore, we present a holistic resource estimation analysis, projecting quantitative targets for future quantum devices in terms of the required qubit count and gate duration, for the application of FDeQ in practical wireless networks, highlighting scenarios where FDeQ may outperform state-of-the-art classical FEC decoders.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# 大規模言語モデルにおける有害プロンプトの効率的な検出

Efficient Detection of Toxic Prompts in Large Language Models ( http://arxiv.org/abs/2408.11727v1 )

ライセンス: Link先を確認
Yi Liu, Junzhe Yu, Huijia Sun, Ling Shi, Gelei Deng, Yuqi Chen, Yang Liu, (参考訳) ChatGPTやGeminiのような大規模言語モデル(LLM)は、自然言語処理を大幅に進歩させ、チャットボットや自動コンテンツ生成といった様々なアプリケーションを可能にしている。 しかし、これらのモデルは有害または非倫理的な反応を誘発する有害なプロンプトを作る悪質な個人によって悪用される可能性がある。 これらの個体は、しばしば安全メカニズムをバイパスするためにジェイルブレイク技術を使用し、堅牢な有毒な迅速検出方法の必要性を強調している。 既存の検出技術であるブラックボックスとホワイトボックスは、有害なプロンプト、スケーラビリティ、計算効率の多様性に関連する課題に直面している。 そこで本研究では,LSMの有害なプロンプトを効率的に検出する軽量グレーボックスであるToxicDetectorを提案する。 ToxicDetectorはLSMを活用して有毒な概念プロンプトを作成し、埋め込みベクトルを使用して特徴ベクトルを形成し、プロンプト分類にMulti-Layer Perceptron(MLP)分類器を使用する。 ToxicDetectorは96.39\%, 偽陽性率は2.00\%であり, 最先端の手法よりも優れていた。 さらに、ToxicDetectorの処理時間は1プロンプトあたり0.0780秒であり、リアルタイムアプリケーションに非常に適している。 ToxicDetectorは高い精度、効率、スケーラビリティを実現し、LSMにおける有害な迅速検出の実用的な方法である。

Large language models (LLMs) like ChatGPT and Gemini have significantly advanced natural language processing, enabling various applications such as chatbots and automated content generation. However, these models can be exploited by malicious individuals who craft toxic prompts to elicit harmful or unethical responses. These individuals often employ jailbreaking techniques to bypass safety mechanisms, highlighting the need for robust toxic prompt detection methods. Existing detection techniques, both blackbox and whitebox, face challenges related to the diversity of toxic prompts, scalability, and computational efficiency. In response, we propose ToxicDetector, a lightweight greybox method designed to efficiently detect toxic prompts in LLMs. ToxicDetector leverages LLMs to create toxic concept prompts, uses embedding vectors to form feature vectors, and employs a Multi-Layer Perceptron (MLP) classifier for prompt classification. Our evaluation on various versions of the LLama models, Gemma-2, and multiple datasets demonstrates that ToxicDetector achieves a high accuracy of 96.39\% and a low false positive rate of 2.00\%, outperforming state-of-the-art methods. Additionally, ToxicDetector's processing time of 0.0780 seconds per prompt makes it highly suitable for real-time applications. ToxicDetector achieves high accuracy, efficiency, and scalability, making it a practical method for toxic prompt detection in LLMs.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# 構成性によるクロスモーダル医用画像セグメンテーションの強化

Enhancing Cross-Modal Medical Image Segmentation through Compositionality ( http://arxiv.org/abs/2408.11733v1 )

ライセンス: Link先を確認
Aniek Eijpe, Valentina Corbetta, Kalina Chupetlovska, Regina Beets-Tan, Wilson Silva, (参考訳) 異なる画像モダリティが様々な解像度、コントラスト、解剖学的構造の外観を持つ画像を生成するため、クロスモーダルな医用画像セグメンテーションは重要な課題である。 本稿では, 分割性能と解釈性を向上させるため, 複雑度を低減しつつ, 共振器間セグメンテーションネットワークにおける帰納バイアスとして構成性を導入する。 提案するネットワークは、学習可能なvon Mises-Fisherカーネルを用いて学習した表現に合成性を強制するエンドツーエンドのクロスモーダルセグメンテーションフレームワークである。 これらのカーネルは、学習された表現におけるコンテントスタイルのアンタングル化を促進し、結果として、本質的に解釈可能で、異なる解剖学的構造を効果的にアンタングル化するコンポジション表現をもたらす。 実験の結果, セグメンテーション性能が向上し, 複数の医療データセットの計算コストが低減された。 さらに,学習した構成的特徴の解釈可能性を示す。 コードとチェックポイントは、https://github.com/Trustworthy-AI-UU-NKI/Cross-Modal-Segmentation.comで公開される。

Cross-modal medical image segmentation presents a significant challenge, as different imaging modalities produce images with varying resolutions, contrasts, and appearances of anatomical structures. We introduce compositionality as an inductive bias in a cross-modal segmentation network to improve segmentation performance and interpretability while reducing complexity. The proposed network is an end-to-end cross-modal segmentation framework that enforces compositionality on the learned representations using learnable von Mises-Fisher kernels. These kernels facilitate content-style disentanglement in the learned representations, resulting in compositional content representations that are inherently interpretable and effectively disentangle different anatomical structures. The experimental results demonstrate enhanced segmentation performance and reduced computational costs on multiple medical datasets. Additionally, we demonstrate the interpretability of the learned compositional features. Code and checkpoints will be publicly available at: https://github.com/Trustworthy-AI-UU-NKI/Cross-Modal-Segmentation.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# 臨床展望 : 医学における言語モデルの概要

Clinical Insights: A Comprehensive Review of Language Models in Medicine ( http://arxiv.org/abs/2408.11735v1 )

ライセンス: Link先を確認
Nikita Neveditsin, Pawan Lingras, Vijay Mago, (参考訳) 本稿では、医療分野における大規模言語モデルの進歩と応用について、特に臨床応用に焦点を当てて詳細に検討する。 この研究は、LLMの基盤技術から、ドメイン固有モデルやマルチモーダル統合の最新の発展まで、その進化を辿っている。 エンコーダベースのモデルから、テキストデータ、視覚データ、聴覚データを統合する高度なアプローチへの微調整を必要とし、医療における包括的なAIソリューションを促進する技術的進歩を探求する。 本稿では、これらの技術が臨床効率を高めるための機会と、倫理、データプライバシ、実装の観点からそれらがもたらす課題について論じる。 さらに、LLMのデプロイメント戦略を批判的に評価し、医療環境におけるデータのプライバシと適応性を保証するためのオープンソースモデルの必要性を強調している。 医療におけるLLMの現実的有効性を評価するための実証的研究と、さらなる研究のためのオープンデータセットの開発に焦点をあてて、今後の研究方向性を提案する。 このレビューは、AIと医療の交差点に関心を持つ新入生と学際研究者の両方に包括的なリソースを提供することを目的としている。

This paper provides a detailed examination of the advancements and applications of large language models in the healthcare sector, with a particular emphasis on clinical applications. The study traces the evolution of LLMs from their foundational technologies to the latest developments in domain-specific models and multimodal integration. It explores the technical progression from encoder-based models requiring fine-tuning to sophisticated approaches that integrate textual, visual, and auditory data, thereby facilitating comprehensive AI solutions in healthcare. The paper discusses both the opportunities these technologies present for enhancing clinical efficiency and the challenges they pose in terms of ethics, data privacy, and implementation. Additionally, it critically evaluates the deployment strategies of LLMs, emphasizing the necessity of open-source models to ensure data privacy and adaptability within healthcare environments. Future research directions are proposed, focusing on empirical studies to evaluate the real-world efficacy of LLMs in healthcare and the development of open datasets for further research. This review aims to provide a comprehensive resource for both newcomers and multidisciplinary researchers interested in the intersection of AI and healthcare.
翻訳日:2024-08-22 16:28:00 公開日:2024-08-21
# q-局所量子ブラウンSYKとスピンモデルにおける作用素サイズ分布のダイナミクス

Dynamics of operator size distribution in q-local quantum Brownian SYK and spin models ( http://arxiv.org/abs/2408.11737v1 )

ライセンス: Link先を確認
Shenglong Xu, (参考訳) 局所相互作用が$q$であるブラウン量子多体モデルにおける演算子ダイナミクスについて検討する。 作用素の力学は時間に依存する大きさの分布を特徴とし、ブラウンマヨラナ Sachdev-Ye-Kitaev (SYK) モデルと一般$q$ のスピンモデルの両方において正確なマスター方程式を導出する。 この方程式は大規模システムに対して数値的に解くことができる。 さらに、任意の初期条件に対する大きな$N$制限と$q$の解析的サイズ分布を得る。 両方のモデルの分布は、変数の変化による$\chi$-2乗分布に関連する同じ形式をとり、初期条件に強く依存する。 小さな初期サイズの場合、演算子ダイナミクスは初期サイズが大きくなるにつれて狭まる広い分布によって特徴づけられる。 初期作用素サイズがマヨラナモデルで$q-2$以下、スピンモデルで$q-1$以下であれば、分布は常に小さなサイズ制限で分岐する。 時間外順序相関器によって直接測定できる全ての演算子の平均サイズは、初期において指数関数的に増加する。 後期の体制では、すべての$q$ に対する1つのマヨラナ作用素またはパウリ作用素の平均サイズは $t e^{-t}$ として指数関数的に崩壊し、他のすべての作用素よりもはるかに遅く、これは $e^{-t}$ として崩壊する。 有限$N$で、サイズ分布は、$q \geq 8$ Majoranaモデルと$q \geq 4$ spinモデルに対する対称性セクター内のモジュラー依存分岐を示す。 この結果から,$q$局所量子多体系における演算子力学の普遍的特徴が明らかになった。

We study operator dynamics in Brownian quantum many-body models with $q$-local interactions. The operator dynamics are characterized by the time-dependent size distribution, for which we derive an exact master equation in both the Brownian Majorana Sachdev-Ye-Kitaev (SYK) model and the spin model for general $q$. This equation can be solved numerically for large systems. Additionally, we obtain the analytical size distribution in the large $N$ limit for arbitrary initial conditions and $q$. The distributions for both models take the same form, related to the $\chi$-squared distribution by a change of variable, and strongly depend on the initial condition. For small initial sizes, the operator dynamics are characterized by a broad distribution that narrows as the initial size increases. When the initial operator size is below $q-2$ for the Majorana model or $q-1$ for the spin model, the distribution diverges in the small size limit at all times. The mean size of all operators, which can be directly measured by the out-of-time ordered correlator, grows exponentially during the early time. In the late time regime, the mean size for a single Majorana or Pauli operator for all $q$ decays exponentially as $t e^{-t}$, much slower than all other operators, which decay as $e^{-t}$. At finite $N$, the size distribution exhibits modulo-dependent branching within a symmetry sector for the $q \geq 8$ Majorana model and the $q \geq 4$ spin model. Our results reveal universal features of operator dynamics in $q$-local quantum many-body systems.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# 物理研究のための量子中心超計算

Quantum-centric Supercomputing for Physics Research ( http://arxiv.org/abs/2408.11741v1 )

ライセンス: Link先を確認
Vincent R. Pascuzzi, Antonio Córcoles, (参考訳) この文書は、Stony Brook Universityで開催されている第22回Advanced Computing and Analysis Techniques in Physics Researchの第22回国際ワークショップで発表された量子中心スーパーコンピューティングに関するプレゼンテーションを要約している。

This document summarizes the presentation on Quantum-centric Supercomputing given at the 22nd International Workshop on Advanced Computing and Analysis Techniques in Physics Research, hosted at Stony Brook University.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# CluMo: ビジュアル質問応答における連続学習のためのクラスタベースモダリティ融合プロンプト

CluMo: Cluster-based Modality Fusion Prompt for Continual Learning in Visual Question Answering ( http://arxiv.org/abs/2408.11742v1 )

ライセンス: Link先を確認
Yuliang Cai, Mohammad Rostami, (参考訳) 大規模視覚言語モデル(VLM)は、様々なアプリケーション領域で大幅な性能向上を示している。 しかし, タスク上でのVLMの微調整は, 一般化能力の低下や新しいタスクの学習能力の低下を招き, これまでに学習したタスクの悲惨な忘れ込みを招いたため, 逐次的に遭遇したタスクに対処することが困難である。 マルチモーダル連続学習(CL)設定でのVLMの使用は、このようなシナリオに対処するのに役立ちます。 一般化能力の向上と破滅的忘れを防止するため,VLMの新規なプロンプトベースCL法,すなわち$\textbf{Clu}$ster-based $\textbf{Mo}$dality Fusion Prompt (\textbf{CluMo})を提案する。 そこで我々は,視覚的プロンプトキーとテキスト的プロンプトキーとを関連づけた,新しい‘textbf{Key-Key-Prompt} ペアを設計する。 私たちは2段階のトレーニング戦略を採用しています。 最初の段階では、シングルモーダルキーは$K$-meansクラスタリングアルゴリズムでトレーニングされ、最もセマンティックにマッチしたプロンプトを選択するのに役立つ。 第2段階では、プロンプトキーは凍結され、選択されたプロンプトはCLシナリオでVLMをトレーニングするための入力にアタッチされる。 2つのベンチマーク実験により,本手法がSOTAの性能向上を実証した。

Large vision-language models (VLMs) have shown significant performance boost in various application domains. However, adopting them to deal with several sequentially encountered tasks has been challenging because finetuning a VLM on a task normally leads to reducing its generalization power and the capacity of learning new tasks as well as causing catastrophic forgetting on previously learned tasks. Enabling using VLMs in multimodal continual learning (CL) settings can help to address such scenarios. To improve generalization capacity and prevent catastrophic forgetting, we propose a novel prompt-based CL method for VLMs, namely $\textbf{Clu}$ster-based $\textbf{Mo}$dality Fusion Prompt (\textbf{CluMo}). We design a novel \textbf{Key-Key-Prompt} pair, where each prompt is associated with a visual prompt key and a textual prompt key. We adopt a two-stage training strategy. During the first stage, the single-modal keys are trained via $K$-means clustering algorithm to help select the best semantically matched prompt. During the second stage, the prompt keys are frozen, the selected prompt is attached to the input for training the VLM in the CL scenario. Experiments on two benchmarks demonstrate that our method achieves SOTA performance.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# MARLIN:大規模言語モデルにおける混合精度自動回帰並列推論

MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models ( http://arxiv.org/abs/2408.11743v1 )

ライセンス: Link先を確認
Elias Frantar, Roberto L. Castro, Jiale Chen, Torsten Hoefler, Dan Alistarh, (参考訳) 機械学習アプリケーションにおいて、Large Language Models (LLMs) の推論が重要なワークロードとして出現するにつれて、重み付け量子化は、効率的なGPUデプロイメントの標準技術となっている。 量子化はモデルサイズを減少させるだけでなく、メモリの動きが小さく、精度が低いため、シングルユーザー推論においてかなりのスピードアップをもたらすことが示されている。 しかし、複数の並列クライアントを持つ \emph{batched} 設定でも、スピードアップが達成可能かどうかは不明だ。 GPUカーネルが実質的にメモリバウンドとして設計できるかどうかは不明だが、バッチワークロードの計算要求が大幅に増加するのをサポートする。 本稿では,MARLIN(Mixed-precision Auto-Regressive LINear kernels)を設計し,この問題を肯定的に解決する。 具体的には、量子化によって重みが圧縮されたモデル(例えば、要素あたり4ビット)を考えると、MARLINは16-32までのバッチサイズを最大(4\times$)の量子化スピードアップでサポートでき、より大きいバッチサイズは64-128まで、徐々に減少するが、それでも重要な加速をサポートする。 MARLINは、非同期メモリアクセス、複雑なタスクスケジューリングとパイプライン化、およびbespoke量子化サポートといった技術の組み合わせによってこれを達成している。 実験の結果、MARLINの個々のLCM層上での最適性能は、一般的なvLLMサービスエンジンと統合した場合、エンド・ツー・エンドのLSM推論の高速化(最大2.8\times$)につながることが示された。 最後に、MARLINはNVIDIA 2:4のようなさらなる圧縮技術に拡張可能で、さらなるスピードアップをもたらす。

As inference on Large Language Models (LLMs) emerges as an important workload in machine learning applications, weight quantization has become a standard technique for efficient GPU deployment. Quantization not only reduces model size, but has also been shown to yield substantial speedups for single-user inference, due to reduced memory movement, with low accuracy impact. Yet, it remains open whether speedups are achievable also in \emph{batched} settings with multiple parallel clients, which are highly relevant for practical serving. It is unclear whether GPU kernels can be designed to remain practically memory-bound, while supporting the substantially increased compute requirements of batched workloads. This paper resolves this question positively by describing the design of Mixed-precision Auto-Regressive LINear kernels, called MARLIN. Concretely, given a model whose weights are compressed via quantization to, e.g., 4 bits per element, MARLIN shows that batchsizes up to 16-32 can be supported with close to maximum ($4\times$) quantization speedup, and larger batchsizes up to 64-128 with gradually decreasing, but still significant, acceleration. MARLIN accomplishes this via a combination of techniques, such as asynchronous memory access, complex task scheduling and pipelining, and bespoke quantization support. Our experiments show that MARLIN's near-optimal performance on individual LLM layers across different scenarios can also lead to end-to-end LLM inference speedups (of up to $2.8\times$) when integrated with the popular vLLM serving engine. Finally, MARLIN is extensible to further compression techniques, like NVIDIA 2:4 sparsity, leading to additional speedups.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# 制御ネットを用いた安定拡散を用いたジーホア絵画の特徴抽出モデル

JieHua Paintings Style Feature Extracting Model using Stable Diffusion with ControlNet ( http://arxiv.org/abs/2408.11744v1 )

ライセンス: Link先を確認
Yujia Gu, Haofeng Li, Xinyu Fang, Zihan Peng, Yinan Peng, (参考訳) 本研究は,ジワのテクスト的特徴を抽出するための新しいアプローチを提案する。 FSDMCのトレーニングデータは、インターネットから収集されたオープンソースのJiehuaアーティストの作品に基づいており、その後手作業で作成されている(Original Image, Canny Edge Features, Text Prompt)。 本論文では,FSDMCが他の主流モデルであるCycleGANより優れていることを示す。 FSDMCはデータセット上で3.27のFIDを達成し、専門家評価の点でもCycleGANを上回っている。 これは、ジーワのスタイルの特徴を抽出する際のモデルの有効性を示すだけでなく、オリジナルの事前訓練された意味情報も保存する。 本研究は, 従来のアートスタイルのマイグレーション作業において, 特にジーワの文脈において, 安定拡散モデルの有効性を高めることが示唆された。

This study proposes a novel approach to extract stylistic features of Jiehua: the utilization of the Fine-tuned Stable Diffusion Model with ControlNet (FSDMC) to refine depiction techniques from artists' Jiehua. The training data for FSDMC is based on the opensource Jiehua artist's work collected from the Internet, which were subsequently manually constructed in the format of (Original Image, Canny Edge Features, Text Prompt). By employing the optimal hyperparameters identified in this paper, it was observed FSDMC outperforms CycleGAN, another mainstream style transfer model. FSDMC achieves FID of 3.27 on the dataset and also surpasses CycleGAN in terms of expert evaluation. This not only demonstrates the model's high effectiveness in extracting Jiehua's style features, but also preserves the original pre-trained semantic information. The findings of this study suggest that the application of FSDMC with appropriate hyperparameters can enhance the efficacy of the Stable Diffusion Model in the field of traditional art style migration tasks, particularly within the context of Jiehua.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# FocusLLM:並列デコーディングによるLLMのコンテキストのスケーリング

FocusLLM: Scaling LLM's Context by Parallel Decoding ( http://arxiv.org/abs/2408.11745v1 )

ライセンス: Link先を確認
Zhenyu Li, Yike Zhang, Tengyu Pan, Yutao Sun, Zhichao Duan, Junjie Fang, Rong Han, Zixuan Wang, Jianyong Wang, (参考訳) 長いコンテキストから有用な情報を利用する能力を備えたLLMの強化は、多くのダウンストリームアプリケーションにとって不可欠である。 しかし、従来のトランスフォーマーアーキテクチャで長いコンテキスト長を実現するには、かなりのトレーニングと推論資源が必要である。 本論文では,デコーダのみのLLMのコンテキスト長を拡張可能なフレームワークであるFocusLLMを提案する。 FocusLLMは、モデルを本来のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。 そして、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとして各チャンクにローカルコンテキストを付加し、最終的に抽出した情報をローカルコンテキストに統合する。 FocusLLMは、トレーニング効率と汎用性に優れており、トレーニングコストが従来の方法よりもはるかに低い8K入力長でトレーニングされている。 私たちのコードはhttps://github.com/leezythu/FocusLLM.comで利用可能です。

Empowering LLMs with the ability to utilize useful information from a long context is crucial for many downstream applications. However, achieving long context lengths with the conventional transformer architecture requires substantial training and inference resources. In this paper, we present FocusLLM, a framework designed to extend the context length of any decoder-only LLM, enabling the model to focus on relevant information from very long sequences. FocusLLM processes long text inputs by dividing them into chunks based on the model's original context length to alleviate the issue of attention distraction. Then, it appends the local context to each chunk as a prompt to extract essential information from each chunk based on a novel parallel decoding mechanism, and ultimately integrates the extracted information into the local context. FocusLLM stands out for great training efficiency and versatility: trained with an 8K input length with much less training cost than previous methods, FocusLLM exhibits superior performance across downstream long-context tasks and maintains strong language modeling ability when handling extensive long texts, even up to 400K tokens. Our code is available at https://github.com/leezythu/FocusLLM.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# 混合スパシティトレーニング: 4$\times$ FLOP Reduction for Transformer Pretraining

Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining ( http://arxiv.org/abs/2408.11746v1 )

ライセンス: Link先を確認
Pihe Hu, Shaolong Li, Longbo Huang, (参考訳) 大規模言語モデル(LLM)は複雑なタスクにおいて大きな進歩を遂げてきたが、その普及は相当な計算要求によって妨げられている。 数十億のパラメータを持つトランスフォーマーベースのLLMは、ハイエンドGPUクラスタ上での事前トレーニングを何ヶ月も必要とします。 しかし,本論文では,提案手法の動機となる事前学習におけるトランスフォーマーの冗長性について述べる。提案手法であるMixed Sparsity Training (MST)は,Floating Point Operations (FLOPs) を約7,5 %削減し,性能を向上する。 MSTは、ダイナミックスパーストレーニング(DST)と、スペーサ性変化(SV)とハイブリッドスパース注意(HSA)を統合し、ウォームアップ、超スパース化、回復の3段階を含む。 ウォームアップ相は密度のモデルをスパース相に変換し、回復相は接続を回復させる。 これらのフェーズを通じて、モデルは動的に進化するスパーストポロジと、性能を維持し、FLOPを同時にトレーニングするHSAメカニズムで訓練される。 GPT-2 実験では,FLOP の 4 倍の FLOP が,性能を損なうことなく低下することを示した。

Large language models (LLMs) have made significant strides in complex tasks, yet their widespread adoption is impeded by substantial computational demands. With hundreds of billion parameters, transformer-based LLMs necessitate months of pretraining across a high-end GPU cluster. However, this paper reveals a compelling finding: transformers exhibit considerable redundancy in pretraining computations, which motivates our proposed solution, Mixed Sparsity Training (MST), an efficient pretraining method that can reduce about $75\%$ of Floating Point Operations (FLOPs) while maintaining performance. MST integrates dynamic sparse training (DST) with Sparsity Variation (SV) and Hybrid Sparse Attention (HSA) during pretraining, involving three distinct phases: warm-up, ultra-sparsification, and restoration. The warm-up phase transforms the dense model into a sparse one, and the restoration phase reinstates connections. Throughout these phases, the model is trained with a dynamically evolving sparse topology and an HSA mechanism to maintain performance and minimize training FLOPs concurrently. Our experiment on GPT-2 showcases a FLOP reduction of $4\times$ without compromising performance.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# Open-Ended 3D Point Cloud Instance Segmentation

Open-Ended 3D Point Cloud Instance Segmentation ( http://arxiv.org/abs/2408.11747v1 )

ライセンス: Link先を確認
Phuc D. A. Nguyen, Minh Luu, Anh Tran, Cuong Pham, Khoi Nguyen, (参考訳) Open-Vocab 3D Instance Segmentation Method (OV-3DIS)は、最近、目に見えないオブジェクトに一般化する能力を実証した。 しかしながら、これらのメソッドはテスト中に事前に定義されたクラス名に依存しており、エージェントの自律性を制限する。 この制約を緩和するため,OE-3DIS (Open-Ended 3D Instance Segmentation) と呼ばれる新しい問題を提案する。 さらに,OV-3DISアプローチと2次元マルチモーダル大言語モデルを利用した,強力なベースラインの包括的集合をコントリビュートする。 OE-3DISシステムの性能を評価するため,新しいオープンエンデッドスコアを導入し,予測マスクのセマンティックおよび幾何学的品質と関連するクラス名の両方を標準APスコアとともに評価した。 このアプローチでは、ScanNet200とScanNet++データセットのベースラインよりも大幅にパフォーマンスが改善されている。 また,本手法は,OV-3DISにおける現在の最先端手法であるOpen3DISよりも優れている。

Open-Vocab 3D Instance Segmentation methods (OV-3DIS) have recently demonstrated their ability to generalize to unseen objects. However, these methods still depend on predefined class names during testing, restricting the autonomy of agents. To mitigate this constraint, we propose a novel problem termed Open-Ended 3D Instance Segmentation (OE-3DIS), which eliminates the necessity for predefined class names during testing. Moreover, we contribute a comprehensive set of strong baselines, derived from OV-3DIS approaches and leveraging 2D Multimodal Large Language Models. To assess the performance of our OE-3DIS system, we introduce a novel Open-Ended score, evaluating both the semantic and geometric quality of predicted masks and their associated class names, alongside the standard AP score. Our approach demonstrates significant performance improvements over the baselines on the ScanNet200 and ScanNet++ datasets. Remarkably, our method surpasses the performance of Open3DIS, the current state-of-the-art method in OV-3DIS, even in the absence of ground-truth object class names.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# DH-Bench:大規模視覚言語モデルの深さと高さ知覚

DH-Bench: Probing Depth and Height Perception of Large Visual-Language Models ( http://arxiv.org/abs/2408.11748v1 )

ライセンス: Link先を確認
Shehreen Azad, Yash Jain, Rishit Garg, Yogesh S Rawat, Vibhav Vineet, (参考訳) 幾何学的理解は、我々の環境をナビゲートし、相互作用するために不可欠である。 大きな視覚言語モデル(VLM)は印象的な能力を示しているが、現実のシナリオにそれらをデプロイするには、視覚知覚における同等の幾何学的理解が必要である。 本研究では、これらのモデルの幾何学的理解に焦点を当て、特にシーン内の物体の深さと高さを対象とする。 我々の観察では、VLMは形状や大きさなどの基本的な幾何学的性質の知覚に優れていますが、物体の深さや高さを推測する上で大きな課題に直面しています。 これを解決するために,Synthetic 2D,Synthetic 3D,Real-Worldシナリオを含むベンチマークデータセットスイートを導入し,これらの側面を厳格に評価する。 これらのデータセットを用いて17の最先端のVLMをベンチマークし、深さと高さの両方の知覚に一貫して苦労していることを発見した。 我々の重要な洞察は、VLMの深さと高さの推論能力の欠点と、これらのモデルに存在する固有のバイアスを詳細に分析することである。 本研究は, 実世界の応用において重要な, 幾何的理解の高度化によるVLMの開発方法を明らかにすることを目的としている。 ベンチマークのコードとデータセットは、 \url{https://tinyurl.com/DH-Bench1}で公開されます。

Geometric understanding is crucial for navigating and interacting with our environment. While large Vision Language Models (VLMs) demonstrate impressive capabilities, deploying them in real-world scenarios necessitates a comparable geometric understanding in visual perception. In this work, we focus on the geometric comprehension of these models; specifically targeting the depths and heights of objects within a scene. Our observations reveal that, although VLMs excel in basic geometric properties perception such as shape and size, they encounter significant challenges in reasoning about the depth and height of objects. To address this, we introduce a suite of benchmark datasets encompassing Synthetic 2D, Synthetic 3D, and Real-World scenarios to rigorously evaluate these aspects. We benchmark 17 state-of-the-art VLMs using these datasets and find that they consistently struggle with both depth and height perception. Our key insights include detailed analyses of the shortcomings in depth and height reasoning capabilities of VLMs and the inherent bias present in these models. This study aims to pave the way for the development of VLMs with enhanced geometric understanding, crucial for real-world applications. The code and datasets for our benchmarks will be available at \url{https://tinyurl.com/DH-Bench1}.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# すべてのオッドに反する:多言語埋め込みインバージョンアタックにおけるタイポロジー、スクリプト、言語融合の克服

Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks ( http://arxiv.org/abs/2408.11749v1 )

ライセンス: Link先を確認
Yiyi Chen, Russa Biswas, Heather Lent, Johannes Bjerva, (参考訳) 大規模言語モデル(LLM)は、敵、バックドア、侵入攻撃などの侵入を通じて、サイバー攻撃者による悪意ある影響を受けやすい。 これに応えて、LLM Securityの急成長する分野は、このような脅威を調査し、防御することを目的としている。 今のところ、この分野のほとんどの研究はモノリンガル・イングリッシュ・モデルに重点を置いているが、近年の研究では、多言語 LLM はモノリンガル・イングリッシュ・モデルよりも様々な攻撃に対して脆弱である可能性が示唆されている。 以前の研究は、ヨーロッパの言語のごく一部に埋め込まれたインバージョンを調査してきたが、これらの発見を異なる言語族と異なるスクリプトを持つ言語に外挿することは困難である。 そこで本研究では,20言語にまたがる言語間およびクロススクリプト・インバージョンを,言語ファミリ8つ,スクリプト12つにまたがって,インバージョン攻撃の組込みにおける多言語LLMの安全性について検討する。 アラビア文字とキリル文字で書かれた言語は、インド・アーリア語族の言語と同様に、特にインバージョンに弱いことが示唆された。 さらに、インバージョンモデルは言語の混乱に悩まされがちであり、時には攻撃の有効性を大幅に低下させる傾向があることを観察する。 そこで我々は,攻撃者が活用できる予測可能なパターンを探索し,インバージョンモデルに対するこのボトルネックを体系的に検討する。 究極的には、この研究は、多言語LLMが直面している優れたセキュリティ脆弱性の理解を深め、これらの攻撃によるネガティブな影響のリスクが最も高い言語に対する認識を高めることを目的としている。

Large Language Models (LLMs) are susceptible to malicious influence by cyber attackers through intrusions such as adversarial, backdoor, and embedding inversion attacks. In response, the burgeoning field of LLM Security aims to study and defend against such threats. Thus far, the majority of works in this area have focused on monolingual English models, however, emerging research suggests that multilingual LLMs may be more vulnerable to various attacks than their monolingual counterparts. While previous work has investigated embedding inversion over a small subset of European languages, it is challenging to extrapolate these findings to languages from different linguistic families and with differing scripts. To this end, we explore the security of multilingual LLMs in the context of embedding inversion attacks and investigate cross-lingual and cross-script inversion across 20 languages, spanning over 8 language families and 12 scripts. Our findings indicate that languages written in Arabic script and Cyrillic script are particularly vulnerable to embedding inversion, as are languages within the Indo-Aryan language family. We further observe that inversion models tend to suffer from language confusion, sometimes greatly reducing the efficacy of an attack. Accordingly, we systematically explore this bottleneck for inversion models, uncovering predictable patterns which could be leveraged by attackers. Ultimately, this study aims to further the field's understanding of the outstanding security vulnerabilities facing multilingual LLMs and raise awareness for the languages most at risk of negative impact from these attacks.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# AIに基づくCMRバイオマーカー推定におけるスキャン-スキャン精度の向上

Improving the Scan-rescan Precision of AI-based CMR Biomarker Estimation ( http://arxiv.org/abs/2408.11754v1 )

ライセンス: Link先を確認
Dewmini Hasara Wickremasinghe, Yiyang Xu, Esther Puyol-Antón, Paul Aljabar, Reza Razavi, Andrew P. King, (参考訳) ディープラーニング(DL)法を用いた心血管磁気共鳴(CMR)データからの心臓バイオマーカーの定量化は、精度の向上や解析の高速化など、多くの利点がある。 しかし、再現性と縦断解析に重要なバイオマーカー推定のスキャン-スキャン精度に焦点を当てた研究はごくわずかである。 本稿では,高いセグメンテーション精度を達成することだけでなく,左室および右室の放出率,左室の心筋質量の走査精度の向上にも焦点をあてた心臓バイオマーカー推定パイプラインを提案する。 バイオマーカーの推定に使用するセグメンテーションの根本的・基本的分解能を改善するために,画像補間に基づくものとセグメンテーション補間に基づくものである。 92名の被験者から得られたスキャン・スキャン・シネCMRデータからなるデータベースを用いて, 補間前(ベースライン)に得られたグラウンド・真理(GT)セグメンテーションとDLセグメンテーションとの比較を行った。 以上の結果から,GTおよびベースライン性能と比較して,画像ベースおよびセグメント化に基づく補間法は,すべてのバイオマーカーに対してBland-Altmanスキャン-Rescan信頼区間を狭めることができた。 心機能の経時的解析には, セグメンテーションの精度だけでなく, バイオマーカーの連続性にも注目が集まっている。

Quantification of cardiac biomarkers from cine cardiovascular magnetic resonance (CMR) data using deep learning (DL) methods offers many advantages, such as increased accuracy and faster analysis. However, only a few studies have focused on the scan-rescan precision of the biomarker estimates, which is important for reproducibility and longitudinal analysis. Here, we propose a cardiac biomarker estimation pipeline that not only focuses on achieving high segmentation accuracy but also on improving the scan-rescan precision of the computed biomarkers, namely left and right ventricular ejection fraction, and left ventricular myocardial mass. We evaluate two approaches to improve the apical-basal resolution of the segmentations used for estimating the biomarkers: one based on image interpolation and one based on segmentation interpolation. Using a database comprising scan-rescan cine CMR data acquired from 92 subjects, we compare the performance of these two methods against ground truth (GT) segmentations and DL segmentations obtained before interpolation (baseline). The results demonstrate that both the image-based and segmentation-based interpolation methods were able to narrow Bland-Altman scan-rescan confidence intervals for all biomarkers compared to the GT and baseline performances. Our findings highlight the importance of focusing not only on segmentation accuracy but also on the consistency of biomarkers across repeated scans, which is crucial for longitudinal analysis of cardiac function.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# MambaCSR:SSMによる圧縮画像の超解像のためのデュアルインターリーブスキャン

MambaCSR: Dual-Interleaved Scanning for Compressed Image Super-Resolution With SSMs ( http://arxiv.org/abs/2408.11758v1 )

ライセンス: Link先を確認
Yulin Ren, Xin Li, Mengxi Guo, Bingchen Li, Shijie Zhao, Zhibo Chen, (参考訳) 本稿では,圧縮画像超解像(CSR)の課題に対して,Mambaをベースとしたシンプルだが効果的なフレームワークであるMambaCSRを提案する。 特にマンバのスキャン戦略は、全てのトークンに対して選択的な状態空間モデリングに依存するにもかかわらず、回復過程において効果的な文脈知識モデリングに不可欠である。 本研究では,2つの走査戦略からなるCSRのための効率的なデュアルインターリーブ・スキャン・パラダイム(DIS)を提案する。 (i)階層型インターリーブスキャンは、局所ウィンドウベースおよびシーケンシャルスキャン手法を併用することにより、画像内の最も潜在的なコンテキスト情報を包括的にキャプチャし、活用するように設計されている。 (II)水平-垂直相互走査法を提案し、異なる方向の走査間の冗長性を残して計算コストを削減する。 また,非一様圧縮アーチファクトを克服するために,複数スケールのコンテキスト情報をモデル化するための位置整列型クロススケールスキャンを提案する。 複数のベンチマークによる実験結果から,圧縮画像超解像課題におけるMambaCSRの優れた性能が示された。 コードは、~\textcolor{magenta}{\url{https://github.com/renyulin-f/MambaCSR}}ですぐに利用可能になる。

We present MambaCSR, a simple but effective framework based on Mamba for the challenging compressed image super-resolution (CSR) task. Particularly, the scanning strategies of Mamba are crucial for effective contextual knowledge modeling in the restoration process despite it relying on selective state space modeling for all tokens. In this work, we propose an efficient dual-interleaved scanning paradigm (DIS) for CSR, which is composed of two scanning strategies: (i) hierarchical interleaved scanning is designed to comprehensively capture and utilize the most potential contextual information within an image by simultaneously taking advantage of the local window-based and sequential scanning methods; (ii) horizontal-to-vertical interleaved scanning is proposed to reduce the computational cost by leaving the redundancy between the scanning of different directions. To overcome the non-uniform compression artifacts, we also propose position-aligned cross-scale scanning to model multi-scale contextual information. Experimental results on multiple benchmarks have shown the great performance of our MambaCSR in the compressed image super-resolution task. The code will be soon available in~\textcolor{magenta}{\url{https://github.com/renyulin-f/MambaCSR}}.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# SBDet:リラクシド・ローテーション・等価性を用いたシンメトリブレーキング対象検出器

SBDet: A Symmetry-Breaking Object Detector via Relaxed Rotation-Equivariance ( http://arxiv.org/abs/2408.11760v1 )

ライセンス: Link先を確認
Zhiqiang Wu, Yingjie Liu, Hanlin Dong, Xuan Tang, Jian Yang, Bo Jin, Mingsong Chen, Xian Wei, (参考訳) GConv(Group Equivariant Convolution)の導入は、モデルに視覚データに隠された対称性を探索する権限を与え、パフォーマンスを向上させる。 しかし、現実のシナリオでは、オブジェクトやシーンは対称系の摂動、特に対称構造からの逸脱を示すことが多く、対称性群(シンメトリーブレーキング)と呼ばれる非自明な作用によって特徴づけられる。 従来のGConv法は群空間の厳密な操作規則によって制限されており、有限群変換の下では特徴が厳密に同変であることを保証するだけであり、シンメトリー・ブレーキングや非剛体変換に適応することが困難である。 これに触発されて、我々は定義した緩和回転-同変群 $\mathbf{R}_4$ を持つ新しい緩和回転 GConv (R2GConv) を導入する。 さらに,Relaxed Rotation-Equivariant Network (R2Net) をバックボーンとして提案し,その上に構築された2次元オブジェクト検出のためのSBDet(Symmetry-Breaking Object Detector)を開発した。 自然画像分類タスクにおいて提案したR2GConvの有効性を実証し、SBDetは一般化能力とロバスト性を改善したオブジェクト検出タスクにおいて優れた性能を実現する。

Introducing Group Equivariant Convolution (GConv) empowers models to explore symmetries hidden in visual data, improving their performance. However, in real-world scenarios, objects or scenes often exhibit perturbations of a symmetric system, specifically a deviation from a symmetric architecture, which can be characterized by a non-trivial action of a symmetry group, known as Symmetry-Breaking. Traditional GConv methods are limited by the strict operation rules in the group space, only ensuring features remain strictly equivariant under limited group transformations, making it difficult to adapt to Symmetry-Breaking or non-rigid transformations. Motivated by this, we introduce a novel Relaxed Rotation GConv (R2GConv) with our defined Relaxed Rotation-Equivariant group $\mathbf{R}_4$. Furthermore, we propose a Relaxed Rotation-Equivariant Network (R2Net) as the backbone and further develop the Symmetry-Breaking Object Detector (SBDet) for 2D object detection built upon it. Experiments demonstrate the effectiveness of our proposed R2GConv in natural image classification tasks, and SBDet achieves excellent performance in object detection tasks with improved generalization capabilities and robustness.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# D-RMGPT:大規模マルチモーダルモデルによるロボット支援協調作業

D-RMGPT: Robot-assisted collaborative tasks driven by large multimodal models ( http://arxiv.org/abs/2408.11761v1 )

ライセンス: Link先を確認
M. Forlini, M. Babcinschi, G. Palmieri, P. Neto, (参考訳) コラボレーションロボットは、仕事や日常のタスクで人間を支援することで、ますます人気が高まっている。 しかし、人間とロボットのコラボレーションのためのインターフェースの設計と設定は困難であり、知覚やロボットタスク制御からハードウェア自体まで、複数のコンポーネントを統合する必要がある。 ロボットが自然に人間と協力できる非構造的な環境を知覚し適応することを可能にする、柔軟で一般的なインターフェースの理想から逸脱する。 これらの課題を克服するために,大型マルチモーダルモデル(LMM)に基づくロボット支援組立プランナである検出ロボット管理GPT(D-RMGPT)を提案する。 このシステムは、マーカーや以前のトレーニングを必要とせずに、アセンブリタスクで経験の浅い演算子を支援することができる。 D-RMGPTはDtGPT-VとR-ManGPTから構成される。 GPT-4V(vision)に基づくDETGPT-Vは、現在の組立ステージのトリガ画像と組み立てるべき部品のリストのワンショット解析により周囲環境を知覚する。 機能やアセンブリの要件を分析して、どのコンポーネントがすでに組み立てられているかを特定する。 GPT-4をベースとしたR-ManGPTは、次のコンポーネントを組み立て、ロボットの個別のアクションを生成して、それを人間の同僚に届ける。 玩具機を組み立てる実験では、D-RMGPTは柔軟で直感的に使用でき、組み立て成功率は83%であり、未経験者の組み立て時間は手作業に比べて33%削減された。 http://robotics-and-ai.github.io/LMMmodels/

Collaborative robots are increasingly popular for assisting humans at work and daily tasks. However, designing and setting up interfaces for human-robot collaboration is challenging, requiring the integration of multiple components, from perception and robot task control to the hardware itself. Frequently, this leads to highly customized solutions that rely on large amounts of costly training data, diverging from the ideal of flexible and general interfaces that empower robots to perceive and adapt to unstructured environments where they can naturally collaborate with humans. To overcome these challenges, this paper presents the Detection-Robot Management GPT (D-RMGPT), a robot-assisted assembly planner based on Large Multimodal Models (LMM). This system can assist inexperienced operators in assembly tasks without requiring any markers or previous training. D-RMGPT is composed of DetGPT-V and R-ManGPT. DetGPT-V, based on GPT-4V(vision), perceives the surrounding environment through one-shot analysis of prompted images of the current assembly stage and the list of components to be assembled. It identifies which components have already been assembled by analysing their features and assembly requirements. R-ManGPT, based on GPT-4, plans the next component to be assembled and generates the robot's discrete actions to deliver it to the human co-worker. Experimental tests on assembling a toy aircraft demonstrated that D-RMGPT is flexible and intuitive to use, achieving an assembly success rate of 83% while reducing the assembly time for inexperienced operators by 33% compared to the manual process. http://robotics-and-ai.github.io/LMMmodels/
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# 準周期モザイク格子における動的挙動の解明

Unraveling the dynamical behaviors in a quasiperiodic mosaic lattice ( http://arxiv.org/abs/2408.11765v1 )

ライセンス: Link先を確認
Yu Zhang, Chenguang Liang, Shu Chen, (参考訳) 準周期的モザイク系は、大きな準周期的ポテンシャル強度領域においても消滅しないような、正確に知られているモザイクエッジを持つ特異なスペクトル特性によって大きな注目を集めているが、その幅は非常に狭くなり、準周期的ポテンシャルの強度の増加とともに減少する。 波動パケットの膨張ダイナミクスと密度分布の進化を精査することにより、長周期密度分布は大きな準周期ポテンシャル強度領域の奇異な場所や場所において明らかに異なる挙動を示すことを示した。 特に、力学の時間スケールは準周期的ポテンシャル強度と逆関係を示す。 これらの振る舞いを理解するために、奇数点と偶数点に定義された疎結合ハミルトニアンからなる、大きな準周期ポテンシャル強度領域において有効ハミルトニアンを導出する。 偶数点上で定義される有効ハミルトニアンのすべての固有状態は局所化されるが、奇数点上で定義される有効ハミルトニアンの固有状態には、局所化と拡張された固有状態の両方が含まれる。 以上の結果から, 実効ハミルトニアンは, 準周期的ポテンシャル強度領域において, 動的挙動をうまく記述することができ, 準周期的モザイク格子の特異な動的挙動を理解するための直感的な枠組みを提供する。

Quasiperiodic mosaic systems have attracted significant attention due to their unique spectral properties with exactly known mobility edges, which do not vanish even in the large quasiperiodic potential strength region, although the width of energy window of extended states becomes very narrow and decreases with the increase of strength of the quasiperiodic potential.In this work we study the dynamics of a quasiperiodic mosaic lattice and unravel its peculiar dynamical properties. By scrutinizing the expansion dynamics of wave packet and the evolution of density distribution, we unveil that the long-time density distribution display obviously different behaviors at odd and even sites in the large quasiperiodic potential strength region. Particularly, the time scale of dynamics exhibits an inverse relationship with the quasiperiodic potential strength. To understand these behaviors, we derive an effective Hamiltonian in the large quasiperiodic potential strength region, which is composed of decoupled Hamiltonians defined on the odd and even sites, respectively. While all eigenstates of the effective Hamiltonian defined on even sites are localized, the eigenstates of effective Hamiltonian defined on odd sites include both localized and extended eigenstates. Our results demonstrate that the effective Hamiltonian can describe the dynamical behaviors well in the large quasiperiodic potential strength region and provides an intuitive framework for understanding the peculiar dynamical behaviors in the quasiperiodic mosaic lattice.
翻訳日:2024-08-22 16:18:16 公開日:2024-08-21
# ラグランジュ双対性によるモデルフリースペクトル再構成

Model-free spectral reconstruction via Lagrange duality ( http://arxiv.org/abs/2408.11766v1 )

ライセンス: Link先を確認
Scott Lawrence, (参考訳) リアルタイム応答、包括的断面積、崩壊率を含む様々な物理量は、ユークリッドの相関子から直接は決定できない可能性がある。 しかし、それらはスペクトル密度から容易に決定され、ユークリッド相関器からスペクトル密度を推定するタスクを動機付けている。 このスペクトル再構成問題は、ユークリッドデータと整合したスペクトル密度関数の領域上の有限サイズの境界が得られるような正の制約を取り入れた不測の逆ラプラス変換として記述することができる。 凸最適化問題として再構成問題を表現し、ラグランジュ双対性を利用することにより、ユークリッドデータからスペクトル密度の任意の積分上の境界を求めることができる。 本稿では,スミアドスペクトル密度の再構成とスミアドリアルタイム進化の決定に本手法を適用した。 この形式の境界は情報理論的に完全であり、境界内の任意の点について、有界ユークリッドデータと肯定値の両方に一致する関連するスペクトル密度を見出すことができる。

Various physical quantities -- including real-time response, inclusive cross-sections, and decay rates -- may not be directly determined from Euclidean correlators. They are, however, easily determined from the spectral density, motivating the task of estimating a spectral density from a Euclidean correlator. This spectral reconstruction problem can be written as an ill-posed inverse Laplace transform; incorporating positivity constraints allows one to obtain finite-sized bounds on the region of spectral density functions consistent with the Euclidean data. Expressing the reconstruction problem as a convex optimization problem and exploiting Lagrange duality, bounds on arbitrary integrals of the spectral density can be efficiently obtained from Euclidean data. This paper applies this approach to reconstructing a smeared spectral density and determining smeared real-time evolution. Bounds of this form are information-theoretically complete, in the sense that for any point within the bounds one may find an associated spectral density consistent with both the available Euclidean data and positivity.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# 太陽フレア予測改善のための二元損失関数への埋め込み規則

Embedding Ordinality to Binary Loss Function for Improving Solar Flare Forecasting ( http://arxiv.org/abs/2408.11768v1 )

ライセンス: Link先を確認
Chetraj Pandey, Anli Ji, Jinsu Hong, Rafal A. Angryk, Berkay Aydin, (参考訳) 本稿では,2次クロスエントロピー(BCE)損失関数に内在する順序フレア特性を埋め込むことにより,2次フレア予測問題の最適化を目的とした新しい損失関数を提案する。 この修正は、データの順序特性に基づいてモデルにより良いガイダンスを与え、モデル全体の性能を改善することを目的としている。 我々の実験では、転写学習を用いたResNet34ベースのモデルを用いて、入力データとして90$^{\circ}$から90$^{\circ}$までの活動領域(AR)の磁気グラムの形状に基づく特徴を利用して、$\geq$Mクラスのフレアを予測する。 評価指標として複合スキルスコア(CSS)を用いて,True Skill Score (TSS) とHeidke Skill Score (HSS) の幾何平均として算出し,モデルの性能を比較した。 この作品の主な貢献は次の通りである。 (i)太陽フレア予測への応用を示す二項損失関数にオーディナリティをエンコードする新しい手法を導入する。 2) 太陽円板全体にわたる各ARのフレア予測を縦方向の制約なく可能とし, 性能評価・比較を行うことにより, 太陽フレア予測を強化した。 (iii)提案した損失関数を最適化した候補モデルでは,標準的なBCEと比較すると,標準的なBCEに比べて,それぞれ$\sim$7%,$\sim$4%,$\sim$3%のARパッチに対する$\pm$30$^\circ$,$\pm$60$^\circ$,$\pm$90$^\circ$,$\pm$90$^\circ$の改善が見られた。 さらに、太陽フレア予測のためのARベースのモデルの範囲を広げ、太陽フレア予測をCSS=0.34 (TSS=0.50 と HSS=0.23) で、近レベル領域($\pm$60$^{\circ}$から$\pm$90$^{\circ}$までの領域)でARのフレア予測を発行する機能を示した。 これにより太陽フレア予測の信頼性が向上し、より効果的な予測能力がもたらされる。

In this paper, we propose a novel loss function aimed at optimizing the binary flare prediction problem by embedding the intrinsic ordinal flare characteristics into the binary cross-entropy (BCE) loss function. This modification is intended to provide the model with better guidance based on the ordinal characteristics of the data and improve the overall performance of the models. For our experiments, we employ a ResNet34-based model with transfer learning to predict $\geq$M-class flares by utilizing the shape-based features of magnetograms of active region (AR) patches spanning from $-$90$^{\circ}$ to $+$90$^{\circ}$ of solar longitude as our input data. We use a composite skill score (CSS) as our evaluation metric, which is calculated as the geometric mean of the True Skill Score (TSS) and the Heidke Skill Score (HSS) to rank and compare our models' performance. The primary contributions of this work are as follows: (i) We introduce a novel approach to encode ordinality into a binary loss function showing an application to solar flare prediction, (ii) We enhance solar flare forecasting by enabling flare predictions for each AR across the entire solar disk, without any longitudinal restrictions, and evaluate and compare performance. (iii) Our candidate model, optimized with the proposed loss function, shows an improvement of $\sim$7%, $\sim$4%, and $\sim$3% for AR patches within $\pm$30$^\circ$, $\pm$60$^\circ$, and $\pm$90$^\circ$ of solar longitude, respectively in terms of CSS, when compared with standard BCE. Additionally, we demonstrate the ability to issue flare forecasts for ARs in near-limb regions (regions between $\pm$60$^{\circ}$ to $\pm$90$^{\circ}$) with a CSS=0.34 (TSS=0.50 and HSS=0.23), expanding the scope of AR-based models for solar flare prediction. This advances the reliability of solar flare forecasts, leading to more effective prediction capabilities.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# 仮想没入型現実感における静電活動モニタリングによる市街地の歩行者ストレスの復号

Decoding Pedestrian Stress on Urban Streets using Electrodermal Activity Monitoring in Virtual Immersive Reality ( http://arxiv.org/abs/2408.11769v1 )

ライセンス: Link先を確認
Mohsen Nazemi, Bara Rababah, Daniel Ramos, Tangxu Zhao, Bilal Farooq, (参考訳) 歩行者のストレスレベルは、人間の認知過程に大きく影響し、その後、例えば、ギャップを選択して通りを横断する決定を下すことが示される。 本稿では,GSR(Galvanic Skin Response)センサを用いて電気動電活動(EDA)をモニタリングすることにより,歩行者が異なる操作で道路を横断する際のストレスを系統的に研究する。 研究目的を達成するために,動的な没入型バーチャルリアリティ(VR)プラットフォームを用いた。 実験には合計171人の個人が参加し、信号制御なしで中間ブロックで双方向の道路を横断する任務を負った。 混在効果モデルを用いて, 社会デコグラフィ, 社会影響, 車両技術, 環境, 道路設計, 交通変数が参加者のストレスレベルに与える影響を比較した。 その結果,道路中央中央の道路が避難所として機能し,ストレスが著しく減少した。 若年者(18~24歳)は,比較的高齢者(55~65歳)よりも穏やかであった。 シミュレーションにおけるアバター(仮想歩行者)の特徴,特に冒険的な特徴を持つアバターについて,覚醒レベルが高かった。 歩行者の位置は、歩道で待機するよりも道路上でのストレスが高いため、ストレスに影響した。 覚醒の重大な原因は、事故の恐れと歩行者の実際の事故であった。 推定されたランダム効果は、シナリオを通過しながら、参加者による高度な身体的および精神的な学習を示す。

The pedestrian stress level is shown to significantly influence human cognitive processes and, subsequently, decision-making, e.g., the decision to select a gap and cross a street. This paper systematically studies the stress experienced by a pedestrian when crossing a street under different experimental manipulations by monitoring the ElectroDermal Activity (EDA) using the Galvanic Skin Response (GSR) sensor. To fulfil the research objectives, a dynamic and immersive virtual reality (VR) platform was used, which is suitable for eliciting and capturing pedestrian's emotional responses in conjunction with monitoring their EDA. A total of 171 individuals participated in the experiment, tasked to cross a two-way street at mid-block with no signal control. Mixed effects models were employed to compare the influence of socio-demographics, social influence, vehicle technology, environment, road design, and traffic variables on the stress levels of the participants. The results indicated that having a street median in the middle of the road operates as a refuge and significantly reduced stress. Younger participants were (18-24 years) calmer than the relatively older participants (55-65 years). Arousal levels were higher when it came to the characteristics of the avatar (virtual pedestrian) in the simulation, especially for those avatars with adventurous traits. The pedestrian location influenced stress since the stress was higher on the street while crossing than waiting on the sidewalk. Significant causes of arousal were fear of accidents and an actual accident for pedestrians. The estimated random effects show a high degree of physical and mental learning by the participants while going through the scenarios.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# VIRIS:建築設計と人身移動を組み合わせた屋内空輸のシミュレーション

VIRIS: Simulating indoor airborne transmission combining architectural design and people movement ( http://arxiv.org/abs/2408.11772v1 )

ライセンス: Link先を確認
Yidan Xue, Wassim Jabi, Thomas E. Woolley, Katerina Kaouri, (参考訳) ウイルス感染リスク屋内シミュレータ (VIRIS) が開発され, 感染拡大の緩和効果を迅速に評価し, 比較している。 このエージェントベースのシミュレーターは、屋内空間での人々の動き、バイラルトランスミッションモデリング、詳細なアーキテクチャ設計を組み合わせ、オープンソースのPythonライブラリであるトポロジックで動く。 VIRISは、特定の空間を移動する個人に対して、ウイルス濃度と時空間感染のリスクを非常に高速に予測する。 シミュレータは、法廷スーパースプレッダイベントのデータで検証される。 また、未知パラメータ値に対する感度調査を行う。 我々は、英国政府のガイダンスで発行されたいくつかの非医薬品介入(NPI)を、ケアホームとスーパーマーケットの2つの屋内環境で比較した。 さらに,ユーザフレンドリーなVIRIS Webアプリを開発し,多様な関心事や可視化のシナリオを素早く探索し,政策立案者,建築家,宇宙管理者が屋内空間における感染リスクを容易に設計・評価することができるようにした。

A Viral Infection Risk Indoor Simulator (VIRIS) has been developed to quickly assess and compare mitigations for airborne disease spread. This agent-based simulator combines people movement in an indoor space, viral transmission modelling and detailed architectural design, and it is powered by topologicpy, an open-source Python library. VIRIS generates very fast predictions of the viral concentration and the spatiotemporal infection risk for individuals as they move through a given space. The simulator is validated with data from a courtroom superspreader event. A sensitivity study for unknown parameter values is also performed. We compare several non-pharmaceutical interventions (NPIs) issued in UK government guidance, for two indoor settings: a care home and a supermarket. Additionally, we have developed the user-friendly VIRIS web app that allows quick exploration of diverse scenarios of interest and visualisation, allowing policymakers, architects and space managers to easily design or assess infection risk in an indoor space.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# 強化学習を伴う2プレイヤー最適実行ゲームにおけるナッシュ平衡からの逸脱と暗黙の共謀の発生

Deviations from the Nash equilibrium and emergence of tacit collusion in a two-player optimal execution game with reinforcement learning ( http://arxiv.org/abs/2408.11773v1 )

ライセンス: Link先を確認
Fabrizio Lillo, Andrea Macrì, (参考訳) 金融取引における強化学習アルゴリズムの利用が増えている。 しかし、これらのアルゴリズムの自律性は、従来のゲーム理論の予測から逸脱し、市場を不安定化させるような予期せぬ結果をもたらす可能性がある。 本研究では,Double Deep Q-Learningをモデルとした2つの自律エージェントが市場影響の有無で同じ資産を最適に清算することを学ぶシナリオについて,Almgren-Chriss (2000) フレームワークを用いて検討した。 その結果,エージェントが学んだ戦略は,対応する市場影響ゲームのナッシュ均衡から大きく逸脱していることがわかった。 特に、学習した戦略は暗黙の共謀を示し、パレート最適解と密接に一致している。 さらに、市場のボラティリティのレベルがエージェントのパフォーマンスと彼らが発見する均衡にどのように影響するかについても検討する。

The use of reinforcement learning algorithms in financial trading is becoming increasingly prevalent. However, the autonomous nature of these algorithms can lead to unexpected outcomes that deviate from traditional game-theoretical predictions and may even destabilize markets. In this study, we examine a scenario in which two autonomous agents, modeled with Double Deep Q-Learning, learn to liquidate the same asset optimally in the presence of market impact, using the Almgren-Chriss (2000) framework. Our results show that the strategies learned by the agents deviate significantly from the Nash equilibrium of the corresponding market impact game. Notably, the learned strategies exhibit tacit collusion, closely aligning with the Pareto-optimal solution. We further explore how different levels of market volatility influence the agents' performance and the equilibria they discover, including scenarios where volatility differs between the training and testing phases.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# 長期サポートによる微調整型検索生成の活用:3GPP標準について

Leveraging Fine-Tuned Retrieval-Augmented Generation with Long-Context Support: For 3GPP Standards ( http://arxiv.org/abs/2408.11775v1 )

ライセンス: Link先を確認
Omar Erak, Nouf Alabbasi, Omar Alhussein, Ismail Lotfi, Amr Hussein, Sami Muhaidat, Merouane Debbah, (参考訳) 近年の研究では、大規模言語モデル(LLM)が電気通信の技術的標準と競合していることが示されている。 本稿では,Phi-2小言語モデル(SLM)に基づく細調整検索拡張生成(RAG)システムを提案する。 提案システムでは, 文書形式を効果的に処理できるように, 前方のセマンティックチャンキングを活用して, 組込み類似性に基づく解析ブレークポイントを適応的に決定する。 技術的標準における複数の類似したコンテキストの課題に対処するために、最も関連性の高いチャンクを優先順位付けするために、再ランクアルゴリズムを用いる。 Phi-2の小さなコンテキストウィンドウの制限を認識して、推論中にコンテキストウィンドウを拡張する手法であるSelfExtendを実装します。 微調整には、ローランク適応(LoRA)技術を用いて、訓練中の計算効率を向上し、小さなデータセット上で効果的な微調整を可能にする。 本稿では,GPT-4(約880倍の規模)などの大規模言語モデルを上回る性能を実現するため,通信領域における既存の問合せ手法よりも大幅に改善されていることを示す。 本研究は、SLMを通信ネットワークに活用するための新しいアプローチを示し、効率と性能のバランスを提供する。 この研究は、ネットワークのエージェント言語モデルの基礎として機能する。

Recent studies show that large language models (LLMs) struggle with technical standards in telecommunications. We propose a fine-tuned retrieval-augmented generation (RAG) system based on the Phi-2 small language model (SLM) to serve as an oracle for communication networks. Our developed system leverages forward-looking semantic chunking to adaptively determine parsing breakpoints based on embedding similarity, enabling effective processing of diverse document formats. To handle the challenge of multiple similar contexts in technical standards, we employ a re-ranking algorithm to prioritize the most relevant retrieved chunks. Recognizing the limitations of Phi-2's small context window, we implement a recent technique, namely SelfExtend, to expand the context window during inference, which not only boosts the performance but also can accommodate a wider range of user queries and design requirements from customers to specialized technicians. For fine-tuning, we utilize the low-rank adaptation (LoRA) technique to enhance computational efficiency during training and enable effective fine-tuning on small datasets. Our comprehensive experiments demonstrate substantial improvements over existing question-answering approaches in the telecom domain, achieving performance that exceeds larger language models such as GPT-4 (which is about 880 times larger in size). This work presents a novel approach to leveraging SLMs for communication networks, offering a balance of efficiency and performance. This work can serve as a foundation towards agentic language models for networks.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# 正方形回路のまとめ

Sum of Squares Circuits ( http://arxiv.org/abs/2408.11778v1 )

ライセンス: Link先を確認
Lorenzo Loconte, Stefan Mengel, Antonio Vergari, (参考訳) 正確かつ効率的な推論をサポートする表現的生成モデルの設計は確率的MLの中核的な問題である。 確率回路(PC)は、このトラクタビリティvs表現性トレードオフを理論的に分析できる枠組みを提供する。 近年, 負パラメータによる減算混合を符号化する2乗PCは, モノトニックPCよりも指数関数的に表現可能なトラクタブルモデルとして出現している。 本稿では,これらのモデル間の表現性関係のより正確な理論的特徴について述べる。 まず、正方形PCが単調なPCよりも表現力が少ないことを証明する。 第二に、二乗PCと単調PCより指数関数的に表現しやすい新しい種類のPCを定式化する。 四角形PCの総和にあたり、ボルンマシンやPSDモデルなどの異なるトラクタブルモデルクラスを正確に統一・分離できる表現性階層を構築し、さらに最近、複雑なパラメータを用いてトラクタブル確率モデルを導入した。 最後に,分布推定における正方形回路の和の有効性を実証的に示す。

Designing expressive generative models that support exact and efficient inference is a core question in probabilistic ML. Probabilistic circuits (PCs) offer a framework where this tractability-vs-expressiveness trade-off can be analyzed theoretically. Recently, squared PCs encoding subtractive mixtures via negative parameters have emerged as tractable models that can be exponentially more expressive than monotonic PCs, i.e., PCs with positive parameters only. In this paper, we provide a more precise theoretical characterization of the expressiveness relationships among these models. First, we prove that squared PCs can be less expressive than monotonic ones. Second, we formalize a novel class of PCs -- sum of squares PCs -- that can be exponentially more expressive than both squared and monotonic PCs. Around sum of squares PCs, we build an expressiveness hierarchy that allows us to precisely unify and separate different tractable model classes such as Born Machines and PSD models, and other recently introduced tractable probabilistic models by using complex parameters. Finally, we empirically show the effectiveness of sum of squares circuits in performing distribution estimation.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# 大規模言語モデルのパーソナリティアライメント

Personality Alignment of Large Language Models ( http://arxiv.org/abs/2408.11779v1 )

ライセンス: Link先を確認
Minjun Zhu, Linyi Yang, Yue Zhang, (参考訳) 大規模言語モデル(LLM)のコーディネートのための現在の手法は、一般的に一般的な人間の価値観や振る舞いを反映することを目的としているが、個々のユーザのユニークな特徴や好みを捉えるのに失敗することが多い。 このギャップに対処するために、パーソナリティアライメントの概念を導入する。 このアプローチは、個々のユーザや近縁なグループの特定の嗜好に合うように、LSMの反応と決定を調整します。 心理測定から着想を得たPersonality Alignment with Personality Inventories(PAPI)データセットを作成した。 このデータセットにより、LLMが各被験者の行動パターンに適合する範囲を定量的に評価できる。 個人データや多様な嗜好,拡張性要件など,個性アライメントの課題を認識し,アクティベーション介入最適化手法を開発した。 この手法は、最小限のデータと計算資源を用いて、個人の行動選好に効率的に適合するLLMの能力を向上する。 そこで本手法は, DPOに比べて1/5の最適化時間しか必要とせず, 優れた性能を実現し, 人格アライメントに実用的価値を提供する。 我々の研究は、未来のAIシステムが真にパーソナライズされた方法で意思決定と推論をする方法を開拓し、ユーザーごとのAIインタラクションの関連性と意味を高め、人間中心の人工知能を推進し、コードは \url{https://github.com/zhu-minjun/Palign} でリリースされた。

Current methods for aligning large language models (LLMs) typically aim to reflect general human values and behaviors, but they often fail to capture the unique characteristics and preferences of individual users. To address this gap, we introduce the concept of Personality Alignment. This approach tailors LLMs' responses and decisions to match the specific preferences of individual users or closely related groups. Inspired by psychometrics, we created the Personality Alignment with Personality Inventories (PAPI) dataset, which includes data from 300,000 real subjects, each providing behavioral preferences based on the Big Five Personality Factors. This dataset allows us to quantitatively evaluate the extent to which LLMs can align with each subject's behavioral patterns. Recognizing the challenges of personality alignments: such as limited personal data, diverse preferences, and scalability requirements: we developed an activation intervention optimization method. This method enhances LLMs' ability to efficiently align with individual behavioral preferences using minimal data and computational resources. Remarkably, our method, PAS, achieves superior performance while requiring only 1/5 of the optimization time compared to DPO, offering practical value for personality alignment. Our work paves the way for future AI systems to make decisions and reason in truly personality ways, enhancing the relevance and meaning of AI interactions for each user and advancing human-centered artificial intelligence.The code has released in \url{https://github.com/zhu-minjun/PAlign}.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# フェア・フェデレーション・ラーニングを用いたRFIDベースのヘルス・アジェンス・メディカル・ケース

RFID based Health Adherence Medicine Case Using Fair Federated Learning ( http://arxiv.org/abs/2408.11782v1 )

ライセンス: Link先を確認
Ali Kamrani khodaei, Sina Hajer Ahmadi, (参考訳) 薬物非依存は治療の効果を著しく低下させるが、患者の間では広く用いられている。 非遺伝性は、死亡や入院のリスクの増加など、有害な結果に結びついている。 Intelligent Drug Administration System(IDAS)やSmart Blisterなど、患者が薬のスケジュールを追跡するための様々な方法が存在するが、これらのツールは商業的生存を妨げている課題に直面することが多い。 IoTにおける量測定と情報通信の原則に基づいて、RFIDベースのデータ記録とNFCベースのデータ抽出を活用するスマートヘルスアテンデンスツールであるSmart Pill Caseを紹介した。 このシステムには、正確な量測定のためのロードセルが含まれており、薬の摂取をモニターし、提案し、警告を発するAndroidアプリを備えている。 スマート・ピル・ケースの有効性とパーソナライゼーションを高めるため,本システムにフェデレーション学習を統合することを提案する。 フェデレートラーニングにより、Smart Pill Caseは、個々のプライバシーを損なうことなく、複数のユーザの薬の付着パターンから学ぶことができる。 さまざまなSmart Pill Casesから収集された分散データに基づいて機械学習モデルをトレーニングすることにより、システムは、ユーザのさまざまなニーズや行動に適応して、推奨と警告を継続的に改善することができる。 このアプローチは、薬の付着をサポートするツール機能を強化するだけでなく、機密性の高いユーザデータが安全でプライベートであることを保証する。

Medication nonadherence significantly reduces the effectiveness of therapies, yet it remains prevalent among patients. Nonadherence has been linked to adverse outcomes, including increased risks of mortality and hospitalization. Although various methods exist to help patients track medication schedules, such as the Intelligent Drug Administration System (IDAS) and Smart Blister, these tools often face challenges that hinder their commercial viability. Building on the principles of dosage measurement and information communication in IoT, we introduce the Smart Pill Case a smart health adherence tool that leverages RFID-based data recording and NFC-based data extraction. This system incorporates a load cell for precise dosage measurement and features an Android app to monitor medication intake, offer suggestions, and issue warnings. To enhance the effectiveness and personalization of the Smart Pill Case, we propose integrating federated learning into the system. Federated learning allows the Smart Pill Case to learn from medication adherence patterns across multiple users without compromising individual privacy. By training machine learning models on decentralized data collected from various Smart Pill Cases, the system can continuously improve its recommendations and warnings, adapting to the diverse needs and behaviors of users. This approach not only enhances the tools ability to support medication adherence but also ensures that sensitive user data remains secure and private.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# ビデオシャドウ検出のための時間・境界誘導拡散ネットワーク

Timeline and Boundary Guided Diffusion Network for Video Shadow Detection ( http://arxiv.org/abs/2408.11785v1 )

ライセンス: Link先を確認
Haipeng Zhou, Honqiu Wang, Tian Ye, Zhaohu Xing, Jun Ma, Ping Li, Qiong Wang, Lei Zhu, (参考訳) ビデオシャドウ検出(VSD)は、フレームシーケンスでシャドウマスクを検出することを目的としている。 現存する作品は、非効率な時間学習に悩まされている。 さらに、影の特性(すなわち境界)を考慮することでVSD問題に対処する研究はほとんどない。 そこで本稿では,過去の時間的ガイダンスと境界情報の併用を考慮した,VSDのためのTimeline and boundary Guided Diffusion (TBGDiff) ネットワークを提案する。 本稿では,ビデオクリップの長期フレームと短期フレームの親和性を再考することにより,時間的理解を深めるDual Scale Aggregation (DSA) モジュールを設計する。 次に,シャドーバウンダリ・アウェア・アテンション(SBAA)を導入し,シャドーの特性を捉えるためにエッジコンテキストを利用する。 さらに,我々は,空間時間符号化埋め込み (STEE) を探索し,影検出を行うための拡散の時間的ガイダンスを注入する,VSDの拡散モデルを導入する。 これらの設計に相応しいので、われわれのモデルは時間的情報だけでなく、影の性質も捉えることができる。 大規模な実験により、我々の手法は最先端の手法を超越し、我々のコンポーネントの有効性を検証した。 We release the codes, weights and results at \url{https://github.com/haipengzhou856/TBGDiff}

Video Shadow Detection (VSD) aims to detect the shadow masks with frame sequence. Existing works suffer from inefficient temporal learning. Moreover, few works address the VSD problem by considering the characteristic (i.e., boundary) of shadow. Motivated by this, we propose a Timeline and Boundary Guided Diffusion (TBGDiff) network for VSD where we take account of the past-future temporal guidance and boundary information jointly. In detail, we design a Dual Scale Aggregation (DSA) module for better temporal understanding by rethinking the affinity of the long-term and short-term frames for the clipped video. Next, we introduce Shadow Boundary Aware Attention (SBAA) to utilize the edge contexts for capturing the characteristics of shadows. Moreover, we are the first to introduce the Diffusion model for VSD in which we explore a Space-Time Encoded Embedding (STEE) to inject the temporal guidance for Diffusion to conduct shadow detection. Benefiting from these designs, our model can not only capture the temporal information but also the shadow property. Extensive experiments show that the performance of our approach overtakes the state-of-the-art methods, verifying the effectiveness of our components. We release the codes, weights, and results at \url{https://github.com/haipengzhou856/TBGDiff}.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# NuSegDG:領域一般化核分割のための不均一空間とガウス核の統合

NuSegDG: Integration of Heterogeneous Space and Gaussian Kernel for Domain-Generalized Nuclei Segmentation ( http://arxiv.org/abs/2408.11787v1 )

ライセンス: Link先を確認
Zhenye Lou, Qing Xu, Zekun Jiang, Xiangjian He, Zhen Chen, Yi Wang, Chenxin Li, Maggie M. He, Wenting Duan, (参考訳) ドメイン一般化核セグメンテーション(ドメイン一般化核セグメンテーション、Domain Generalized Nuclear segmentation)とは、ソースドメインから学んだ知識に基づいて、モデルが見えない領域に一般化可能であることをいう。 近年,Segment Anything Model (SAM) はインタラクティブなプロンプトモード(例えば,ポイント,ボックス)による画像分割において大きな成功を収めている。 その強さにもかかわらず、オリジナルのSAMは医療画像への適応が限られている。 さらにSAMは、各オブジェクトが良好なセグメンテーションマスクを生成するために、手動でバウンディングボックスプロンプトを提供する必要があるため、核セグメンテーションのシナリオでは精力的である。 これらの制約に対処するため、NuSegDGと略される核画像分割のためのドメイン一般化可能なフレームワークを提案する。 具体的には、まず、SAMの画像エンコーダに少数のトレーニング可能なパラメータを注入することにより、異なる核ドメインの多次元特徴表現を学習するために、異種空間適応器(HS-Adapter)を考案する。 手動プロンプトの労働集約的な要求を軽減するため,単一点で駆動される密度マップを生成するガウス・ケルネル・プロンプトエンコーダ(GKP-エンコーダ)を導入し,位置プロンプトと意味プロンプトを混合してセグメンテーション予測を導出する。 さらに,2段階マスクデコーダ(TSM-Decoder)を提案する。 実験により,提案したNuSegDGは,核インスタンス分割における最先端の性能を示し,ドメインの一般化能力に優れていた。 ソースコードはhttps://github.com/xq141839/NuSegDGで入手できる。

Domain-generalized nuclei segmentation refers to the generalizability of models to unseen domains based on knowledge learned from source domains and is challenged by various image conditions, cell types, and stain strategies. Recently, the Segment Anything Model (SAM) has made great success in universal image segmentation by interactive prompt modes (e.g., point and box). Despite its strengths, the original SAM presents limited adaptation to medical images. Moreover, SAM requires providing manual bounding box prompts for each object to produce satisfactory segmentation masks, so it is laborious in nuclei segmentation scenarios. To address these limitations, we propose a domain-generalizable framework for nuclei image segmentation, abbreviated to NuSegDG. Specifically, we first devise a Heterogeneous Space Adapter (HS-Adapter) to learn multi-dimensional feature representations of different nuclei domains by injecting a small number of trainable parameters into the image encoder of SAM. To alleviate the labor-intensive requirement of manual prompts, we introduce a Gaussian-Kernel Prompt Encoder (GKP-Encoder) to generate density maps driven by a single point, which guides segmentation predictions by mixing position prompts and semantic prompts. Furthermore, we present a Two-Stage Mask Decoder (TSM-Decoder) to effectively convert semantic masks to instance maps without the manual demand for morphological shape refinement. Based on our experimental evaluations, the proposed NuSegDG demonstrates state-of-the-art performance in nuclei instance segmentation, exhibiting superior domain generalization capabilities. The source code is available at https://github.com/xq141839/NuSegDG.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# DreamFactory:マルチエージェントフレームワークによるマルチシーンロングビデオ生成のパイオニア化

DreamFactory: Pioneering Multi-Scene Long Video Generation with a Multi-Agent Framework ( http://arxiv.org/abs/2408.11788v1 )

ライセンス: Link先を確認
Zhifei Xie, Daniel Tang, Dingwei Tan, Jacques Klein, Tegawend F. Bissyand, Saad Ezzini, (参考訳) 現在のビデオ生成モデルは、短くてリアルなクリップを作るのに優れていますが、より長いマルチシーンビデオで苦労しています。 この課題に対処する LLM ベースのフレームワークである \texttt{DreamFactory} を紹介します。 \texttt{DreamFactory}は、マルチエージェントコラボレーションの原則とKey Frames Iteration Design Methodを活用して、長いビデオ間の一貫性とスタイルを保証する。 思考の連鎖(COT)を利用して、大きな言語モデルに固有の不確実性に対処する。 \texttt{DreamFactory} は長く、スタイリスティックに一貫性があり、複雑なビデオを生成する。 これらの長大なビデオを評価することは難題だ。 本稿では,クロスシーン顔距離スコアやクロスシーンスタイル一貫性スコアなどの新しい指標を提案する。 この領域のさらなる研究のために,150本以上の人格映像を含むマルチシーン映像データセットを寄贈する。

Current video generation models excel at creating short, realistic clips, but struggle with longer, multi-scene videos. We introduce \texttt{DreamFactory}, an LLM-based framework that tackles this challenge. \texttt{DreamFactory} leverages multi-agent collaboration principles and a Key Frames Iteration Design Method to ensure consistency and style across long videos. It utilizes Chain of Thought (COT) to address uncertainties inherent in large language models. \texttt{DreamFactory} generates long, stylistically coherent, and complex videos. Evaluating these long-form videos presents a challenge. We propose novel metrics such as Cross-Scene Face Distance Score and Cross-Scene Style Consistency Score. To further research in this area, we contribute the Multi-Scene Videos Dataset containing over 150 human-rated videos.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# 批評-アウト・ロード・リワードモデル

Critique-out-Loud Reward Models ( http://arxiv.org/abs/2408.11791v1 )

ライセンス: Link先を確認
Zachary Ankner, Mansheej Paul, Brandon Cui, Jonathan D. Chang, Prithviraj Ammanabrolu, (参考訳) 伝統的に、人間フィードバック(RLHF)からの強化学習に使用される報酬モデルは、基礎となる大規模言語モデル(LLM)の生成能力を活用することなく、好みのスコアを直接予測するように訓練されている。 これは、応答の品質について暗黙的に推論する必要があるため、報酬モデルの能力を制限する。 報酬モデルが応答の質を明示的に判断できるようにするため、報酬モデル(CLoud)を導入する。 CLoud報酬モデルは、まずアシスタントの応答に対する自然言語の批評を生成し、次に応答の品質に対するスカラー報酬を予測する。 Llama-3-8Bベースモデルと70Bベースモデルの両方に対するCLoud報酬モデルの成功例を示す:古典的な報酬モデルと比較して、CLoud報酬モデルはRewardBench上でのペアワイズ選好分類の精度を、それぞれ8Bベースモデルと70Bベースモデルで5.84ポイント改善する。 さらに、CLoud報酬モデルは、ベスト・オブ・Nのスコアモデルとして使用される場合、ArenaHardでの勝利率に対するParetoの改善につながる。 最後に,CLoud報酬モデルの動的推論計算能力を,報酬予測のための自己整合デコーディングによって活用する方法を検討する。

Traditionally, reward models used for reinforcement learning from human feedback (RLHF) are trained to directly predict preference scores without leveraging the generation capabilities of the underlying large language model (LLM). This limits the capabilities of reward models as they must reason implicitly about the quality of a response, i.e., preference modeling must be performed in a single forward pass through the model. To enable reward models to reason explicitly about the quality of a response, we introduce Critique-out-Loud (CLoud) reward models. CLoud reward models operate by first generating a natural language critique of the assistant's response that is then used to predict a scalar reward for the quality of the response. We demonstrate the success of CLoud reward models for both Llama-3-8B and 70B base models: compared to classic reward models CLoud reward models improve pairwise preference classification accuracy on RewardBench by 4.65 and 5.84 percentage points for the 8B and 70B base models respectively. Furthermore, CLoud reward models lead to a Pareto improvement for win rate on ArenaHard when used as the scoring model for Best-of-N. Finally, we explore how to exploit the dynamic inference compute capabilities of CLoud reward models by performing self-consistency decoding for reward prediction.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# 光ISAC:基本性能限界とトランシーバ設計

Optical ISAC: Fundamental Performance Limits and Transceiver Design ( http://arxiv.org/abs/2408.11792v1 )

ライセンス: Link先を確認
Alireza Ghazavi Khorasgani, Mahtab Mirmohseni, Ahmed Elzanaty, (参考訳) 本稿では,通信用シングルインプット・シングルアウトプットとセンサ用シングルインプット・マルチアウトプット(SISO-SIMO-C/S)を備えた光点間通信(P2P)システムにおける最適容量歪み(C-D)トレードオフを,統合センシング通信(ISAC)フレームワーク内で特徴付ける。 本稿では,非共役前と非共役前との非線形計測・状態関係に対処するため,実践的,漸近的に最適最大距離推定器 (MAP) と目標距離推定器 (MLE) を導入する。 その結果,センサアンテナの増加に伴い,これらの推定器はベイズ・クレーマー・ラオ境界(BCRB)に収束することがわかった。 また、達成可能なレートCRB(AR-CRB)が最適C-D領域の外部境界(OB)となることを示す。 C-D領域のパレート境界における入力分布を最適化するために,Blahut-Arimotoアルゴリズム(BAA)方式と,高光信号-雑音比(O-SNR)条件に対するCF最適分布を含む,メモリ効率のクローズドフォーム(CF)方式の2つのアルゴリズムを提案する。 さらに、この光学ISACコンテキストに決定論的・ランダムトレードオフ(DRT)を拡張し、修正する。

This paper characterizes the optimal capacity-distortion (C-D) tradeoff in an optical point-to-point (P2P) system with single-input single-output for communication and single-input multiple-output for sensing (SISO-SIMO-C/S) within an integrated sensing and communication (ISAC) framework. We introduce practical, asymptotically optimal maximum a posteriori (MAP) and maximum likelihood estimators (MLE) for target distance, addressing nonlinear measurement-to-state relationships and non-conjugate priors. Our results show these estimators converge to the Bayesian Cramer-Rao bound (BCRB) as sensing antennas increase. We also demonstrate that the achievable rate-CRB (AR-CRB) serves as an outer bound (OB) for the optimal C-D region. To optimize input distribution across the Pareto boundary of the C-D region, we propose two algorithms: an iterative Blahut-Arimoto algorithm (BAA)-type method and a memory-efficient closed-form (CF) approach, including a CF optimal distribution for high optical signal-to-noise ratio (O-SNR) conditions. Additionally, we extend and modify the Deterministic-Random Tradeoff (DRT) to this optical ISAC context.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# 触媒・材料設計のための多エージェントワークフローにおける構造重視検索生成のための化学基礎モデルの活用

Leveraging Chemistry Foundation Models to Facilitate Structure Focused Retrieval Augmented Generation in Multi-Agent Workflows for Catalyst and Materials Design ( http://arxiv.org/abs/2408.11793v1 )

ライセンス: Link先を確認
Nathaniel H. Park, Tiffany J. Callahan, James L. Hedrick, Tim Erdmann, Sara Capponi, (参考訳) 分子特性予測と深層学習モデルによる生成設計は、新しい高性能材料の開発を加速する可能性を考えると、激しい研究の対象となっている。 近年、これらのワークフローは、より大きな言語モデル(LLM)の出現と、より複雑な研究タスクの文脈で予測を行うために事前訓練されたモデルを利用するLLMエージェントのシステムによって大幅に強化されている。 有効性はあるものの, 材料設計タスクの健全な情報検索において, エージェントシステム内での大幅な改善の余地は残されている。 さらに, エージェントシステム内でのクロスモーダル検索を促進し, タスク固有の材料設計を可能にするような, 潜在表現を活用するような予測的深層学習モデルの代替的利用も検討されていない。 そこで本研究では, 高分子, 高分子, 反応の双方に対して, セマンティックな化学情報検索を可能にする基盤として, 大規模で事前学習された化学基礎モデルが有効であることを示す。 さらに,OpenCLIPなどの画像モデルと協調して化学基礎モデルを用いることで,複数の特徴データ領域にわたる前例のないクエリや情報検索が容易になることを示す。 最後に,これらのシステムをマルチエージェントシステムに統合することにより,複雑な研究課題に対する構造的および位相的自然言語クエリと情報検索を容易にする。

Molecular property prediction and generative design via deep learning models has been the subject of intense research given its potential to accelerate development of new, high-performance materials. More recently, these workflows have been significantly augmented with the advent of large language models (LLMs) and systems of LLM-driven agents capable of utilizing pre-trained models to make predictions in the context of more complex research tasks. While effective, there is still room for substantial improvement within the agentic systems on the retrieval of salient information for material design tasks. Moreover, alternative uses of predictive deep learning models, such as leveraging their latent representations to facilitate cross-modal retrieval augmented generation within agentic systems to enable task-specific materials design, has remained unexplored. Herein, we demonstrate that large, pre-trained chemistry foundation models can serve as a basis for enabling semantic chemistry information retrieval for both small-molecules, complex polymeric materials, and reactions. Additionally, we show the use of chemistry foundation models in conjunction with image models such as OpenCLIP facilitate unprecedented queries and information retrieval across multiple characterization data domains. Finally, we demonstrate the integration of these systems within multi-agent systems to facilitate structure and topological-based natural language queries and information retrieval for complex research tasks.
翻訳日:2024-08-22 16:08:22 公開日:2024-08-21
# EE-MLLM: マルチモーダル大規模言語モデル

EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model ( http://arxiv.org/abs/2408.11795v1 )

ライセンス: Link先を確認
Feipeng Ma, Yizhou Zhou, Hebei Li, Zilong He, Siying Wu, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun, (参考訳) マルチモーダル研究の領域では、多数の研究が画像とテキストのペアを活用してモーダルアライメント学習を行い、大規模言語モデル(LLM)を多モーダルLLMに変換し、様々な視覚的タスクに優れる。 一般的な手法は、主に自己注意に基づく方法と相互注意に基づく方法の2つのカテゴリに分類される。 自己注意に基づく手法は、単純なMLPアーキテクチャのためデータ効率が優れているが、視覚トークンとテキストトークンをLLMの入力として結合することにより、計算効率が低下することが多い。 逆に、クロスアテンションに基づく手法は、追加の学習可能なパラメータによるデータ効率は低いが、LLMの長いシーケンス入力を回避して高い計算効率を示す。 これらのトレードオフに対処するため,データ効率・計算効率・マルチモーダル大言語モデル(EE-MLLM)を提案する。 追加のモジュールや学習可能なパラメータを導入することなく、EE-MLLMはデータと計算効率の両方を達成する。 具体的には,MLLMの自己注意機構を複合注意機構に変更する。 このメカニズムには2つの重要な特徴がある。 1)視覚トークン内の自己注意の計算オーバーヘッドを排除し、計算効率を向上させる。 2) LLMの各層上の重みを再利用し, 視覚と言語間の効果的なモダリティアライメントを容易にし, データ効率を向上させる。 実験結果は、MMBenchやSeedBenchといった汎用データセットや、TextVQAやDocVQAといったきめ細かいタスクを含む、さまざまなベンチマークにおけるEE-MLLMの有効性を示す。

In the realm of multimodal research, numerous studies leverage substantial image-text pairs to conduct modal alignment learning, transforming Large Language Models (LLMs) into Multimodal LLMs and excelling in a variety of visual-language tasks. The prevailing methodologies primarily fall into two categories: self-attention-based and cross-attention-based methods. While self-attention-based methods offer superior data efficiency due to their simple MLP architecture, they often suffer from lower computational efficiency due to concatenating visual and textual tokens as input for LLM. Conversely, cross-attention-based methods, although less data-efficient due to additional learnable parameters, exhibit higher computational efficiency by avoiding long sequence input for LLM. To address these trade-offs, we introduce the Data-Efficient and Compute-Efficient Multimodal Large Language Model (EE-MLLM). Without introducing additional modules or learnable parameters, EE-MLLM achieves both data and compute efficiency. Specifically, we modify the original self-attention mechanism in MLLM to a composite attention mechanism. This mechanism has two key characteristics: 1) Eliminating the computational overhead of self-attention within visual tokens to achieve compute efficiency, and 2) Reusing the weights on each layer of LLM to facilitate effective modality alignment between vision and language for data efficiency. Experimental results demonstrate the effectiveness of EE-MLLM across a range of benchmarks, including general-purpose datasets like MMBench and SeedBench, as well as fine-grained tasks such as TextVQA and DocVQA.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# LLMプルーニングと蒸留の実践:ミニトロンアプローチ

LLM Pruning and Distillation in Practice: The Minitron Approach ( http://arxiv.org/abs/2408.11796v1 )

ライセンス: Link先を確認
Sharath Turuvekere Sreenivas, Saurav Muralidharan, Raviraj Joshi, Marcin Chochowski, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Jan Kautz, Pavlo Molchanov, (参考訳) Llama 3.1 8B と Mistral NeMo 12B をそれぞれ 4B と 8B のパラメータに圧縮する。 本研究は,(1)深度刈り込みと(2)隠れ/保持/MLP(幅)刈り込みの2つの異なるプルーニング戦略について検討し,LM評価ハーネスによる共通ベンチマークの結果について検討する。 モデルはNeMo Alignerと整列し、インストラクションされたバージョンでテストされる。 このアプローチは、Llama 3.1 8Bから魅力的な4Bモデル、Mistral NeMo 12Bから最先端のMistral-NeMo-Minitron-8B(MN-Minitron-8B)モデルを生成する。 元のデータにアクセスできなくても、蒸留データセット上でわずかに微調整された教師モデルを構築することは有益であることがわかった。 私たちはHugging Faceのベースモデルの重みを寛容なライセンスでオープンソースにしています。

We present a comprehensive report on compressing the Llama 3.1 8B and Mistral NeMo 12B models to 4B and 8B parameters, respectively, using pruning and distillation. We explore two distinct pruning strategies: (1) depth pruning and (2) joint hidden/attention/MLP (width) pruning, and evaluate the results on common benchmarks from the LM Evaluation Harness. The models are then aligned with NeMo Aligner and tested in instruct-tuned versions. This approach produces a compelling 4B model from Llama 3.1 8B and a state-of-the-art Mistral-NeMo-Minitron-8B (MN-Minitron-8B for brevity) model from Mistral NeMo 12B. We found that with no access to the original data, it is beneficial to slightly fine-tune teacher models on the distillation dataset. We open-source our base model weights on Hugging Face with a permissive license.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# 数発会話型バーチャルアシスタントシステムにおける基礎モデルのための実践的トークンプルーニング

Practical token pruning for foundation models in few-shot conversational virtual assistant systems ( http://arxiv.org/abs/2408.11799v1 )

ライセンス: Link先を確認
Haode Qi, Cheng Qian, Jian Ni, Pratyush Singh, Reza Fazeli, Gengyu Wang, Zhongzheng Shu, Eric Wayne, Juergen Bross, (参考訳) エンタプライズ仮想アシスタント(VA)システムでは、ユーザが望むものに基づいてユーザ入力がどのように処理されるかを決定するために、インテント分類が不可欠である。 VAシステムは、少数のトレーニングサンプルであっても高い精度を達成しつつ、トレーニング時間と推論時間の少ないコスト効率のSaaSサービスとして期待されている。 コントラスト学習目標を持つ変圧器に基づく文埋め込みモデルを事前学習し、学習意図分類モデルの特徴としてモデルの埋め込みを利用する。 提案手法は,数ショットのシナリオに対して最先端の結果を達成し,一般的な意図分類ベンチマークにおいて,他の商用ソリューションよりも優れた性能を発揮する。 しかし、変換器のアテンション機構の二次的実行により、特に長いユーザ入力に対して、変換器ベースのモデルによる機能生成は推論時間を増加させる。 モデル蒸留に加えて,目的分類のためのタスク固有のトレーニングを必要とせず,動的トークンプルーニングを構成する,実用的なマルチタスク適応手法を導入する。 提案手法は, モデル性能に影響を与えることなく, 一般的な文変換器モデルの推論速度を向上させることを実証する。

In an enterprise Virtual Assistant (VA) system, intent classification is the crucial component that determines how a user input is handled based on what the user wants. The VA system is expected to be a cost-efficient SaaS service with low training and inference time while achieving high accuracy even with a small number of training samples. We pretrain a transformer-based sentence embedding model with a contrastive learning objective and leverage the embedding of the model as features when training intent classification models. Our approach achieves the state-of-the-art results for few-shot scenarios and performs better than other commercial solutions on popular intent classification benchmarks. However, generating features via a transformer-based model increases the inference time, especially for longer user inputs, due to the quadratic runtime of the transformer's attention mechanism. On top of model distillation, we introduce a practical multi-task adaptation approach that configures dynamic token pruning without the need for task-specific training for intent classification. We demonstrate that this approach improves the inference speed of popular sentence transformer models without affecting model performance.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# PermitQA:ウィンドシッティングとパーミット領域における検索拡張ジェネレーションのベンチマーク

PermitQA: A Benchmark for Retrieval Augmented Generation in Wind Siting and Permitting domain ( http://arxiv.org/abs/2408.11800v1 )

ライセンス: Link先を確認
Rounak Meyur, Hung Phan, Sridevi Wagle, Jan Strube, Mahantesh Halappanavar, Sameera Horawalavithana, Anurag Acharya, Sai Munikoti, (参考訳) 自然言語処理(NLP)とテキスト生成の急速な発展の中で、検索拡張生成(RAG)の出現は、ユーザ特定データベースから取得した情報を活用することにより、生成したテキストの品質と信頼性を向上させるための有望な道を示す。 ベンチマークは、レトリバーとジェネレータの観点から異なるRAG構成の性能を評価し比較し、それらの有効性、スケーラビリティ、特定のドメインやアプリケーションに適した可能性について洞察を提供するために不可欠である。 本稿では,ドメイン関連RAGベンチマークを生成するための包括的なフレームワークを提案する。 我々のフレームワークは、人間(ドメインの専門家)-AI大言語モデル(LLM)による自動質問応答生成に基づいている。 本研究では,風力エネルギープロジェクトにおける環境影響に関する複数の科学的資料・報告からなる風力座と許容領域に関する第一種ベンチマークであるPermitQAを導入することにより,その枠組みを実証する。 本フレームワークは,複雑性の異なる多種多様な指標と複数の質問タイプを用いてRAG性能を体系的に評価する。 ベンチマークでは、さまざまなモデルのパフォーマンスも示しています。

In the rapidly evolving landscape of Natural Language Processing (NLP) and text generation, the emergence of Retrieval Augmented Generation (RAG) presents a promising avenue for improving the quality and reliability of generated text by leveraging information retrieved from user specified database. Benchmarking is essential to evaluate and compare the performance of the different RAG configurations in terms of retriever and generator, providing insights into their effectiveness, scalability, and suitability for the specific domain and applications. In this paper, we present a comprehensive framework to generate a domain relevant RAG benchmark. Our framework is based on automatic question-answer generation with Human (domain experts)-AI Large Language Model (LLM) teaming. As a case study, we demonstrate the framework by introducing PermitQA, a first-of-its-kind benchmark on the wind siting and permitting domain which comprises of multiple scientific documents/reports related to environmental impact of wind energy projects. Our framework systematically evaluates RAG performance using diverse metrics and multiple question types with varying complexity level. We also demonstrate the performance of different models on our benchmark.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# Story3D-Agent: 大規模言語モデルによる3Dストーリーテリングの可視化

Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models ( http://arxiv.org/abs/2408.11801v1 )

ライセンス: Link先を確認
Yuzhou Huang, Yiran Qin, Shunlin Lu, Xintao Wang, Rui Huang, Ying Shan, Ruimao Zhang, (参考訳) 伝統的なビジュアルなストーリーテリングは複雑で、専門的な知識と実質的なリソースを必要とするが、人間の創造性と創造の正確さに制約されることが多い。 LLM(Large Language Models)は視覚的なストーリーテリングを強化するが、現在のアプローチはしばしば2次元のビジュアルに制限される。 この目的のために、LLMの能力を活用して提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチであるStory3D-Agentを紹介する。 プロシージャモデリングを統合することで,マルチキャラクタの動作や動作を正確に制御し,様々な装飾的要素を再現し,長距離・ダイナミックな3D表現を実現する。 さらに,本手法は論理的推論による物語拡張をサポートし,生成したコンテンツが既存の条件と整合性を保つことを保証する。 我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。

Traditional visual storytelling is complex, requiring specialized knowledge and substantial resources, yet often constrained by human creativity and creation precision. While Large Language Models (LLMs) enhance visual storytelling, current approaches often limit themselves to 2D visuals or oversimplify stories through motion synthesis and behavioral simulation, failing to create comprehensive, multi-dimensional narratives. To this end, we present Story3D-Agent, a pioneering approach that leverages the capabilities of LLMs to transform provided narratives into 3D-rendered visualizations. By integrating procedural modeling, our approach enables precise control over multi-character actions and motions, as well as diverse decorative elements, ensuring the long-range and dynamic 3D representation. Furthermore, our method supports narrative extension through logical reasoning, ensuring that generated content remains consistent with existing conditions. We have thoroughly evaluated our Story3D-Agent to validate its effectiveness, offering a basic framework to advance 3D story representation.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# 重みのスペクトルダイナミクスによる深層学習へのアプローチ

Approaching Deep Learning through the Spectral Dynamics of Weights ( http://arxiv.org/abs/2408.11804v1 )

ライセンス: Link先を確認
David Yunis, Kumar Kshitij Patel, Samuel Wheeler, Pedro Savarese, Gal Vardi, Karen Livescu, Michael Maire, Matthew R. Walter, (参考訳) 本稿では,重みのスペクトル力学(最適化時の特異値とベクトルの挙動)に着目した経験的アプローチを提案し,深層学習におけるいくつかの現象を統一・解明する。 ConvNetによる画像分類、UNetsによる画像生成、LSTMによる音声認識、Transformersによる言語モデリングなど、さまざまな実験における最適化における一貫したバイアスを同定する。 また, 重み劣化は, 実用システムにおいても, 標準正則化器としての役割を超えて, このバイアスを増大させることを示した。 さらに、これらのスペクトルダイナミクスは、記憶ネットワークと一般化ネットワークを区別し、この長年のコンウンドラムに対する新たな視点を提供する。 さらに、スペクトル力学を利用して、疎水性サブネット(ロタリーチケット)の出現と、リニアモード接続による損失面の構造を探索する。 我々の研究結果は、スペクトル力学がニューラルネットワークの振る舞いをよりよく理解するためのコヒーレントな枠組みを提供することを示唆している。

We propose an empirical approach centered on the spectral dynamics of weights -- the behavior of singular values and vectors during optimization -- to unify and clarify several phenomena in deep learning. We identify a consistent bias in optimization across various experiments, from small-scale ``grokking'' to large-scale tasks like image classification with ConvNets, image generation with UNets, speech recognition with LSTMs, and language modeling with Transformers. We also demonstrate that weight decay enhances this bias beyond its role as a norm regularizer, even in practical systems. Moreover, we show that these spectral dynamics distinguish memorizing networks from generalizing ones, offering a novel perspective on this longstanding conundrum. Additionally, we leverage spectral dynamics to explore the emergence of well-performing sparse subnetworks (lottery tickets) and the structure of the loss surface through linear mode connectivity. Our findings suggest that spectral dynamics provide a coherent framework to better understand the behavior of neural networks across diverse settings.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# ACE:低コスト軸テレオペレーティングのためのクロスプラットフォームビジュアル・エクソスケレトンシステム

ACE: A Cross-Platform Visual-Exoskeletons System for Low-Cost Dexterous Teleoperation ( http://arxiv.org/abs/2408.11805v1 )

ライセンス: Link先を確認
Shiqi Yang, Minghuan Liu, Yuzhe Qin, Runyu Ding, Jialong Li, Xuxin Cheng, Ruihan Yang, Sha Yi, Xiaolong Wang, (参考訳) デモから学ぶことは、特に最近収集された遠隔操作システムを備えた大規模ロボットデータにおいて、ロボット操作に対する効果的なアプローチであることが示されている。 多様なロボットプラットフォームにまたがる効率的な遠隔操作システムの構築は、これまで以上に重要になっている。 しかし、様々なエンドエフェクター(例えば人為的ロボットハンドやグリップなど)に対する費用対効果とユーザフレンドリーな遠隔操作システムが欠如しており、複数のプラットフォームで動作可能である。 そこで我々は,低コストな遠隔操作のためのクロスプラットフォームビジュアル・エクソスケルトンシステムであるACEを開発した。 本システムでは,携帯型ベースに装着した3Dハンドポーズとエクソスケルトンを手持ちカメラで撮影し,指と手首の両方のポーズの正確なリアルタイムキャプチャを可能にした。 従来のシステムと比較すると、ロボットによってハードウェアのカスタマイズが必要な場合が多いが、人間の手や腕、腕のグリッパー、四足歩行システムなど、高精度な遠隔操作が可能である。 これにより、多様なプラットフォーム上の複雑な操作タスクの模倣学習が可能になる。

Learning from demonstrations has shown to be an effective approach to robotic manipulation, especially with the recently collected large-scale robot data with teleoperation systems. Building an efficient teleoperation system across diverse robot platforms has become more crucial than ever. However, there is a notable lack of cost-effective and user-friendly teleoperation systems for different end-effectors, e.g., anthropomorphic robot hands and grippers, that can operate across multiple platforms. To address this issue, we develop ACE, a cross-platform visual-exoskeleton system for low-cost dexterous teleoperation. Our system utilizes a hand-facing camera to capture 3D hand poses and an exoskeleton mounted on a portable base, enabling accurate real-time capture of both finger and wrist poses. Compared to previous systems, which often require hardware customization according to different robots, our single system can generalize to humanoid hands, arm-hands, arm-gripper, and quadruped-gripper systems with high-precision teleoperation. This enables imitation learning for complex manipulation tasks on diverse platforms.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# Pixelはバリアではない:Pixel-Domain拡散モデルに対する効果的な侵入攻撃

Pixel Is Not A Barrier: An Effective Evasion Attack for Pixel-Domain Diffusion Models ( http://arxiv.org/abs/2408.11810v1 )

ライセンス: Link先を確認
Chun-Yen Shih, Li-Xuan Peng, Jia-Wei Liao, Ernie Chu, Cheng-Fu Chou, Jun-Cheng Chen, (参考訳) 拡散モデルは高品質な画像合成のための強力な生成モデルとして登場し、それに基づく画像編集技術も数多くある。 しかし、テキストベースの画像編集の容易さは、詐欺の悪意のある編集や知的財産権侵害などの重大なリスクをもたらす。 従来の研究は、知覚不能な摂動を加えることによって、画像の拡散に基づく編集を防ごうとしてきた。 これらの手法は、高価で具体的には遅延拡散モデル(LDM)をターゲットにしているが、Pixelドメイン拡散モデル(PDM)は、そのような攻撃に対してほとんど探索されておらず、堅牢である。 我々の研究は、UNETの脆弱性を利用した特徴表現攻撃損失と、保護された画像の自然性を高めるための潜在最適化戦略を備えた、新たな攻撃フレームワークを提案することで、このギャップに対処する。 広汎な実験により, PDM ベースの編集手法 (SDEdit など) に対するアプローチの有効性が実証された。 さらに、我々のフレームワークはLDMに拡張可能であり、既存のアプローチに匹敵するパフォーマンスを実現しています。

Diffusion Models have emerged as powerful generative models for high-quality image synthesis, with many subsequent image editing techniques based on them. However, the ease of text-based image editing introduces significant risks, such as malicious editing for scams or intellectual property infringement. Previous works have attempted to safeguard images from diffusion-based editing by adding imperceptible perturbations. These methods are costly and specifically target prevalent Latent Diffusion Models (LDMs), while Pixel-domain Diffusion Models (PDMs) remain largely unexplored and robust against such attacks. Our work addresses this gap by proposing a novel attacking framework with a feature representation attack loss that exploits vulnerabilities in denoising UNets and a latent optimization strategy to enhance the naturalness of protected images. Extensive experiments demonstrate the effectiveness of our approach in attacking dominant PDM-based editing methods (e.g., SDEdit) while maintaining reasonable protection fidelity and robustness against common defense methods. Additionally, our framework is extensible to LDMs, achieving comparable performance to existing approaches.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# EmbodiedSAM: リアルタイムで3Dプリントできるオンラインセグメンテーション

EmbodiedSAM: Online Segment Any 3D Thing in Real Time ( http://arxiv.org/abs/2408.11811v1 )

ライセンス: Link先を確認
Xiuwei Xu, Huangxing Chen, Linqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu, (参考訳) Embodied taskは、エージェントが探索と同時に3Dシーンを完全に理解する必要があるため、オンライン、リアルタイム、きめ細かい3D認識モデルは必死に必要である。 高品質な3Dデータには制限があるため、そのようなモデルを3Dで直接訓練することはほぼ不可能である。 一方、視覚基礎モデル(VFM)は、2次元コンピュータビジョンの分野に革命をもたらし、優れた性能を持つ。 しかしながら、既存のVFM支援3次元認識手法のほとんどは、オフラインか遅すぎるかのいずれかであり、実用的な具体的タスクには適用できない。 本稿では,Segment Anything Model(SAM)をリアルタイムの3Dインスタンスセグメンテーションに活用することを目的としている。 入力ストリーミングRGB-Dビデオでは、将来のフレームが利用できないため、いくつかのフレームでインスタンスが観察され、フレーム間のオブジェクトマッチングが必要とされるため、これは難しい問題である。 これらの課題に対処するため、まずSAMが生成する2次元マスクを3D対応クエリで表現し、次に2次元クエリデコーダで反復的に洗練する幾何対応クエリリフトモジュールを提案する。 このようにして、2Dマスクは3Dポイントの雲の細かい形状に転送される。 3次元マスクの問合せ表現の利点を生かして,異なる視点から3次元マスク間の類似度行列を効率的な行列演算により計算し,リアルタイムな推論を可能にする。 ScanNet, ScanNet200, SceneNN, 3RScan による実験により, オフライン手法と比較しても本手法は先進的な性能を発揮することが示された。 提案手法は,いくつかのゼロショットデータセット転送実験において大きな一般化能力を示し,オープンボキャブラリとデータ効率の設定において大きな可能性を示す。 コードとデモはhttps://xuxw98.github.io/ESAM/で公開されている。

Embodied tasks require the agent to fully understand 3D scenes simultaneously with its exploration, so an online, real-time, fine-grained and highly-generalized 3D perception model is desperately needed. Since high-quality 3D data is limited, directly training such a model in 3D is almost infeasible. Meanwhile, vision foundation models (VFM) has revolutionized the field of 2D computer vision with superior performance, which makes the use of VFM to assist embodied 3D perception a promising direction. However, most existing VFM-assisted 3D perception methods are either offline or too slow that cannot be applied in practical embodied tasks. In this paper, we aim to leverage Segment Anything Model (SAM) for real-time 3D instance segmentation in an online setting. This is a challenging problem since future frames are not available in the input streaming RGB-D video, and an instance may be observed in several frames so object matching between frames is required. To address these challenges, we first propose a geometric-aware query lifting module to represent the 2D masks generated by SAM by 3D-aware queries, which is then iteratively refined by a dual-level query decoder. In this way, the 2D masks are transferred to fine-grained shapes on 3D point clouds. Benefit from the query representation for 3D masks, we can compute the similarity matrix between the 3D masks from different views by efficient matrix operation, which enables real-time inference. Experiments on ScanNet, ScanNet200, SceneNN and 3RScan show our method achieves leading performance even compared with offline methods. Our method also demonstrates great generalization ability in several zero-shot dataset transferring experiments and show great potential in open-vocabulary and data-efficient setting. Code and demo are available at https://xuxw98.github.io/ESAM/, with only one RTX 3090 GPU required for training and evaluation.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# クロス・エボディード・ラーニングのスケーリング: 操作・ナビゲーション・ロコモーション・航空のための一つのポリシー

Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation ( http://arxiv.org/abs/2408.11812v1 )

ライセンス: Link先を確認
Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine, (参考訳) 現代の機械学習システムは、広範な一般化を達成するために大規模なデータセットに依存しており、ロボット学習において、各ロボットプラットフォームとタスクが小さなデータセットしか持たないという課題をしばしば生じさせる。 さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。 しかし、ロボットは広い範囲のセンサー、アクチュエータ、制御周波数を持つことができるため、マルチロボットデータに対する単一ポリシーのトレーニングは困難である。 そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。 これまでで最大かつ最も多様なデータセットでCrossFormerをトレーニングしています。 我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。 従来の作業とは異なり、我々のモデルは観察空間や行動空間を手動でアライメントする必要がない。 実世界における大規模な実験により,本手法は各実施形態に合わせて調整された専門的政策のパフォーマンスと一致し,また,クロス・エボデーメント・ラーニングにおける先行技術よりも著しく優れていた。

Modern machine learning systems rely on large datasets to attain broad generalization, and this often poses a challenge in robot learning, where each robotic platform and task might have only a small dataset. By training a single policy across many different kinds of robots, a robot learning method can leverage much broader and more diverse datasets, which in turn can lead to better generalization and robustness. However, training a single policy on multi-robot data is challenging because robots can have widely varying sensors, actuators, and control frequencies. We propose CrossFormer, a scalable and flexible transformer-based policy that can consume data from any embodiment. We train CrossFormer on the largest and most diverse dataset to date, 900K trajectories across 20 different robot embodiments. We demonstrate that the same network weights can control vastly different robots, including single and dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds. Unlike prior work, our model does not require manual alignment of the observation or action spaces. Extensive experiments in the real world show that our method matches the performance of specialist policies tailored for each embodiment, while also significantly outperforming the prior state of the art in cross-embodiment learning.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# SEA:MLLMにおけるToken-Levelビジュアルテキスト統合のための改善された埋め込みアライメント

SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs ( http://arxiv.org/abs/2408.11813v1 )

ライセンス: Link先を確認
Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang, (参考訳) MLLM(Multimodal Large Language Models)は、視覚エンコーダ(Vision Encoder)、アダプタ(Adapter)、大型言語モデル(Large Language Model、LLM)を含む、目覚しい知覚能力と推論能力を示す。 アダプタは、ビジュアルコンポーネントと言語コンポーネントの間の重要なブリッジとして機能する。 しかし、イメージレベルの監督を施したトレーニングアダプタは、LLMの能力を損なうとともに、マルチモーダル LLM の可能性を制限し、重大なミスアライメントをもたらすことが多い。 この問題を解決するために,CLIPなどの視覚言語事前学習モデルを利用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を導入し,視覚トークンをLLMの埋め込み空間にコントラスト学習を通じて整列させる。 このアプローチにより、視覚的および言語表現のより一貫性のある統合が保証され、その固有の能力を保ちながら、マルチモーダルLLMの性能と解釈性を高めることができる。 大規模な実験により、SEAはMLLMを、特に小さなモデルでは、追加のデータや推論計算を加えることなく効果的に改善することが示された。 SEAはマルチモーダルシステムを強化するために、より汎用的で適応可能なソリューションを開発するための基盤も築いている。

Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable perceptual and reasoning abilities, typically comprising a Vision Encoder, an Adapter, and a Large Language Model (LLM). The adapter serves as the critical bridge between the visual and language components. However, training adapters with image-level supervision often results in significant misalignment, undermining the LLMs' capabilities and limiting the potential of Multimodal LLMs. To address this, we introduce Supervised Embedding Alignment (SEA), a token-level alignment method that leverages vision-language pre-trained models, such as CLIP, to align visual tokens with the LLM's embedding space through contrastive learning. This approach ensures a more coherent integration of visual and language representations, enhancing the performance and interpretability of multimodal LLMs while preserving their inherent capabilities. Extensive experiments show that SEA effectively improves MLLMs, particularly for smaller models, without adding extra data or inference computation. SEA also lays the groundwork for developing more general and adaptable solutions to enhance multimodal systems.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# SynPlay: 人間の合成データセットに現実世界の多様性をインポートする

SynPlay: Importing Real-world Diversity for a Synthetic Human Dataset ( http://arxiv.org/abs/2408.11814v1 )

ライセンス: Link先を確認
Jinsub Yim, Hyungtae Lee, Sungmin Eum, Yi-Ting Shen, Yan Zhang, Heesung Kwon, Shuvra S. Bhattacharyya, (参考訳) SynPlay(シンセティック・プレイグラウンド)は,人間の外見の多様性を現実世界にもたらすことを目的とした,新しい人工人間データセットである。 我々は、これまでの研究でまだ見られていない多様性のレベルを達成するための2つの要因に焦点を当てている。 一 現実的な人間の動き及びポーズ 二 人間の事例に対する複数のカメラ視点 まず,ゲームエンジンとそのライブラリが提供する基本動作を用いて,ゲームルール(ディテール誘導型デザインとは対照的にルール誘導型モーションデザイン)に従えば,仮想プレイヤーがより制約の少ない自然な動きを取ることができるゲームを作成する。 そして、モーションキャプチャー装置でキャプチャーされた実際の人間の動きで、基本動作を増強する。 複数の視点からゲーム内の様々な人間の外観をレンダリングするために、地上と空中の視界を含む7つの仮想カメラを使用し、シーンの豊富な空対地と動的対地特性をキャプチャする。 モデルトレーニングにSynPlayを用いることで、人間の検出とセグメンテーションのための既存の合成データセットよりも精度が向上することを示す。 SynPlayの利点は、少数ショットやクロスドメイン学習タスクなど、データスカース方式のタスクにとってさらに大きくなります。 これらの結果は、SynPlayが複雑な人間の外見の豊富な属性を持ち、モデル事前学習に適したポーズを持つ重要なデータセットとして利用できることを明らかに示している。 73k以上のイメージと6.5万のヒューマンインスタンスからなるSynPlayデータセットはhttps://synplaydataset.github.io/でダウンロードできる。

We introduce Synthetic Playground (SynPlay), a new synthetic human dataset that aims to bring out the diversity of human appearance in the real world. We focus on two factors to achieve a level of diversity that has not yet been seen in previous works: i) realistic human motions and poses and ii) multiple camera viewpoints towards human instances. We first use a game engine and its library-provided elementary motions to create games where virtual players can take less-constrained and natural movements while following the game rules (i.e., rule-guided motion design as opposed to detail-guided design). We then augment the elementary motions with real human motions captured with a motion capture device. To render various human appearances in the games from multiple viewpoints, we use seven virtual cameras encompassing the ground and aerial views, capturing abundant aerial-vs-ground and dynamic-vs-static attributes of the scene. Through extensive and carefully-designed experiments, we show that using SynPlay in model training leads to enhanced accuracy over existing synthetic datasets for human detection and segmentation. The benefit of SynPlay becomes even greater for tasks in the data-scarce regime, such as few-shot and cross-domain learning tasks. These results clearly demonstrate that SynPlay can be used as an essential dataset with rich attributes of complex human appearances and poses suitable for model pretraining. SynPlay dataset comprising over 73k images and 6.5M human instances, is available for download at https://synplaydataset.github.io/.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# 素晴らしい記憶と浅すぎる推論:$k$NN-LMsの限界

Great Memory, Shallow Reasoning: Limits of $k$NN-LMs ( http://arxiv.org/abs/2408.11815v1 )

ライセンス: Link先を確認
Shangyi Geng, Wenting Zhao, Alexander M Rush, (参考訳) K$-nearest 隣の言語モデル (k$NN-LMs) は、検索と次の単語予測を統合することで、言語モデリングだけでなく、下流のNLPベンチマークでも強力なパフォーマンスを示している。 これらの結果から、高品質なデータストアにアクセス可能な$k$NN拡張を使用することで、品質の悪いデータや時代遅れのデータでトレーニングされたモデルの性能が向上すると主張している。 本研究では、この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。 我々は、感情分類やコモンセンス推論からマルチホップ推論まで、様々なタスクのセットで$k$NN-LMを広範囲に評価した。 結果から,入力のパターンを利用すると出力を決定するのに十分なメモリ集約的なタスクでは$k$NN-LMsが優れていることがわかった。 さらに,完全検索においても,$k$NN-LMsは正しい解答の判定に失敗し,推論性能に上限を置いていることを,オラクル実験や定性解析を通じて実証する。 コードとデータストアはhttps://github.com/GSYfate/knnlm-limits/で公開されている。

$K$-nearest neighbor language models ($k$NN-LMs), which integrate retrieval with next-word prediction, have demonstrated strong performance in language modeling as well as downstream NLP benchmarks. These results have led researchers to argue that models trained on poor quality or outdated data could perform well by employing a $k$NN extension that has access to a higher-quality datastore. In this work, we ask whether this improved ability to recall information really translates into downstream abilities. We extensively evaluate $k$NN-LMs on a diverse set of tasks, ranging from sentiment classification and commonsense reasoning to multi-hop reasoning. Results show that $k$NN-LMs excel at memory-intensive tasks, where utilizing the patterns in the input is sufficient for determining the output, but struggle with reasoning tasks that require integrating multiple pieces of information to derive new knowledge. We further demonstrate through oracle experiments and qualitative analysis that even with perfect retrieval, $k$NN-LMs still fail to determine the correct answers, placing an upper bound on their reasoning performance. Code and datastores are released at https://github.com/GSYfate/knnlm-limits/.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# オブジェクト中心の抽象化による効率的な探索と識別的世界モデル学習

Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction ( http://arxiv.org/abs/2408.11816v1 )

ライセンス: Link先を確認
Anthony GX-Chen, Kenneth Marino, Rob Fergus, (参考訳) 強化学習における難解な探索問題に直面して,エージェントに対象中心のマッピング(項目とその属性のセットを記述する)を与えることで,より効率的な学習が可能になるかを検討する。 この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化し、プリミティブアクションへの高レベルの時間抽象化で属性を変更することで、階層的に最もよく解決できることがわかった。 この抽象化は、特定の将来の状態を予測しやすくすることで、トランジションのダイナミクスを単純化する。 我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルに基づくアルゴリズムを提案し、カウントベースの本質的な報酬だけで効率的に探索し、その後に発見された(抽象的な)状態に到達する計画を立てる。 モデルの能力を示す (i)単一のタスクを効率よく解決する。 (二 アイテムの種類及び環境をまたいでゼロショット及び少数ショットを転送すること。) (三)長い地平線を横切る計画。 2DマニュファリングとMiniHack環境のスイート全体で、我々のモデルは(抽象化なしで)最先端の低レベルメソッドと、同じ抽象化を使ったパフォーマンスなモデルフリーおよびモデルベースメソッドとを著しく上回っていることを実証的に示します。 最後に、低レベルのオブジェクト摂動ポリシーを学習し、オブジェクトマッピング自体の学習を監督する方法を示す。

In the face of difficult exploration problems in reinforcement learning, we study whether giving an agent an object-centric mapping (describing a set of items and their attributes) allow for more efficient learning. We found this problem is best solved hierarchically by modelling items at a higher level of state abstraction to pixels, and attribute change at a higher level of temporal abstraction to primitive actions. This abstraction simplifies the transition dynamic by making specific future states easier to predict. We make use of this to propose a fully model-based algorithm that learns a discriminative world model, plans to explore efficiently with only a count-based intrinsic reward, and can subsequently plan to reach any discovered (abstract) states. We demonstrate the model's ability to (i) efficiently solve single tasks, (ii) transfer zero-shot and few-shot across item types and environments, and (iii) plan across long horizons. Across a suite of 2D crafting and MiniHack environments, we empirically show our model significantly out-performs state-of-the-art low-level methods (without abstraction), as well as performant model-free and model-based methods using the same abstraction. Finally, we show how to reinforce learn low level object-perturbing policies, as well as supervise learn the object mapping itself.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# GRAB: 大規模マルチモーダルモデルのGRaph解析ベンチマーク

GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models ( http://arxiv.org/abs/2408.11817v1 )

ライセンス: Link先を確認
Jonathan Roberts, Kai Han, Samuel Albanie, (参考訳) 大規模マルチモーダルモデル (LMM) は多くの視覚的タスクに習熟している。 モデル性能を評価するためによく知られたベンチマークが多数存在するが、ヘッドルームはますます不十分である。 そのため、次世代のLMMに十分挑戦する新しい世代のベンチマークが必要である。 LMMがポテンシャルを示す分野の1つはグラフ解析であり、具体的には、平均やインターセプト、関数やデータ系列の相関を推定するといった数字を解釈する際に、アナリストが一般的に行うべきタスクである。 本稿では,現在および将来のフロンティアLMMに適合するグラフ解析ベンチマークGRABを紹介する。 私たちのベンチマークは完全に総合的で、高品質でノイズフリーな質問を確実にします。 GRABは2170の質問で構成され、4つのタスクと23のグラフプロパティをカバーしている。 GRAB上で20のLMMを評価し、21.7%のスコアで最高のパフォーマンスのモデルで、挑戦的なベンチマークであることが判明した。 最後に、モデルがどのように成功し、苦闘するかを調べるために、様々な試みを行う。 この重要で成長しているドメインの進展を促進するため、GRABをリリースします。

Large multimodal models (LMMs) have exhibited proficiencies across many visual tasks. Although numerous well-known benchmarks exist to evaluate model performance, they increasingly have insufficient headroom. As such, there is a pressing need for a new generation of benchmarks challenging enough for the next generation of LMMs. One area that LMMs show potential is graph analysis, specifically, the tasks an analyst might typically perform when interpreting figures such as estimating the mean, intercepts or correlations of functions and data series. In this work, we introduce GRAB, a graph analysis benchmark, fit for current and future frontier LMMs. Our benchmark is entirely synthetic, ensuring high-quality, noise-free questions. GRAB is comprised of 2170 questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on GRAB, finding it to be a challenging benchmark, with the highest performing model attaining a score of just 21.7%. Finally, we conduct various ablations to investigate where the models succeed and struggle. We release GRAB to encourage progress in this important, growing domain.
翻訳日:2024-08-22 15:58:35 公開日:2024-08-21
# D$^3$FlowSLAM:フローモーション分解とDINO誘導による自己監督動的SLAM

D$^3$FlowSLAM: Self-Supervised Dynamic SLAM with Flow Motion Decomposition and DINO Guidance ( http://arxiv.org/abs/2207.08794v4 )

ライセンス: Link先を確認
Xingyuan Yu, Weicai Ye, Xiyue Guo, Yuhang Ming, Jinyu Li, Hujun Bao, Zhaopeng Cui, Guofeng Zhang, (参考訳) 本稿では,動的シーンにおいて動的コンポーネントを正確に識別しながら,動的シーンで頑健に動作する自己教師型ディープSLAM法を提案する。 本研究では,静的フローと動的フローの二重フロー表現を活用し,動的環境におけるシーンの効率的な分解を容易にする。 本稿では,この表現に基づく動的更新モジュールを提案し,動的シナリオに優れた高密度SLAMシステムの開発を行う。 さらに,DINOを先行学習として利用し,ラベルなし学習を可能にする自己教師型トレーニングスキームを設計する。 本手法は他の自己管理手法と比較して精度が高い。 また、場合によっては既存の教師付きメソッドのパフォーマンスと一致したり、超えたりもします。 すべてのコードとデータは、受け入れ次第公開されます。

In this paper, we introduce a self-supervised deep SLAM method that robustly operates in dynamic scenes while accurately identifying dynamic components. Our method leverages a dual-flow representation for static flow and dynamic flow, facilitating effective scene decomposition in dynamic environments. We propose a dynamic update module based on this representation and develop a dense SLAM system that excels in dynamic scenarios. In addition, we design a self-supervised training scheme using DINO as a prior, enabling label-free training. Our method achieves superior accuracy compared to other self-supervised methods. It also matches or even surpasses the performance of existing supervised methods in some cases. All code and data will be made publicly available upon acceptance.
翻訳日:2024-08-22 12:07:24 公開日:2024-08-21
# ドリームブースを用いた安定拡散に基づく新しい中国景観絵画生成モデル

A New Chinese Landscape Paintings Generation Model based on Stable Diffusion using DreamBooth ( http://arxiv.org/abs/2408.08561v2 )

ライセンス: Link先を確認
Yujia Gu, Xinyu Fang, Xueyuan Deng, Zihan Peng, Yinan Peng, (参考訳) 本研究は, 安定拡散モデル (SDM) とパラメータ効率の良いファインチューニング法を組み合わせた中国景観絵画の製作を主目的とする手法を提案する。 このトレーニングプロセスは、LoRAと事前訓練されたSDMとDreamBoothとをそれぞれ組み合わせて加速する。 本研究は,中国景観絵画インターネットデータセットにおいて,DreamBoothと組み合わせたSDMが,一般的な事前学習型SDMやLoRAによる微調整型SDMなど,他のモデルよりも優れた性能を示すことを示す。 SDMとDreamBoothを組み合わせたSDMは、データセット上で12.75のFIDを達成し、専門家評価の観点から他のモデルよりも優れており、中国景観絵画の分野におけるモデルの汎用性は、ユニークな識別子、高い忠実さ、高品質を与えられた。 本研究は,特に景観絵画の領域において,ドメイン固有のタスクにおけるSDMの性能を向上させるための特別調整手法の可能性を示す。

This study mainly introduces a method combining the Stable Diffusion Model (SDM) and Parameter-Efficient Fine-Tuning method for generating Chinese Landscape Paintings. This training process is accelerated by combining LoRA with pre-trained SDM and DreamBooth with pre-trained SDM, respectively. On the Chinese Landscape Paintings Internet dataset used in this paper, this study finds that SDM combined with DreamBooth exhibits superior performance, outperforming other models, including the generic pre-trained SDM and LoRA-based fine-tuning SDM. The SDM combined with DreamBooth achieves a FID of 12.75 on the dataset and outperforms all other models in terms of expert evaluation, highlighting the model's versatility in the field of Chinese Landscape Paintings given the unique identifier, high fidelity and high quality. This study illustrates the potential of specialised fine-tuning method to improve the performance of SDM on domain-specific tasks, particularly in the domain of Landscape Paintings.
翻訳日:2024-08-22 12:07:24 公開日:2024-08-21
# 一般学習者としての「なし」:言語モデルとその双対最適化

No Such Thing as a General Learner: Language models and their dual optimization ( http://arxiv.org/abs/2408.09544v2 )

ライセンス: Link先を確認
Emmanuel Chemla, Ryan M. Nefdt, (参考訳) 大規模言語モデル(LLM)は、人間の認知を理解する上で、特に言語習得の議論を伝える上で、どのような役割を果たすのか? この問題に貢献するために、まず、人間もLLMも、様々な意味で一般の学習者ではないと論じる。 我々は、特にLLMは、訓練中に最適化され(通常は言語習得と比較される)、現代のLLMも、種の自然選択に類似したプロセスによって選択された、という2つの最適化プロセスにどのように従えばよいのか、新しいケースを作る。 この観点から、LLMのパフォーマンスは、人間と類似しているか、異同しているかにかかわらず、言語に対する人間の認知バイアスの重要性についての重要な議論を、容易には見極められないと論じる。

What role can the otherwise successful Large Language Models (LLMs) play in the understanding of human cognition, and in particular in terms of informing language acquisition debates? To contribute to this question, we first argue that neither humans nor LLMs are general learners, in a variety of senses. We make a novel case for how in particular LLMs follow a dual-optimization process: they are optimized during their training (which is typically compared to language acquisition), and modern LLMs have also been selected, through a process akin to natural selection in a species. From this perspective, we argue that the performance of LLMs, whether similar or dissimilar to that of humans, does not weigh easily on important debates about the importance of human cognitive biases for language.
翻訳日:2024-08-22 12:07:24 公開日:2024-08-21
# LongVILA:ロングビデオのためのロングコンテキストビジュアル言語モデルのスケーリング

LongVILA: Scaling Long-Context Visual Language Models for Long Videos ( http://arxiv.org/abs/2408.10188v3 )

ライセンス: Link先を確認
Fuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han, (参考訳) ロングコンテクスト能力はマルチモーダル基礎モデル、特にロングビデオ理解において重要である。 本稿では,LongVILAを提案する。LongVILAは,アルゴリズムとシステムの共同設計により,長文ビジュアル言語モデルのためのフルスタックソリューションである。 モデルトレーニングでは,既存のVLMをアップグレードして,2つの追加ステージ,すなわち長期コンテキスト拡張と長期教師付き微調整を組み込むことで,長時間の映像理解を支援する。 しかし、長ビデオのトレーニングは計算的かつメモリ集約的である。 我々は,長いビデオのトレーニングと推論を効率的に並列化し,勾配チェックポイントを使わずに256GPU上で2Mのコンテキスト長トレーニングを可能にする,長文マルチモーダルシーケンス並列(MM-SP)システムを提案する。 LongVILA は VILA の動画フレーム数を 8 から 1024 に効率的に拡張し、長いビデオキャプションスコアを 2.00 から 3.26 に改善し、1400 フレーム (274k コンテキスト長) のビデオニードル・イン・ア・ヘイスタックで 99.5% の精度を実現した。 LongVILA-8Bは、フレーム数が増加するにつれて、ビデオMMEベンチマークにおいて、長いビデオに対して一貫した精度の向上を示す。 加えて、MM-SPはリング列の並列性より2.1x - 5.7倍速く、コンテキスト並列性+テンソル並列性を持つメガトロンより1.1x - 1.4倍速い。 さらに、Hugging Face Transformersとシームレスに統合される。

Long-context capability is critical for multi-modal foundation models, especially for long video understanding. We introduce LongVILA, a full-stack solution for long-context visual-language models by co-designing the algorithm and system. For model training, we upgrade existing VLMs to support long video understanding by incorporating two additional stages, i.e., long context extension and long supervised fine-tuning. However, training on long video is computationally and memory intensive. We introduce the long-context Multi-Modal Sequence Parallelism (MM-SP) system that efficiently parallelizes long video training and inference, enabling 2M context length training on 256 GPUs without any gradient checkpointing. LongVILA efficiently extends the number of video frames of VILA from 8 to 1024, improving the long video captioning score from 2.00 to 3.26 (out of 5), achieving 99.5% accuracy in 1400-frame (274k context length) video needle-in-a-haystack. LongVILA-8B demonstrates consistent accuracy improvements on long videos in the VideoMME benchmark as the number of frames increases. Besides, MM-SP is 2.1x - 5.7x faster than ring sequence parallelism and 1.1x - 1.4x faster than Megatron with context parallelism + tensor parallelism. Moreover, it seamlessly integrates with Hugging Face Transformers.
翻訳日:2024-08-22 12:07:24 公開日:2024-08-21
# 複雑エントロピー平面における現代ユーザ生成視覚芸術の多様性と様式化

Diversity and stylization of the contemporary user-generated visual arts in the complexity-entropy plane ( http://arxiv.org/abs/2408.10356v2 )

ライセンス: Link先を確認
Seunghwan Kim, Byunghwee Lee, Wonjae Lee, (参考訳) 近年の計算的・数値的な手法の出現は、美術史的物語を分析し、美術様式の進化を辿る新たな道をもたらした。 本稿では,絵画の局所構造を定量化する複雑性エントロピー(C-H)平面を用いて,現代のユーザ生成視覚芸術スタイルの出現とスタイル化を支える進化過程について考察する。 2010年から2020年にかけてDeviantArtとBehanceプラットフォームでキュレートされた149,780枚の画像をインフォーマタイズし、C-H空間の局所情報とディープニューラルネットワークによって生成されたマルチレベル画像特徴と特徴抽出アルゴリズムの関係を解析した。 その結果, 視覚芸術様式のC-H情報と多面像の特徴の相違は, 美術作品群で時間とともに有意な相関が認められた。 画像表現の多様性が顕著に示される特定のC-H領域を開示することにより、我々はC-H平面で新しく、よりスタイリスティックな多様性を特徴とする出現様式の実証的条件を明らかにした。 我々の研究は、視覚芸術分析と物理にインスパイアされた手法と機械学習が組み合わさって、与えられたグループと時間の非チャートな視覚芸術の創造的スタイリゼーションを支える進化過程の関連特性を定量的にマッピングするマクロな洞察を提供することを示した。

The advent of computational and numerical methods in recent times has provided new avenues for analyzing art historiographical narratives and tracing the evolution of art styles therein. Here, we investigate an evolutionary process underpinning the emergence and stylization of contemporary user-generated visual art styles using the complexity-entropy (C-H) plane, which quantifies local structures in paintings. Informatizing 149,780 images curated in DeviantArt and Behance platforms from 2010 to 2020, we analyze the relationship between local information of the C-H space and multi-level image features generated by a deep neural network and a feature extraction algorithm. The results reveal significant statistical relationships between the C-H information of visual artistic styles and the dissimilarities of the multi-level image features over time within groups of artworks. By disclosing a particular C-H region where the diversity of image representations is noticeably manifested, our analyses reveal an empirical condition of emerging styles that are both novel in the C-H plane and characterized by greater stylistic diversity. Our research shows that visual art analyses combined with physics-inspired methodologies and machine learning, can provide macroscopic insights into quantitatively mapping relevant characteristics of an evolutionary process underpinning the creative stylization of uncharted visual arts of given groups and time.
翻訳日:2024-08-22 12:07:24 公開日:2024-08-21
# 私的意味とフリーランチの悪事

Private Means and the Curious Incident of the Free Lunch ( http://arxiv.org/abs/2408.10438v2 )

ライセンス: Link先を確認
Jack Fitzsimons, James Honaker, Michael Shoemate, Vikrant Singhal, (参考訳) DP実装で最もよく知られ、基本的なビルディングブロックである、和、平均、カウント(および他の多くのリニアクエリ)が、同じプライバシー保証のために大幅にノイズを減らしてリリースできることを示します。 これを実現するために、最低ケース感度$R$の個々のデータを、すべてのデータが一定のノルム$R$を持つプレフィックスに投影する。 この単純な例では、'free' クエリを追加して実行することができ、これはもともとの予算化されたクエリのプライバシロスによって既にカバーされており、代数的に数値や和の見積もりを与え、最終的なノイズを下げるために組み合わせることができる。

We show that the most well-known and fundamental building blocks of DP implementations -- sum, mean, count (and many other linear queries) -- can be released with substantially reduced noise for the same privacy guarantee. We achieve this by projecting individual data with worst-case sensitivity $R$ onto a simplex where all data now has a constant norm $R$. In this simplex, additional ``free'' queries can be run that are already covered by the privacy-loss of the original budgeted query, and which algebraically give additional estimates of counts or sums, and can be combined for lower final noise.
翻訳日:2024-08-22 12:07:24 公開日:2024-08-21
# LBC:アウトオフ変数一般化のための言語ベース分類器

LBC: Language-Based-Classifier for Out-Of-Variable Generalization ( http://arxiv.org/abs/2408.10923v2 )

ライセンス: Link先を確認
Kangjun Noh, Baekryun Seong, Hoyoon Byun, Youngjun Choi, Sungjin Song, Kyungwoo Song, (参考訳) 大規模言語モデル(LLM)は、応答生成のような自然言語処理タスクにおいて大きな成功を収めている。 しかし、XGBoostのような従来の機械学習モデル(TML)と比べてパフォーマンスが劣っているため、表形式のデータでの使用は制限されている。 LLMの事前学習された知識は、追加のトレーニングなしにテストに現れる新しい変数を解釈することを可能にする。 そこで本研究では,LBC(Language-Based-Classifier)を提案する。 LBCは3つの主要な方法論戦略を採用している。 1) モデルの理解に合うようにデータを調整するためのカテゴリの変更。 2)データ表現をモデルに拡張する高度な順序と指標 3)ロジットスコアを推論中にクラスにマッピングし,モデル予測を生成する。 これらの戦略は、LBCの事前訓練された知識と組み合わせて、OOVタスクを効果的に処理するモデルの能力を強調している。 我々は,LBCの優位性を実証的,理論的に検証した。 LBC は OOV タスクに LLM ベースのモデルを適用する最初の研究である。 ソースコードはhttps://github.com/ASDASDanonymous/Language-Based-Classifier-forOOVtasksにある。

Large Language Models (LLMs) have great success in natural language processing tasks such as response generation. However, their use in tabular data has been limited due to their inferior performance compared to traditional machine learning models (TMLs) such as XGBoost. We find that the pre-trained knowledge of LLMs enables them to interpret new variables that appear in a test without additional training, a capability central to the concept of Out-of-Variable (OOV). From the findings, we propose a Language-Based-Classifier (LBC), a classifier that maximizes the benefits of LLMs to outperform TMLs on OOV tasks. LBC employs three key methodological strategies: 1) Categorical changes to adjust data to better fit the model's understanding, 2) Advanced order and indicator to enhance data representation to the model, and 3) Using verbalizer to map logit scores to classes during inference to generate model predictions. These strategies, combined with the pre-trained knowledge of LBC, emphasize the model's ability to effectively handle OOV tasks. We empirically and theoretically validate the superiority of LBC. LBC is the first study to apply an LLM-based model to OOV tasks. The source code is at https://github.com/ASDASDanonymous/Language-Based-Classifier-forOOVtasks.
翻訳日:2024-08-22 12:07:24 公開日:2024-08-21
# MagicDec: 投機的復号化による長期コンテキスト生成のためのレイテンシ・スループトレードオフを破る

MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding ( http://arxiv.org/abs/2408.11049v2 )

ライセンス: Link先を確認
Jian Chen, Vashisth Tiwari, Ranajoy Sadhukhan, Zhuoming Chen, Jinyuan Shi, Ian En-Hsu Yen, Beidi Chen, (参考訳) 大きな言語モデル(LLM)は、対話型チャットボット、ドキュメント分析、エージェントワークフローといった長文アプリケーションでは一般的になっていますが、低レイテンシと高スループットで長文リクエストを提供するのは難しいです。 投機的復号法(SD)は、性能を犠牲にすることなくレイテンシを低減する手法として広く用いられているが、従来の知恵は、その有効性は小さなバッチサイズに限定されていることを示唆している。 MagicDecでは、中間列から長列への高スループット推論でも驚くほどSDが高速化できることが示されている。 より興味深いことに、インテリジェントなドラフト戦略は、厳密な分析に基づいてバッチサイズを増やすことで、より良いスピードアップを達成することができます。 MagicDecはまず、バッチサイズとシーケンス長の増加に伴うボトルネックシフトを特定し、これらの洞察を使用して、高いスループット推論のために投機的デコーディングをより効果的にデプロイする。 次に、スパースKVキャッシュを備えたドラフトモデルを活用して、シーケンス長とバッチサイズの両方でスケールするKVボトルネックに対処する。 この発見は、スループットを向上し、精度を損なうことなくレイテンシを低減することができるため、長期コンテキストサービスにおける投機的復号化の幅広い適用性を示している。 LLaMA-2-7B-32Kは最大2倍、LLaMA-3.1-8Bは最大1.84倍、NVIDIA A100 GPUは32から256までのバッチサイズを提供する。 コードはhttps://github.com/Infini-AI-Lab/MagicDec/で公開されている。

Large Language Models (LLMs) have become more prevalent in long-context applications such as interactive chatbots, document analysis, and agent workflows, but it is challenging to serve long-context requests with low latency and high throughput. Speculative decoding (SD) is a widely used technique to reduce latency without sacrificing performance but the conventional wisdom suggests that its efficacy is limited to small batch sizes. In MagicDec, we show that surprisingly SD can achieve speedup even for a high throughput inference regime for moderate to long sequences. More interestingly, an intelligent drafting strategy can achieve better speedup with increasing batch size based on our rigorous analysis. MagicDec first identifies the bottleneck shifts with increasing batch size and sequence length, and uses these insights to deploy speculative decoding more effectively for high throughput inference. Then, it leverages draft models with sparse KV cache to address the KV bottleneck that scales with both sequence length and batch size. This finding underscores the broad applicability of speculative decoding in long-context serving, as it can enhance throughput and reduce latency without compromising accuracy. For moderate to long sequences, we demonstrate up to 2x speedup for LLaMA-2-7B-32K and 1.84x speedup for LLaMA-3.1-8B when serving batch sizes ranging from 32 to 256 on 8 NVIDIA A100 GPUs. The code is available at https://github.com/Infini-AI-Lab/MagicDec/.
翻訳日:2024-08-22 12:07:24 公開日:2024-08-21
# 資源制約フェアネス

Resource-constrained Fairness ( http://arxiv.org/abs/2406.01290v4 )

ライセンス: Link先を確認
Sofie Goethals, Eoin Delaney, Brent Mittelstadt, Chris Russell, (参考訳) リソースへのアクセスは、決定を強く制約します。 学生全員に奨学金を提供したい、あるいは専門家とのフォローアップミーティングのために患者全員をスケジュールしたいと思うかもしれませんが、リソースは限られているため、これは不可能です。 機械学習システムをデプロイする場合、これらのリソース制約は、分類器のしきい値を変更することで単純に強制される。 しかし、これらの有限リソース制限は、リソース制限の仕様を許さず、しきい値が変化しても公平に保たない、公正な機械学習のためのほとんどの既存のツールには無視されている。 これにより、実際のデプロイメントには適さない。 本研究は「資源制約公正」の概念を導入し、この枠組みにおける公正のコストを定量化する。 利用可能な資源のレベルがこのコストに大きく影響することを示し、これは以前の評価で見落とされた要素である。

Access to resources strongly constrains the decisions we make. While we might wish to offer every student a scholarship, or schedule every patient for follow-up meetings with a specialist, limited resources mean that this is not possible. When deploying machine learning systems, these resource constraints are simply enforced by varying the threshold of a classifier. However, these finite resource limitations are disregarded by most existing tools for fair machine learning, which do not allow the specification of resource limitations and do not remain fair when varying thresholds. This makes them ill-suited for real-world deployment. Our research introduces the concept of "resource-constrained fairness" and quantifies the cost of fairness within this framework. We demonstrate that the level of available resources significantly influences this cost, a factor overlooked in previous evaluations.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# TimeSieve:インフォメーション・ボトルネックによる時間的ダイナミクスの抽出

TimeSieve: Extracting Temporal Dynamics through Information Bottlenecks ( http://arxiv.org/abs/2406.05036v3 )

ライセンス: Link先を確認
Ninghui Feng, Songning Lai, Jiayu Yang, Fobao Zhou, Zhenxiao Yin, Hang Zhao, (参考訳) 時系列予測は、交通管理、天気予報、財務分析など、様々な現実の領域で重要な応用がなされているため、ますます人気が高まっている。 大幅な進歩にもかかわらず、既存のモデルは、異なるデータセットに対する手動ハイパーパラメータチューニングの必要性や、強い季節性によって特徴づけられるデータにおける冗長な特徴とシグナルを効果的に区別することの難しさなど、顕著な課題に直面している。 これらの問題は時系列予測モデルの一般化と実用化を妨げている。 そこで本研究では,これらの課題に対処するために,時系列予測モデルであるTimeSieveを提案する。 提案手法では,ウェーブレット変換を用いて時系列データを前処理し,パラメータの追加や手動ハイパーパラメータチューニングを必要とせず,マルチスケール機能を効果的にキャプチャする。 さらに,より詳細な情報と近似係数から冗長な特徴を抽出し,最も予測可能な情報のみを保持する情報ボトルネック理論を導入する。 この組み合わせにより、モデルの精度が大幅に向上する。 大規模な実験により、我々のモデルはデータセットの70%で既存の最先端の手法より優れており、予測精度が向上し、多様なデータセットをまたいだ一般化が向上していることが示された。 本研究は, 時系列予測における重要な課題に対処する上で, 提案手法の有効性を検証し, 実用的応用における信頼性と効率的な予測モデルの実現の道を開くものである。 私たちのモデルのコードはhttps://github.com/xll0328/TimeSieve.comから入手可能です。

Time series forecasting has become an increasingly popular research area due to its critical applications in various real-world domains such as traffic management, weather prediction, and financial analysis. Despite significant advancements, existing models face notable challenges, including the necessity of manual hyperparameter tuning for different datasets, and difficulty in effectively distinguishing signal from redundant features in data characterized by strong seasonality. These issues hinder the generalization and practical application of time series forecasting models. To solve this issues, we propose an innovative time series forecasting model TimeSieve designed to address these challenges. Our approach employs wavelet transforms to preprocess time series data, effectively capturing multi-scale features without the need for additional parameters or manual hyperparameter tuning. Additionally, we introduce the information bottleneck theory that filters out redundant features from both detail and approximation coefficients, retaining only the most predictive information. This combination reduces significantly improves the model's accuracy. Extensive experiments demonstrate that our model outperforms existing state-of-the-art methods on 70% of the datasets, achieving higher predictive accuracy and better generalization across diverse datasets. Our results validate the effectiveness of our approach in addressing the key challenges in time series forecasting, paving the way for more reliable and efficient predictive models in practical applications. The code for our model is available at https://github.com/xll0328/TimeSieve.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# FairX: フェアネス、ユーティリティ、説明可能性を用いたモデル解析のための総合的なベンチマークツール

FairX: A comprehensive benchmarking tool for model analysis using fairness, utility, and explainability ( http://arxiv.org/abs/2406.14281v3 )

ライセンス: Link先を確認
Md Fahim Sikder, Resmi Ramachandranpillai, Daniel de Leng, Fredrik Heintz, (参考訳) FairXはオープンソースのPythonベースのベンチマークツールで、フェアネス、ユーティリティ、eXplainability(XAI)という傘の下で、モデルを包括的に分析するように設計されています。 FairXは、ベンチマークのバイアス除去モデルをトレーニングし、さまざまな公正度メトリクス、データユーティリティメトリクスを使用して公正性を評価し、統一されたフレームワーク内でモデル予測の説明を生成する。 既存のベンチマークツールには、公正な生成モデルから生成された合成データを評価する方法はなく、公正な生成モデルのトレーニングもサポートしていない。 FairXでは、フェアモデルライブラリ(前処理、内処理、後処理)のコレクションに公正な生成モデルを加え、合成フェアデータの品質を評価するための評価指標を加えます。 このバージョンのFairXは、表と画像の両方のデータセットをサポートする。 また、ユーザーは独自のカスタムデータセットを提供することもできる。 FairXベンチマークパッケージはhttps://github.com/fahim-sikder/FairXで公開されている。

We present FairX, an open-source Python-based benchmarking tool designed for the comprehensive analysis of models under the umbrella of fairness, utility, and eXplainability (XAI). FairX enables users to train benchmarking bias-removal models and evaluate their fairness using a wide array of fairness metrics, data utility metrics, and generate explanations for model predictions, all within a unified framework. Existing benchmarking tools do not have the way to evaluate synthetic data generated from fair generative models, also they do not have the support for training fair generative models either. In FairX, we add fair generative models in the collection of our fair-model library (pre-processing, in-processing, post-processing) and evaluation metrics for evaluating the quality of synthetic fair data. This version of FairX supports both tabular and image datasets. It also allows users to provide their own custom datasets. The open-source FairX benchmarking package is publicly available at https://github.com/fahim-sikder/FairX.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# QET:要素置換と残留クラスタリングによる量子LDMパラメータとKVキャッシュ圧縮の強化

QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering ( http://arxiv.org/abs/2407.03637v3 )

ライセンス: Link先を確認
Yanshu Wang, Wang Li, Tong Yang, (参考訳) 行列量子化(Matrix Quantization)は、行列要素をよりコンパクトな形式に圧縮し、ストレージ要求を減らす。 量子化誤差最小化(QEM)問題を、元の行列と量子化行列の差を最小限に抑えつつ、固定メモリの制約内に量子化行列が残ることを保証するものとして定義する。 この技術は、Large Language Model (LLM) 重み圧縮やKVキャッシュ圧縮のようなアプリケーションにおいて重要であり、大きな行列サイズは効率的なストレージソリューションを必要とする。 GPT-4やBERTのような現代のLCMは成長を続けており、効率的な行列圧縮がますます重要になっている。 これらのモデルは、数十億のパラメータを行列形式に含んでおり、記憶と計算の効率の両方において、効率的な量量子化が不可欠である。 同様に、中間推論結果を格納するKVキャッシュは行列ベースであり、最適化された圧縮技術から大きな恩恵を受ける。 LLM重みとKVキャッシュ圧縮の文脈におけるQEM問題に対処するために、量子エンタングルメントツリー(QET)を提案する。 QETは、行列要素の局所構造を反復的に交換することで、局所的に順序付けられた行列を生成し、列によってグループ化され、量子化された列を生成する。 QETを強化するために,平均二乗誤差(MSE)をさらに削減するための残差量子化と,アルゴリズムを高速化するためのバッチ処理によるマスキングという2つの最適化を導入する。 実験により,QETは圧縮比でMSEを12.3%まで低減し,ベースライン法よりも優れた性能を発揮することが示された。 コントリビューションには、LLMおよびKVキャッシュ圧縮に特化したQEM問題のフレーミング、QETアルゴリズムの開発、精度と処理速度を改善する最適化の実施が含まれている。

Matrix quantization compresses matrix elements into a more compact form to reduce storage requirements, with dequantization enabling reconstruction for use. We define the Quantization Error Minimization (QEM) problem as minimizing the difference between the original and quantized matrices while ensuring the quantized matrix remains within fixed memory constraints. This technique is crucial in applications like Large Language Model (LLM) weight compression and KV cache compression, where large matrix sizes demand efficient storage solutions. As modern LLMs like GPT-4 and BERT continue to grow, effective matrix compression is increasingly important. These models contain billions of parameters in matrix form, making efficient weight quantization essential for both storage and computational efficiency. Similarly, KV caches, storing intermediate inference results, are matrix-based and benefit significantly from optimized compression techniques. To address the QEM problem in the context of LLM weight and KV cache compression, we propose Quantum Entanglement Trees (QET). QET leverages the local structure of matrix elements by iteratively swapping elements to create a locally ordered matrix, which is then grouped and quantized column by column. To enhance QET, we introduce two optimizations: residual quantization to further reduce Mean Squared Error (MSE) and masking with batch processing to accelerate the algorithm. Our experiments demonstrate that QET can reduce MSE to 12.3% of its original value at the same compression ratio, outperforming leading baseline methods. Our contributions include framing the QEM problem specifically for LLM and KV cache compression, developing the QET algorithm, and implementing optimizations that improve accuracy and processing speed.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# ロボットの深部生成モデル:マルチモーダルなデモから学ぶ

Deep Generative Models in Robotics: A Survey on Learning from Multimodal Demonstrations ( http://arxiv.org/abs/2408.04380v3 )

ライセンス: Link先を確認
Julen Urain, Ajay Mandlekar, Yilun Du, Mahi Shafiullah, Danfei Xu, Katerina Fragkiadaki, Georgia Chalvatzaki, Jan Peters, (参考訳) データからロボットの行動モデルを学ぶための分野であるDemonstrationsからの学習は、深層生成モデルの出現によって人気が高まっている。 この問題は、Imitation Learning, Behavioral Cloning, Inverse Reinforcement Learningといった名前で何年も研究されてきたが、古典的な手法は複雑なデータ分布をうまく捉えていない、あるいは多くのデモにうまくスケールしていないモデルに依存している。 近年、ロボット学習コミュニティは、大規模なデータセットの複雑さを捉えるために、深層生成モデルを使うことへの関心が高まっている。 本調査では,ロボット工学における深部生成モデルの利用における昨年の進歩を総合的かつ包括的に検証することを目的としている。 我々は、エネルギーベースモデル、拡散モデル、アクションバリューマップ、生成的敵ネットワークなど、コミュニティが探求した様々なタイプのモデルを提示する。 また,情報生成から軌道生成,コスト学習に至るまで,深層生成モデルを用いた様々なアプリケーションについて述べる。 生成モデルの最も重要な要素の1つは分布の一般化である。 本調査では,学習モデルの一般化を改善するために,コミュニティが行ったさまざまな決定についてレビューする。 最後に,研究課題を取り上げ,ロボット工学における深層生成モデル学習の今後の方向性について述べる。

Learning from Demonstrations, the field that proposes to learn robot behavior models from data, is gaining popularity with the emergence of deep generative models. Although the problem has been studied for years under names such as Imitation Learning, Behavioral Cloning, or Inverse Reinforcement Learning, classical methods have relied on models that don't capture complex data distributions well or don't scale well to large numbers of demonstrations. In recent years, the robot learning community has shown increasing interest in using deep generative models to capture the complexity of large datasets. In this survey, we aim to provide a unified and comprehensive review of the last year's progress in the use of deep generative models in robotics. We present the different types of models that the community has explored, such as energy-based models, diffusion models, action value maps, or generative adversarial networks. We also present the different types of applications in which deep generative models have been used, from grasp generation to trajectory generation or cost learning. One of the most important elements of generative models is the generalization out of distributions. In our survey, we review the different decisions the community has made to improve the generalization of the learned models. Finally, we highlight the research challenges and propose a number of future directions for learning deep generative models in robotics.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# JPEG-LM:標準コーデック表現を用いたイメージジェネレータとしてのLCM

JPEG-LM: LLMs as Image Generators with Canonical Codec Representations ( http://arxiv.org/abs/2408.08459v2 )

ライセンス: Link先を確認
Xiaochuang Han, Marjan Ghazvininejad, Pang Wei Koh, Yulia Tsvetkov, (参考訳) 画像およびビデオ生成における最近の研究は、その汎用性と、マルチモーダルシステムへの容易な統合により、自己回帰型LLMアーキテクチャを採用する。 言語生成における自己回帰トレーニングを視覚的生成に適用する上での要点は、画像やビデオなどの連続したデータを離散トークンとして表現する、離散化である。 画像やビデオの離散化の一般的な方法は、不当に長めである生のピクセル値のモデリングや、複雑なプレホックトレーニングを必要とするベクトル量子化である。 本研究では,画像やビデオを直接,標準コーデック(JPEG,AVC/H.264)を介してコンピュータ上に保存した圧縮ファイルとしてモデル化することを提案する。 画像を生成するためにJPEG-LMをスクラッチから事前訓練し(AVC-LMは概念実証としてビデオを生成する)、JPEGおよびAVCフォーマットで圧縮されたファイルバイトを直接出力する。 画像生成の評価は、この単純で簡単なアプローチは、ピクセルベースモデリングや高度なベクトル量子化ベースライン(FIDの31%削減をもたらす)よりも効果的であることを示している。 解析の結果,JPEG-LMはベクトル量子化モデルよりも長期視覚要素の生成に有利であることが示唆された。 全体として、標準コーデック表現を用いることで、言語生成と視覚生成の間の障壁を減らし、マルチモーダル言語/画像/ビデオLLMの今後の研究を促進することが示される。

Recent work in image and video generation has been adopting the autoregressive LLM architecture due to its generality and potentially easy integration into multi-modal systems. The crux of applying autoregressive training in language generation to visual generation is discretization -- representing continuous data like images and videos as discrete tokens. Common methods of discretizing images and videos include modeling raw pixel values, which are prohibitively lengthy, or vector quantization, which requires convoluted pre-hoc training. In this work, we propose to directly model images and videos as compressed files saved on computers via canonical codecs (e.g., JPEG, AVC/H.264). Using the default Llama architecture without any vision-specific modifications, we pretrain JPEG-LM from scratch to generate images (and AVC-LM to generate videos as a proof of concept), by directly outputting compressed file bytes in JPEG and AVC formats. Evaluation of image generation shows that this simple and straightforward approach is more effective than pixel-based modeling and sophisticated vector quantization baselines (on which our method yields a 31% reduction in FID). Our analysis shows that JPEG-LM has an especial advantage over vector quantization models in generating long-tail visual elements. Overall, we show that using canonical codec representations can help lower the barriers between language generation and visual generation, facilitating future research on multi-modal language/image/video LLMs.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# コード生成のための選択型プロンプトアンカリング

Selective Prompt Anchoring for Code Generation ( http://arxiv.org/abs/2408.09121v2 )

ライセンス: Link先を確認
Yuan Tian, Tianyi Zhang, (参考訳) CopilotやChatGPTのような大規模言語モデル(LLM)の最近の進歩は、コーディングタスクの自動化によってソフトウェア開発に変化をもたらした。 これらの進歩にもかかわらず、エラー率の削減とユーザの期待を完全に満たすことは依然として課題である。 私たちの経験的研究によると、LLMはコードトークンが生成されるにつれて、初期プロンプトに対する自己注意を減らしがちです。 LLM生成符号における不正確性の根本原因の1つとして, この自己注意希釈問題の仮説を立てる。 この問題を軽減するため,SPA(Selective Prompt Anchoring)を提案する。 SPAは、初期プロンプトにおいて選択された部分の影響を増幅し、コード生成時に ''anchored text'' と呼ぶ。 具体的には、SPAは、アンカーされたテキストと不要なロジット分布差を算出する。 この差は、出力ロジットに対するアンカーテキストの文脈的寄与を近似する。 SPAは、元のロジット分布とロジット差を線形に結合することにより、拡張ロジット分布を生成する。 4つのベンチマークでSPAを5つのLLMで評価した。 我々の結果は、SPAを使用することで、すべての設定でPass@1レートを最大9.7%改善できることを示している。 特に、選択的なテキストアンカーによって、DeepSeek-Coder (6.7B) の小さなバージョンは、オリジナルのより大きなバージョン (33B) よりもパフォーマンスが向上する。 私たちのコードはhttps://github.com/magic-YuanTian/Selective-Prompt-Anchoring.comで利用可能です。

Recent advances in large language models (LLMs) such as Copilot and ChatGPT have transformed software development by automating coding tasks. Despite these advancements, challenges remain in reducing error rates and fully meeting user expectations. Our empirical study reveals LLMs tend to dilute their self-attention on the initial prompt as more code tokens are generated. We hypothesize this self-attention dilution issue is one of the root causes of inaccuracies in LLM-generated code. To mitigate this issue, we propose Selective Prompt Anchoring (SPA). SPA amplifies the influence of the selected parts in the initial prompt, which we refer to as ``anchored text'', during code generation. Specifically, SPA calculates the logit distribution difference with and without the anchored text. We prove this difference approximates the anchored text's contextual contribution to the output logits. SPA creates an augmented logit distribution by linearly combining the original logit distribution and the logit difference. We evaluate SPA with five LLMs on four benchmarks. Our results demonstrate that using SPA can consistently improve Pass@1 rates by up to 9.7% in all settings. Notably, with selective text anchoring, a small version of DeepSeek-Coder (6.7B) can achieve better performance than an original much larger version (33B). Our code is available at https://github.com/magic-YuanTian/Selective-Prompt-Anchoring.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# 大規模言語モデル基盤のためのアーキテクチャ基盤

Architectural Foundations for the Large Language Model Infrastructures ( http://arxiv.org/abs/2408.09205v2 )

ライセンス: Link先を確認
Hongyin Zhu, (参考訳) 大規模言語モデル(LLM)インフラストラクチャの開発は、人工知能における重要な取り組みである。 本稿では,LLMのインフラ,ソフトウェア,データ管理の複雑な状況について考察する。 これらの中核成分を解析することにより、LLM開発の成功に不可欠である重要な考慮事項と安全性を強調した。 この研究は、ロバストで効果的なLLMインフラの構築に固有の課題と戦略を簡潔に合成し、研究者や実践者にも貴重な洞察を提供する。

The development of a large language model (LLM) infrastructure is a pivotal undertaking in artificial intelligence. This paper explores the intricate landscape of LLM infrastructure, software, and data management. By analyzing these core components, we emphasize the pivotal considerations and safeguards crucial for successful LLM development. This work presents a concise synthesis of the challenges and strategies inherent in constructing a robust and effective LLM infrastructure, offering valuable insights for researchers and practitioners alike.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# 大規模言語モデルの実践における課題と対応

Challenges and Responses in the Practice of Large Language Models ( http://arxiv.org/abs/2408.09416v2 )

ライセンス: Link先を確認
Hongyin Zhu, (参考訳) 本稿は、産業動向、学術研究、技術革新、ビジネス応用など、さまざまな側面を網羅した、現在注目されているAI分野に焦点を当て、あらゆる人生の歩みから広範囲で深い疑問を注意深く要約する。 本論文は、思考を誘発し、実践的に関係のある質問を慎重にキュレートし、それぞれにニュアンスがあり、洞察に富んだ回答を提供する。 本稿では,コンピュータパワーインフラストラクチャ,ソフトウェアアーキテクチャ,データリソース,アプリケーションシナリオ,脳科学の5つの中核的な側面から,これらの質問を体系的かつ慎重に分類し,整理する。 この研究は、あらゆる人生の人々のAI開発のパルスを把握し、革新的思考を刺激し、産業の進歩を促進するために、包括的で深い、最先端のAI知識フレームワークを読者に提供することを目的としている。

This paper carefully summarizes extensive and profound questions from all walks of life, focusing on the current high-profile AI field, covering multiple dimensions such as industry trends, academic research, technological innovation and business applications. This paper meticulously curates questions that are both thought-provoking and practically relevant, providing nuanced and insightful answers to each. To facilitate readers' understanding and reference, this paper specifically classifies and organizes these questions systematically and meticulously from the five core dimensions of computing power infrastructure, software architecture, data resources, application scenarios, and brain science. This work aims to provide readers with a comprehensive, in-depth and cutting-edge AI knowledge framework to help people from all walks of life grasp the pulse of AI development, stimulate innovative thinking, and promote industrial progress.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# ベンチャーキャピタリストにおけるスタートアップ成功予測の強化:多変量時系列法のグラフRAG

Enhancing Startup Success Predictions in Venture Capital: A GraphRAG Augmented Multivariate Time Series Method ( http://arxiv.org/abs/2408.09420v3 )

ライセンス: Link先を確認
Zitian Gao, Yihao Xiao, (参考訳) Venture Capital(VC)業界では、限られた財務データと主観的な収益予測の必要性のため、スタートアップの成功を予測することは難しい。 時系列分析やディープラーニングに基づく従来の方法は、競争やコラボレーションのような重要な企業間関係を組み込むことができないため、しばしば不足する。 本稿では,GrahphRAG拡張時系列モデルを用いた新しい手法を提案する。 GraphRAGでは、これらの重要な関係を分析フレームワークに統合することにより、時系列予測の手法が強化され、ベンチャーキャピタルにおけるスタートアップエコシステムをよりダイナミックに理解できるようになる。 実験の結果,我々のモデルは,スタートアップの成功予測において,過去のモデルよりも大幅に優れていたことがわかった。 私たちの知る限りでは、私たちの仕事はGraphRAGの最初のアプリケーション作業です。

In the Venture Capital(VC) industry, predicting the success of startups is challenging due to limited financial data and the need for subjective revenue forecasts. Previous methods based on time series analysis or deep learning often fall short as they fail to incorporate crucial inter-company relationships such as competition and collaboration. Regarding the issues, we propose a novel approach using GrahphRAG augmented time series model. With GraphRAG, time series predictive methods are enhanced by integrating these vital relationships into the analysis framework, allowing for a more dynamic understanding of the startup ecosystem in venture capital. Our experimental results demonstrate that our model significantly outperforms previous models in startup success predictions. To the best of our knowledge, our work is the first application work of GraphRAG.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# 巨大ナノ粒子の線形次元を超えた運動状態のコヒーレント展開

Coherent expansion of the motional state of a massive nanoparticle beyond its linear dimensions ( http://arxiv.org/abs/2408.09596v2 )

ライセンス: Link先を確認
R. Muffato, T. S. Georgescu, M. Carlesso, M. Paternostro, H. Ulbricht, (参考訳) 量子力学は、巨大な粒子が波のように振る舞うことを予測している。 物質波干渉計は、原子や分子のような微視的なシステムを含む地上での実験を通じて、このような予測を検証することができる。 このような系の波動関数は、その大きさよりもはるかに大きな距離をコヒーレントに拡張する。 しかし、同じレベルのコヒーレント拡散に到達すれば、素粒子物理学の真にマクロスケールでの試験や、非常に感度の高い量子センシングアパラタの開発が可能になる。 我々は、トラップ電位の周波数変調により、大規模な浮遊光学系における前例のない位置拡散を実験的に達成することについて報告する。 動作の事前冷却状態から始まり, 微調整深度の急激なパルス列を用いることにより, 捕捉されたナノ粒子の物理次元を超える拡散長に到達するために, このクラスの系における位置拡散の予め達成された値を超えた。

Quantum mechanics predicts that massive particles exhibit wave-like behavior. Matterwave interferometry has been able to validate such predictions through ground-breaking experiments involving microscopic systems like atoms and molecules. The wavefunction of such systems coherently extends over a distance much larger than their size, an achievement that is incredibly challenging for massive and more complex objects. Yet, reaching similar level of coherent diffusion will enable tests of fundamental physics at the genuinely macroscopic scale, as well as the development of quantum sensing apparata of great sensitivity. We report on experimentally achieving an unprecedented degree of position diffusion in a massive levitated optomechanical system through frequency modulation of the trapping potential. By starting with a pre-cooled state of motion and employing a train of sudden pulses yet of mild modulation depth, we surpass previously attained values of position diffusion in this class of systems to reach diffusion lengths that exceed the physical dimensions of the trapped nanoparticle.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# 拡散学習によるバイプレーンX線からの脊椎CT再構成

Reconstruct Spine CT from Biplanar X-Rays via Diffusion Learning ( http://arxiv.org/abs/2408.09731v2 )

ライセンス: Link先を確認
Zhi Qiao, Xuhui Liu, Xiaopeng Wang, Runkun Liu, Xiantong Zhen, Pei Dong, Zhen Qian, (参考訳) 術中CT画像は外科的指導に欠かせない資料であるが、必ずしも手軽に利用でき、実装も容易ではない。 CTイメージングがオプションではないシナリオでは、X線からCTスキャンを再構成することは、実行可能な代替手段となる。 本稿では,バイプレナーX線を用いた3次元CT再構成手法を提案する。 従来の画像生成技術に依拠する従来の研究とは対照的に,提案手法は条件付き拡散プロセスを利用して再構成作業に取り組む。 より正確には、直交双平面X線に基づいて3次元CT画像を生成するために訓練された拡散に基づく確率モデルを用いる。 再構成画像の構造的整合性を改善するため,新しい投影損失関数を組み込んだ。 実験の結果,提案手法は画像品質と複数の評価指標の両面で,既存の最先端ベンチマークを上回っていることがわかった。 具体的には, 構造類似度指数 (SSIM) が 0.83 %, 相対的に 10 %, Fr\'echet Inception Distance (FID) が 83.43 % となり, 相対的に 25 % の低下を示す。

Intraoperative CT imaging serves as a crucial resource for surgical guidance; however, it may not always be readily accessible or practical to implement. In scenarios where CT imaging is not an option, reconstructing CT scans from X-rays can offer a viable alternative. In this paper, we introduce an innovative method for 3D CT reconstruction utilizing biplanar X-rays. Distinct from previous research that relies on conventional image generation techniques, our approach leverages a conditional diffusion process to tackle the task of reconstruction. More precisely, we employ a diffusion-based probabilistic model trained to produce 3D CT images based on orthogonal biplanar X-rays. To improve the structural integrity of the reconstructed images, we incorporate a novel projection loss function. Experimental results validate that our proposed method surpasses existing state-of-the-art benchmarks in both visual image quality and multiple evaluative metrics. Specifically, our technique achieves a higher Structural Similarity Index (SSIM) of 0.83, a relative increase of 10\%, and a lower Fr\'echet Inception Distance (FID) of 83.43, which represents a relative decrease of 25\%.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# ロバストフェデレーション画像分類に向けて:製造における重量選択戦略の実証的研究

Towards Robust Federated Image Classification: An Empirical Study of Weight Selection Strategies in Manufacturing ( http://arxiv.org/abs/2408.10024v2 )

ライセンス: Link先を確認
Vinit Hegiste, Tatjana Legler, Martin Ruskowski, (参考訳) フェデレートラーニング(FL)の領域では、特に製造分野において、サーバアグリゲーションのためのクライアントウェイトを選択する戦略が、モデルのパフォーマンスにおいて重要である。 本研究は, 最終エポックウェイト選択 (FEWS) と最適エポックウェイト選択 (OEWS) の2つの方法の比較効果について検討した。 コラボレーションには通常、限られた数のパートナー(2~4人のクライアント)が関与する製造コンテキスト向けに設計されており、当社の研究は、フェデレートされた画像分類タスクに焦点を当てている。 EfficientNet、ResNet、VGGなど、さまざまなニューラルネットワークアーキテクチャを使用して、これらの重み選択戦略がモデル収束性と堅牢性に与える影響を評価する。 本研究の目的は, 通信ラウンド(CR)間でのグローバルFLモデルの性能向上を, FEWS と OEWS で確認することである。 実験分析と厳密な実験を通じて、製造におけるFL実装の最適化に価値ある洞察を提供し、協力的な取り組みが限られた数のクライアントで最も効果的で信頼性の高いモデルを生み出すことを保証する。 本研究から得られた知見は、FLの実践を製造において著しく洗練し、この重要な分野における協調機械学習の効率性と性能を向上させることが期待されている。

In the realm of Federated Learning (FL), particularly within the manufacturing sector, the strategy for selecting client weights for server aggregation is pivotal for model performance. This study investigates the comparative effectiveness of two weight selection strategies: Final Epoch Weight Selection (FEWS) and Optimal Epoch Weight Selection (OEWS). Designed for manufacturing contexts where collaboration typically involves a limited number of partners (two to four clients), our research focuses on federated image classification tasks. We employ various neural network architectures, including EfficientNet, ResNet, and VGG, to assess the impact of these weight selection strategies on model convergence and robustness. Our research aims to determine whether FEWS or OEWS enhances the global FL model's performance across communication rounds (CRs). Through empirical analysis and rigorous experimentation, we seek to provide valuable insights for optimizing FL implementations in manufacturing, ensuring that collaborative efforts yield the most effective and reliable models with a limited number of participating clients. The findings from this study are expected to refine FL practices significantly in manufacturing, thereby enhancing the efficiency and performance of collaborative machine learning endeavors in this vital sector.
翻訳日:2024-08-22 12:00:34 公開日:2024-08-21
# 量子およびニューロインスパイアコンピューティングのための極薄埋没酸化物のアングストロームスケールイオンビーム工学

Angstrom-scale ion-beam engineering of ultrathin buried oxides for quantum and neuro-inspired computing ( http://arxiv.org/abs/2408.10138v2 )

ライセンス: Link先を確認
N. Smirnov, E. Krivko, D. Moskaleva, D. Moskalev, A. Solovieva, V. Echeistov, E. Zikiy, N. Korshakov, A. Ivanov, E. Malevannaya, A. Matanin, V. Polozov, M. Teleganov, N. Zhitkov, R. Romashkin, I. Korobenko, A. Yanilkin, A. Lebedev, I. Ryzhikov, A. Andriyash, I. Rodionov, (参考訳) 埋没した超薄型トンネル酸化物、2D材料、固体電解質を含む多層ナノスケールシステムは、次世代論理、メモリ、量子およびニューロインスパイアされた計算に不可欠である。 それでも、アングストロームスケールでの超薄層制御は、最先端のアプリケーションでは困難である。 ここでは, イオンビームアニールを用いた拡張性アプローチを, アングストロームスケールの厚さ制御による埋没酸化膜工学に応用する。 Al/a-AlOx/Al構造上におけるNe+照射の分子動力学シミュレーションにより,イオン生成結晶欠陥の重要な役割が確認された。 25x25mmチップにおける標準偏差0.86%の抵抗範囲2~37%のジョセフソン接合タンピングの性能を実験的に実証した。 さらに,500usまでのコヒーレンス時間で超伝導トランスモン量子ビットを超伝導するための+-17MHz帯の周波数制御(+-0.172Aトンネルバリア厚)を紹介した。 この研究により、深さ制御された結晶欠陥の生成による極大スケールの超薄多層ナノシステム工学が保証される。

Multilayer nanoscale systems incorporating buried ultrathin tunnel oxides, 2D materials, and solid electrolytes are crucial for next-generation logics, memory, quantum and neuro-inspired computing. Still, an ultrathin layer control at angstrom scale is challenging for cutting-edge applications. Here we introduce a scalable approach utilizing focused ion-beam annealing for buried ultrathin oxides engineering with angstrom-scale thickness control. Our molecular dynamics simulations of Ne+ irradiation on Al/a-AlOx/Al structure confirms the pivotal role of ion generated crystal defects. We experimentally demonstrate its performance on Josephson junction tunning in the resistance range of 2 to 37% with a standard deviation of 0.86% across 25x25 mm chip. Moreover, we showcase +-17 MHz frequency control (+-0.172 A tunnel barrier thickness) for superconducting transmon qubits with coherence times up to 500 us, which is promising for useful fault-tolerant quantum computing. This work ensures ultrathin multilayer nanosystems engineering at the ultimate scale by depth-controlled crystal defects generation.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# 変圧器モデルを用いたシリコンフォトニクスグレーティングからのビームプロファイルの認識

Recognizing Beam Profiles from Silicon Photonics Gratings using Transformer Model ( http://arxiv.org/abs/2408.10287v2 )

ライセンス: Link先を確認
Yu Dian Lim, Hong Yu Li, Simon Chun Kiat Goh, Xiangyu Wang, Peng Zhao, Chuan Seng Tan, (参考訳) 過去10年間で、イオントラップ量子コンピューティングのコミュニティにおいて、トラップされたイオン量子ビットの光学アドレス化のための集積シリコンフォトニクス(SiPh)格子の開発が盛んに行われている。 しかし、赤外線カメラからビームプロファイルを見る場合、ビームプロファイルが位置する対応する高さを決定することはしばしば困難である。 本研究では、SiPh格子からの光のビームプロファイルの対応する高さカテゴリを認識するトランスモデルを開発した。 モデルは,(1)入力パッチ,(2)入力シーケンスの2つの手法を用いて訓練される。 入力パッチでトレーニングしたモデルでは、0.938の認識精度が得られた。 一方、入力シーケンスで訓練されたモデルでは、0.895の精度が低い。 しかし、モデルトレーニング150サイクルを繰り返すと、入力パッチでトレーニングされたモデルは0.445から0.959の範囲で、入力シーケンスでトレーニングされたモデルは0.789から0.936の精度でトレーニングされた。 得られた結果は、光ビームの自動焦点付けやz軸ステージの自動調整など、様々な用途に拡張でき、所望のビームプロファイルを取得することができる。

Over the past decade, there has been extensive work in developing integrated silicon photonics (SiPh) gratings for the optical addressing of trapped ion qubits in the ion trap quantum computing community. However, when viewing beam profiles from infrared (IR) cameras, it is often difficult to determine the corresponding heights where the beam profiles are located. In this work, we developed transformer models to recognize the corresponding height categories of beam profiles of light from SiPh gratings. The model is trained using two techniques: (1) input patches, and (2) input sequence. For model trained with input patches, the model achieved recognition accuracy of 0.938. Meanwhile, model trained with input sequence shows lower accuracy of 0.895. However, when repeating the model-training 150 cycles, model trained with input patches shows inconsistent accuracy ranges between 0.445 to 0.959, while model trained with input sequence exhibit higher accuracy values between 0.789 to 0.936. The obtained outcomes can be expanded to various applications, including auto-focusing of light beam and auto-adjustment of z-axis stage to acquire desired beam profiles.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# ニューラルネットワークのためのクエリ言語

Query languages for neural networks ( http://arxiv.org/abs/2408.10362v2 )

ライセンス: Link先を確認
Martin Grohe, Christoph Standke, Juno Steegmans, Jan Van den Bussche, (参考訳) 私たちは、宣言型言語を使ってニューラルネットワークモデルをクエリすることで、ニューラルネットワークモデルを解釈し理解するための、データベースにインスパイアされたアプローチの基礎を築いた。 この目的のために、ニューラルネットワークモデルへのアクセスにおいて主に異なる一階述語論理に基づく異なるクエリ言語について研究する。 実数体上の一階述語論理は、ネットワークをブラックボックスと見なす言語を自然に生成する。 これは本質的に制約クエリ言語のアプローチです。 一方、ホワイトボックス言語は、ネットワークを重み付きグラフと見なし、重み付き項の和で一階述語論理を拡張することで得られる。 後者のアプローチは基本的にSQLの抽象化です。 一般に、この2つのアプローチは表現力では比較できない。 しかし、自然条件下では、ホワイトボックスアプローチはブラックボックスアプローチを仮定することができる。 固定数の隠れ層を持つフィードフォワードニューラルネットワークで定義可能な実関数上での線形制約クエリの結果を具体的に証明する。

We lay the foundations for a database-inspired approach to interpreting and understanding neural network models by querying them using declarative languages. Towards this end we study different query languages, based on first-order logic, that mainly differ in their access to the neural network model. First-order logic over the reals naturally yields a language which views the network as a black box; only the input--output function defined by the network can be queried. This is essentially the approach of constraint query languages. On the other hand, a white-box language can be obtained by viewing the network as a weighted graph, and extending first-order logic with summation over weight terms. The latter approach is essentially an abstraction of SQL. In general, the two approaches are incomparable in expressive power, as we will show. Under natural circumstances, however, the white-box approach can subsume the black-box approach; this is our main result. We prove the result concretely for linear constraint queries over real functions definable by feedforward neural networks with a fixed number of hidden layers and piecewise linear activation functions.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# 適応影響関数による学習データへの言語モデルのプライバシ漏洩の追跡

Tracing Privacy Leakage of Language Models to Training Data via Adjusted Influence Functions ( http://arxiv.org/abs/2408.10468v2 )

ライセンス: Link先を確認
Jinxin Liu, Zao Yang, (参考訳) LLM(Large Language Models)が生成する応答には、個人や組織からの機密情報が含まれて、潜在的なプライバシー漏洩につながる可能性がある。 この研究は、インフルエンス関数(IF)を実装して、トレーニングデータにプライバシリークをトレースすることで、言語モデル(LM)のプライバシに関する懸念を軽減する。 しかし、現在のIFは、大きな勾配ノルムを持つトークンの影響を正確に見積もることに苦労しており、その影響を過大評価する可能性がある。 最も影響力のあるサンプルをトレースする場合、これは大きな勾配のノルムトークンを持つサンプルに頻繁にトレースし、その影響が十分に見積もられている場合でも、実際の最も影響力のあるサンプルをオーバーシェードする。 この問題に対処するため,Huristically Adjusted IF (HAIF) を提案する。 PII-E と PII-CR という2つの異なるシナリオを,モデル出力と事前学習データに同一のテキストを持つモデルと,その推論能力を利用して事前学習データからテキストを逸脱させる2つのデータセットを構築した。 HAIFは追跡精度を大幅に改善し、PII-Eデータセットでは20.96\%から73.71\%に、PII-CRデータセットでは3.21\%から45.93\%に向上した。 また、HAIFは現実世界の事前訓練データCLUECorpus2020においてSOTA IFよりも優れており、プロンプトや応答長に関わらず強い堅牢性を示している。

The responses generated by Large Language Models (LLMs) can include sensitive information from individuals and organizations, leading to potential privacy leakage. This work implements Influence Functions (IFs) to trace privacy leakage back to the training data, thereby mitigating privacy concerns of Language Models (LMs). However, we notice that current IFs struggle to accurately estimate the influence of tokens with large gradient norms, potentially overestimating their influence. When tracing the most influential samples, this leads to frequently tracing back to samples with large gradient norm tokens, overshadowing the actual most influential samples even if their influences are well estimated. To address this issue, we propose Heuristically Adjusted IF (HAIF), which reduces the weight of tokens with large gradient norms, thereby significantly improving the accuracy of tracing the most influential samples. To establish easily obtained groundtruth for tracing privacy leakage, we construct two datasets, PII-E and PII-CR, representing two distinct scenarios: one with identical text in the model outputs and pre-training data, and the other where models leverage their reasoning abilities to generate text divergent from pre-training data. HAIF significantly improves tracing accuracy, enhancing it by 20.96\% to 73.71\% on the PII-E dataset and 3.21\% to 45.93\% on the PII-CR dataset, compared to the best SOTA IFs against various GPT-2 and QWen-1.5 models. HAIF also outperforms SOTA IFs on real-world pretraining data CLUECorpus2020, demonstrating strong robustness regardless prompt and response lengths.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# LSVOSチャレンジ 第3位:SAM2とCutieベースのVOS

LSVOS Challenge 3rd Place Report: SAM2 and Cutie based VOS ( http://arxiv.org/abs/2408.10469v2 )

ライセンス: Link先を確認
Xinyu Liu, Jing Zhang, Kexin Zhang, Xu Liu, Lingling Li, (参考訳) ビデオオブジェクトセグメンテーション(VOS)は、オブジェクトの隠蔽と断片化、オブジェクトの非出現と再出現、混雑したシーン内の特定のオブジェクトの追跡など、いくつかの課題を提示している。 本研究では,これらの課題に対処するために,最新技術モデル(SOTA)SAM2とCutieの長所を組み合わせる。 さらに,ビデオインスタンスのセグメンテーション性能に及ぼす各種ハイパーパラメータの影響についても検討する。 LSVOS チャレンジ VOS トラックの試験段階での J&F スコアは 0.7952 となり, 総合3位となった。

Video Object Segmentation (VOS) presents several challenges, including object occlusion and fragmentation, the dis-appearance and re-appearance of objects, and tracking specific objects within crowded scenes. In this work, we combine the strengths of the state-of-the-art (SOTA) models SAM2 and Cutie to address these challenges. Additionally, we explore the impact of various hyperparameters on video instance segmentation performance. Our approach achieves a J\&F score of 0.7952 in the testing phase of LSVOS challenge VOS track, ranking third overall.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# ディープラーニングフレームワークにおけるアルゴリズム負債の自動検出:実証的研究

Automated Detection of Algorithm Debt in Deep Learning Frameworks: An Empirical Study ( http://arxiv.org/abs/2408.10529v2 )

ライセンス: Link先を確認
Emmanuel Iko-Ojo Simon, Chirath Hettiarachchi, Alex Potanin, Hanna Suominen, Fatemeh Fard, (参考訳) コンテキスト: 最近の研究は、機械学習(ML/DL)モデルがソースコードのコメントからSelf-Admitted Technical Debt(SATD)と呼ばれる技術的負債を検出できることを示した。 ソフトウェア開発におけるML/DLの重要性にもかかわらず、限定的な研究は、新しいSATDタイプの自動検出に焦点を当てている。 AD検出は、TDを早期に識別し、研究、学習を促進し、モデル劣化とスケーラビリティの欠如に関連する問題の蓄積を防止するために重要である。 Aim: ML/DLモデルのAD検出性能を改善することが目標です。 方法: TF-IDF, Count Vectorizer, Hash Vectorizer, TD-indicative words を用いて, ML/DL分類器を用いて, AD検出を改善する特徴を特定する。 AD、互換性、欠陥、設計、ドキュメント、要求、テスト負債に手動で分類された7つのDLフレームワークから収集された既存のデータセットを使用します。 MLモデルの機能をさらに強化するために,様々な単語埋め込み手法について検討する。 これらの埋め込みは、ROBERTA、ALBERTv2、および大規模な言語モデル(LLMs:INSTRUCTOR、VOYAGE AI)のようなDLで作成されたモデルから提供される。 AD関連用語を取り入れてデータセットを強化し、さまざまなML/DL分類器、サポートベクトルマシン、ロジスティック回帰、ランダムフォレスト、ROBERTA、ALBERTv2をトレーニングします。

Context: Recent studies demonstrate that Machine or Deep Learning (ML/DL) models can detect Technical Debt from source code comments called Self-Admitted Technical Debt (SATD). Despite the importance of ML/DL in software development, limited studies focus on automated detection for new SATD types: Algorithm Debt (AD). AD detection is important because it helps to identify TD early, facilitating research, learning, and preventing the accumulation of issues related to model degradation and lack of scalability. Aim: Our goal is to improve AD detection performance of various ML/DL models. Method: We will perform empirical studies using approaches: TF-IDF, Count Vectorizer, Hash Vectorizer, and TD-indicative words to identify features that improve AD detection, using ML/DL classifiers with different data featurisations. We will use an existing dataset curated from seven DL frameworks where comments were manually classified as AD, Compatibility, Defect, Design, Documentation, Requirement, and Test Debt. We will explore various word embedding methods to further enrich features for ML models. These embeddings will be from models founded in DL such as ROBERTA, ALBERTv2, and large language models (LLMs): INSTRUCTOR and VOYAGE AI. We will enrich the dataset by incorporating AD-related terms, then train various ML/DL classifiers, Support Vector Machine, Logistic Regression, Random Forest, ROBERTA, and ALBERTv2.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# FAGStyle:Zero-shot Text-Guided Diffusion Image Style Transferのための測地面上の特徴拡張

FAGStyle: Feature Augmentation on Geodesic Surface for Zero-shot Text-guided Diffusion Image Style Transfer ( http://arxiv.org/abs/2408.10533v2 )

ライセンス: Link先を確認
Yuexing Han, Liheng Ruan, Bing Wang, (参考訳) イメージスタイル転送の目標は、オリジナルのコンテンツを維持しながら、スタイル参照によってガイドされたイメージをレンダリングすることである。 既存の画像誘導方式は、特定のスタイルの参照画像に依存し、適用範囲を制限し、結果の品質を損なう可能性がある。 フレキシブルな代替手段として、テキスト誘導方式では、ユーザーはテキストプロンプトを使って所望のスタイルを記述できる。 その汎用性にもかかわらず、これらの手法はスタイルの一貫性を維持し、記述されたスタイルを正確に反映し、ターゲット画像の内容を保存するのに苦労することが多い。 これらの課題に対処するために、ゼロショットテキスト誘導拡散画像スタイル転送方式であるFAGStyleを紹介する。 Sliding Window Crop 技術とGeodesic Surface の機能拡張を私たちのスタイル制御損失に組み込むことで,パッチ間の情報インタラクションを向上する。 さらに、コンテンツ整合性を確保するために、事前の自己相関整合性損失を統合する。 FAGStyleは既存の手法よりも優れた性能を示し、ソースイメージのセマンティックな内容を保持するスタイリゼーションを一貫して達成している。 実験の結果,FAGStyleの有効性は,様々なソース内容やスタイルで実証された。

The goal of image style transfer is to render an image guided by a style reference while maintaining the original content. Existing image-guided methods rely on specific style reference images, restricting their wider application and potentially compromising result quality. As a flexible alternative, text-guided methods allow users to describe the desired style using text prompts. Despite their versatility, these methods often struggle with maintaining style consistency, reflecting the described style accurately, and preserving the content of the target image. To address these challenges, we introduce FAGStyle, a zero-shot text-guided diffusion image style transfer method. Our approach enhances inter-patch information interaction by incorporating the Sliding Window Crop technique and Feature Augmentation on Geodesic Surface into our style control loss. Furthermore, we integrate a Pre-Shape self-correlation consistency loss to ensure content consistency. FAGStyle demonstrates superior performance over existing methods, consistently achieving stylization that retains the semantic content of the source image. Experimental results confirms the efficacy of FAGStyle across a diverse range of source contents and styles, both imagined and common.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# Pringle maneuver を用いた腹腔鏡下肝切除術における外科的ワークフロー認識とブロック効果の検出

Surgical Workflow Recognition and Blocking Effectiveness Detection in Laparoscopic Liver Resections with Pringle Maneuver ( http://arxiv.org/abs/2408.10538v2 )

ライセンス: Link先を確認
Diandian Guo, Weixin Si, Zhixi Li, Jialun Pei, Pheng-Ann Heng, (参考訳) 腹腔鏡下肝切除におけるプリングル手術 (PM) は, 肝血流を断続的に遮断することにより, 出血を減少させ, 明確な外科的観察を可能にすることを目的としている。 この外科的処置を包括的に監視し,非効率で長期にわたるブロックのタイムリーな警告を与えるために,我々は,ワークフロー認識と肝切除における有効性検出の2つの補完的AI支援手術モニタリングタスクを提案する。 前者は短期PMのリアルタイム取得に課題を呈し、後者は長期肝虚血状態の術中診断を含む。 これらの課題に対処するため,腹腔鏡下肝切除術50例の手術段階をカバーする25,037の動画フレームからなる,PmLR50という新しいデータセットを慎重に収集した。 さらに,PmLR50のオンラインベースラインであるPmNetを開発した。 このモデルは、短時間・長期の時間情報モデリングを効率的に行うために、マスク付き一時符号化(MTE)と圧縮シーケンスモデリング(CSM)を採用し、コントラスト型プロトタイプ分離(CPS)を組み込んで、同様の手術操作間の動作識別を強化する。 PmLR50ベンチマークでPmNetが既存の最先端の手術ワークフロー認識手法より優れていることを示す実験結果を得た。 本研究は腹腔鏡下肝外科領域における臨床応用の可能性について検討した。 ソースコードとデータは公開されます。

Pringle maneuver (PM) in laparoscopic liver resection aims to reduce blood loss and provide a clear surgical view by intermittently blocking blood inflow of the liver, whereas prolonged PM may cause ischemic injury. To comprehensively monitor this surgical procedure and provide timely warnings of ineffective and prolonged blocking, we suggest two complementary AI-assisted surgical monitoring tasks: workflow recognition and blocking effectiveness detection in liver resections. The former presents challenges in real-time capturing of short-term PM, while the latter involves the intraoperative discrimination of long-term liver ischemia states. To address these challenges, we meticulously collect a novel dataset, called PmLR50, consisting of 25,037 video frames covering various surgical phases from 50 laparoscopic liver resection procedures. Additionally, we develop an online baseline for PmLR50, termed PmNet. This model embraces Masked Temporal Encoding (MTE) and Compressed Sequence Modeling (CSM) for efficient short-term and long-term temporal information modeling, and embeds Contrastive Prototype Separation (CPS) to enhance action discrimination between similar intraoperative operations. Experimental results demonstrate that PmNet outperforms existing state-of-the-art surgical workflow recognition methods on the PmLR50 benchmark. Our research offers potential clinical applications for the laparoscopic liver surgery community. Source code and data will be publicly available.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# MUSES:マルチモーダルエージェントによる3次元制御可能な画像生成

MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration ( http://arxiv.org/abs/2408.10605v2 )

ライセンス: Link先を確認
Yanbo Ding, Shaobin Zhuang, Kunchang Li, Zhengrong Yue, Yu Qiao, Yali Wang, (参考訳) 近年のテキスト・画像生成の進歩にもかかわらず、既存の手法のほとんどは、複数のオブジェクトと複雑な空間的関係を持つ画像を作成するのに苦労している。 この制限に対処するために、ユーザクエリから3D制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。 具体的には,(1)2次元から3次元のレイアウトリフトのためのレイアウトマネージャ,(2)3次元のオブジェクト取得とキャリブレーションのためのモデルエンジニア,(3)3次元から2次元のイメージレンダリングのためのイメージアーティストなど,3つの重要なコンポーネントからなるプログレッシブワークフローを開発することで,この課題に対処する。 このマルチモーダルエージェントパイプラインは、人間のプロフェッショナルのコラボレーションを模倣することにより、トップダウン計画とボトムアップ生成の説明可能な統合を通じて、3D制御可能なオブジェクトによる画像の有効かつ自動生成を容易にする。 さらに、既存のベンチマークでは、複数のオブジェクトの複雑な3次元空間関係の詳細な記述が欠如していることが判明した。 このギャップを埋めるために、我々はさらにT2I-3DisBench (3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。 T2I-CompBenchとT2I-3DisBenchは、DALL-E 3やStable Diffusion 3といった最近の強力なライバルよりも優れている。 これらの結果は,自然言語,2次元画像生成,3次元世界におけるMUSESの前進の重要なステップを示している。

Despite recent advancements in text-to-image generation, most existing methods struggle to create images with multiple objects and complex spatial relationships in 3D world. To tackle this limitation, we introduce a generic AI system, namely MUSES, for 3D-controllable image generation from user queries. Specifically, our MUSES addresses this challenging task by developing a progressive workflow with three key components, including (1) Layout Manager for 2D-to-3D layout lifting, (2) Model Engineer for 3D object acquisition and calibration, (3) Image Artist for 3D-to-2D image rendering. By mimicking the collaboration of human professionals, this multi-modal agent pipeline facilitates the effective and automatic creation of images with 3D-controllable objects, through an explainable integration of top-down planning and bottom-up generation. Additionally, we find that existing benchmarks lack detailed descriptions of complex 3D spatial relationships of multiple objects. To fill this gap, we further construct a new benchmark of T2I-3DisBench (3D image scene), which describes diverse 3D image scenes with 50 detailed prompts. Extensive experiments show the state-of-the-art performance of MUSES on both T2I-CompBench and T2I-3DisBench, outperforming recent strong competitors such as DALL-E 3 and Stable Diffusion 3. These results demonstrate a significant step of MUSES forward in bridging natural language, 2D image generation, and 3D world.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# 非安全な復号経路生成による大言語モデルの安全応答境界の提案

Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation ( http://arxiv.org/abs/2408.10668v2 )

ライセンス: Link先を確認
Haoyu Wang, Bingzhe Wu, Yatao Bian, Yongzhe Chang, Xueqian Wang, Peilin Zhao, (参考訳) 大きな言語モデル(LLM)は暗黙のトラブルメーカーである。 貴重な洞察を提供し、問題解決を支援する一方で、悪意のある活動のためのリソースとしても機能する可能性がある。 安全アライメントを実装することで、LLMが有害な応答を引き起こすリスクを軽減することができる。 LLMが有害なクエリをブロックできたとしても、時限爆弾として機能する隠れた脆弱性があるかもしれません。 これらの弱点を識別するために,検出器と攻撃者の両方に費用対価モデルを適用することを提案する。 外部または自己生成した有害なデータセットに基づいてトレーニングされ、コストバリューモデルは、復号プロセスにおいて有害なコンテンツを出力するために、オリジナルの安全なLCMに影響を与えることができた。 例えば、LLaMA-2-chat 7Bは39.18%のコンクリートの有害成分を出力し、22.16%しか有害な接尾辞を含まない。 これらの潜在的な弱点は、画像上のソフトプロンプトのようなプロンプト最適化を通じて利用することができる。 Jailbreak Value Decoding (JVD) 氏は,一見セキュアな LLM は,当初私たちが信じていたほど安全ではない,と強調する。 有害なデータを収集したり、隠蔽攻撃を行うのに使用できる。

Large Language Models (LLMs) are implicit troublemakers. While they provide valuable insights and assist in problem-solving, they can also potentially serve as a resource for malicious activities. Implementing safety alignment could mitigate the risk of LLMs generating harmful responses. We argue that: even when an LLM appears to successfully block harmful queries, there may still be hidden vulnerabilities that could act as ticking time bombs. To identify these underlying weaknesses, we propose to use a cost value model as both a detector and an attacker. Trained on external or self-generated harmful datasets, the cost value model could successfully influence the original safe LLM to output toxic content in decoding process. For instance, LLaMA-2-chat 7B outputs 39.18% concrete toxic content, along with only 22.16% refusals without any harmful suffixes. These potential weaknesses can then be exploited via prompt optimization such as soft prompts on images. We name this decoding strategy: Jailbreak Value Decoding (JVD), emphasizing that seemingly secure LLMs may not be as safe as we initially believe. They could be used to gather harmful data or launch covert attacks.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# Flexora: 大規模言語モデルに対するフレキシブルな低ランク適応

Flexora: Flexible Low Rank Adaptation for Large Language Models ( http://arxiv.org/abs/2408.10774v2 )

ライセンス: Link先を確認
Chenxing Wei, Yao Shu, Ying Tiffany He, Fei Richard Yu, (参考訳) 大規模言語モデル(LLM)は、モデルパラメータのスケールを拡大することで、人工知能の進歩を推進している。 しかしながら、特定の下流タスクにおけるそれらのパフォーマンスは、通常これらのタスクの知識境界によって妨げられる。 したがって、細調整技術、特に広く使われているローランド適応法(LoRA)は、これらのタスクの境界を広げるために導入され、一方LoRAは、これらのタスクに過度に適合する可能性があるため、特定のタスクで性能が低下する。 このオーバーフィッティングを克服し、LoRAの性能を向上させるために、異なる下流タスクにおいて最高のパフォーマンスを達成するために微調整が必要な最も重要なレイヤを自動的に柔軟に選択するフレキシブルな低ランク適応(Flexora)手法を提案する。 具体的には、Flexoraはまず、この層選択問題を、適切に定義されたハイパーパラメータ最適化(HPO)問題としてフレーム化し、非ローリング微分(UD)法を用いて対処し、最後に最適化されたハイパーパラメータに基づいて最も有用な層を選択する。 多くの事前訓練されたモデルと自然言語タスクに関する広範な実験は、Flexoraが既存のベースラインよりも一貫して改善できることを示し、実際にFlexoraの有効性を示している。 さらに、Flexoraを包括的に理解するために、洞察に富んだ理論的結果と多くのアブレーション研究も提供します。

Large Language Models (LLMs) are driving advancements in artificial intelligence by increasing the scale of model parameters, which has significantly enhanced generalization ability and unlocked new capabilities in practice. However, their performance in specific downstream tasks is usually hindered by their knowledge boundaries on these tasks. Thus, fine-tuning techniques, especially the widely used Low-Rank Adaptation (LoRA) method, have been introduced to expand the boundaries on these tasks, whereas LoRA would underperform on certain tasks owing to its potential overfitting on these tasks. To overcome this overfitting and improve the performance of LoRA, we propose the flexible low rank adaptation (Flexora) method to automatically and flexibly select the most important layers needing to be fine-tuned to achieve the best performance on different downstream tasks. Specifically, Flexora firstly frames this layer selection problem as a well-defined hyperparameter optimization (HPO) problem, then addresses it using the unrolled differentiation (UD) method, and finally selects the most useful layers based on the optimized hyperparameters. Our extensive experiments on many pretrained models and natural language tasks show that Flexora is able to consistently improve over the existing baselines, indicating the effectiveness of our Flexora in practice. We additionally provide insightful theoretical results and many ablation studies to deliver a comprehensive understanding of our Flexora.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# 産業機械ビジョンにおけるジェネレーティブAI - レビュー

Generative AI in Industrial Machine Vision -- A Review ( http://arxiv.org/abs/2408.10775v2 )

ライセンス: Link先を確認
Hans Aoyang Zhou, Dominik Wolfschläger, Constantinos Florides, Jonas Werheid, Hannes Behnen, Jan-Henrick Woltersmann, Tiago C. Pinto, Marco Kemmerling, Anas Abdelrazeq, Robert H. Schmitt, (参考訳) マシンビジョンは、機械が視覚データを解釈して動作させることにより、産業アプリケーションにおける自動化、品質管理、および運用効率を高める。 従来のコンピュータビジョンアルゴリズムとアプローチは依然として広く利用されているが、機械学習は現在の研究活動において重要な役割を担っている。 特に、生成AIは、データ拡張、画像解像度の向上、品質管理の異常の特定を通じて、パターン認識機能を改善することで、有望な可能性を実証している。 しかし、データ多様性、計算要求、堅牢な検証方法の必要性により、生成AIをマシンビジョンに適用することは、まだ初期段階にある。 総合的な文献レビューは、産業機械ビジョンにおける生成AIの現状を理解するために不可欠であり、最近の進歩、応用、研究動向に焦点を当てている。 そこで、PRISMAガイドラインに基づく文献レビューを行い、産業機械ビジョンにおける生成AIに関する1200以上の論文を分析した。 本研究は,データ拡張として生成AIを主に用い,分類や物体検出などのマシンビジョンタスクに活用するなど,現在の研究におけるさまざまなパターンを明らかにした。 さらに、産業機械ビジョンにおける生成AIの応用を成功させるために、データ要件とともにアプリケーション課題の集合を収集する。 この概要は、研究者に現在の研究における様々な分野と応用についての洞察を提供することを目的としており、重要な進歩と将来の仕事の機会を明らかにすることを目的としている。

Machine vision enhances automation, quality control, and operational efficiency in industrial applications by enabling machines to interpret and act on visual data. While traditional computer vision algorithms and approaches remain widely utilized, machine learning has become pivotal in current research activities. In particular, generative AI demonstrates promising potential by improving pattern recognition capabilities, through data augmentation, increasing image resolution, and identifying anomalies for quality control. However, the application of generative AI in machine vision is still in its early stages due to challenges in data diversity, computational requirements, and the necessity for robust validation methods. A comprehensive literature review is essential to understand the current state of generative AI in industrial machine vision, focusing on recent advancements, applications, and research trends. Thus, a literature review based on the PRISMA guidelines was conducted, analyzing over 1,200 papers on generative AI in industrial machine vision. Our findings reveal various patterns in current research, with the primary use of generative AI being data augmentation, for machine vision tasks such as classification and object detection. Furthermore, we gather a collection of application challenges together with data requirements to enable a successful application of generative AI in industrial machine vision. This overview aims to provide researchers with insights into the different areas and applications within current research, highlighting significant advancements and identifying opportunities for future work.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# V-RoAst: ビジュアルロードアセスメントのための新しいデータセット

V-RoAst: A New Dataset for Visual Road Assessment ( http://arxiv.org/abs/2408.10872v2 )

ライセンス: Link先を確認
Natchapon Jongwiriyanurak, Zichao Zeng, June Moh Goo, Xinglei Wang, Ilya Ilyankou, Kerkritt Srirrongvikrai, Meihui Wang, James Haworth, (参考訳) 道路交通事故は毎年何百万人もの死者を出し、特に低所得国や中所得国(LMIC)では経済的に重大な影響を及ぼしている。 本稿では、従来の畳み込みニューラルネットワーク(CNN)の限界を克服し、道路安全評価に視覚言語モデル(VLM)を用いたアプローチを提案する。 我々は,実世界のデータセットを用いた新しいタスク,V-RoAst(道路評価のための視覚的質問応答)を導入する。 提案手法は,Gemini-1.5-flash や GPT-4o-mini などの先進的な VLM を最適化し,評価する。 これらのモデルは,道路評価の属性を効果的に検討する。 Mapillaryのクラウドソース画像を使って、当社のスケーラブルなソリューションは、道路安全レベルを効果的に推定します。 さらに、このアプローチは、トレーニングデータを必要としないため、リソースを欠いたローカルな利害関係者向けに設計されています。 グローバルな道路安全評価のための費用効率が高く自動化された方法を提供しており、命を救う可能性があり、経済的負担を軽減している。

Road traffic crashes cause millions of deaths annually and have a significant economic impact, particularly in low- and middle-income countries (LMICs). This paper presents an approach using Vision Language Models (VLMs) for road safety assessment, overcoming the limitations of traditional Convolutional Neural Networks (CNNs). We introduce a new task ,V-RoAst (Visual question answering for Road Assessment), with a real-world dataset. Our approach optimizes prompt engineering and evaluates advanced VLMs, including Gemini-1.5-flash and GPT-4o-mini. The models effectively examine attributes for road assessment. Using crowdsourced imagery from Mapillary, our scalable solution influentially estimates road safety levels. In addition, this approach is designed for local stakeholders who lack resources, as it does not require training data. It offers a cost-effective and automated methods for global road safety assessments, potentially saving lives and reducing economic burdens.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# BEYOND DIALOGUE:汎用ロールプレイング言語モデルに向けたプロファイルダイアライメントフレームワーク

BEYOND DIALOGUE: A Profile-Dialogue Alignment Framework Towards General Role-Playing Language Model ( http://arxiv.org/abs/2408.10903v2 )

ライセンス: Link先を確認
Yeyong Yu, Rusheng Yu, Haojie Wei, Zhanqiu Zhang, Quan Qian, (参考訳) 大規模言語モデル(LLM)の急速な進歩はロールプレイングに革命をもたらし、一般的なロールプレイングモデルの開発を可能にした。 しかし、現在のロールプレイングトレーニングには2つの大きな問題がある: (I) 特定のシナリオに対する対話トレーニングを促すために事前に定義されたロールプロファイルを使用すると、通常、対話とプロファイルの間に矛盾や矛盾が生じ、トレーニングバイアスが生じる。 (II) モデルは、プロファイルのみに基づくロールの模倣を学び、文レベルでのプロファイル-対話アライメントを無視する。 本研究では,これらのハードルを克服するために,BEYOND DIALOGUEと呼ばれるシンプルで効果的なフレームワークを提案する。 このフレームワークは革新的に"Beyond dialogue"タスクを導入し、それぞれのシナリオに基づいて対話をプロファイル特性と整合させ、トレーニング中のバイアスを取り除く。 さらに、学習のための推論結果を生成する革新的なプロンプト機構を採用することにより、このフレームワークは、文レベルでのプロファイルと対話の微妙なアライメントを実現することができる。 上記の方法は、完全に自動化され、低コストである。 さらに、自動対話と客観的評価手法の統合は総合的な枠組みを形成し、一般的なロールプレイングの道を開く。 実験結果から,我々のモデルは役割プロファイルの様々な次元を忠実に表現し,表現する上で優れており,最もプロプライエタリな役割プレーングベースラインよりも優れていた。 すべてのコードとデータセットはhttps://github.com/yuyouyu32/BeyondDialogue.comで入手できる。

The rapid advancement of large language models (LLMs) has revolutionized role-playing, enabling the development of general role-playing models. However, current role-playing training has two significant issues: (I) Using a predefined role profile to prompt dialogue training for specific scenarios usually leads to inconsistencies and even conflicts between the dialogue and the profile, resulting in training biases. (II) The model learns to imitate the role based solely on the profile, neglecting profile-dialogue alignment at the sentence level. In this work, we propose a simple yet effective framework called BEYOND DIALOGUE, designed to overcome these hurdles. This framework innovatively introduces "beyond dialogue" tasks to align dialogue with profile traits based on each specific scenario, thereby eliminating biases during training. Furthermore, by adopting an innovative prompting mechanism that generates reasoning outcomes for training, the framework allows the model to achieve fine-grained alignment between profile and dialogue at the sentence level. The aforementioned methods are fully automated and low-cost. Additionally, the integration of automated dialogue and objective evaluation methods forms a comprehensive framework, paving the way for general role-playing. Experimental results demonstrate that our model excels in adhering to and reflecting various dimensions of role profiles, outperforming most proprietary general and specialized role-playing baselines. All code and datasets are available at https://github.com/yuyouyu32/BeyondDialogue.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21
# CrossFi: Siamese NetworkをベースにしたクロスドメインWi-Fiセンシングフレームワーク

CrossFi: A Cross Domain Wi-Fi Sensing Framework Based on Siamese Network ( http://arxiv.org/abs/2408.10919v2 )

ライセンス: Link先を確認
Zijian Zhao, Tingwei Chen, Zhijie Cai, Xiaoyang Li, Hang Li, Qimei Chen, Guangxu Zhu, (参考訳) 近年、プライバシー保護、低コスト、侵入能力など多くの利点により、Wi-Fiセンシングは大きな注目を集めている。 この分野では、ジェスチャー認識、人物識別、転倒検出などの分野に焦点が当てられている。 しかし、多くのデータ駆動手法は、トレーニングデータとは異なる環境でのモデルの性能が良くないドメインシフトに関連する問題に遭遇する。 この問題に寄与する大きな要因の1つは、Wi-Fiセンシングデータセットの可用性の制限である。 残念ながら、さまざまなシナリオにまたがる大規模なWi-Fiセンシングデータセットの収集は難しい作業だ。 この問題に対処するために、私たちはCrossFiという、ドメイン内シナリオとクロスドメインシナリオの両方に優れたシアムネットワークベースのアプローチを提案します。 CrossFiのコアコンポーネントは、CSi-Netと呼ばれるサンプル類似性計算ネットワークであり、単に距離やコサイン類似性を計算するのではなく、アテンション機構を用いて類似性情報を取得することにより、サイムズネットワークの構造を改善する。 それに基づいて、私たちは、クラス毎にテンプレートを生成することができる余分なウェイトネットを開発し、CrossFiが異なるシナリオで機能できるようにします。 実験の結果、CrossFiは様々なシナリオで最先端のパフォーマンスを実現しています。 ジェスチャー認識タスクでは、ドメイン内シナリオで98.17%、ワンショットクロスドメインシナリオで91.72%、ゼロショットクロスドメインシナリオで64.81%、ワンショット新しいクラスシナリオで84.75%の精度を達成する。 今後の研究を促進するため、我々はモデルのためのコードを出版時に公開します。

In recent years, Wi-Fi sensing has garnered significant attention due to its numerous benefits, such as privacy protection, low cost, and penetration ability. Extensive research has been conducted in this field, focusing on areas such as gesture recognition, people identification, and fall detection. However, many data-driven methods encounter challenges related to domain shift, where the model fails to perform well in environments different from the training data. One major factor contributing to this issue is the limited availability of Wi-Fi sensing datasets, which makes models learn excessive irrelevant information and over-fit to the training set. Unfortunately, collecting large-scale Wi-Fi sensing datasets across diverse scenarios is a challenging task. To address this problem, we propose CrossFi, a siamese network-based approach that excels in both in-domain scenario and cross-domain scenario, including few-shot, zero-shot scenarios, and even works in few-shot new-class scenario where testing set contains new categories. The core component of CrossFi is a sample-similarity calculation network called CSi-Net, which improves the structure of the siamese network by using an attention mechanism to capture similarity information, instead of simply calculating the distance or cosine similarity. Based on it, we develop an extra Weight-Net that can generate a template for each class, so that our CrossFi can work in different scenarios. Experimental results demonstrate that our CrossFi achieves state-of-the-art performance across various scenarios. In gesture recognition task, our CrossFi achieves an accuracy of 98.17% in in-domain scenario, 91.72% in one-shot cross-domain scenario, 64.81% in zero-shot cross-domain scenario, and 84.75% in one-shot new-class scenario. To facilitate future research, we will release the code for our model upon publication.
翻訳日:2024-08-22 11:50:43 公開日:2024-08-21