このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240302となっている論文です。

PDF登録状況(公開日: 20240302)

TitleAuthorsAbstract論文公表日・翻訳日
# Sora OpenAIの前提 - Sora OpenAIのソーシャルメディア的展望とAIビデオ生成の未来

Sora OpenAI's Prelude: Social Media Perspectives on Sora OpenAI and the Future of AI Video Generation ( http://arxiv.org/abs/2403.14665v1 )

ライセンス: Link先を確認
Reza Hadi Mogavi, Derrick Wang, Joseph Tu, Hilda Hadan, Sabrina A. Sgandurra, Pan Hui, Lennart E. Nacke, (参考訳) ジェネレーティブAI(Gen-AI)の急速な進歩は、HCI(Human-Computer Interaction)を変えつつある。 本研究は,次世代ビデオ生成ツールであるSora OpenAIに対する一般大衆の認識を,リリース前のRedditでのソーシャルメディアディスカッションを通じて調査するものである。 それは、想定されるアプリケーションとSoraの統合に関する懸念の2つの主な疑問に焦点を当てている。 この分析は、コンテンツ制作のポジティブな変化を予測し、Soraがビデオマーケティングを民主化し、ビデオ制作をよりアクセシビリティで経済的にすることで、ゲーム開発を革新すると予想している。 逆に、ディープフェイクと偽情報の可能性には懸念があり、偽情報と偏見に対処する戦略の必要性を強調している。 本稿では,現在および今後の機能について議論し,公的な期待の理解を深め,ユーザ予測のための時間的ベンチマークを確立することによって,Gen-AIの議論に寄与する。 この研究は、AI開発と統合に対する情報的倫理的アプローチの必要性を強調し、技術的進歩が社会的価値やユーザニーズと一致していることを保証する。

The rapid advancement of Generative AI (Gen-AI) is transforming Human-Computer Interaction (HCI), with significant implications across various sectors. This study investigates the public's perception of Sora OpenAI, a pioneering Gen-AI video generation tool, via social media discussions on Reddit before its release. It centers on two main questions: the envisioned applications and the concerns related to Sora's integration. The analysis forecasts positive shifts in content creation, predicting that Sora will democratize video marketing and innovate game development by making video production more accessible and economical. Conversely, there are concerns about deepfakes and the potential for disinformation, underscoring the need for strategies to address disinformation and bias. This paper contributes to the Gen-AI discourse by fostering discussion on current and future capabilities, enriching the understanding of public expectations, and establishing a temporal benchmark for user anticipation. This research underscores the necessity for informed, ethical approaches to AI development and integration, ensuring that technological advancements align with societal values and user needs.
翻訳日:2024-04-01 03:43:10 公開日:2024-03-02
# 電気・磁気脳波データの融合のための結合ジェネレータ分解

Coupled generator decomposition for fusion of electro- and magnetoencephalography data ( http://arxiv.org/abs/2403.15409v1 )

ライセンス: Link先を確認
Anders Stevnhoved Olsen, Jesper Duemose Nielsen, Morten Mørup, (参考訳) データ融合モデリングは、ソース固有の変数を考慮に入れながら、多様なデータソースにまたがる共通の特徴を識別することができる。 本稿では,<textit{coupled generator decomposition} の概念を紹介し,データ融合におけるスパース主成分分析(SPCA)の一般化について述べる。 マルチオブジェクト・マルチモーダル(Electro- and magnetoencephalography (EEG, MEG))ニューロイメージング実験から得られたデータを用いて, 顔の知覚刺激に応答して共通の特徴を識別する枠組みの有効性を実証した。 脳波/MEG試験の半減期クロスバリデーションを通じて、様々な複雑さのモデルに対する最適モデル順序と正規化強度について検討し、刺激に対する共有脳反応を仮定した群レベルモデルと比較した。 以上の結果から,マルチモーダル・マルチオブジェクトモデルで特に顕著な実際の顔とは対照的に,スクランブルフェースに対するファシフォームフェースエリアアクティベーションを$\sim170ms$で変更したことが判明した。 モデルパラメータは PyTorch の確率的最適化を用いて推定され、SPCA の従来の2次プログラミング推定に匹敵する性能を示した。 本研究では,SPCAデータフュージョン,アーキティパル解析,方向性アーキティパル解析などの複合ジェネレータ分解用ツールボックスを提案する。 全体として、当社のアプローチは、データフュージョンのための有望な新しい道を提供する。

Data fusion modeling can identify common features across diverse data sources while accounting for source-specific variability. Here we introduce the concept of a \textit{coupled generator decomposition} and demonstrate how it generalizes sparse principal component analysis (SPCA) for data fusion. Leveraging data from a multisubject, multimodal (electro- and magnetoencephalography (EEG and MEG)) neuroimaging experiment, we demonstrate the efficacy of the framework in identifying common features in response to face perception stimuli, while accommodating modality- and subject-specific variability. Through split-half cross-validation of EEG/MEG trials, we investigate the optimal model order and regularization strengths for models of varying complexity, comparing these to a group-level model assuming shared brain responses to stimuli. Our findings reveal altered $\sim170ms$ fusiform face area activation for scrambled faces, as opposed to real faces, particularly evident in the multimodal, multisubject model. Model parameters were inferred using stochastic optimization in PyTorch, demonstrating comparable performance to conventional quadratic programming inference for SPCA but with considerably faster execution. We provide an easily accessible toolbox for coupled generator decomposition that includes data fusion for SPCA, archetypal analysis and directional archetypal analysis. Overall, our approach offers a promising new avenue for data fusion.
翻訳日:2024-04-01 03:04:05 公開日:2024-03-02
# 各種ネットワーク設定における高調波セキュアマルチパーティ計算

High-Throughput Secure Multiparty Computation with an Honest Majority in Various Network Settings ( http://arxiv.org/abs/2206.03776v6 )

ライセンス: Link先を確認
Christopher Harth-Kitzerow, Georg Carcle, (参考訳) 本研究では, 半正直なセキュアな3次元計算(3-PC)と悪意のある4次元計算(4-PC)のためのリング上の新しいプロトコルを提案する。 同じ環境での最先端のプロトコルと比較して、我々のプロトコルは高いスループットを達成するために、当事者間の低レイテンシと高帯域のリンクを少なくする必要がある。 当社のプロトコルは、ゲート毎の基本命令を最大50%削減することで、計算の複雑さを低減します。 さらに,本プロトコルは,現在最もよく知られている通信複雑性(3,resp.5要素/乗算ゲート)を任意の前処理フェーズで実現し,オンラインフェーズの通信複雑性を2(resp.3)要素/乗算ゲートに短縮する。 均質なネットワーク設定では、パーティ間のすべてのリンクが同様のネットワーク帯域幅とレイテンシを共有し、我々のプロトコルは最先端のプロトコルの最大2倍のスループットを達成する。 不均一なネットワーク設定、すなわち、パーティ間のすべてのリンクが異なるネットワーク帯域とレイテンシを共有している場合、我々のプロトコルはより大きなパフォーマンス改善を実現します。 我々は高スループットを実現するために最適化されたオープンソースのC++フレームワークで、我々のプロトコルと、他の最先端プロトコル(Replicated 3-PC, Astra, Fantastic Four, Tetrad)を実装した。 5つの実装された3PCと4PCプロトコルは、25Gbit/sのLAN環境において、毎秒10億以上の32ビット乗算または32億ANDゲートを実現している。 これはこれまで3PCと4PCで達成された最高スループットであり、MP-SPDZが同じ設定で達成したスループットよりも2~3桁高い。

In this work, we present novel protocols over rings for semi-honest secure three-party computation (3-PC) and malicious four-party computation (4-PC) with one corruption. Compared to state-of-the-art protocols in the same setting, our protocols require fewer low-latency and high-bandwidth links between the parties to achieve high throughput. Our protocols also reduce the computational complexity by requiring up to 50 percent fewer basic instructions per gate. Further, our protocols achieve the currently best-known communication complexity (3, resp. 5 elements per multiplication gate) with an optional preprocessing phase to reduce the communication complexity of the online phase to 2 (resp. 3) elements per multiplication gate. In homogeneous network settings, i.e. all links between the parties share similar network bandwidth and latency, our protocols achieve up to two times higher throughput than state-of-the-art protocols. In heterogeneous network settings, i.e. all links between the parties share different network bandwidth and latency, our protocols achieve even larger performance improvements. We implemented our protocols and multiple other state-of-the-art protocols (Replicated 3-PC, Astra, Fantastic Four, Tetrad) in a novel open-source C++ framework optimized for achieving high throughput. Five out of six implemented 3-PC and 4-PC protocols achieve more than one billion 32-bit multiplication or more than 32 billion AND gates per second using our implementation in a 25 Gbit/s LAN environment. This is the highest throughput achieved in 3-PC and 4-PC so far and between two and three orders of magnitude higher than the throughput MP-SPDZ achieves in the same settings.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-02
# サイバーセキュリティ向上のための機械学習のスピードと正確性

Harnessing the Speed and Accuracy of Machine Learning to Advance Cybersecurity ( http://arxiv.org/abs/2302.12415v3 )

ライセンス: Link先を確認
Khatoon Mohammed, (参考訳) サイバー攻撃の頻度と高度化が進むにつれ、マルウェアの検出はコンピュータシステムのセキュリティを維持する上で重要な課題となっている。 従来のシグネチャベースのマルウェア検出方法は、複雑で進化する脅威を検出するのに制限がある。 近年,機械学習(ML)がマルウェアを効果的に検出する有望なソリューションとして登場している。 MLアルゴリズムは、大規模なデータセットを分析し、人間が識別するのが困難なパターンを特定することができる。 本稿では,教師あり教師なし学習,深層学習,強化学習など,マルウェア検出に使用される最先端のML技術について概説する。 また、敵攻撃の可能性や大量のラベル付きデータの必要性など、MLベースのマルウェア検出の課題と限界についても検討する。 さらに、複数のMLアルゴリズムの統合や、MLベースの検出システムの解釈能力を高めるための説明可能なAI技術の利用など、MLベースのマルウェア検出の今後の方向性について論じる。 我々の研究は、マルウェア検出のスピードと精度を改善し、サイバーセキュリティの強化に寄与するMLベースの技術の可能性を強調している。

As cyber attacks continue to increase in frequency and sophistication, detecting malware has become a critical task for maintaining the security of computer systems. Traditional signature-based methods of malware detection have limitations in detecting complex and evolving threats. In recent years, machine learning (ML) has emerged as a promising solution to detect malware effectively. ML algorithms are capable of analyzing large datasets and identifying patterns that are difficult for humans to identify. This paper presents a comprehensive review of the state-of-the-art ML techniques used in malware detection, including supervised and unsupervised learning, deep learning, and reinforcement learning. We also examine the challenges and limitations of ML-based malware detection, such as the potential for adversarial attacks and the need for large amounts of labeled data. Furthermore, we discuss future directions in ML-based malware detection, including the integration of multiple ML algorithms and the use of explainable AI techniques to enhance the interpret ability of ML-based detection systems. Our research highlights the potential of ML-based techniques to improve the speed and accuracy of malware detection, and contribute to enhancing cybersecurity
翻訳日:2024-03-25 23:58:25 公開日:2024-03-02
# プリバスト化データに対するシミュレーションに基づく有限サンプル推論

Simulation-based, Finite-sample Inference for Privatized Data ( http://arxiv.org/abs/2303.05328v4 )

ライセンス: Link先を確認
Jordan Awan, Zhanyu Wang, (参考訳) 差分的にプライベートなメカニズムのようなプライバシ保護手法は、しばしば複雑で難解なサンプリング分布を生成する統計結果にノイズを導入する。 本稿では,Xie と Wang (2022) の業績に基づいて,統計的に有効な信頼区間と仮説テストを生成するためのシミュレーションベースの "repro sample" 手法を提案する。 本手法は,プライバシ機構によって生じるバイアス(クランプなど)を適切に考慮し,パラメトリックブートストラップなどの最先端の推論手法を,プライベート推論のカバレッジやタイプIエラーの観点から改善し,様々なプライベート推論問題に適用可能であることを示す。 また、一般モデル(必ずしもプライバシに関係しない)のreproサンプル方法論の大幅な改善と拡張も進めている。 1) モンテカルロのエラーも考慮し、保証されたカバレッジとタイプIのエラーを保証する手順を変更する。 2) 信頼区間と$p$-値を実装するための効率的な数値アルゴリズムを提案する。

Privacy protection methods, such as differentially private mechanisms, introduce noise into resulting statistics which often produces complex and intractable sampling distributions. In this paper, we propose a simulation-based "repro sample" approach to produce statistically valid confidence intervals and hypothesis tests, which builds on the work of Xie and Wang (2022). We show that this methodology is applicable to a wide variety of private inference problems, appropriately accounts for biases introduced by privacy mechanisms (such as by clamping), and improves over other state-of-the-art inference methods such as the parametric bootstrap in terms of the coverage and type I error of the private inference. We also develop significant improvements and extensions for the repro sample methodology for general models (not necessarily related to privacy), including 1) modifying the procedure to ensure guaranteed coverage and type I errors, even accounting for Monte Carlo error, and 2) proposing efficient numerical algorithms to implement the confidence intervals and $p$-values.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-02
# NIS 2ディレクティブのコンプライアンス検証へのオントロジー的アプローチ

An Ontological Approach to Compliance Verification of the NIS 2 Directive ( http://arxiv.org/abs/2306.17494v2 )

ライセンス: Link先を確認
Gianpietro Castiglione, Daniele Francesco Santamaria, Giampaolo Bella, (参考訳) サイバーセキュリティは、人間と技術の両方の側面で悪名高いが、欧州GDPR規則やNIS指令など、複数のページにわたる文書によってますます規制されている。 本稿では,テキスト文書が規定するセキュリティ対策のコンプライアンスチェックに向けて,意味表現と推論の手法を活用するアプローチを提案する。 ドメイン・モデリングと資源の取調べという2つの基本的な目的を達成するためにオントロジー・ツールを選択する。 命令からの実体と関係の形式化と、それに伴う重大な散文に関する構造化の改善は、コンプライアンス検証の難しい作業を通じて、いかなる組織にとっても劇的に役立つ。 セマンティックアプローチは、新たな欧州NIS2指令の2つの記事で実証されている。

Cybersecurity, which notoriously concerns both human and technological aspects, is becoming more and more regulated by a number of textual documents spanning several pages, such as the European GDPR Regulation and the NIS Directive. This paper introduces an approach that leverages techniques of semantic representation and reasoning, hence an ontological approach, towards the compliance check with the security measures that textual documents prescribe. We choose the ontology instrument to achieve two fundamental objectives: domain modelling and resource interrogation. The formalisation of entities and relations from the directive, and the consequent improved structuring with respect to sheer prose is dramatically helpful for any organisation through the hard task of compliance verification. The semantic approach is demonstrated with two articles of the new European NIS 2 directive.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-02
# 侵入検出のための量子化対応ニューラルネットワークによる構造探索

Quantization-aware Neural Architectural Search for Intrusion Detection ( http://arxiv.org/abs/2311.04194v2 )

ライセンス: Link先を確認
Rabin Yu Acharya, Laurens Le Jeune, Nele Mentens, Fatemeh Ganji, Domenic Forte, (参考訳) ハードウェアデバイスに機械学習ベースの侵入検知システム(IDS)をデプロイすることは、その限られた計算資源、消費電力、ネットワーク接続性のために困難である。 したがって、そのような制約を念頭に特別に設計された堅牢でディープラーニングなモデルには、大きなニーズがあります。 本稿では,最新のNNよりも1000倍小さい量子化ニューラルネットワーク(NN)モデルを自動的に訓練し,進化させるが,ネットワークデータを高精度に解析できる設計手法を提案する。 この点において、FPGAにデプロイする際、このネットワークが利用するLUTの数は2.3倍から8.5倍と小さく、前処理に匹敵する性能である。

Deploying machine learning-based intrusion detection systems (IDSs) on hardware devices is challenging due to their limited computational resources, power consumption, and network connectivity. Hence, there is a significant need for robust, deep learning models specifically designed with such constraints in mind. In this paper, we present a design methodology that automatically trains and evolves quantized neural network (NN) models that are a thousand times smaller than state-of-the-art NNs but can efficiently analyze network data for intrusion at high accuracy. In this regard, the number of LUTs utilized by this network when deployed to an FPGA is between 2.3x and 8.5x smaller with performance comparable to prior work.
翻訳日:2024-03-25 13:36:10 公開日:2024-03-02
# 可視衛星観測における火星凍土検出のための地形依存性能の評価

Evaluating Terrain-Dependent Performance for Martian Frost Detection in Visible Satellite Observations ( http://arxiv.org/abs/2403.12080v1 )

ライセンス: Link先を確認
Gary Doran, Serina Diniega, Steven Lu, Mark Wronkiewicz, Kiri L. Wagstaff, (参考訳) 火星の表面での季節的な凍結と解凍は、気候過程とグリーのような地形的特徴の形成と進化の両方を駆動すると考えられている。 過去の研究は、軌道からの高解像度の可視光観測を用いて、火星の北中緯度地域の凍土循環の挙動を手動で分析することに集中してきた。 これらの研究をグローバルに拡張するには、畳み込みニューラルネットワークのようなデータサイエンス技術を用いて、フロストの検出を自動化する必要がある。 しかし, 凍害が重畳される地質学的背景によって, 凍害の存在が顕著に示される。 本研究では,(1)モデルの性能推定におけるバイアスを低減するために空間的にデータを分割する手法を提案する。(2) 地質学的文脈が自動凍土検出にどのように影響するかを示すとともに,(3) 自動凍土検出における観測バイアスの軽減を提案する。

Seasonal frosting and defrosting on the surface of Mars is hypothesized to drive both climate processes and the formation and evolution of geomorphological features such as gullies. Past studies have focused on manually analyzing the behavior of the frost cycle in the northern mid-latitude region of Mars using high-resolution visible observations from orbit. Extending these studies globally requires automating the detection of frost using data science techniques such as convolutional neural networks. However, visible indications of frost presence can vary significantly depending on the geologic context on which the frost is superimposed. In this study, we (1) present a novel approach for spatially partitioning data to reduce biases in model performance estimation, (2) illustrate how geologic context affects automated frost detection, and (3) propose mitigations to observed biases in automated frost detection.
翻訳日:2024-03-25 07:36:54 公開日:2024-03-02
# Beyond Inference:コンピュータビジョンのためのDNNサーバオーバーヘッドのパフォーマンス解析

Beyond Inference: Performance Analysis of DNN Server Overheads for Computer Vision ( http://arxiv.org/abs/2403.12981v1 )

ライセンス: Link先を確認
Ahmed F. AbouElhamayed, Susanne Balle, Deshanand Singh, Mohamed S. Abdelfattah, (参考訳) ディープニューラルネットワーク(DNN)推論は、多くのデータセンタワークロードにおいて重要な部分となっている。 これにより、GPUやTPUといった、より高速なディープラーニングアクセラレータを設計するための集中的な取り組みが促進された。 しかし、エンドツーエンドのDNNベースの視覚アプリケーションは、入力圧縮、リサイズ、サンプリング、正規化、データ転送を含むDNN推論以上のものを含んでいる。 本稿ではスループット最適化サービスシステムにおいて,コンピュータビジョンの推論要求を徹底的に評価する。 異なるレートで出力を生成する2つのDNN間で、データ移動、前処理、メッセージブローカなどのサーバオーバーヘッドのパフォーマンスへの影響を定量化する。 我々の経験分析では、画像分類、セグメンテーション、検出、深さ推定、複数のDNNを用いたより複雑な処理パイプラインを含む多くのコンピュータビジョンタスクを網羅している。 我々の結果は,従来のディープラーニングシステム設計では見過ごされてはいないが,エンドツーエンドのアプリケーション性能はデータ処理とデータ移動関数(中規模画像におけるエンドツーエンドレイテンシの最大56%,大規模画像におけるシステムスループットへの影響は$\sim$80%)で容易に支配できることを示した。 我々の研究は、異なるアプリケーションシナリオにおける重要なパフォーマンスボトルネックを特定し、2.25$\times$優れたスループットを実現し、より包括的なディープラーニングシステム設計の道を開く。

Deep neural network (DNN) inference has become an important part of many data-center workloads. This has prompted focused efforts to design ever-faster deep learning accelerators such as GPUs and TPUs. However, an end-to-end DNN-based vision application contains more than just DNN inference, including input decompression, resizing, sampling, normalization, and data transfer. In this paper, we perform a thorough evaluation of computer vision inference requests performed on a throughput-optimized serving system. We quantify the performance impact of server overheads such as data movement, preprocessing, and message brokers between two DNNs producing outputs at different rates. Our empirical analysis encompasses many computer vision tasks including image classification, segmentation, detection, depth-estimation, and more complex processing pipelines with multiple DNNs. Our results consistently demonstrate that end-to-end application performance can easily be dominated by data processing and data movement functions (up to 56% of end-to-end latency in a medium-sized image, and $\sim$ 80% impact on system throughput in a large image), even though these functions have been conventionally overlooked in deep learning system design. Our work identifies important performance bottlenecks in different application scenarios, achieves 2.25$\times$ better throughput compared to prior work, and paves the way for more holistic deep learning system design.
翻訳日:2024-03-25 07:27:10 公開日:2024-03-02
# 分子・物質科学における知識・再利用伝達学習法

Knowledge-Reuse Transfer Learning Methods in Molecular and Material Science ( http://arxiv.org/abs/2403.12982v1 )

ライセンス: Link先を確認
An Chen, Zhilong Wang, Karl Luigi Loza Vidaurre, Yanqiang Han, Simin Ye, Kehao Tao, Shiwei Wang, Jing Gao, Jinjin Li, (参考訳) 分子と材料は、エネルギー貯蔵システムや半導体デバイスといった近代的先進産業の発展の基盤となっている。 しかし、従来の試行錯誤法や理論計算は非常に資源集約的であり、非常に長い研究開発(研究開発)期間は、産業開発における分子や物質に対する緊急の要求を満たすことができない。 ビッグデータに基づく機械学習(ML)手法はこのジレンマを破ると予想されている。 しかし、データ取得とアノテーションのコストが高いため、新しい分子や物質の大規模データセットの構築が難しいため、機械学習の開発が制限される。 トランスファーラーニングの適用は、データ品質問題に対処する研究においてトランスファーラーニングを際立たせるモデルトレーニングにおけるデータ要件を低くする。 本稿では,分子・材料科学に関する伝達学習の最近の進歩を概説する。 本稿では,高度な分子・物質発見のための移動学習手法の適用,特に異なるシステムのための移動学習フレームワークの構築,および移動学習がモデルの性能をいかに向上させるかに焦点を当てる。 また,転帰学習の課題についても論じる。

Molecules and materials are the foundation for the development of modern advanced industries such as energy storage systems and semiconductor devices. However, traditional trial-and-error methods or theoretical calculations are highly resource-intensive, and extremely long R&D (Research and Development) periods cannot meet the urgent need for molecules/materials in industrial development. Machine learning (ML) methods based on big data are expected to break this dilemma. However, the difficulty in constructing large-scale datasets of new molecules/materials due to the high cost of data acquisition and annotation limits the development of machine learning. The application of transfer learning lowers the data requirements for model training, which makes transfer learning stand out in researches addressing data quality issues. In this review, we summarize recent advances in transfer learning related to molecular and materials science. We focus on the application of transfer learning methods for the discovery of advanced molecules/materials, particularly, the construction of transfer learning frameworks for different systems, and how transfer learning can enhance the performance of models. In addition, the challenges of transfer learning are also discussed.
翻訳日:2024-03-25 07:27:10 公開日:2024-03-02
# OSSCAR:コンビネーション最適化による視覚と言語モデルにおけるワンショット構造化プルーニング

OSSCAR: One-Shot Structured Pruning in Vision and Language Models with Combinatorial Optimization ( http://arxiv.org/abs/2403.12983v1 )

ライセンス: Link先を確認
Xiang Meng, Shibal Ibrahim, Kayhan Behdin, Hussein Hazimeh, Natalia Ponomareva, Rahul Mazumder, (参考訳) 構造化プルーニングは、大きなビジョンと言語モデルの推論コストを削減するための有望なアプローチである。 ニューロンやアテンションヘッドなどの慎重に選択された構造を取り除くことで、このアプローチの改善を標準的なディープラーニングハードウェア上で実現することができる。 本研究では, プレニング後のモデル再訓練を必要としないワンショット(ポストトレーニング)設定における構造化プルーニングに着目した。 本稿では,階層的な再構築目標と,スケーラブルな最適化を実現するための注意深い再構成に基づく,この問題に対する新たな組合せ最適化フレームワークを提案する。 さらに,効率的な局所探索のために,低ランク更新を利用する新しい局所組合せ最適化アルゴリズムを設計する。 我々のフレームワークは時間とメモリ効率が高く、ビジョンモデル(ResNet50、MobileNetなど)や言語モデル(OPT-1.3B -- OPT-30Bなど)の最先端のワンショットメソッドで大幅に改善されている。 言語モデル、例えば OPT-2.7B では、OSSCAR は、最先端の ZipLM アプローチと比較して、 WikiText の テストパープレクシリティが $125\times$$$2\times$ inference time speedup となる。 私たちのフレームワークも、$6\times$ -- 8\times$----------------------------------------------------------------- 特に、我々の研究は、数千億のパラメータを持つモデルについて検討している。

Structured pruning is a promising approach for reducing the inference costs of large vision and language models. By removing carefully chosen structures, e.g., neurons or attention heads, the improvements from this approach can be realized on standard deep learning hardware. In this work, we focus on structured pruning in the one-shot (post-training) setting, which does not require model retraining after pruning. We propose a novel combinatorial optimization framework for this problem, based on a layer-wise reconstruction objective and a careful reformulation that allows for scalable optimization. Moreover, we design a new local combinatorial optimization algorithm, which exploits low-rank updates for efficient local search. Our framework is time and memory-efficient and considerably improves upon state-of-the-art one-shot methods on vision models (e.g., ResNet50, MobileNet) and language models (e.g., OPT-1.3B -- OPT-30B). For language models, e.g., OPT-2.7B, OSSCAR can lead to $125\times$ lower test perplexity on WikiText with $2\times$ inference time speedup in comparison to the state-of-the-art ZipLM approach. Our framework is also $6\times$ -- $8\times$ faster. Notably, our work considers models with tens of billions of parameters, which is up to $100\times$ larger than what has been previously considered in the structured pruning literature.
翻訳日:2024-03-25 07:27:10 公開日:2024-03-02
# ヒト心磁図信号に基づく身元情報

Identity information based on human magnetocardiography signals ( http://arxiv.org/abs/2403.13820v1 )

ライセンス: Link先を確認
Pengju Zhang, Chenxi Sun, Jianwei Zhang, Hong Guo, (参考訳) 我々は,光ポンピング磁気センサ(OPM)を用いた磁気心磁図(MCG)信号に基づく個人識別システムを開発した。 本システムは,MCG信号からなる行列を2*2ウィンドウで走査することにより,身体上の異なる位置から得られる信号をパターン認識を用いて解析する。 MCG信号の空間情報を利用するために,隣接する小領域からの信号をデータセットの4つのチャネルに変換する。 さらに、ウェーブレット変換を用いてデータを時間周波数行列に変換し、分類に畳み込みニューラルネットワーク(CNN)を用いる。 その結果,個人識別の精度は97.04%となった。 この発見は、MCG信号が個人識別システムでの使用の可能性を持ち、パーソナライズされた医療管理のための貴重なツールを提供することを示している。

We have developed an individual identification system based on magnetocardiography (MCG) signals captured using optically pumped magnetometers (OPMs). Our system utilizes pattern recognition to analyze the signals obtained at different positions on the body, by scanning the matrices composed of MCG signals with a 2*2 window. In order to make use of the spatial information of MCG signals, we transform the signals from adjacent small areas into four channels of a dataset. We further transform the data into time-frequency matrices using wavelet transforms and employ a convolutional neural network (CNN) for classification. As a result, our system achieves an accuracy rate of 97.04% in identifying individuals. This finding indicates that the MCG signal holds potential for use in individual identification systems, offering a valuable tool for personalized healthcare management.
翻訳日:2024-03-25 07:17:26 公開日:2024-03-02
# プライバシリスク指標とエスクローベースプラットフォームを用いたデータコントローラとデータアナリティクスの差別化を容易にする

Making Differential Privacy Easier to Use for Data Controllers and Data Analysts using a Privacy Risk Indicator and an Escrow-Based Platform ( http://arxiv.org/abs/2310.13104v2 )

ライセンス: Link先を確認
Zhiru Zhu, Raul Castro Fernandez, (参考訳) 差分プライバシー(DP)は個人データ分析を可能にするが、実際には利用が難しい。 リリースする出力を決定するデータコントローラの場合、プライバシパラメータを$\epsilon$と解釈することが難しいため、出力に追加するノイズの量を選択するのは簡単ではない。 クエリを提出するデータアナリストにとって、DPがタスクにもたらすノイズの影響を理解するのは難しい。 これら2つの課題に対処する。 1) 個人プライバシに対する$\epsilon$の選択の影響を示すプライバシリスク指標を定義し,それを用いて,コントローラのプライバシ優先に基づいて$\epsilon$を選択して出力をリリースするアルゴリズムを設計する。 2)我々は,DPが下流タスクに与える影響をアナリストが解釈するのに役立つユーティリティ・シグナリング・プロトコルを導入する。 我々は,データエスクロー上に構築された新しいプラットフォーム内にアルゴリズムとプロトコルを実装し,高い性能を維持しながら,コントローラがデータフローを制御できるようにする。 IRBが承認したユーザスタディ、広範な実験評価、および他のDPプラットフォームとの比較を通じて、我々の貢献を実証する。 全体として、私たちの仕事は、採用障壁を低くすることでDPをより使いやすくすることに貢献しています。

Differential privacy (DP) enables private data analysis but is hard to use in practice. For data controllers who decide what output to release, choosing the amount of noise to add to the output is a non-trivial task because of the difficulty of interpreting the privacy parameter $\epsilon$. For data analysts who submit queries, it is hard to understand the impact of the noise introduced by DP on their tasks. To address these two challenges: 1) we define a privacy risk indicator that indicates the impact of choosing $\epsilon$ on individuals' privacy and use that to design an algorithm to choose $\epsilon$ and release output based on controllers' privacy preferences; 2) we introduce a utility signaling protocol that helps analysts interpret the impact of DP on their downstream tasks. We implement the algorithm and the protocol inside a new platform built on top of a data escrow, which allows controllers to control dataflows while maintaining high performance. We demonstrate our contributions through an IRB-approved user study, extensive experimental evaluations, and comparison with other DP platforms. All in all, our work contributes to making DP easier to use by lowering adoption barriers.
翻訳日:2024-03-19 01:54:08 公開日:2024-03-02
# XNOマイクロペイメントによるCAPTCHAのリプレース

Replacing CAPTCHA with XNO micropayments ( http://arxiv.org/abs/2402.06649v3 )

ライセンス: Link先を確認
Sujanavan Tiruvayipati, (参考訳) テクノロジーやガジェットが進化を続けるにつれ、ボットフレンドリーでユーザーフレンドリーなインターネットの必要性はますます重要になっている。 本稿では,従来のCAPTCHA機構をNano(XNO)暗号マイクロペイメントに置き換える手法と実現可能性について論じる。 このアプローチは、自動化されたボットの金融障壁を追加することによってセキュリティを強化するだけでなく、よりシームレスで効率的なユーザエクスペリエンスを提供する。 このアプローチの利点は、ボットによってアクセスされたとしても、インターネットサービスプロバイダやコンテンツクリエイターにインセンティブを与える社会経済モデルを作成しながら、ユーザの負担を軽減することである。 さらに、XNOマイクロペイメントの統合は、日々のオンライン取引におけるデジタル通貨の広範な採用と受容に寄与する可能性がある。

As technology and gadgets continue to evolve, the need for bot-friendly and user-friendly internet becomes increasingly critical. This work discusses a methodology for implementation and feasibility of replacing traditional CAPTCHA mechanisms with Nano(XNO) cryptocurrency micropayments as a win-win solution and leverages the decentralized and secure nature of cryptocurrencies to introduce a micropayment-based authentication system. This approach not only enhances security by adding a financial barrier for automated bots but also provides a more seamless and efficient user experience. The benefits of this approach include reducing the burden on users while creating a socio-economic model that incentivizes internet service providers and content creators, even when accessed by bots. Furthermore, the integration of XNO micropayments could potentially contribute to the broader adoption and acceptance of digital currencies in everyday online transactions.
翻訳日:2024-03-18 07:28:31 公開日:2024-03-02
# 持続可能な医療のための6Gの適応的セキュリティ

Adaptive Security in 6G for Sustainable Healthcare ( http://arxiv.org/abs/2403.01100v1 )

ライセンス: Link先を確認
Ijaz Ahmad, Ijaz Ahmad, Erkki Harjula, (参考訳) 6Gは、新たな分散コンピューティングとセキュアな通信技術を通じて、将来のデジタルヘルスケアシステムの要件を満たす。 デジタルヘルスケアソリューションは、インターネット・オブ・メディカル・モノ(IoMT)など、多くの低消費電力でリソースに制約のあるコネクテッドなものを採用している。 しかし、現在のデジタルヘルスケアソリューションには2つの大きな課題がある。 まず、提案されたソリューションは、従来のIoT-Cloudモデルに基づいており、レイテンシと信頼性の課題を経験し、デジタルヘルスケアの期待と要求を満たすと同時に、ネットワーク負荷を増大させる可能性がある。 第二に、既存のデジタルヘルスケアソリューションは、それらのデバイスに適切なセキュリティのためのリソースが不足していることによるIoMT固有の制限のために、セキュリティ上の課題に直面します。 そこで本研究では,デジタル医療の展開を成功させるために,分散型適応型セキュリティアーキテクチャを提案する。 提案したアーキテクチャは、エッジクラウドの継続性を活用して、パフォーマンス、効率、信頼性の要件を満たす。 クリティカルデータのセキュリティを損なうことなく、IoMTデバイスの限られた容量を満たすために、実行時にセキュリティソリューションを適用することができる。 最後に、提案したセキュリティアーキテクチャを検証するための包括的な方法論について概説する。

6G will fulfill the requirements of future digital healthcare systems through emerging decentralized computing and secure communications technologies. Digital healthcare solutions employ numerous low-power and resource-constrained connected things, such as the Internet of Medical Things (IoMT). However, the current digital healthcare solutions will face two major challenges. First, the proposed solutions are based on the traditional IoT-Cloud model that will experience latency and reliability challenges to meet the expectations and requirements of digital healthcare, while potentially inflicting heavy network load. Second, the existing digital healthcare solutions will face security challenges due to the inherent limitations of IoMT caused by the lack of resources for proper security in those devices. Therefore, in this research, we present a decentralized adaptive security architecture for the successful deployment of digital healthcare. The proposed architecture leverages the edge-cloud continuum to meet the performance, efficiency, and reliability requirements. It can adapt the security solution at run-time to meet the limited capacity of IoMT devices without compromising the security of critical data. Finally, the research outlines comprehensive methodologies for validating the proposed security architecture.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-02
# クエリのリカバリが簡単から困難に - JigsawによるSSE攻撃

Query Recovery from Easy to Hard: Jigsaw Attack against SSE ( http://arxiv.org/abs/2403.01155v1 )

ライセンス: Link先を確認
Hao Nie, Wei Wang, Peng Xu, Xianglong Zhang, Laurence T. Yang, Kaitai Liang, (参考訳) 検索可能な対称暗号方式は、アクセス、ボリューム、検索パターンなどの特定の機密情報を意図せずに開示することが多い。 攻撃者は、ユーザーのデータベースに関連するそのような漏洩やその他の利用可能な知識を利用してクエリを復元することができる。 クエリリカバリ攻撃の有効性は,キーワードのボリューム/周波数分布に依存することがわかった。 高いボリューム/頻度のキーワードを含むクエリは、対策が実施されても、リカバリの影響を受けやすい。 攻撃者はこれらの ``special'' クエリを効果的に活用して、他のすべてのクエリをリカバリすることもできる。 上記の発見を利用して、これらの特異なクエリを正確に識別し、復元することから始まるJigsaw攻撃を提案する。 ボリューム、頻度、共起情報を活用することで、我々の攻撃は、以前の攻撃(Oya et al , USENIX' 22 および Damie et al , USENIX' 21)に匹敵する3つのテストデータセットにおいて、90\%の精度を達成した。 同じランタイムで、我々の攻撃はOyaらによって提案された攻撃(キーワードの宇宙サイズが15kである場合、およそ15\%$の精度)に対するアドバンテージを示す。 さらに, 提案した攻撃は, 広く研究されている対策に対する既存の攻撃よりも優れており, 約60 %$と8,5 %$の精度でパディングと難読化をそれぞれ達成している。 この文脈では、大きなキーワードの宇宙($3k)では、現在の最先端の攻撃を20\%以上上回っている。

Searchable symmetric encryption schemes often unintentionally disclose certain sensitive information, such as access, volume, and search patterns. Attackers can exploit such leakages and other available knowledge related to the user's database to recover queries. We find that the effectiveness of query recovery attacks depends on the volume/frequency distribution of keywords. Queries containing keywords with high volumes/frequencies are more susceptible to recovery, even when countermeasures are implemented. Attackers can also effectively leverage these ``special'' queries to recover all others. By exploiting the above finding, we propose a Jigsaw attack that begins by accurately identifying and recovering those distinctive queries. Leveraging the volume, frequency, and co-occurrence information, our attack achieves $90\%$ accuracy in three tested datasets, which is comparable to previous attacks (Oya et al., USENIX' 22 and Damie et al., USENIX' 21). With the same runtime, our attack demonstrates an advantage over the attack proposed by Oya et al (approximately $15\%$ more accuracy when the keyword universe size is 15k). Furthermore, our proposed attack outperforms existing attacks against widely studied countermeasures, achieving roughly $60\%$ and $85\%$ accuracy against the padding and the obfuscation, respectively. In this context, with a large keyword universe ($\geq$3k), it surpasses current state-of-the-art attacks by more than $20\%$.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-02
# d-DSE: 暗号化されたデータベースにボリュームリークを格納した、特定動的検索可能な暗号化

d-DSE: Distinct Dynamic Searchable Encryption Resisting Volume Leakage in Encrypted Databases ( http://arxiv.org/abs/2403.01182v1 )

ライセンス: Link先を確認
Dongli Liu, Wei Wang, Peng Xu, Laurence T. Yang, Bo Luo, Kaitai Liang, (参考訳) Dynamic Searchable Encryption (DSE)は、暗号化データベース(EDB)の大規模データストレージを効率的に処理し、保護するためのソリューションとして登場した。 ボリュームリークは、検索クエリを再構築し、データのセキュリティとプライバシを侵害する可能性があるため、重大な脅威となる。 パディング戦略は、漏洩に対する一般的な対策であるが、ストレージと通信コストを大幅に増加させる。 本研究では,ボリュームリークに対処する新しい視点を開発する。 まず、異なる検索から始め、さらに新しい概念である DSE (\textit{d}-DSE) を探求する。 私たちはまた、新しい概念のために、特にボリュームを優先するセキュリティを持つDistinctや、前方および後方のプライバシといった新しいセキュリティ概念も定義しています。 ここでは,d-KW-\textit{d}DSE,キーワード(KW-\textit{d}DSE),クエリ(JOIN-\textit{d}DSE)を結合し,暗号化されたデータベースでクエリを更新する。 Symmetric Revocable Encryption を用いた具体的なスキーム \textsf{BF-SRE} をインスタンス化する。 我々は,犯罪,ウィキペディア,エンロンなどの実世界のデータセットに関する広範な実験を行い,性能評価を行った。 その結果、本手法はデータ検索において実用的であり、SOTA DSEスキーム (\textsf{MITRA}*, \textsf{AURA}) やパディング戦略 (\textsf{SEAL}, \textsf{ShieldDB}) と同等の性能を持つことを示した。 さらに,提案手法は, 約6.36~53.14倍の効率で, 通信コストを大幅に削減する。

Dynamic Searchable Encryption (DSE) has emerged as a solution to efficiently handle and protect large-scale data storage in encrypted databases (EDBs). Volume leakage poses a significant threat, as it enables adversaries to reconstruct search queries and potentially compromise the security and privacy of data. Padding strategies are common countermeasures for the leakage, but they significantly increase storage and communication costs. In this work, we develop a new perspective to handle volume leakage. We start with distinct search and further explore a new concept called \textit{distinct} DSE (\textit{d}-DSE). We also define new security notions, in particular Distinct with Volume-Hiding security, as well as forward and backward privacy, for the new concept. Based on \textit{d}-DSE, we construct the \textit{d}-DSE designed EDB with related constructions for distinct keyword (d-KW-\textit{d}DSE), keyword (KW-\textit{d}DSE), and join queries (JOIN-\textit{d}DSE) and update queries in encrypted databases. We instantiate a concrete scheme \textsf{BF-SRE}, employing Symmetric Revocable Encryption. We conduct extensive experiments on real-world datasets, such as Crime, Wikipedia, and Enron, for performance evaluation. The results demonstrate that our scheme is practical in data search and with comparable computational performance to the SOTA DSE scheme (\textsf{MITRA}*, \textsf{AURA}) and padding strategies (\textsf{SEAL}, \textsf{ShieldDB}). Furthermore, our proposal sharply reduces the communication cost as compared to padding strategies, with roughly 6.36 to 53.14x advantage for search queries.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-02
# FPGAを用いた数理論変換のアルゴリズムレベルの効率的な誤差検出

Efficient Algorithm Level Error Detection for Number-Theoretic Transform Assessed on FPGAs ( http://arxiv.org/abs/2403.01215v1 )

ライセンス: Link先を確認
Kasra Ahmadi, Saeed Aghapour, Mehran Mozaffari Kermani, Reza Azarderakhsh, (参考訳) 多項式乗算は、量子後暗号システムの開発において、非常に要求の高い算術過程である。 数値理論変換(NTT)の重要性は、量子後暗号システムを超えて広がり、デジタル署名スキームやハッシュ関数などの既存のセキュリティプロトコルの強化に有用である。 エラーが安全で暗号的に保護されたシステムの動作を著しく破壊し、データの整合性を損なう可能性があり、障害によって開始されるサイドチャネル攻撃に対する防御は、緩和されたエラー検出スキームを組み込むことが不可欠である。 本稿では,NTT乗算におけるアルゴリズムレベルの故障検出手法を提案する。 本研究は, 故障モデルのシミュレーションにより評価し, 結果が正確に反映されていることを確認した。 その結果,エラーの包括的報告が得られた。 最後に、FPGA上での効率的なエラー検出方式の性能評価を行い、その実装とリソース要件を示す。 Xilinx/AMD Zynq Ultrascale+とArtix-7のエラー検出手法の実装により、従来のハードウェア実装と比較して、9%の領域増加と13%のレイテンシ増加で、同等のスループットを実現した。

Polynomial multiplication stands out as a highly demanding arithmetic process in the development of post-quantum cryptosystems. The importance of number-theoretic transform (NTT) extends beyond post-quantum cryptosystems, proving valuable in enhancing existing security protocols such as digital signature schemes and hash functions. Due to the potential for errors to significantly disrupt the operation of secure, cryptographically-protected systems, compromising data integrity, and safeguarding against side-channel attacks initiated through faults it is essential to incorporate mitigating error detection schemes. This paper introduces algorithm level fault detection schemes in NTT multiplication, representing a significant enhancement compared to previous research. We evaluate this through the simulation of a fault model, ensuring that the conducted assessments accurately mirror the obtained results. Consequently, we attain a notably comprehensive coverage of errors. Finally, we assess the performance of our efficient error detection scheme on FPGAs to showcase its implementation and resource requirements. Through implementation of our error detection approach on Xilinx/AMD Zynq Ultrascale+ and Artix-7, we achieve a comparable throughput with just a 9% increase in area and 13% increase in latency compared to the original hardware implementations.
翻訳日:2024-03-18 06:39:33 公開日:2024-03-02
# LLMを用いたインシデント対応計画と見直し

Employing LLMs for Incident Response Planning and Review ( http://arxiv.org/abs/2403.01271v1 )

ライセンス: Link先を確認
Sam Hays, Dr. Jules White, (参考訳) インシデント対応計画(IRP)は、効果的なサイバーセキュリティ管理に不可欠であり、インシデント中のセキュリティ担当者をガイドするために詳細なドキュメント(またはプレイブック)を必要とする。 しかし、包括的なIRPの作成は、複雑なシステム、高いターンオーバ率、ドキュメントの欠如といった課題に悩まされることが多い。 本稿では、これらの障害にもかかわらず、ChatGPTのようなLarge Language Models(LLM)を利用することで、IRPの開発、レビュー、洗練を著しく向上させることができると論じる。 最初の計画の起草、ベストプラクティスの提案、ドキュメントギャップの特定といったタスクにLLMを活用することで、企業はリソースの制約を克服し、サイバーセキュリティインシデントに対する準備性を向上させることができる。 我々は,ILPプロセスの合理化に向けたLCMの可能性を考察するとともに,生成したコンテンツの正確性と関連性を確保するため,人間の監視の限界と必要性を考察する。 我々の発見は、AI技術でIRPを強化する新しいアプローチを実証し、インシデント対応能力を強化しようとする組織に実践的な洞察を提供することによって、サイバーセキュリティ分野に寄与する。

Incident Response Planning (IRP) is essential for effective cybersecurity management, requiring detailed documentation (or playbooks) to guide security personnel during incidents. Yet, creating comprehensive IRPs is often hindered by challenges such as complex systems, high turnover rates, and legacy technologies lacking documentation. This paper argues that, despite these obstacles, the development, review, and refinement of IRPs can be significantly enhanced through the utilization of Large Language Models (LLMs) like ChatGPT. By leveraging LLMs for tasks such as drafting initial plans, suggesting best practices, and identifying documentation gaps, organizations can overcome resource constraints and improve their readiness for cybersecurity incidents. We discuss the potential of LLMs to streamline IRP processes, while also considering the limitations and the need for human oversight in ensuring the accuracy and relevance of generated content. Our findings contribute to the cybersecurity field by demonstrating a novel approach to enhancing IRP with AI technologies, offering practical insights for organizations seeking to bolster their incident response capabilities.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-02
# Ethereumのアップグレード可能なスマートコントラクトの特徴とセキュリティへの影響

Characterizing Ethereum Upgradable Smart Contracts and Their Security Implications ( http://arxiv.org/abs/2403.01290v1 )

ライセンス: Link先を確認
Xiaofan Li, Jin Yang, Jiaqi Chen, Yuzhe Tang, Xing Gao, (参考訳) アップグレード可能なスマートコントラクト(USC)は、デプロイされたスマートコントラクトの変更を可能にするために広く採用されている。 USCは開発者に大きな柔軟性をもたらすが、不適切な使用は新たなセキュリティ問題を引き起こし、攻撃者がUSCとそのユーザをハイジャックする可能性がある。 本稿では,USCとその野生におけるセキュリティへの影響を,大規模に評価する。 一般的なUSCパターンを6つまとめて,ソースコードを必要とせずにUSCを識別するツールであるUSCDetectorを開発した。 特にUSCDetectorは、バイトコードやトランザクション情報などのさまざまな情報を収集して、USCのアップグレードチェーンを構築し、潜在的に脆弱な情報を開示する。 我々は,検証済みスマートコントラクト(ソースコードを含む)を根拠としてUSCDetectorを評価し,精度96.26%で精度の高いUSCDetectorを実現することを示す。 次にUSCDetectorを使ってEthereumに関する大規模な研究を行い、合計60,251,064のスマートコントラクトをカバーしています。 USCDetecorは10,218のアップグレードチェーンを構築し、セキュリティ上の問題のある複数の現実のUSCを公開している。

Upgradeable smart contracts (USCs) have been widely adopted to enable modifying deployed smart contracts. While USCs bring great flexibility to developers, improper usage might introduce new security issues, potentially allowing attackers to hijack USCs and their users. In this paper, we conduct a large-scale measurement study to characterize USCs and their security implications in the wild. We summarize six commonly used USC patterns and develop a tool, USCDetector, to identify USCs without needing source code. Particularly, USCDetector collects various information such as bytecode and transaction information to construct upgrade chains for USCs and disclose potentially vulnerable ones. We evaluate USCDetector using verified smart contracts (i.e., with source code) as ground truth and show that USCDetector can achieve high accuracy with a precision of 96.26%. We then use USCDetector to conduct a large-scale study on Ethereum, covering a total of 60,251,064 smart contracts. USCDetecor constructs 10,218 upgrade chains and discloses multiple real-world USCs with potential security issues.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-02
# イギリス数学におけるブレッチリー公園の遺産

The legacy of Bletchley Park on UK mathematics ( http://arxiv.org/abs/2403.01331v1 )

ライセンス: Link先を確認
Daniel Shiu, (参考訳) 第2次世界大戦では、暗号解析と暗号の分野に数学の才能が流入した。 これはブレッチリー・パークの英国政府法典・暗号学校(GCCS)で特に当てはまりました。 それまで言語学者が支配していた活動に数学的思考を導入することに成功したことは、よく研究されているが、暗号学的な努力が数学の分野にどのような影響を及ぼすかという相互問題はあまり研究されていない。 彼らの暗号学的な業績はチューリング、トゥッテ、ウェルチマンほど祝われていないが、ブレッチリー・パークの努力はより卓越した数学者や、英国における数学研究の指導力と指導力を与える者によって補われた。 イアン・カッセルズ、サンディ・グリーン、フィリップ・ホール、マックス・ニューマン、ヘンリー・ホワイトヘッドが出演した。 本稿では、ブレッチリー・パークにおけるこれらの数学者と他の数学者の経験が、戦後のキャリアで生み出された数学にどのように影響したかを考察する。

The second world war saw a major influx of mathematical talent into the areas of cryptanalysis and cryptography. This was particularly true at the UK's Government Codes and Cypher School (GCCS) at Bletchley Park. The success of introducing mathematical thinking into activities previously dominated by linguists is well-studied, but the reciprocal question of how the cryptologic effort affected the field of mathematics has been less investigated. Although their cryptologic achievements are not as celebrated as those of Turing, Tutte and Welchman, Bletchley Park's effort was supplemented by more eminent mathematicians, and those who would achieve eminence and provide leadership and direction for mathematical research in the United Kingdom. Amongst their number were Ian Cassels, Sandy Green, Philip Hall, Max Newman and Henry Whitehead. This paper considers how the experience of these and other mathematicians at Bletchley Park may have informed and influenced the mathematics that was produced in their post-war careers.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-02
# ブロックチェーンベースの分散マーケットプレースにおける信頼とサービスとしての意見

Towards Trust and Reputation as a Service in a Blockchain-based Decentralized Marketplace ( http://arxiv.org/abs/2403.04779v1 )

ライセンス: Link先を確認
Stephen Olariu, Ravi Mukkamala, Meshari Aljohani, (参考訳) 学会5.0イニシアチブにおける信頼サービスの実装に関わる課題に触発され、分散市場のための新しい信頼と評価サービスを提案する。 我々は、スマートコントラクトが各取引と関連付けられていると仮定し、スマートコントラクトが自動的なフィードバックを提供する責任を負っていると仮定する。 私たちの信頼と評価サービスは、売り手の信頼が次の取引で彼女の義務を果たす確率として定義されるラプラス継承法(Laplace Law of Succession)にインスパイアされたものです。 私たちは3つのアプリケーションを提供します。 まず、悪質な販売者が安価な商品を売ることによって、輝かしい評判を確立することができるマルチセグメント市場への適用について論じる。 次に、当社の信頼度・評価サービスは、過去の評価スコアが近年のものよりも少ない2つのディスカウントスキームを提供することにより、販売者の時間変動パフォーマンスの文脈でどのように機能するかを実証する。 最後に,不完全な情報に基づいて,将来的な信頼と評価の予測方法を示す。 大規模なシミュレーションにより解析結果が確認された。

Motivated by the challenges inherent in implementing trusted services in the Society 5.0 initiative, we propose a novel trust and reputation service for a decentralized marketplace. We assume that a Smart Contract is associated with each transaction and that the Smart Contract is responsible for providing automatic feedback, replacing notoriously unreliable buyer feedback by a more objective assessment of how well the parties have fulfilled their obligations. Our trust and reputation service was inspired by Laplace Law of Succession, where trust in a seller is defined as the probability that she will fulfill her obligations on the next transaction. We offer three applications. First, we discuss an application to a multi-segment marketplace, where a malicious seller may establish a stellar reputation by selling cheap items, only to use their excellent reputation to defraud buyers in a different market segment. Next, we demonstrate how our trust and reputation service works in the context of sellers with time-varying performance by providing two discounting schemes wherein older reputation scores are given less weight than more recent ones. Finally, we show how to predict trust and reputation far in the future, based on incomplete information. Extensive simulations have confirmed our analytical results.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-02
# 多次元医用画像に対するカオスヘノンマップを用いたセグメンテーションマスクによる選択的暗号化

Selective Encryption using Segmentation Mask with Chaotic Henon Map for Multidimensional Medical Images ( http://arxiv.org/abs/2403.04781v1 )

ライセンス: Link先を確認
S Arut Prakash, Aditya Ganesh Kumar, Prabhu Shankar K. C., Lithicka Anandavel, Aditya Lakshmi Narayanan, (参考訳) ユーザ中心の設計とリソースの最適化は、あらゆる技術やイノベーションの中心にあるべきです。 ユーザ中心の視点は、開発者がタスクベースの最適化で開発する機会を与えます。 医用画像領域のユーザは、医用画像を分析して診断結果を患者に提供する医療専門家である。 このスキームは、医療専門家の視点で、医用画像ストレージとセキュリティの分野で革新をもたらす。 アーキテクチャは、Segmentation、Storage、Retrievalの3つの主要なセグメントで設計されている。 このアーキテクチャは、医療従事者が行う検索操作の数が、特定の医用画像に対してわずか数回行うストレージ操作と比較して非常に高いため、設計されている。 これにより、医用画像の医療的に欠かせない部分を解読し、暗号化し、保存する技術革新の余地が得られます。 カオスなHenonマップのような強力な暗号化アルゴリズムを使って、画像の重要部分を暗号化することで、セキュリティをそのままに保つことができます。 現在、医療画像を取得するには、関心のあるセグメント化された領域の、計算的にストレスの少ない復号化しか必要としない。 セグメント化された領域の復号化は、様々な診断目的のために医療専門家の要求に応じて見ることができる医療画像の完全回復をもたらす。 本手法では,脳内CT画像の完全な画像暗号化と比較して,検索速度が約47%向上した。

A user-centric design and resource optimization should be at the center of any technology or innovation. The user-centric perspective gives the developer the opportunity to develop with task-based optimization. The user in the medical image field is a medical professional who analyzes the medical images and gives their diagnosis results to the patient. This scheme, having the medical professional user's perspective, innovates in the area of Medical Image storage and security. The architecture is designed with three main segments, namely: Segmentation, Storage, and Retrieval. This architecture was designed owing to the fact that the number of retrieval operations done by medical professionals was toweringly higher when compared to the storage operations done for some handful number of times for a particular medical image. This gives room for our innovation to segment out the medically indispensable part of the medical image, encrypt it, and store it. By encrypting the vital parts of the image using a strong encryption algorithm like the chaotic Henon map, we are able to keep the security intact. Now retrieving the medical image demands only the computationally less stressing decryption of the segmented region of interest. The decryption of the segmented region of interest results in the full recovery of the medical image which can be viewed on demand by the medical professionals for various diagnosis purposes. In this scheme, we were able to achieve a retrieval speed improvement of around 47% when compared to a full image encryption of brain medical CT images.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-02
# 時間的知識グラフに関する調査:表現学習とその応用

A Survey on Temporal Knowledge Graph: Representation Learning and Applications ( http://arxiv.org/abs/2403.04782v1 )

ライセンス: Link先を確認
Li Cai, Xin Mao, Yuhao Zhou, Zhaoguang Long, Changxu Wu, Man Lan, (参考訳) 知識グラフは研究の注目を集め、下流のアプリケーションを強化するために広く利用されている。 しかし、最近の研究のほとんどは静的知識グラフに重点を置いており、その事実は時間とともに変化せず、時間とともにその動的進化を無視している。 その結果、時間的知識グラフは、特定の期間内にのみ大量の構造化知識が存在するため、より注目されている。 知識グラフ表現学習は、知識グラフにおける実体と関係のための低次元ベクトル埋め込みを学習することを目的としている。 時間的知識グラフの表現学習は、時間情報を標準知識グラフフレームワークに組み込んで、時間とともに実体と関係のダイナミクスをモデル化することができる。 本稿では,時間知識グラフ表現学習とその応用に関する総合的な調査を行う。 まず,時間知識グラフ表現学習のための定義,データセット,評価指標について紹介する。 次に,時間知識グラフ表現学習手法のコア技術に基づく分類法を提案し,各カテゴリの異なる手法の詳細な分析を行う。 最後に、時間的知識グラフに関連する様々なダウンストリームアプリケーションを示す。 最後に,本論文をまとめ,今後の研究の方向性を概観する。

Knowledge graphs have garnered significant research attention and are widely used to enhance downstream applications. However, most current studies mainly focus on static knowledge graphs, whose facts do not change with time, and disregard their dynamic evolution over time. As a result, temporal knowledge graphs have attracted more attention because a large amount of structured knowledge exists only within a specific period. Knowledge graph representation learning aims to learn low-dimensional vector embeddings for entities and relations in a knowledge graph. The representation learning of temporal knowledge graphs incorporates time information into the standard knowledge graph framework and can model the dynamics of entities and relations over time. In this paper, we conduct a comprehensive survey of temporal knowledge graph representation learning and its applications. We begin with an introduction to the definitions, datasets, and evaluation metrics for temporal knowledge graph representation learning. Next, we propose a taxonomy based on the core technologies of temporal knowledge graph representation learning methods, and provide an in-depth analysis of different methods in each category. Finally, we present various downstream applications related to the temporal knowledge graphs. In the end, we conclude the paper and have an outlook on the future research directions in this area.
翻訳日:2024-03-18 06:29:47 公開日:2024-03-02
# AutoDefense: 脱獄攻撃に対するマルチエージェントLDM防衛

AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks ( http://arxiv.org/abs/2403.04783v1 )

ライセンス: Link先を確認
Yifan Zeng, Yiran Wu, Xiao Zhang, Huazheng Wang, Qingyun Wu, (参考訳) ユーザ要求時に有害な情報を発生させないよう、広範囲な事前トレーニングとモラルアライメントの微調整にもかかわらず、大きな言語モデル(LLM)はジェイルブレイク攻撃に弱いままである。 本稿では,LSMから有害な応答をフィルタリングする応答フィルタリングに基づくマルチエージェント・ディフェンス・フレームワークであるAutoDefenseを提案する。 このフレームワークはLLMエージェントに異なる役割を割り当て、防衛タスクを協調的に完了するためにそれらを利用する。 タスクの分割は、LCMの全体的な命令フォローを強化し、他の防御コンポーネントをツールとして統合することを可能にする。 AutoDefenseは、エージェントとして機能するさまざまなサイズや種類のオープンソース LLM に対応できる。 大規模な有害かつ安全なプロンプト実験を行うことで,通常のユーザ要求で性能を維持しつつ,脱獄攻撃に対する堅牢性を向上する上で,提案するAutoDefenseの有効性を検証した。 私たちのコードとデータはhttps://github.com/XHMY/AutoDefense.comで公開されています。

Despite extensive pre-training and fine-tuning in moral alignment to prevent generating harmful information at user request, large language models (LLMs) remain vulnerable to jailbreak attacks. In this paper, we propose AutoDefense, a response-filtering based multi-agent defense framework that filters harmful responses from LLMs. This framework assigns different roles to LLM agents and employs them to complete the defense task collaboratively. The division in tasks enhances the overall instruction-following of LLMs and enables the integration of other defense components as tools. AutoDefense can adapt to various sizes and kinds of open-source LLMs that serve as agents. Through conducting extensive experiments on a large scale of harmful and safe prompts, we validate the effectiveness of the proposed AutoDefense in improving the robustness against jailbreak attacks, while maintaining the performance at normal user request. Our code and data are publicly available at https://github.com/XHMY/AutoDefense.
翻訳日:2024-03-18 06:19:57 公開日:2024-03-02
# フェデレーション付き大言語モデルにおけるプライバシ漏洩の解析

Analysis of Privacy Leakage in Federated Large Language Models ( http://arxiv.org/abs/2403.04784v1 )

ライセンス: Link先を確認
Minh N. Vu, Truc Nguyen, Tre' R. Jeter, My T. Thai, (参考訳) LLM(Large Language Models)を利用したアプリケーションのためのトレーニングおよびチューニングプロトコルとして、FL(Federated Learning)が急速に採用され、最近の研究は、大規模LLMに対応するためにFLに大幅な修正を加える必要性を強調している。 プロトコルの大幅な調整は応答として導入されているが、適応されたFLプロトコルの包括的なプライバシー分析は、現在不足している。 このギャップに対処するため、我々の研究は理論的・実践的な視点から、LLMのトレーニングに使用するFLのプライバシー分析を広範囲に検討した。 特に、様々なFL構成のプライバシー漏洩を評価するために、理論的成功率を保証した2つのアクティブメンバーシップ推論攻撃を設計する。 我々の理論的な発見は実践的な攻撃に変換され、BERT、RoBERTa、DistilBERT、OpenAIのGPTなど、複数の実世界の言語データセットにまたがる人気のあるLLMの重大なプライバシー上の脆弱性が明らかになった。 さらに,最先端の差分プライバシー(DP)機構によってデータが保護されている場合に,これらのモデルのプライバシー漏洩を評価するための徹底的な実験を行う。

With the rapid adoption of Federated Learning (FL) as the training and tuning protocol for applications utilizing Large Language Models (LLMs), recent research highlights the need for significant modifications to FL to accommodate the large-scale of LLMs. While substantial adjustments to the protocol have been introduced as a response, comprehensive privacy analysis for the adapted FL protocol is currently lacking. To address this gap, our work delves into an extensive examination of the privacy analysis of FL when used for training LLMs, both from theoretical and practical perspectives. In particular, we design two active membership inference attacks with guaranteed theoretical success rates to assess the privacy leakages of various adapted FL configurations. Our theoretical findings are translated into practical attacks, revealing substantial privacy vulnerabilities in popular LLMs, including BERT, RoBERTa, DistilBERT, and OpenAI's GPTs, across multiple real-world language datasets. Additionally, we conduct thorough experiments to evaluate the privacy leakage of these models when data is protected by state-of-the-art differential privacy (DP) mechanisms.
翻訳日:2024-03-18 06:19:57 公開日:2024-03-02
# EHRデータを用いた5年間の慢性疾患コホート予測のための大規模言語マルチモーダルモデル

Large Language Multimodal Models for 5-Year Chronic Disease Cohort Prediction Using EHR Data ( http://arxiv.org/abs/2403.04785v1 )

ライセンス: Link先を確認
Jun-En Ding, Phan Nguyen Minh Thao, Wen-Chih Peng, Jian-Zhe Wang, Chun-Cheng Chug, Min-Chen Hsieh, Yun-Chien Tseng, Ling Chen, Dongsheng Luo, Chi-Te Wang, Pei-fu Chen, Feng Liu, Fang-Ming Hung, (参考訳) 糖尿病などの慢性疾患が世界中で致死率と死亡率の主な原因となっている。 様々な深層学習モデルを用いて多くの研究が試みられている。 しかし、これまでのほとんどの研究では、公開データセット(例えばMIMIC)や不均衡なデータなど、一定の制限があった。 本研究では,台湾の病院データベースから,1,420,596名,387,392名の臨床検査結果,1,505名以上の臨床検査項目を含む5年間の電子健康記録(EHR)を収集し,大規模言語モデルの事前学習に焦点をあてた。 臨床ノートから得られたマルチモーダルデータを組み込んだLLMM(Large Language Multimodal Models)フレームワークと,慢性疾患リスク予測のための検査結果を提案した。 本手法では, テキスト埋め込みエンコーダとマルチヘッドアテンション層を組み合わせて, 深層ニューラルネットワーク(DNN)モジュールを用いて, 血液の特徴と慢性疾患のセマンティクスを潜在空間にマージする。 本実験では,臨床BERTとPubMed-BERTの併用により,多型性慢性疾患および糖尿病予測において73%の精度が得られた。 実験室の試験値をテキスト記述に変換し,Flan T-5モデルを用いて,ROC曲線(AUROC)の下で76%のエリアを達成し,言語モデルのトレーニングと推論に数値テキストデータを活用することの有効性を実証した。 このアプローチは早期糖尿病予測の精度を大幅に向上させる。

Chronic diseases such as diabetes are the leading causes of morbidity and mortality worldwide. Numerous research studies have been attempted with various deep learning models in diagnosis. However, most previous studies had certain limitations, including using publicly available datasets (e.g. MIMIC), and imbalanced data. In this study, we collected five-year electronic health records (EHRs) from the Taiwan hospital database, including 1,420,596 clinical notes, 387,392 laboratory test results, and more than 1,505 laboratory test items, focusing on research pre-training large language models. We proposed a novel Large Language Multimodal Models (LLMMs) framework incorporating multimodal data from clinical notes and laboratory test results for the prediction of chronic disease risk. Our method combined a text embedding encoder and multi-head attention layer to learn laboratory test values, utilizing a deep neural network (DNN) module to merge blood features with chronic disease semantics into a latent space. In our experiments, we observe that clinicalBERT and PubMed-BERT, when combined with attention fusion, can achieve an accuracy of 73% in multiclass chronic diseases and diabetes prediction. By transforming laboratory test values into textual descriptions and employing the Flan T-5 model, we achieved a 76% Area Under the ROC Curve (AUROC), demonstrating the effectiveness of leveraging numerical text data for training and inference in language models. This approach significantly improves the accuracy of early-stage diabetes prediction.
翻訳日:2024-03-18 06:19:57 公開日:2024-03-02
# LLM強調音声認識による無声音声のクロスモーダルアプローチ

A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition ( http://arxiv.org/abs/2403.05583v1 )

ライセンス: Link先を確認
Tyler Benster, Guy Wilson, Reshef Elisha, Francis R Willett, Shaul Druckmann, (参考訳) サイレント音声インタフェース(SSI)は、無音音声通信のための脳-コンピュータインタフェースの非侵襲的な代替手段を提供する。 我々は,クロスコントラスト(cross-contrast,cross-contrast)と教師付き時間コントラスト(supTcon)によるクロスモーダルアライメントを利用したマルチモーダル・ニューラルオーディオ(MONA)を導入する。 このアーキテクチャにより、LibriSpeechのような音声のみのデータセットを使用することで、サイレント音声認識を改善することができる。 さらに,Large Language Model (LLM) Integrated Scoring Adjustment (LISA)の導入により,認識精度が大幅に向上した。 同時にMONA LISAは、オープン語彙のサイレントスピーチのためのGaddy (2020)ベンチマークデータセットにおいて、最先端の単語誤り率(WER)を28.8%から12.2%に削減した。 音声EMG記録では23.3%から3.7%に改善した。 Brain-to-Text 2024コンペティションでは、LISAがベストを尽くし、トップWERを9.8%から8.9%に改善した。 我々の知る限りでは、オープンボキャブラリ上の非侵襲的無声音声認識が15% WERの閾値をクリアし、SSIが自動音声認識(ASR)の代替となることを示す最初の事例である。 我々の研究は、サイレント音声と発声音声のパフォーマンスギャップを狭めるだけでなく、人間とコンピュータの相互作用の新たな可能性も開き、ノイズやデータ制限によるクロスモーダルなアプローチの可能性を示す。

Silent Speech Interfaces (SSIs) offer a noninvasive alternative to brain-computer interfaces for soundless verbal communication. We introduce Multimodal Orofacial Neural Audio (MONA), a system that leverages cross-modal alignment through novel loss functions--cross-contrast (crossCon) and supervised temporal contrast (supTcon)--to train a multimodal model with a shared latent representation. This architecture enables the use of audio-only datasets like LibriSpeech to improve silent speech recognition. Additionally, our introduction of Large Language Model (LLM) Integrated Scoring Adjustment (LISA) significantly improves recognition accuracy. Together, MONA LISA reduces the state-of-the-art word error rate (WER) from 28.8% to 12.2% in the Gaddy (2020) benchmark dataset for silent speech on an open vocabulary. For vocal EMG recordings, our method improves the state-of-the-art from 23.3% to 3.7% WER. In the Brain-to-Text 2024 competition, LISA performs best, improving the top WER from 9.8% to 8.9%. To the best of our knowledge, this work represents the first instance where noninvasive silent speech recognition on an open vocabulary has cleared the threshold of 15% WER, demonstrating that SSIs can be a viable alternative to automatic speech recognition (ASR). Our work not only narrows the performance gap between silent and vocalized speech but also opens new possibilities in human-computer interaction, demonstrating the potential of cross-modal approaches in noisy and data-limited regimes.
翻訳日:2024-03-18 06:10:13 公開日:2024-03-02
# 半導体量子ドットの線形および非線形光学特性の調整における幾何学の役割

The Role of Geometry in Tailoring the Linear and Nonlinear Optical Properties of Semiconductor Quantum Dots ( http://arxiv.org/abs/2403.03963v1 )

ライセンス: Link先を確認
Grigor A. Mantashian(参考訳) 本稿では,InAs量子ドット(QD)の幾何学的特徴と非線形光学特性との関係を明らかにすることを目的とする。 この問題は、事実上あらゆる形状のqdsやナノ構造の達成に合わせた成長技術の最近の進歩によってもたらされた極端な多様性によって正当化されている。 そこで, 有限要素法と有効質量近似および包絡関数近似を併用して, 複素幾何領域における1粒子固有プロブレムの解法を提案した。 論文は、ナノプレート、球形qds、ナノコーン、ナノロッド、ナノタッドポール、ナノスターを探求する。 電子基底状態と最初の3つの励起状態の遷移に対するQDの複雑さと対称性とそれらの線形および非線形吸収スペクトルの間に明確な相関があることが判明した。

The paper aims to reveal the relationship between the geometrical features and linear and nonlinear optical properties of InAs quantum dots (QDs). This problem is justified by the extreme variety offered by the recent advances in growth techniques tailored to the attainment of QDs and nanostructures with virtually any shape. To that end, the Finite Element Method in conjunction with the Effective Mass Approximation and Envelope Function Approximation was employed to solve the one-particle eigenproblems in domains with any complex geometries. The paper explores nanoplatelets, spherical QDs, nanocones, nanorods, nanotadpoles, and nanostars. It has been found that there is a clear correlation between the complexity and symmetry of the QDs and their linear and nonlinear absorption spectra for transitions between the electronic ground state and the first three excited states.
翻訳日:2024-03-08 16:15:16 公開日:2024-03-02
# 超複素空間における時間に敏感な関係を持つ時間知識グラフの完成

Temporal Knowledge Graph Completion with Time-sensitive Relations in Hypercomplex Space ( http://arxiv.org/abs/2403.02355v1 )

ライセンス: Link先を確認
Li Cai, Xin Mao, Zhihong Wang, Shangqing Zhao, Yuhao Zhou, Changxu Wu, Man Lan(参考訳) 時間知識グラフ補完(TKGC)は、特定の時間における時間知識グラフ内の行方不明事実を埋めることを目的としている。 実空間や複素空間で運用する既存の手法は、このタスクにおいて有望な性能を示す。 本稿では,超複素空間内のtkgcに対して,より表現豊かな四元表現を導入することにより,従来のアプローチを超越する。 既存の四元数に基づく手法とは違って,本研究では,時間認識エンティティではなく,時間感性関係のキャプチャに焦点をあてる。 具体的には,時間認識回転と周期時間変換により時間に敏感な関係をモデル化し,複雑な時間変動を効果的に捉えた。 さらに,本手法の対称性,非対称性,逆性,構成的および進化的関係パターンをモデル化する能力を理論的に示す。 公開データセットに関する総合的な実験により,提案手法がTKGCの分野における最先端性能を実現することを確認した。

Temporal knowledge graph completion (TKGC) aims to fill in missing facts within a given temporal knowledge graph at a specific time. Existing methods, operating in real or complex spaces, have demonstrated promising performance in this task. This paper advances beyond conventional approaches by introducing more expressive quaternion representations for TKGC within hypercomplex space. Unlike existing quaternion-based methods, our study focuses on capturing time-sensitive relations rather than time-aware entities. Specifically, we model time-sensitive relations through time-aware rotation and periodic time translation, effectively capturing complex temporal variability. Furthermore, we theoretically demonstrate our method's capability to model symmetric, asymmetric, inverse, compositional, and evolutionary relation patterns. Comprehensive experiments on public datasets validate that our proposed approach achieves state-of-the-art performance in the field of TKGC.
翻訳日:2024-03-06 17:29:03 公開日:2024-03-02
# 空気品質推定のための時空間場ニューラルネットワーク

Spatio-Temporal Field Neural Networks for Air Quality Inference ( http://arxiv.org/abs/2403.02354v1 )

ライセンス: Link先を確認
Yutong Feng, Qiongyan Wang, Yutong Xia, Junlin Huang, Siru Zhong, Kun Wang, Shifen Cheng, Yuxuan Liang(参考訳) 空気質推定問題は、限られた観測地点からの履歴データを利用して、未知の場所で空気質指数を推定することを目的としている。 ステーションのメンテナンスコストの高さによるデータの分散性を考慮すると、優れた推論アルゴリズムはコストを効果的に削減し、データの粒度を改善できる。 時空間グラフニューラルネットワークはこの問題に対して優れた進歩を遂げているが、非ユークリッドおよび離散データ構造モデリングではそのポテンシャルが制限されている。 本研究では,新しいモデルである時空間場ニューラルネットワークとそれに対応する新たなフレームワークであるピラミッド推論を提案することにより,時空間的視点,フィールド,グラフを2つ組み合わせた最初の試みを行う。 広範な実験により,本モデルが中国本土の大気質推定における最先端性能を達成し,提案するモデルと枠組みの優位性を実証した。

The air quality inference problem aims to utilize historical data from a limited number of observation sites to infer the air quality index at an unknown location. Considering the sparsity of data due to the high maintenance cost of the stations, good inference algorithms can effectively save the cost and refine the data granularity. While spatio-temporal graph neural networks have made excellent progress on this problem, their non-Euclidean and discrete data structure modeling of reality limits its potential. In this work, we make the first attempt to combine two different spatio-temporal perspectives, fields and graphs, by proposing a new model, Spatio-Temporal Field Neural Network, and its corresponding new framework, Pyramidal Inference. Extensive experiments validate that our model achieves state-of-the-art performance in nationwide air quality inference in the Chinese Mainland, demonstrating the superiority of our proposed model and framework.
翻訳日:2024-03-06 17:28:46 公開日:2024-03-02
# 限られた不均衡データを持つ組織の学習支援

Assisted Learning for Organizations with Limited Imbalanced Data ( http://arxiv.org/abs/2109.09307v4 )

ライセンス: Link先を確認
Cheng Chen, Jiaying Zhou, Jie Ding, Yi Zhou(参考訳) ビッグデータの時代、多くの大企業が、データ分析を容易にするために機械学習を作業パイプラインに統合しています。 しかしながら、トレーニングされたモデルの性能は、制限された不均衡なデータによって制限されることが多い。 本研究では,組織が学習能力を向上させるための学習支援フレームワークを開発する。 組織には十分な計算リソースがあるが、厳格なデータ共有とコラボレーションのポリシーに従う。 限られた不均衡なデータはしばしば偏りのある推論と最適でない意思決定を引き起こす。 支援学習では、組織学習者が外部サービスプロバイダから支援サービスを購入し、いくつかの補助ラウンドでモデルパフォーマンスを向上させる。 深層学習と強化学習の両方に有効な確率的学習アルゴリズムを開発した。 勾配やモデルを頻繁に送信する必要のある既存の分散アルゴリズムとは異なり、このフレームワークでは、学習者が時々サービスプロバイダと情報を共有するだけでなく、すべてのデータが集中しているかのように、oracleに近いパフォーマンスを実現するモデルを得ることができます。

In the era of big data, many big organizations are integrating machine learning into their work pipelines to facilitate data analysis. However, the performance of their trained models is often restricted by limited and imbalanced data available to them. In this work, we develop an assisted learning framework for assisting organizations to improve their learning performance. The organizations have sufficient computation resources but are subject to stringent data-sharing and collaboration policies. Their limited imbalanced data often cause biased inference and sub-optimal decision-making. In assisted learning, an organizational learner purchases assistance service from an external service provider and aims to enhance its model performance within only a few assistance rounds. We develop effective stochastic training algorithms for both assisted deep learning and assisted reinforcement learning. Different from existing distributed algorithms that need to frequently transmit gradients or models, our framework allows the learner to only occasionally share information with the service provider, but still obtain a model that achieves near-oracle performance as if all the data were centralized.
翻訳日:2024-03-05 21:29:21 公開日:2024-03-02
# 法的知識グラフを用いた類似事例推薦

Similar Cases Recommendation using Legal Knowledge Graphs ( http://arxiv.org/abs/2107.04771v2 )

ライセンス: Link先を確認
Jaspreet Singh Dhani, Ruchika Bhatt, Balaji Ganesan, Parikshet Sirohi, Vasudha Bhatnagar(参考訳) 裁判、判決、法律、その他の法的文書から構築された法的な知識グラフは、質問応答、文書の類似性、検索などの多くのアプリケーションを可能にする。 NLPタスクにおける遠隔監視のための知識グラフの利用はよく研究されているが、ケース類似性のようなアプリケーションのための知識グラフの使用は課題を呈している。 本稿では,インド裁判所判決における類似事例の予測法について述べる。 本稿では,この課題に対する大規模言語モデルの影響についても論じる。

A legal knowledge graph constructed from court cases, judgments, laws and other legal documents can enable a number of applications like question answering, document similarity, and search. While the use of knowledge graphs for distant supervision in NLP tasks is well researched, using knowledge graphs for applications like case similarity presents challenges. In this work, we describe our solution for predicting similar cases in Indian court judgements. We present our results and also discuss the impact of large language models on this task.
翻訳日:2024-03-05 21:29:07 公開日:2024-03-02
# 画像の作り直し:ディープ・イメージ・コンポジションに関する総合的な調査

Making Images Real Again: A Comprehensive Survey on Deep Image Composition ( http://arxiv.org/abs/2106.14490v4 )

ライセンス: Link先を確認
Li Niu, Wenyan Cong, Liu Liu, Yan Hong, Bo Zhang, Jing Liang, Liqing Zhang(参考訳) 一般的な画像編集操作として、画像合成は、ある画像と別の背景画像から前景を合成することを目的としている。 しかし、合成画像が非現実的になるような問題は数多くある。 これらの問題は、前景と背景の矛盾(例えば、不整合照明)、幾何学的不整合(例えば、不合理なサイズ)、意味的不一貫性(例えば、ミスマッチされた意味的文脈)を含む。 画像合成タスクは複数のサブタスクに分解され、各サブタスクが1つ以上の課題を目標とする。 特に、オブジェクト配置は、前景の合理的なスケール、位置、形状を見つけることを目的としている。 画像ブレンディングは、前景と背景の間の不自然な境界に対処することを目的としている。 イメージ調和は前景の照明統計を調整することを目的としている。 シャドウ生成は、フォアグラウンドで可能なシャドウを生成することを目的としている。 これらのサブタスクは順次または並列に実行でき、リアルな合成画像を取得する。 我々の知る限りでは、画像合成に関する以前の調査はない。 本稿では,画像合成のサブタスクと組合せタスクについて包括的調査を行う。 それぞれについて、既存のメソッド、利用可能なデータセット、一般的な評価メトリクスをまとめます。 画像合成のためのデータセットとコードはhttps://github.com/bcmi/Awesome-Image-Compositionで要約されている。 libcom https://github.com/bcmi/libcom は10以上の画像合成関連関数(画像ブレンディング、画像調和、オブジェクト配置、影生成、生成合成など)を組み立てるツールボックスである。 このツールボックスの最終的な目標は、単純な‘import libcom’で画像合成に関連するすべての問題を解決することだ。

As a common image editing operation, image composition aims to combine the foreground from one image and another background image, resulting in a composite image. However, there are many issues that could make the composite images unrealistic. These issues can be summarized as the inconsistency between foreground and background, which includes appearance inconsistency (e.g., incompatible illumination), geometry inconsistency (e.g., unreasonable size), and semantic inconsistency (e.g., mismatched semantic context). Image composition task could be decomposed into multiple sub-tasks, in which each sub-task targets at one or more issues. Specifically, object placement aims to find reasonable scale, location, and shape for the foreground. Image blending aims to address the unnatural boundary between foreground and background. Image harmonization aims to adjust the illumination statistics of foreground. Shadow generation aims to generate plausible shadow for the foreground. These sub-tasks can be executed sequentially or parallelly to acquire realistic composite images. To the best of our knowledge, there is no previous survey on image composition. In this paper, we conduct comprehensive survey over the sub-tasks and combinatorial task of image composition. For each one, we summarize the existing methods, available datasets, and common evaluation metrics. Datasets and codes for image composition are summarized at https://github.com/bcmi/Awesome-Image-Composition. We have also contributed the first image composition toolbox: libcom https://github.com/bcmi/libcom, which assembles 10+ image composition related functions (e.g., image blending, image harmonization, object placement, shadow generation, generative composition). The ultimate goal of this toolbox is solving all the problems related to image composition with simple `import libcom'.
翻訳日:2024-03-05 21:28:59 公開日:2024-03-02
# 多角的不調整ランゲヴィンアルゴリズム:ニューラルネットワークのための安定かつ効率的な適応アルゴリズムの作成

Polygonal Unadjusted Langevin Algorithms: Creating stable and efficient adaptive algorithms for neural networks ( http://arxiv.org/abs/2105.13937v3 )

ライセンス: Link先を確認
Dong-Young Lim and Sotirios Sabanis(参考訳) 本稿では,一般的な適応オプティマイザの既知の欠点の多くを克服し,現在ディープラーニングモデルの微調整に使用されているランジュバン型アルゴリズムの新たなクラスを提案する。 その基盤となる理論は、単調係数を持つ確率微分方程式(SDE)に対するオイラーの多角形近似の最近の進歩に依存している。 結果として、tamedアルゴリズムの安定性特性を継承する一方で、ニューラルネットワークの勾配の消失など、他の既知の問題にも対処している。 特に、この新クラスのアルゴリズムの収束特性について、非漸近解析と完全な理論的保証を提供し、th$\varepsilon$o poula(単にtheopoula)と名付けた。 最後に、多くの一般的な適応最適化アルゴリズムよりも、TheoPouLaの優れた性能を示す、さまざまなタイプのディープラーニングモデルが提示される。

We present a new class of Langevin based algorithms, which overcomes many of the known shortcomings of popular adaptive optimizers that are currently used for the fine tuning of deep learning models. Its underpinning theory relies on recent advances of Euler's polygonal approximations for stochastic differential equations (SDEs) with monotone coefficients. As a result, it inherits the stability properties of tamed algorithms, while it addresses other known issues, e.g. vanishing gradients in neural networks. In particular, we provide a nonasymptotic analysis and full theoretical guarantees for the convergence properties of an algorithm of this novel class, which we named TH$\varepsilon$O POULA (or, simply, TheoPouLa). Finally, several experiments are presented with different types of deep learning models, which show the superior performance of TheoPouLa over many popular adaptive optimization algorithms.
翻訳日:2024-03-05 21:28:33 公開日:2024-03-02
# 変分量子アルゴリズムにおけるノイズ誘起バレン高原

Noise-Induced Barren Plateaus in Variational Quantum Algorithms ( http://arxiv.org/abs/2007.14384v6 )

ライセンス: Link先を確認
Samson Wang, Enrico Fontana, M. Cerezo, Kunal Sharma, Akira Sone, Lukasz Cincio, Patrick J. Coles(参考訳) 変分量子アルゴリズム(VQA)は、ノイズ中間スケール量子(NISQ)コンピュータにおける量子優位性への道のりである。 NISQデバイスのノイズがVQA性能に基本的な制限を与えるかどうかという自然な疑問がある。 ノイズがトレーニングランドスケープに不規則な台地(すなわち消失勾配)を生じさせることで、ノイズの多いVQAに深刻な制限を厳格に証明する。 具体的には、局所的なポーリノイズを考慮すれば、アンサッツの深さが直線的に n$ で大きくなると、勾配が qubits $n$ の数で指数関数的に減少することを示す。 これらのノイズ誘起バレン台地(NIBP)は、ランダムパラメータの初期化に結びついているノイズフリーバレン台地と概念的に異なる。 この結果は、量子交代演算子 ansatz やユニタリ結合クラスタ ansatz などを含む一般的な ansatz に対して定式化されている。 前者にとって、我々の数値ヒューリスティックスは、現実的なハードウェアノイズモデルのためのNIBP現象を実証する。

Variational Quantum Algorithms (VQAs) may be a path to quantum advantage on Noisy Intermediate-Scale Quantum (NISQ) computers. A natural question is whether noise on NISQ devices places fundamental limitations on VQA performance. We rigorously prove a serious limitation for noisy VQAs, in that the noise causes the training landscape to have a barren plateau (i.e., vanishing gradient). Specifically, for the local Pauli noise considered, we prove that the gradient vanishes exponentially in the number of qubits $n$ if the depth of the ansatz grows linearly with $n$. These noise-induced barren plateaus (NIBPs) are conceptually different from noise-free barren plateaus, which are linked to random parameter initialization. Our result is formulated for a generic ansatz that includes as special cases the Quantum Alternating Operator Ansatz and the Unitary Coupled Cluster Ansatz, among others. For the former, our numerical heuristics demonstrate the NIBP phenomenon for a realistic hardware noise model.
翻訳日:2024-03-05 21:27:52 公開日:2024-03-02
# 任意性と社会的予測--公平な分類における分散の役割

Arbitrariness and Social Prediction: The Confounding Role of Variance in Fair Classification ( http://arxiv.org/abs/2301.11562v7 )

ライセンス: Link先を確認
A. Feder Cooper, Katherine Lee, Madiha Zahrah Choksi, Solon Barocas, Christopher De Sa, James Grimmelmann, Jon Kleinberg, Siddhartha Sen, Baobao Zhang(参考訳) 異なるトレーニングされたモデル間の予測のばらつきは、公平なバイナリ分類において重要で未検討のエラー源である。 実際には、データ例のばらつきは非常に大きいので、決定を効果的に任意にすることができる。 この問題を調査するために、我々は実験的なアプローチを取り、4つの包括的な貢献をする。 1) 偏差から派生した自己整合性と呼ばれる指標を定義し、その指標を任意性の測定及び低減の代用として用いる。 2) 予測が任意である場合に分類を棄却するアンサンブルアルゴリズムを開発する。 3 公正二分分類における分散(自己整合性及び仲裁性)の役割に関する過去最大の実証研究を行う。 4) US Home Mortgage Disclosure Act (HMDA)データセットを将来の研究に容易に利用できるようにするツールキットをリリースする。 その結果,ベンチマークデータセットにおける結論の信頼性に関する衝撃的な知見が得られた。 ほとんどの公正なバイナリ分類ベンチマークは、公正な介入を適用する前に、予測に現れる仲裁の量を考慮して、公正に近いものです。 この発見は、共通アルゴリズムフェアネス手法の実用性に疑問を投げかけ、その上で、バイナリ分類におけるフェアネスの測定方法を再考するべきである。

Variance in predictions across different trained models is a significant, under-explored source of error in fair binary classification. In practice, the variance on some data examples is so large that decisions can be effectively arbitrary. To investigate this problem, we take an experimental approach and make four overarching contributions: We: 1) Define a metric called self-consistency, derived from variance, which we use as a proxy for measuring and reducing arbitrariness; 2) Develop an ensembling algorithm that abstains from classification when a prediction would be arbitrary; 3) Conduct the largest to-date empirical study of the role of variance (vis-a-vis self-consistency and arbitrariness) in fair binary classification; and, 4) Release a toolkit that makes the US Home Mortgage Disclosure Act (HMDA) datasets easily usable for future research. Altogether, our experiments reveal shocking insights about the reliability of conclusions on benchmark datasets. Most fair binary classification benchmarks are close-to-fair when taking into account the amount of arbitrariness present in predictions -- before we even try to apply any fairness interventions. This finding calls into question the practical utility of common algorithmic fairness methods, and in turn suggests that we should reconsider how we choose to measure fairness in binary classification.
翻訳日:2024-03-05 21:25:37 公開日:2024-03-02
# 教師なし言語モデルにおける潜在知識の発見

Discovering Latent Knowledge in Language Models Without Supervision ( http://arxiv.org/abs/2212.03827v2 )

ライセンス: Link先を確認
Collin Burns, Haotian Ye, Dan Klein, Jacob Steinhardt(参考訳) 言語モデルのトレーニングのための既存のテクニックは、真実とミスアライメントすることができる: 模倣学習でモデルをトレーニングすれば、人間が犯すエラーを再現する可能性がある。 本稿では,言語モデルの内部アクティベーション内で,純粋に教師なしの方法で潜在知識を直接発見することで,この問題を回避することを提案する。 具体的には,ラベルのないモデルアクティベーションのみに与えられるイエスノー質問に正確に答える手法を提案する。 これは、文とその否定が真理値と反対であるような論理的整合性を満たす活性化空間の方向を見つけることで機能する。 教師なし, モデル出力がないにもかかわらず, 提案手法は, 大規模言語モデルで表現される多様な知識を, 6つのモデルと10の質問応答データセットで回収し, ゼロショット精度を平均4倍に向上させることを示した。 また、モデルが誤った回答を生成するように促された場合でも、迅速な感度を半分に減らし、高い精度を維持し続けることもわかりました。 私たちの結果は、明示的な基底的真理ラベルにアクセスできない場合でも、言語モデルが知っていることを発見するための最初のステップを提供します。

Existing techniques for training language models can be misaligned with the truth: if we train models with imitation learning, they may reproduce errors that humans make; if we train them to generate text that humans rate highly, they may output errors that human evaluators can't detect. We propose circumventing this issue by directly finding latent knowledge inside the internal activations of a language model in a purely unsupervised way. Specifically, we introduce a method for accurately answering yes-no questions given only unlabeled model activations. It works by finding a direction in activation space that satisfies logical consistency properties, such as that a statement and its negation have opposite truth values. We show that despite using no supervision and no model outputs, our method can recover diverse knowledge represented in large language models: across 6 models and 10 question-answering datasets, it outperforms zero-shot accuracy by 4\% on average. We also find that it cuts prompt sensitivity in half and continues to maintain high accuracy even when models are prompted to generate incorrect answers. Our results provide an initial step toward discovering what language models know, distinct from what they say, even when we don't have access to explicit ground truth labels.
翻訳日:2024-03-05 21:25:18 公開日:2024-03-02
# FedTracker: フェデレーション学習モデルのオーナシップ検証とトレーサビリティ向上

FedTracker: Furnishing Ownership Verification and Traceability for Federated Learning Model ( http://arxiv.org/abs/2211.07160v3 )

ライセンス: Link先を確認
Shuo Shao, Wenyuan Yang, Hanlin Gu, Zhan Qin, Lixin Fan, Qiang Yang and Kui Ren(参考訳) Federated Learning(FL)は、複数のクライアントがローカルデータを共有せずにグローバルモデルを共同でトレーニングできる分散機械学習パラダイムである。 しかし、flは様々な参加者にモデルを公開することを伴う。 これは悪意のあるクライアントによる不正なモデル配布や再販のリスクをもたらし、flグループの知的財産権を侵害する。 このような誤動作を防止するためには,モデルの所有権を検証し,その起源をfl参加者の漏洩者まで遡るメカニズムを確立することが不可欠である。 本稿では,オーナシップ検証とトレーサビリティを提供する最初のflモデル保護フレームワークであるfeedtrackerを提案する。 fedtrackerは、グローバルウォーターマーク機構とローカル指紋機構からなるbiレベルの保護スキームを採用している。 前者はグローバルモデルの所有権を認証し、後者はモデルから派生したクライアントを特定する。 FedTrackerは継続学習(CL)の原則を活用して、原始的なタスクと透かしタスクの両方でFLモデルの実用性を保存する方法で透かしを埋め込む。 FedTrackerはまた、異なる指紋を識別する新しい指標も考案している。 実験の結果,feedtrackerはオーナシップの検証やトレーサビリティに有効であり,様々なウォーターマーク除去攻撃に対する忠実性と堅牢性を維持していることがわかった。

Federated learning (FL) is a distributed machine learning paradigm allowing multiple clients to collaboratively train a global model without sharing their local data. However, FL entails exposing the model to various participants. This poses a risk of unauthorized model distribution or resale by the malicious client, compromising the intellectual property rights of the FL group. To deter such misbehavior, it is essential to establish a mechanism for verifying the ownership of the model and as well tracing its origin to the leaker among the FL participants. In this paper, we present FedTracker, the first FL model protection framework that provides both ownership verification and traceability. FedTracker adopts a bi-level protection scheme consisting of global watermark mechanism and local fingerprint mechanism. The former authenticates the ownership of the global model, while the latter identifies which client the model is derived from. FedTracker leverages Continual Learning (CL) principles to embed the watermark in a way that preserves the utility of the FL model on both primitive task and watermark task. FedTracker also devises a novel metric to better discriminate different fingerprints. Experimental results show FedTracker is effective in ownership verification, traceability, and maintains good fidelity and robustness against various watermark removal attacks.
翻訳日:2024-03-05 21:24:54 公開日:2024-03-02
# ハニカムハバード模型における絡み合いエントロピーの普遍的特徴

Universal features of entanglement entropy in the honeycomb Hubbard model ( http://arxiv.org/abs/2211.04334v2 )

ライセンス: Link先を確認
Jonathan D'Emidio, Roman Orus, Nicolas Laflorencie, Fernando de Juan(参考訳) 絡み合いエントロピーは、強く相互作用する多体系の普遍的な特徴を明らかにするユニークなプローブである。 2つ以上の次元において、これらの特徴は微妙であり、それらを数値的に検出するには極端に正確さが必要です。 これは相互作用するフェルミオンのモデルにおいて特に困難であり、そのような普遍的な特徴がまだ観測されていない。 本稿では,補助場量子モンテカルロシミュレーションにおける r\'enyi のエンタングルメントエントロピーを計算し,エンタングルリング領域自体を確率変数として扱う手法を提案する。 本手法の効率性は, 相互作用フェルミオンの2次元モデルにおいて, 初めて普遍サブリーディング対数項を抽出し, ハーフフィルドハニカムハバードモデルに$t=0$で焦点をあてた。 ダイラック半金属相とグロス・ネヴェウ・湯川臨界点において, エンタングリングカットの種類によって顕著なエンハンスメントを示す領域において, ギャップのないフェルミオンによる普遍角寄与を検出する。 最後に,反強磁性mott絶縁相における普遍金石モードの寄与を観察した。

The entanglement entropy is a unique probe to reveal universal features of strongly interacting many-body systems. In two or more dimensions these features are subtle, and detecting them numerically requires extreme precision, a notoriously difficult task. This is especially challenging in models of interacting fermions, where many such universal features have yet to be observed. In this paper we tackle this challenge by introducing a new method to compute the R\'enyi entanglement entropy in auxiliary-field quantum Monte Carlo simulations, where we treat the entangling region itself as a stochastic variable. We demonstrate the efficiency of this method by extracting, for the first time, universal subleading logarithmic terms in a two dimensional model of interacting fermions, focusing on the half-filled honeycomb Hubbard model at $T=0$. We detect the universal corner contribution due to gapless fermions throughout the Dirac semi-metal phase and at the Gross-Neveu-Yukawa critical point, where the latter shows a pronounced enhancement depending on the type of entangling cut. Finally, we observe the universal Goldstone mode contribution in the antiferromagnetic Mott insulating phase.
翻訳日:2024-03-05 21:24:32 公開日:2024-03-02
# 前方-後方モデルを用いたMDP準同型近似

Using Forwards-Backwards Models to Approximate MDP Homomorphisms ( http://arxiv.org/abs/2209.06356v3 )

ライセンス: Link先を確認
Augustine N. Mavor-Parker, Matthew J. Sargent, Christian Pehle, Andrea Banino, Lewis D. Griffin, Caswell Barry(参考訳) 強化学習エージェントは試行錯誤を通じて辛抱強く学習し、どのような状態と作用するペアが同等の価値を持つのかを判断しなければならない。 環境のMDPを抽象MDPに還元し、サンプル効率を向上するMDP準同型が提案されている。 その結果、適切な準同型を事前構築できる場合、通常は実践者の環境対称性に関する知識を活用することにより、印象的な改善が達成された。 本研究では, 環境力学の学習モデルを用いて, 状態-作用対が同一の状態につながるかを推定し, 状態-作用空間の大きさを元の作用空間の濃度よりも大きい因子で減少させる, 離散的作用空間における準同型を構築する新しい手法を提案する。 MinAtarでは,全てのゲームやオプティマイザを平均化する際に,低いサンプル制限で値ベースのオフポリティベースラインをほぼ4倍改善したことを報告している。

Reinforcement learning agents must painstakingly learn through trial and error what sets of state-action pairs are value equivalent -- requiring an often prohibitively large amount of environment experience. MDP homomorphisms have been proposed that reduce the MDP of an environment to an abstract MDP, enabling better sample efficiency. Consequently, impressive improvements have been achieved when a suitable homomorphism can be constructed a priori -- usually by exploiting a practitioner's knowledge of environment symmetries. We propose a novel approach to constructing homomorphisms in discrete action spaces, which uses a learnt model of environment dynamics to infer which state-action pairs lead to the same state -- which can reduce the size of the state-action space by a factor as large as the cardinality of the original action space. In MinAtar, we report an almost 4x improvement over a value-based off-policy baseline in the low sample limit, when averaging over all games and optimizers.
翻訳日:2024-03-05 21:23:34 公開日:2024-03-02
# ノード分類のためのグラフデータセットのキャラクタリゼーション:ホモフィリー・ヘテロフィックな二分法とそれ以降

Characterizing Graph Datasets for Node Classification: Homophily-Heterophily Dichotomy and Beyond ( http://arxiv.org/abs/2209.06177v4 )

ライセンス: Link先を確認
Oleg Platonov, Denis Kuznedelev, Artem Babenko, Liudmila Prokhorenkova(参考訳) ホモフィリー(英: Homophily)は、類似したノードを接続するエッジの傾向を記述するグラフ特性である。 異種グラフは標準的なメッセージパスグラフニューラルネットワーク(GNN)では困難であると考えられており、この設定のための効率的な手法の開発に多くの努力が払われている。 しかし、文献には相同性に関する普遍的に合意された尺度は存在しない。 本研究では, 一般に用いられるホモフィリ測度が, 異なるデータセット間でのホモフィリレベルの比較を阻害する重要な欠点を持つことを示す。 このために、適切なホモフィリ測度の望ましい性質を定式化し、どの測度がどの性質を満たすかを検証する。 特に,調整ホモフィアと呼ばれる尺度は他の一般的なホモフィア指標よりも望ましい性質を満たすが,グラフ機械学習の文献では滅多に用いられないことを示す。 そして、ホモフィリーヘテロフィリー二分法を超えて、異なるヘテロフィリーを更に区別できる新しい特徴を提案する。 提案するラベル情報度(li)は、隣人のラベルがノードのラベルについてどれだけの情報を提供するかを示す。 この尺度が重要な望ましい性質を満たすことを証明します。 また,li が gnn の性能とホモフィイ測度によく一致することを実証的に観察し,グラフ構造の特徴として有用であることを確認した。

Homophily is a graph property describing the tendency of edges to connect similar nodes; the opposite is called heterophily. It is often believed that heterophilous graphs are challenging for standard message-passing graph neural networks (GNNs), and much effort has been put into developing efficient methods for this setting. However, there is no universally agreed-upon measure of homophily in the literature. In this work, we show that commonly used homophily measures have critical drawbacks preventing the comparison of homophily levels across different datasets. For this, we formalize desirable properties for a proper homophily measure and verify which measures satisfy which properties. In particular, we show that a measure that we call adjusted homophily satisfies more desirable properties than other popular homophily measures while being rarely used in graph machine learning literature. Then, we go beyond the homophily-heterophily dichotomy and propose a new characteristic that allows one to further distinguish different sorts of heterophily. The proposed label informativeness (LI) characterizes how much information a neighbor's label provides about a node's label. We prove that this measure satisfies important desirable properties. We also observe empirically that LI better agrees with GNN performance compared to homophily measures, which confirms that it is a useful characteristic of the graph structure.
翻訳日:2024-03-05 21:23:16 公開日:2024-03-02
# 小・中・大規模企業のオンラインマイクロターゲット化の実践

Exploring the Online Micro-targeting Practices of Small, Medium, and Large Businesses ( http://arxiv.org/abs/2207.09286v2 )

ライセンス: Link先を確認
Salim Chouaki (1, 2, 3, 4), Islem Bouzenia (1, 2, 3, 4), Oana Goga (1, 2, 3, 4), Beatrice Roussillon (1, 5) ((1) Univ. Grenoble Alpes, (2) CNRS, (3) Grenoble INP, (4) LIG, (5) GAEL)(参考訳) Facebookや他の広告プラットフォームは、広告主が特定のユーザーを選択してターゲットにすることで、マーケティング目的でユーザーデータを活用している(これはマイクロターゲットと呼ばれる)。 しかし、Cambridge Analyticaのような広告主は、これらのターゲティング機能を使って選挙の文脈でユーザーを操作する。 欧州委員会は、ユーザーをそのような被害から守るために、新たな欧州民主主義行動計画(ECA)の目標機能の一部を制限または禁止する計画だ。 難しいのは、通常の広告主に対するこれらの制限の経済的影響がわからないことです。 本稿では,Facebook上で誰が広告を行っているのか,ターゲット機能をどのように利用するのかを理解するための第一歩を踏み出した。 そのため、われわれは890人の米国ユーザーに対して、Facebookで受信した広告の収集とターゲット広告に関する情報をブラウザにインストールするよう依頼した。 Facebookの広告主とLinkedInのプロフィールを合わせることで、広告主の71%が中小ビジネスで200人以下の従業員を抱えており、広告の61%と広告インプレッションの57%を担っていることが分かる。 マイクロターゲティングでは、中小企業の32%、大企業の30%が広告の少なくとも1つをマイクロターゲティングしていることがわかった。 これらの結果は、マーケティング戦略として有用ではなく、広告プラットフォームにマイクロターゲティングタスクをアウトソースすることを好むマイクロターゲティングとして解釈されるべきではない。 実際、Facebookはユーザーがどの広告を見るべきかを決めるためにユーザーデータを利用する最適化アルゴリズムを採用している。 したがって、規制を設定する際には、従来の広告主主導のマイクロターゲットと、広告プラットフォームによるアルゴリズム駆動のマイクロターゲットの両方を考慮する必要がある。

Facebook and other advertising platforms exploit users data for marketing purposes by allowing advertisers to select specific users and target them (the practice is being called micro-targeting). However, advertisers such as Cambridge Analytica have maliciously used these targeting features to manipulate users in the context of elections. The European Commission plans to restrict or ban some targeting functionalities in the new European Democracy Action Plan act to protect users from such harms. The difficulty is that we do not know the economic impact of these restrictions on regular advertisers. In this paper, to inform the debate, we take a first step by understanding who is advertising on Facebook and how they use the targeting functionalities. For this, we asked 890 U.S. users to install a monitoring tool on their browsers to collect the ads they receive on Facebook and information about how these ads were targeted. By matching advertisers on Facebook with their LinkedIn profiles, we could see that 71% of advertisers are small and medium-sized businesses with 200 employees or less, and they are responsible for 61% of ads and 57% of ad impressions. Regarding micro-targeting, we found that only 32% of small and medium-sized businesses and 30% of large-sized businesses micro-target at least one of their ads. These results should not be interpreted as micro-targeting not being useful as a marketing strategy, but rather that advertisers prefer to outsource the micro-targeting task to ad platforms. Indeed, Facebook is employing optimization algorithms that exploit user data to decide which users should see what ads; which means ad platforms are performing an algorithmic-driven micro-targeting. Hence, when setting restrictions, legislators should take into account both the traditional advertiser-driven micro-targeting as well as algorithmic-driven micro-targeting performed by ad platforms.
翻訳日:2024-03-05 21:22:32 公開日:2024-03-02
# 動的価格設定におけるnプレイヤーマルコフゲームの近似nash平衡学習

Approximate Nash Equilibrium Learning for n-Player Markov Games in Dynamic Pricing ( http://arxiv.org/abs/2207.06492v3 )

ライセンス: Link先を確認
Larkin Liu(参考訳) 我々は,複数のエージェントが競合するマルコフゲーム(MG)環境でのナッシュ均衡学習について検討し,複数のナッシュ均衡が存在することを示す。 特に、オリゴポラティスティックな動的価格設定環境においては、正確なナッシュ平衡は、次元の呪いのため取得が困難である。 近似ナッシュ平衡を求める新しいモデルフリー法を開発した。 グラディエントフリーなブラックボックス最適化は、任意のジョイントポリシーから一方的に逸脱するエージェントの最大報酬の利点である$\epsilon$を推定し、任意の状態に対する$\epsilon$-minimizingポリシーを推定する。 ポリシ-$\epsilon$対応と$\epsilon$最小化ポリシへの状態はニューラルネットワークで表現され、後者はNash Policy Netである。 バッチ更新中に,nashポリシネットを用いて動作確率を調整することにより,システム上でnash q学習を行う。 特に,厳密解がしばしば難解である動的価格領域において,近似ナッシュ均衡が学習できることを実証する。

We investigate Nash equilibrium learning in a competitive Markov Game (MG) environment, where multiple agents compete, and multiple Nash equilibria can exist. In particular, for an oligopolistic dynamic pricing environment, exact Nash equilibria are difficult to obtain due to the curse-of-dimensionality. We develop a new model-free method to find approximate Nash equilibria. Gradient-free black box optimization is then applied to estimate $\epsilon$, the maximum reward advantage of an agent unilaterally deviating from any joint policy, and to also estimate the $\epsilon$-minimizing policy for any given state. The policy-$\epsilon$ correspondence and the state to $\epsilon$-minimizing policy are represented by neural networks, the latter being the Nash Policy Net. During batch update, we perform Nash Q learning on the system, by adjusting the action probabilities using the Nash Policy Net. We demonstrate that an approximate Nash equilibrium can be learned, particularly in the dynamic pricing domain where exact solutions are often intractable.
翻訳日:2024-03-05 21:21:59 公開日:2024-03-02
# 複数の巨大原子を有する導波路qed系における原子-光子配位状態

Atom-photon dressed states in a waveguide-QED system with multiple giant atoms ( http://arxiv.org/abs/2304.02072v2 )

ライセンス: Link先を確認
W. Z. Jia and M. T. Yu(参考訳) 結合共振導波路に結合した複数の巨大原子からなる導波路qed系の結合状態の性質について検討した。 これらの状態の一般的な解析式と対応するエネルギースペクトルに基づいて、結合状態の出現の閾値条件と、異なる構成の服装原子間の光子による相互作用を詳細に分析した。 さらに、複数の巨大原子が導波路に結合されると、結合構成-導波路を操作することで異なる種類の相互作用する原子鎖が得られる。 したがって、境界状態のエネルギースペクトルは、フォトニックバンドギャップのメタバンド構造を形成する。 これにより、システムは量子シミュレーションと量子情報処理に有用なプラットフォームとなる。

We study the properties of bound states in waveguide-QED systems consisting of multiple giant atoms coupled to a coupled-resonator waveguide. Based on the general analytical expressions for these states and the corresponding energy spectra, we analyze in detail the threshold conditions for the appearance of bound states and the photon-mediated interactions between dressed atoms for different configurations. In addition, when multiple giant atoms are coupled to the waveguide, different types of interacting atomic chain can be obtained by manipulating the coupling config- urations. Accordingly, the energy spectra of the bound states form metaband structures in the photonic band gaps. This makes the system a useful platform for quantum simulation and quantum information processing.
翻訳日:2024-03-05 21:16:04 公開日:2024-03-02
# LiDARFormer: LiDAR知覚のための統一トランスフォーマーベースのマルチタスクネットワーク

LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR Perception ( http://arxiv.org/abs/2303.12194v2 )

ライセンス: Link先を確認
Zixiang Zhou, Dongqiangzi Ye, Weijia Chen, Yufei Xie, Yu Wang, Panqu Wang, Hassan Foroosh(参考訳) 個々のタスクに個別のネットワークを使用するのとは対照的に、パフォーマンスが向上した単一強ネットワークにおいて、複数のタスクを統一するLiDAR認識分野の最近のトレンドがある。 本稿では、トランスフォーマーに基づく新しいlidarマルチタスク学習パラダイムを提案する。 提案するLiDARFormerは,空間的グローバルなコンテキスト特徴情報を利用して,複数の大規模データセットとベンチマーク間でのLiDAR認識タスクのパフォーマンス向上を図る。 我々の新しいトランスフォーマーベースのフレームワークは、2D高密度バードアイビュー(BEV)と3Dスパース・ボクセル特徴マップの間の注意深い特徴を学習するクロススペーストランスフォーマーモジュールを含んでいる。 さらに、分類的特徴表現を利用して学習した特徴を動的に調整するセグメンテーションタスク用トランスフォーマーデコーダを提案する。 さらに,共用トランスデコーダのセグメンテーションと検出機能をクロスタスクアテンション層と組み合わせることで,オブジェクトレベルおよびクラスレベルの機能を強化・統合する。 LiDARFormerは、大規模なnuScenesとWaymo Openデータセットで3D検出とセマンティックセグメンテーションタスクの両方で評価されており、以前公開されたすべてのメソッドよりもパフォーマンスが高い。 特に、LiDARFormerは、単一のモデルLiDARのみの方法のWaymoおよびnuScenes検出ベンチマークにおいて76.4%のL2 mAPHと74.3%のNDSの最先端性能を達成する。

There is a recent trend in the LiDAR perception field towards unifying multiple tasks in a single strong network with improved performance, as opposed to using separate networks for each task. In this paper, we introduce a new LiDAR multi-task learning paradigm based on the transformer. The proposed LiDARFormer utilizes cross-space global contextual feature information and exploits cross-task synergy to boost the performance of LiDAR perception tasks across multiple large-scale datasets and benchmarks. Our novel transformer-based framework includes a cross-space transformer module that learns attentive features between the 2D dense Bird's Eye View (BEV) and 3D sparse voxel feature maps. Additionally, we propose a transformer decoder for the segmentation task to dynamically adjust the learned features by leveraging the categorical feature representations. Furthermore, we combine the segmentation and detection features in a shared transformer decoder with cross-task attention layers to enhance and integrate the object-level and class-level features. LiDARFormer is evaluated on the large-scale nuScenes and the Waymo Open datasets for both 3D detection and semantic segmentation tasks, and it outperforms all previously published methods on both tasks. Notably, LiDARFormer achieves the state-of-the-art performance of 76.4% L2 mAPH and 74.3% NDS on the challenging Waymo and nuScenes detection benchmarks for a single model LiDAR-only method.
翻訳日:2024-03-05 21:15:19 公開日:2024-03-02
# 既存の単語埋め込み手法の包括的経験的評価

A Comprehensive Empirical Evaluation of Existing Word Embedding Approaches ( http://arxiv.org/abs/2303.07196v2 )

ライセンス: Link先を確認
Obaidullah Zaland, Muhammad Abulaish, Mohd. Fazil(参考訳) ベクトルベースの単語表現は、無数の自然言語処理(NLP)タスクが言語のセマンティックおよび構文規則を捉えるのに役立つ。 本稿では,既存の単語埋め込み手法の特徴について述べるとともに,多くの分類タスクについて解析する。 従来の手法では、主に単語表現を生成するために行列分解を使い、言語の意味的および構文的規則性をうまく捉えられていない。 一方で、ニューラルネットワークベースのアプローチは、言語の洗練された規則性を捉え、生成された単語表現における単語関係を保存できる。 我々は,複数の分類タスクに関する実験結果を報告し,一つのアプローチが他よりもうまく機能するシナリオを強調する。

Vector-based word representations help countless Natural Language Processing (NLP) tasks capture the language's semantic and syntactic regularities. In this paper, we present the characteristics of existing word embedding approaches and analyze them with regard to many classification tasks. We categorize the methods into two main groups - Traditional approaches mostly use matrix factorization to produce word representations, and they are not able to capture the semantic and syntactic regularities of the language very well. On the other hand, Neural-network-based approaches can capture sophisticated regularities of the language and preserve the word relationships in the generated word representations. We report experimental results on multiple classification tasks and highlight the scenarios where one approach performs better than the rest.
翻訳日:2024-03-05 21:14:37 公開日:2024-03-02
# 異質な状況下でのgnnの評価を批判的に見る:本当に進歩しているのか?

A critical look at the evaluation of GNNs under heterophily: Are we really making progress? ( http://arxiv.org/abs/2302.11640v2 )

ライセンス: Link先を確認
Oleg Platonov, Denis Kuznedelev, Michael Diskin, Artem Babenko, Liudmila Prokhorenkova(参考訳) ノード分類は、グラフニューラルネットワーク(gnn)が最近強い結果を得た古典的なグラフ機械学習タスクである。 しかし、標準GNNはホモフィルグラフ(すなわち、エッジが同じクラスのノードに接続する傾向があるグラフ)に対してのみ有効であるとしばしば信じられている。 この性質を持たないグラフはヘテロ親和性と呼ばれ、一般にそのようなグラフ上で強い性能を達成するために特別な方法が必要であると仮定される。 この研究では、この仮定に挑戦する。 まず, 異種特異的モデルの評価に用いる標準データセットは, 深刻な欠点があり, 信頼性が低い結果が得られた。 これらの欠点の最も重要な点は、データセットSquirrelとChameleonに多数の重複ノードが存在することだ。 重複ノードの削除がこれらのデータセット上でのGNN性能に強く影響を与えることを示す。 そこで本研究では,gnnの性能評価の指標として有用であると考えられる様々な特性のヘテロフィラスグラフのセットを提案する。 我々は、標準的なGNNがこれらの異種グラフに対して強い結果を得ることを示す。 私たちのデータセットと実験を再現するためのコードは、https://github.com/yandex-research/heterophilous-graphsで利用可能です。

Node classification is a classical graph machine learning task on which Graph Neural Networks (GNNs) have recently achieved strong results. However, it is often believed that standard GNNs only work well for homophilous graphs, i.e., graphs where edges tend to connect nodes of the same class. Graphs without this property are called heterophilous, and it is typically assumed that specialized methods are required to achieve strong performance on such graphs. In this work, we challenge this assumption. First, we show that the standard datasets used for evaluating heterophily-specific models have serious drawbacks, making results obtained by using them unreliable. The most significant of these drawbacks is the presence of a large number of duplicate nodes in the datasets Squirrel and Chameleon, which leads to train-test data leakage. We show that removing duplicate nodes strongly affects GNN performance on these datasets. Then, we propose a set of heterophilous graphs of varying properties that we believe can serve as a better benchmark for evaluating the performance of GNNs under heterophily. We show that standard GNNs achieve strong results on these heterophilous graphs, almost always outperforming specialized models. Our datasets and the code for reproducing our experiments are available at https://github.com/yandex-research/heterophilous-graphs
翻訳日:2024-03-05 21:14:11 公開日:2024-03-02
# 高精度自動発声検出のための大域的およびパッチ的コントラスト損失

A Global and Patch-wise Contrastive Loss for Accurate Automated Exudate Detection ( http://arxiv.org/abs/2302.11517v2 )

ライセンス: Link先を確認
Wei Tang, Kangning Cui, and Raymond H. Chan(参考訳) 糖尿病網膜症(DR:diabetic retinopathy)は、視覚障害の主要な原因である。 硬口蓋の早期発見は、糖尿病の治療と視力喪失の予防に役立つDRの同定に重要な役割を果たしている。 しかし,不整合な形状から不明瞭な境界まで,硬い押出物の特異な特徴は,既存のセグメンテーション技術に重大な課題をもたらす。 これらの問題に対処するため,我々は,難解な分節を最適化する新しい教師付きコントラスト学習フレームワークを提案する。 具体的には,病変濃度の異なる領域を識別するパッチワイド・コントラスト方式を導入し,小病変の分節化におけるモデルの精度を向上させる。 境界を曖昧に扱うために,境界付近にある画素を動的に解析し,正確な抽出を行う識別エッジ検査モジュールを開発した。 IDRiDデータセットを用いて評価し,最先端フレームワークとの比較を行った結果,その有効性を示し,コンピュータ支援型ハードエデュケート検出の可能性を示した。 実験を再現するコードはgithub.com/wetang7/HECL/で入手できる。

Diabetic retinopathy (DR) is a leading global cause of blindness. Early detection of hard exudates plays a crucial role in identifying DR, which aids in treating diabetes and preventing vision loss. However, the unique characteristics of hard exudates, ranging from their inconsistent shapes to indistinct boundaries, pose significant challenges to existing segmentation techniques. To address these issues, we present a novel supervised contrastive learning framework to optimize hard exudate segmentation. Specifically, we introduce a patch-wise density contrasting scheme to distinguish between areas with varying lesion concentrations, and therefore improve the model's proficiency in segmenting small lesions. To handle the ambiguous boundaries, we develop a discriminative edge inspection module to dynamically analyze the pixels that lie around the boundaries and accurately delineate the exudates. Upon evaluation using the IDRiD dataset and comparison with state-of-the-art frameworks, our method exhibits its effectiveness and shows potential for computer-assisted hard exudate detection. The code to replicate experiments is available at github.com/wetang7/HECL/.
翻訳日:2024-03-05 21:13:50 公開日:2024-03-02
# 再パラメータ化ボリュームサンプリングによる微分レンダリング

Differentiable Rendering with Reparameterized Volume Sampling ( http://arxiv.org/abs/2302.10970v3 )

ライセンス: Link先を確認
Nikita Morozov, Denis Rakitin, Oleg Desheulin, Dmitry Vetrov, Kirill Struminsky(参考訳) ビュー合成において、ニューラルネットワークは、シーン画像のスパースセットに基づいて、基礎となる密度と放射場を近似する。 新規なビューの画素を生成するには、画素を通して光線を移動させ、高濃度の光点から放射される放射率の重み付け和を計算する。 このレンダリングアルゴリズムは完全に微分可能で、勾配に基づくフィールドの最適化が容易である。 しかし、実際には、光線の小さな不透明な部分だけが、光度の大部分を合計に寄与している。 逆変換サンプリングに基づく単純なエンドツーエンドの微分可能サンプリングアルゴリズムを提案する。 密度場によって引き起こされる確率分布に従ってサンプルを生成し、光線上の非透過点を選択する。 我々はこのアルゴリズムを2つの方法で活用する。 まず,モンテカルロ推定に基づく新しいレンダリング手法を提案する。 このアプローチは、光線当たり数回の放射フィールド呼び出しで、ニューラルネットワークの放射フィールドの評価と最適化を可能にする。 第二に、サンプリングアルゴリズムを用いて、元のNeRF研究で提案された階層的スキームを変更する。 提案手法を改良することにより,階層型モデルの再構築品質が向上すると同時に,補助的提案ネットワーク損失の回避によるトレーニング手順の簡素化が図られる。

In view synthesis, a neural radiance field approximates underlying density and radiance fields based on a sparse set of scene pictures. To generate a pixel of a novel view, it marches a ray through the pixel and computes a weighted sum of radiance emitted from a dense set of ray points. This rendering algorithm is fully differentiable and facilitates gradient-based optimization of the fields. However, in practice, only a tiny opaque portion of the ray contributes most of the radiance to the sum. We propose a simple end-to-end differentiable sampling algorithm based on inverse transform sampling. It generates samples according to the probability distribution induced by the density field and picks non-transparent points on the ray. We utilize the algorithm in two ways. First, we propose a novel rendering approach based on Monte Carlo estimates. This approach allows for evaluating and optimizing a neural radiance field with just a few radiance field calls per ray. Second, we use the sampling algorithm to modify the hierarchical scheme proposed in the original NeRF work. We show that our modification improves reconstruction quality of hierarchical models, at the same time simplifying the training procedure by removing the need for auxiliary proposal network losses.
翻訳日:2024-03-05 21:13:04 公開日:2024-03-02
# 弱適応性による予算・ROI制約下のオンライン学習

Online Learning under Budget and ROI Constraints via Weak Adaptivity ( http://arxiv.org/abs/2302.01203v3 )

ライセンス: Link先を確認
Matteo Castiglioni, Andrea Celli, Christian Kroer(参考訳) 我々は、予算と投資リターン(roi)の制約に固執しながら、期待する報酬を最大化することを目的として、意思決定者が一連のコストのかかる意思決定をしなければならないオンライン学習問題を研究する。 敵対的入力下でのオンライン学習問題を制約するために設計された既存の原始的アルゴリズムは、2つの基本的な仮定に依存している。 まず、意思決定者は、問題の厳密な実現可能性(すなわちスレーターパラメータ)の度合いに関連するパラメータの値を事前に知る必要がある。 第二に、オフライン最適化問題に対する厳密な解決法が各ラウンドに存在する必要がある。 どちらの要件も、オンライン広告オークションの入札のような実用的な応用には非現実的である。 本稿では,弱適応型後悔最小値を持つ標準原始的テンプレートを内挿することで,このような仮定を回避できることを示す。 これにより `dual-balancing'' フレームワークが作成され、スレーターのパラメータに関する知識がなくても、双対変数が十分に小さく保たれることが保証される。 我々は、前述した2つの仮定の欠如を確率的かつ逆の入力の下で保持する、初めて両世界の最高のノンレグレット保証を証明する。 最後に、第1および第2価格オークションのような実用的妥当性の様々なメカニズムを最適に入札するためのフレームワークのインスタンス化方法を示す。

We study online learning problems in which a decision maker has to make a sequence of costly decisions, with the goal of maximizing their expected reward while adhering to budget and return-on-investment (ROI) constraints. Existing primal-dual algorithms designed for constrained online learning problems under adversarial inputs rely on two fundamental assumptions. First, the decision maker must know beforehand the value of parameters related to the degree of strict feasibility of the problem (i.e. Slater parameters). Second, a strictly feasible solution to the offline optimization problem must exist at each round. Both requirements are unrealistic for practical applications such as bidding in online ad auctions. In this paper, we show how such assumptions can be circumvented by endowing standard primal-dual templates with weakly adaptive regret minimizers. This results in a ``dual-balancing'' framework which ensures that dual variables stay sufficiently small, even in the absence of knowledge about Slater's parameter. We prove the first best-of-both-worlds no-regret guarantees which hold in absence of the two aforementioned assumptions, under stochastic and adversarial inputs. Finally, we show how to instantiate the framework to optimally bid in various mechanisms of practical relevance, such as first- and second-price auctions.
翻訳日:2024-03-05 21:12:34 公開日:2024-03-02
# 勾配整形:リバースエンジニアリングに対するバックドア攻撃の強化

Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering ( http://arxiv.org/abs/2301.12318v2 )

ライセンス: Link先を確認
Rui Zhu, Di Tang, Siyuan Tang, Guanhong Tao, Shiqing Ma, Xiaofeng Wang, Haixu Tang(参考訳) バックドア機械学習(ML)モデルを検出する既存の手法は、インバージョン(リバースエンジニア)と重み解析(モデル診断)の2つのアプローチの1つである。 特に、勾配に基づくトリガーインバージョンは、TrojAIコンペティション、Trojan Detection Challenge、BackdoorBenchなど、最も効果的なバックドア検出手法の1つであると考えられている。 しかし、なぜこのテクニックがうまく機能するのか、さらに重要なことに、それがバックドア攻撃にバーを上げるかどうかを理解するためにはほとんど行われていない。 本稿では,そのトリガキャリング入力に伴うバックドアモデルの変化率を分析して,この問題に対処する最初の試みについて報告する。 本研究は,既存の攻撃がトリガー搬送入力の変動率が低いことに起因するバックドアを注入する傾向があることを示し,グラデーションに基づくトリガー反転により容易に捕捉できることを示す。 我々は,バックドア効果を損なうことなく,トリガーに関するバックドアモデルの変化率を低減するために,敵対的トレーニングの反対方向に従う新たな攻撃強化である \textit{gradient shaping} (grasp) を設計した。 また,この新しい手法の有効性と,勾配に基づくトリガーインバージョンの基本弱点を説明するための理論的解析を行う。 最後に,GRASPの強化は,重量分析に基づくバックドア検出手法に対するステルス攻撃の有効性を低下させるものではないことを示すとともに,検出を使わずにバックドアを緩和する方法も提案する。

Most existing methods to detect backdoored machine learning (ML) models take one of the two approaches: trigger inversion (aka. reverse engineer) and weight analysis (aka. model diagnosis). In particular, the gradient-based trigger inversion is considered to be among the most effective backdoor detection techniques, as evidenced by the TrojAI competition, Trojan Detection Challenge and backdoorBench. However, little has been done to understand why this technique works so well and, more importantly, whether it raises the bar to the backdoor attack. In this paper, we report the first attempt to answer this question by analyzing the change rate of the backdoored model around its trigger-carrying inputs. Our study shows that existing attacks tend to inject the backdoor characterized by a low change rate around trigger-carrying inputs, which are easy to capture by gradient-based trigger inversion. In the meantime, we found that the low change rate is not necessary for a backdoor attack to succeed: we design a new attack enhancement called \textit{Gradient Shaping} (GRASP), which follows the opposite direction of adversarial training to reduce the change rate of a backdoored model with regard to the trigger, without undermining its backdoor effect. Also, we provide a theoretic analysis to explain the effectiveness of this new technique and the fundamental weakness of gradient-based trigger inversion. Finally, we perform both theoretical and experimental analysis, showing that the GRASP enhancement does not reduce the effectiveness of the stealthy attacks against the backdoor detection methods based on weight analysis, as well as other backdoor mitigation methods without using detection.
翻訳日:2024-03-05 21:11:09 公開日:2024-03-02
# 非負の低ランク半定計画法による統計的K平均クラスタリング

Statistically Optimal K-means Clustering via Nonnegative Low-rank Semidefinite Programming ( http://arxiv.org/abs/2305.18436v3 )

ライセンス: Link先を確認
Yubo Zhuang, Xiaohui Chen, Yun Yang, Richard Y. Zhang(参考訳) K$-meansクラスタリングは、大規模なデータセットのパターンを識別する機械学習手法として広く使用されている。 半有限計画法(SDP)緩和法は, 統計的最適性の強い保証を享受する$K$-means最適化問題を解くために最近提案されているが, SDPソルバの実装の禁止コストは, これらの保証を実用的なデータセットに到達できないものにしている。 対照的に、非負行列分解(non negative matrix factorization, nmf)は、機械学習の実践者によって広く使われている単純なクラスタリングアルゴリズムである。 本稿では,sdpの非負低ランク制限を解いたnmfライクなアルゴリズムについて,非凸burer-monteiro因子分解法を用いて,k$-means定式化を緩和した。 結果として得られるアルゴリズムは、最先端のNMFアルゴリズムと同じくらい単純でスケーラブルであり、SDPと同じ強力な統計的最適性を保証する。 実験では,既存の最先端技術と比較して,アルゴリズムの誤クラスタ化誤差が著しく小さいことを観察した。

$K$-means clustering is a widely used machine learning method for identifying patterns in large datasets. Semidefinite programming (SDP) relaxations have recently been proposed for solving the $K$-means optimization problem that enjoy strong statistical optimality guarantees, but the prohibitive cost of implementing an SDP solver renders these guarantees inaccessible to practical datasets. By contrast, nonnegative matrix factorization (NMF) is a simple clustering algorithm that is widely used by machine learning practitioners, but without a solid statistical underpinning nor rigorous guarantees. In this paper, we describe an NMF-like algorithm that works by solving a nonnegative low-rank restriction of the SDP relaxed $K$-means formulation using a nonconvex Burer--Monteiro factorization approach. The resulting algorithm is just as simple and scalable as state-of-the-art NMF algorithms, while also enjoying the same strong statistical optimality guarantees as the SDP. In our experiments, we observe that our algorithm achieves substantially smaller mis-clustering errors compared to the existing state-of-the-art.
翻訳日:2024-03-05 21:06:06 公開日:2024-03-02
# 未知のリワードによるデモからの安全制約の学習

Learning Safety Constraints from Demonstrations with Unknown Rewards ( http://arxiv.org/abs/2305.16147v2 )

ライセンス: Link先を確認
David Lindner, Xin Chen, Sebastian Tschiatschek, Katja Hofmann, Andreas Krause(参考訳) 本稿では,制約付きマルコフ決定プロセス(CMDP)における共有制約を,異なる報酬関数を持つ一連の安全なデモンストレーションから推定する新しい手法として,強化学習のための凸制約学習(CoCoRL)を提案する。 これまでの作業は、既知の報酬や完全に既知の環境ダイナミクスによるデモンストレーションに限定されているが、cocorlは、環境ダイナミクスを知らずに、未知の報酬を持つデモから制約を学ぶことができる。 cocorlはデモに基づいた凸セーフセットを構築しており、潜在的に最適でない(しかし安全な)デモであっても安全性を保証できる。 ほぼ最適のデモンストレーションでは、CoCoRLはポリシーを後悔せずに真の安全なセットに収束する。 グリッドワールド環境におけるCoCoRLの評価と,複数制約による運転シミュレーションを行った。 CoCoRLは安全な運転行動につながる制約を学習する。 重要なのは、学習した制約を異なるタスクや環境に安全に転送できることです。 対照的に、逆強化学習(irl)に基づく代替手法は、しばしば性能が悪く、安全でないポリシーを学ぶ。

We propose Convex Constraint Learning for Reinforcement Learning (CoCoRL), a novel approach for inferring shared constraints in a Constrained Markov Decision Process (CMDP) from a set of safe demonstrations with possibly different reward functions. While previous work is limited to demonstrations with known rewards or fully known environment dynamics, CoCoRL can learn constraints from demonstrations with different unknown rewards without knowledge of the environment dynamics. CoCoRL constructs a convex safe set based on demonstrations, which provably guarantees safety even for potentially sub-optimal (but safe) demonstrations. For near-optimal demonstrations, CoCoRL converges to the true safe set with no policy regret. We evaluate CoCoRL in gridworld environments and a driving simulation with multiple constraints. CoCoRL learns constraints that lead to safe driving behavior. Importantly, we can safely transfer the learned constraints to different tasks and environments. In contrast, alternative methods based on Inverse Reinforcement Learning (IRL) often exhibit poor performance and learn unsafe policies.
翻訳日:2024-03-05 21:05:32 公開日:2024-03-02
# Neural Schr\"odinger Bridgeによる未ペア画像変換

Unpaired Image-to-Image Translation via Neural Schr\"odinger Bridge ( http://arxiv.org/abs/2305.15086v3 )

ライセンス: Link先を確認
Beomsu Kim, Gihyun Kwon, Kwanyoung Kim, Jong Chul Ye(参考訳) 拡散モデルは、確率微分方程式(SDE)をシミュレートしてノイズからデータを生成する強力な生成モデルである。 拡散モデルは目覚ましい進歩を遂げているが、ガウスの前提により、未ペア画像対像(I2I)翻訳タスクに制限がある。 任意の2つの分布を変換するSDEを学習するSchr\"{o}dinger Bridge (SB)は、この問題に対する魅力的な解決策として浮上している。 しかし、われわれの知る限りでは、これまでのSBモデルは高解像度画像間の非ペア翻訳に成功していない。 本研究では,sb問題を逆学習問題の列として表現するunpaired neural schr\"{o}dinger bridge (unsb)を提案する。 これにより、高度な識別器と正規化を組み込んで、障害のないデータ間でSBを学ぶことができる。 UNSBは拡張性があり、様々な未ペアI2I翻訳タスクの解決に成功している。 コード: \url{https://github.com/cyclomon/UNSB}

Diffusion models are a powerful class of generative models which simulate stochastic differential equations (SDEs) to generate data from noise. While diffusion models have achieved remarkable progress, they have limitations in unpaired image-to-image (I2I) translation tasks due to the Gaussian prior assumption. Schr\"{o}dinger Bridge (SB), which learns an SDE to translate between two arbitrary distributions, have risen as an attractive solution to this problem. Yet, to our best knowledge, none of SB models so far have been successful at unpaired translation between high-resolution images. In this work, we propose Unpaired Neural Schr\"{o}dinger Bridge (UNSB), which expresses the SB problem as a sequence of adversarial learning problems. This allows us to incorporate advanced discriminators and regularization to learn a SB between unpaired data. We show that UNSB is scalable and successfully solves various unpaired I2I translation tasks. Code: \url{https://github.com/cyclomon/UNSB}
翻訳日:2024-03-05 21:05:17 公開日:2024-03-02
# leftrefill:一般化テキストから画像への拡散モデルによる左参照に基づく右キャンバスの充填

LeftRefill: Filling Right Canvas based on Left Reference through Generalized Text-to-Image Diffusion Model ( http://arxiv.org/abs/2305.11577v3 )

ライセンス: Link先を確認
Chenjie Cao, Yunuo Cai, Qiaole Dong, Yikai Wang, Yanwei Fu(参考訳) 本稿では,大規模なテキスト・ツー・イメージ(t2i)拡散モデルを用いた参照誘導画像合成手法であるleftrefillを提案する。 名前が示すように、LeftRefillは、参照ビューとターゲットビューをインプット全体として水平に縫合する。 基準画像は左側を占有し、目標キャンバスは右側に位置する。 そして、左refillは左サイド参照と特定のタスク命令に基づいて右サイドターゲットキャンバスを描画する。 このようなタスクの定式化は、人間の画家の行動に類似した文脈的なインペインティングといくつかの類似性を共有している。 この新規な定式化は、他の画像エンコーダやアダプタなしで、参照とターゲットの両方の構造的およびテクスチャ的対応を効率的に学習する。 t2iモデルにクロスアテンションモジュールを介してタスクとビュー情報を注入し、さらに再配置された自己アテンションモジュールを介してマルチビュー参照能力を示す。 これにより、テスト時の微調整やモデル修正を必要とせずに、一般モデルとして一貫した生成を実行できる。 したがって、左refillは参照誘導合成を扱うための単純で統一されたフレームワークと見なすことができる。 例示として、私たちはleftrefillを利用して、事前訓練されたstablediffusionに基づいて、参照誘導型インペインティングと新しいビュー合成という2つの異なる課題に対処しています。 コードとモデルはhttps://github.com/ewrfcas/leftrefillでリリースされる。

This paper introduces LeftRefill, an innovative approach to efficiently harness large Text-to-Image (T2I) diffusion models for reference-guided image synthesis. As the name implies, LeftRefill horizontally stitches reference and target views together as a whole input. The reference image occupies the left side, while the target canvas is positioned on the right. Then, LeftRefill paints the right-side target canvas based on the left-side reference and specific task instructions. Such a task formulation shares some similarities with contextual inpainting, akin to the actions of a human painter. This novel formulation efficiently learns both structural and textured correspondence between reference and target without other image encoders or adapters. We inject task and view information through cross-attention modules in T2I models, and further exhibit multi-view reference ability via the re-arranged self-attention modules. These enable LeftRefill to perform consistent generation as a generalized model without requiring test-time fine-tuning or model modifications. Thus, LeftRefill can be seen as a simple yet unified framework to address reference-guided synthesis. As an exemplar, we leverage LeftRefill to address two different challenges: reference-guided inpainting and novel view synthesis, based on the pre-trained StableDiffusion. Codes and models are released at https://github.com/ewrfcas/LeftRefill.
翻訳日:2024-03-05 21:04:31 公開日:2024-03-02
# 深部時間グラフクラスタリング

Deep Temporal Graph Clustering ( http://arxiv.org/abs/2305.10738v2 )

ライセンス: Link先を確認
Meng Liu, Yue Liu, Ke Liang, Wenxuan Tu, Siwei Wang, Sihang Zhou, Xinwang Liu(参考訳) ディープグラフクラスタリングは、教師なしシナリオにおけるモデルの表現学習能力を向上させる能力によって、最近大きな注目を集めている。 それでも、重要な動的相互作用情報を捉えることのできる時間グラフの深いクラスタリングは、完全には研究されていない。 多くのクラスタリング指向の現実シナリオでは、時間グラフは静的グラフとしてのみ処理できる。 これは動的情報の損失を引き起こすだけでなく、膨大な計算消費を引き起こす。 そこで本研究では,時間グラフの相互作用列に基づくバッチ処理パターンに適合する深層クラスタリング技術を導入する,tgcと呼ばれる深層時相グラフクラスタリングの汎用フレームワークを提案する。 さらに,時間的グラフクラスタリングと静的グラフクラスタリングの違いについても検討した。 提案するフレームワーク TGC の優位性を検証するため,我々は広範囲な実験を行った。 実験の結果,時間と空間のバランスを求める場合,時間グラフクラスタリングにより柔軟性が向上し,既存の時間グラフ学習手法の性能を効果的に向上できることがわかった。 コードは、https://github.com/MGitHubL/Deep-Temporal-Graph-Clustering.comで公開されている。

Deep graph clustering has recently received significant attention due to its ability to enhance the representation learning capabilities of models in unsupervised scenarios. Nevertheless, deep clustering for temporal graphs, which could capture crucial dynamic interaction information, has not been fully explored. It means that in many clustering-oriented real-world scenarios, temporal graphs can only be processed as static graphs. This not only causes the loss of dynamic information but also triggers huge computational consumption. To solve the problem, we propose a general framework for deep Temporal Graph Clustering called TGC, which introduces deep clustering techniques to suit the interaction sequence-based batch-processing pattern of temporal graphs. In addition, we discuss differences between temporal graph clustering and static graph clustering from several levels. To verify the superiority of the proposed framework TGC, we conduct extensive experiments. The experimental results show that temporal graph clustering enables more flexibility in finding a balance between time and space requirements, and our framework can effectively improve the performance of existing temporal graph learning methods. The code is released: https://github.com/MGitHubL/Deep-Temporal-Graph-Clustering.
翻訳日:2024-03-05 21:04:10 公開日:2024-03-02
# 知人や友人、地図は領域ではない! マルチエージェントパラドックスにおける文脈性

Wigner and friends, a map is not the territory! Contextuality in multi-agent paradoxes ( http://arxiv.org/abs/2305.07792v3 )

ライセンス: Link先を確認
Sidiney B. Montanhano(参考訳) Wignerの友人やFrauchiger-Rennerのシナリオのようなマルチエージェントシナリオは、非古典的な形式主義がエージェント間の知識を扱う必要がある場合に矛盾する結果を示す。 このようなパラドックスは、古典論理の構造に反するものとしてマルチモーダル論理で記述される。 知識が信頼の概念と関係して扱われても、矛盾する結果はマルチエージェントのシナリオでも見ることができる。 文脈性は、局所的な一貫性がある場合でも、測定シナリオで定義された経験モデルにおけるグローバルな不整合を扱う。 本研究では、知識演算子を用いて、完全なリレーショナル言語でシナリオを扱うことにより、これらのケースにおける信頼が真理公理と等価であることを示す。 マルチモーダル論理のトポロジ的意味論を用いて, 測定シナリオをマルチエージェントシナリオに変換し, 相互知識を仮定することで, 論理的文脈性は音質違反と解釈できることを示す。 矛盾に対処するため、分散知識を仮定すると、このような違反は排除されるが、ラムダ依存のコストがかかる。 最後に、マルチエージェントシナリオの主要な例を経験的モデル表現に翻訳することで、文脈性は矛盾する結果の原因として特定される。

Multi-agent scenarios, like Wigner's friend and Frauchiger-Renner scenarios, can show contradictory results when a non-classical formalism must deal with the knowledge between agents. Such paradoxes are described with multi-modal logic as violations of the structure in classical logic. Even if knowledge is treated in a relational way with the concept of trust, contradictory results can still be found in multi-agent scenarios. Contextuality deals with global inconsistencies in empirical models defined on measurement scenarios even when there is local consistency. In the present work, we take a step further to treat the scenarios in full relational language by using knowledge operators, thus showing that trust is equivalent to the Truth Axiom in these cases. A translation of measurement scenarios into multi-agent scenarios by using the topological semantics of multi-modal logic is constructed, demonstrating that logical contextuality can be understood as the violation of soundness by supposing mutual knowledge. To address the contradictions, assuming distributed knowledge is considered, which eliminates such violations but at the cost of lambda dependence. Finally, by translating the main examples of multi-agent scenarios to their empirical model representation, contextuality is identified as the cause of their contradictory results.
翻訳日:2024-03-05 21:03:53 公開日:2024-03-02
# 浅層変量量子仮説試験

Shallow-Depth Variational Quantum Hypothesis Testing ( http://arxiv.org/abs/2304.14708v2 )

ライセンス: Link先を確認
Mahadevan Subramanian and Sai Vinjanampathy(参考訳) 量子チャネルとして符号化された複数の仮説を微分するための変分量子アルゴリズムを提案する。 状態準備と測定は、局所化測定を用いて計算できる目的関数として単発判別の成功確率を用いて同時に最適化される。 制約付き信号モード光子数量子照明下では、ボソニック回路をシミュレートして既知の最適2モードプローブの性能に適合する。 その結果,変分アルゴリズムは資源制約のある二進仮説テストに最適な状態を準備できることがわかった。 二項仮説テストのシナリオを超えて、我々の変分アルゴリズムが複数の仮説を学習し、判別できることを実証する。

We present a variational quantum algorithm for differentiating several hypotheses encoded as quantum channels. Both state preparation and measurement are simultaneously optimized using success probability of single-shot discrimination as an objective function which can be calculated using localized measurements. Under constrained signal mode photon number quantum illumination we match the performance of known optimal 2-mode probes by simulating a bosonic circuit. Our results show that variational algorithms can prepare optimal states for binary hypothesis testing with resource constraints. Going beyond the binary hypothesis testing scenario, we also demonstrate that our variational algorithm can learn and discriminate between multiple hypotheses.
翻訳日:2024-03-05 21:03:13 公開日:2024-03-02
# fusionは不十分:3dオブジェクト検出のためのfusionモデルへの単一モード攻撃

Fusion is Not Enough: Single Modal Attacks on Fusion Models for 3D Object Detection ( http://arxiv.org/abs/2304.14614v3 )

ライセンス: Link先を確認
Zhiyuan Cheng, Hongjun Choi, James Liang, Shiwei Feng, Guanhong Tao, Dongfang Liu, Michael Zuzak, Xiangyu Zhang(参考訳) マルチセンサーフュージョン(MSF)は、特にカメラとLiDARセンサーを用いた3次元物体検出において、自動運転車(AV)において広く用いられている。 融合の目的は、それぞれのモダリティの利点を活かし、弱点を最小限に抑えることである。 高度なディープニューラルネットワーク(DNN)ベースの融合技術は、例外的で業界主導のパフォーマンスを示している。 複数のモードの冗長な情報により、MSFは敵攻撃に対する一般的な防御戦略としても認識されている。 本稿では,核融合の重要度は低いが,攻撃者にとっては手頃な価格であると考えられるカメラモダリティから核融合モデルを攻撃する。 融合モデルの最も弱いリンクは、最も弱いモダリティに依存し、カメラのみの敵攻撃による高度なLiDAR融合に基づく3Dオブジェクト検出モデルをターゲットにした攻撃フレームワークを提案する。 提案手法では,2段階の最適化手法を用いて,まず敵攻撃下で脆弱な画像領域を徹底的に評価し,その後,異なる融合モデルに対して専用の攻撃戦略を適用して,デプロイ可能なパッチを生成する。 6つの高度なカメラ-LiDAR融合モデルと1つのカメラ専用モデルによる評価は、我々の攻撃がそれら全てを危険にさらしたことを示している。 提案手法は,検出性能の平均平均精度(map)を0.824から0.353に低下させるか,対象物体の検出スコアを0.728から0.156に低下させ,提案手法の有効性を示す。 コードは利用可能。

Multi-sensor fusion (MSF) is widely used in autonomous vehicles (AVs) for perception, particularly for 3D object detection with camera and LiDAR sensors. The purpose of fusion is to capitalize on the advantages of each modality while minimizing its weaknesses. Advanced deep neural network (DNN)-based fusion techniques have demonstrated the exceptional and industry-leading performance. Due to the redundant information in multiple modalities, MSF is also recognized as a general defence strategy against adversarial attacks. In this paper, we attack fusion models from the camera modality that is considered to be of lesser importance in fusion but is more affordable for attackers. We argue that the weakest link of fusion models depends on their most vulnerable modality, and propose an attack framework that targets advanced camera-LiDAR fusion-based 3D object detection models through camera-only adversarial attacks. Our approach employs a two-stage optimization-based strategy that first thoroughly evaluates vulnerable image areas under adversarial attacks, and then applies dedicated attack strategies for different fusion models to generate deployable patches. The evaluations with six advanced camera-LiDAR fusion models and one camera-only model indicate that our attacks successfully compromise all of them. Our approach can either decrease the mean average precision (mAP) of detection performance from 0.824 to 0.353, or degrade the detection score of a target object from 0.728 to 0.156, demonstrating the efficacy of our proposed attack framework. Code is available.
翻訳日:2024-03-05 21:03:04 公開日:2024-03-02
# 格子ゲージ理論における閉じ込め物質に対するアハロノフ・ボーム効果

Aharonov-Bohm effect for confined matter in lattice gauge theories ( http://arxiv.org/abs/2304.12713v2 )

ライセンス: Link先を確認
Enrico C. Domanti, Paolo Castorina, Dario Zappal\`a and Luigi Amico(参考訳) ゲージ理論は時空局所対称性を示す物理系に現れる。 基本的な相互作用から統計力学、凝縮物質、最近では量子計算まで、物理学の重要な領域の強力な記述を提供する。 そのため、この分野では極めて深い理解が得られている。 量子技術の出現により、量子シミュレーションによって元の量子場理論の重要な特徴を捉えることができる低エネルギーアナログが集中的に研究されている。 本稿では,メソスコピック空間スケールに制約された格子ゲージ理論のアナログ量子シミュレーションを実装した特定のスキームを提案する。 そこで本研究では,メゾスコピックサイズのリング状格子に存在する中間子を有効磁場で貫通するダイナミクスについて検討する。 特に、粒子のような効果を超えて、凝縮ゲージポテンシャルの特徴を反映する新しいタイプのアハロノフ・ボーム効果が見つかる。 中間子のコヒーレンス特性は、持続電流と相関関数の特定の特徴によって定量化される。 磁場がクエンチされると、アハラノフ-ボームの振動と相関が特定の物質波電流ダイナミクスを開始する。

Gauge theories arise in physical systems displaying space-time local symmetries. They provide a powerful description of important realms of physics ranging from fundamental interactions, to statistical mechanics, condensed matter and more recently quantum computation. As such, a remarkably deep understanding has been achieved in the field. With the advent of quantum technology, lower energy analogs, capable to capture important features of the original quantum field theories through quantum simulation, have been intensively studied. Here, we propose a specific scheme implementing an analogic quantum simulation of lattice gauge theories constrained to mesoscopic spatial scales. To this end, we study the dynamics of mesons residing in a ring-shaped lattice of mesoscopic size pierced by an effective magnetic field. In particular, we find a new type of Aharonov-Bohm effect that goes beyond the particle-like effect and reflecting the the features of the confining gauge potential. The coherence properties of the meson are quantified by the persistent current and by specific features of the correlation functions. When the magnetic field is quenched, Aharonov-Bohm oscillations and correlations start a specific matter-wave current dynamics.
翻訳日:2024-03-05 21:02:38 公開日:2024-03-02
# モデル所有者決定に対する虚偽の主張

False Claims against Model Ownership Resolution ( http://arxiv.org/abs/2304.06607v5 )

ライセンス: Link先を確認
Jian Liu, Rui Zhang, Sebastian Szyller, Kui Ren, N. Asokan(参考訳) ディープニューラルネットワーク(DNN)モデルは、モデル所有者の貴重な知的特性であり、競争上の優位性を構成する。 したがって,モデル盗難から保護する技術を開発することが重要である。 モデルオーナシップ解決(mor: model ownership resolution)は、モデル盗難を抑止するテクニックのクラスである。 MORスキームにより、被疑者が被疑者モデルに対して、透かしや指紋などの証拠を提示することにより、被疑者が被疑者モデルから盗まれたか、又は被疑者が所有するソースモデルから引き出されたものであることを示す。 既存のmorスキームの多くは、悪意のある容疑者に対して堅牢性を優先し、容疑者モデルが実際に盗まれたモデルであれば、告発者が勝つことを保証している。 本稿では,文学における一般的なMORスキームが,異なる,等しく重要だが不十分な,頑健さの懸念に対して脆弱であることを示す。 我々は、悪質な告発者が、盗まれていない独立した容疑者モデルに対して、いかに偽の主張を行うかを示す。 我々の中核的な考え方は、悪意のある告発者は、独立した被疑者モデルに対する証拠としてうまく機能する(伝達可能な)逆例を見つけることによって、特定されたMORプロセスから(検出なしで)逸脱することができるということです。 この目的のために、まず共通のMORスキームの手順を一般化し、この一般化の下では、偽主張に対する防御は、(伝達可能な)逆例を防ぐのと同じくらい困難であることを示す。 体系的な実証的評価を通じて、偽クレーム攻撃は、実世界のモデルであるamazonのrekognition apiを含む、我々の一般化に従うmorスキームで常に成功することを実証する。

Deep neural network (DNN) models are valuable intellectual property of model owners, constituting a competitive advantage. Therefore, it is crucial to develop techniques to protect against model theft. Model ownership resolution (MOR) is a class of techniques that can deter model theft. A MOR scheme enables an accuser to assert an ownership claim for a suspect model by presenting evidence, such as a watermark or fingerprint, to show that the suspect model was stolen or derived from a source model owned by the accuser. Most of the existing MOR schemes prioritize robustness against malicious suspects, ensuring that the accuser will win if the suspect model is indeed a stolen model. In this paper, we show that common MOR schemes in the literature are vulnerable to a different, equally important but insufficiently explored, robustness concern: a malicious accuser. We show how malicious accusers can successfully make false claims against independent suspect models that were not stolen. Our core idea is that a malicious accuser can deviate (without detection) from the specified MOR process by finding (transferable) adversarial examples that successfully serve as evidence against independent suspect models. To this end, we first generalize the procedures of common MOR schemes and show that, under this generalization, defending against false claims is as challenging as preventing (transferable) adversarial examples. Via systematic empirical evaluation, we demonstrate that our false claim attacks always succeed in the MOR schemes that follow our generalization, including against a real-world model: Amazon's Rekognition API.
翻訳日:2024-03-05 21:01:54 公開日:2024-03-02
# LPFormer:マルチタスクネットワークを用いたLiDAR Pose Estimation Transformer

LPFormer: LiDAR Pose Estimation Transformer with Multi-Task Network ( http://arxiv.org/abs/2306.12525v2 )

ライセンス: Link先を確認
Dongqiangzi Ye, Yufei Xie, Weijia Chen, Zixiang Zhou, Lingting Ge, Hassan Foroosh(参考訳) 大規模な3次元人間のキーポイントアノテーションの取得が困難であったため,従来のHPE法は2次元画像特徴と逐次2次元アノテーションに依存してきた。 さらに、これらのネットワークのトレーニングは通常、人間のバウンディングボックスの予測と、3Dポイント雲と2D画像との正確なアライメントを前提としており、現実のシナリオで直接適用することは困難である。 本稿では,LiDARのみを入力として使用するLPFormerという,エンドツーエンドの3Dポーズ推定のための第1のフレームワークを提案する。 LPFormerは、まず、人間の境界ボックスを特定し、マルチレベルの特徴表現を抽出し、次に、トランスフォーマーベースのネットワークを使用して、これらの特徴に基づいて人間のキーポイントを予測する。 提案手法は,3次元HPEを強力なLiDAR知覚ネットワークにシームレスに統合し,ネットワークから抽出した特徴の恩恵を受けることができることを示す。 Waymo Open Datasetの実験結果は、最先端のパフォーマンスを示し、以前のマルチモーダルソリューションと比較しても改善されている。

Due to the difficulty of acquiring large-scale 3D human keypoint annotation, previous methods for 3D human pose estimation (HPE) have often relied on 2D image features and sequential 2D annotations. Furthermore, the training of these networks typically assumes the prediction of a human bounding box and the accurate alignment of 3D point clouds with 2D images, making direct application in real-world scenarios challenging. In this paper, we present the 1st framework for end-to-end 3D human pose estimation, named LPFormer, which uses only LiDAR as its input along with its corresponding 3D annotations. LPFormer consists of two stages: firstly, it identifies the human bounding box and extracts multi-level feature representations, and secondly, it utilizes a transformer-based network to predict human keypoints based on these features. Our method demonstrates that 3D HPE can be seamlessly integrated into a strong LiDAR perception network and benefit from the features extracted by the network. Experimental results on the Waymo Open Dataset demonstrate the state-of-the-art performance, and improvements even compared to previous multi-modal solutions.
翻訳日:2024-03-05 20:55:28 公開日:2024-03-02
# MATNet:日頭PV生成予測のためのマルチレベル核融合変圧器モデル

MATNet: Multi-Level Fusion Transformer-Based Model for Day-Ahead PV Generation Forecasting ( http://arxiv.org/abs/2306.10356v2 )

ライセンス: Link先を確認
Matteo Tortora, Francesco Conte, Gianluca Natrella, Paolo Soda(参考訳) RESの電力システムへの統合を促進するためには、再生可能エネルギーの正確な予測が不可欠である。 PVユニットに焦点を当てた予測方法は、物理ベースの戦略とデータベースの戦略の2つの主要なカテゴリに分けることができる。 しかし、これらのAIベースのモデルは、データ内の複雑なパターンや関係をキャプチャできるが、その現象の物理的な事前知識を無視している。 そこで本稿では,多変量多段型日頭PV発電予測のための自己注意型トランスフォーマーアーキテクチャであるMATNetを提案する。 aiパラダイムと、物理ベースの手法のpv発電に関する事前の物理知識を組み合わせたハイブリッドアプローチで構成されている。 このモデルは、歴史的pvデータと、多層融合アプローチによる過去の気象データと予測予報データによって供給される。 回帰性能指標の異なるausgridベンチマークデータセットを用いて,提案モデルの有効性を評価した。 その結果,提案アーキテクチャは現在の最先端手法よりも大幅に優れていた。 これらの結果はmatnetが予測精度を向上させる可能性を示し、太陽光発電の電力網への統合を促進するための有望な解決策であることを示唆している。

Accurate forecasting of renewable generation is crucial to facilitate the integration of RES into the power system. Focusing on PV units, forecasting methods can be divided into two main categories: physics-based and data-based strategies, with AI-based models providing state-of-the-art performance. However, while these AI-based models can capture complex patterns and relationships in the data, they ignore the underlying physical prior knowledge of the phenomenon. Therefore, in this paper we propose MATNet, a novel self-attention transformer-based architecture for multivariate multi-step day-ahead PV power generation forecasting. It consists of a hybrid approach that combines the AI paradigm with the prior physical knowledge of PV power generation of physics-based methods. The model is fed with historical PV data and historical and forecast weather data through a multi-level joint fusion approach. The effectiveness of the proposed model is evaluated using the Ausgrid benchmark dataset with different regression performance metrics. The results show that our proposed architecture significantly outperforms the current state-of-the-art methods. These findings demonstrate the potential of MATNet in improving forecasting accuracy and suggest that it could be a promising solution to facilitate the integration of PV energy into the power grid.
翻訳日:2024-03-05 20:55:06 公開日:2024-03-02
# 目を通して世界を見る

Seeing the World through Your Eyes ( http://arxiv.org/abs/2306.09348v2 )

ライセンス: Link先を確認
Hadi Alzayer, Kevin Zhang, Brandon Feng, Christopher Metzler, Jia-Bin Huang(参考訳) 人間の目の反射的な性質は、私たちの周りの世界がどんなものかという、未熟な情報源です。 動く人の目を撮像することで、眼の反射を通して、カメラの直視線の外のシーンの複数のビューを収集することができる。 本稿では,眼の反射を含むポートレート画像を用いて,カメラの視線を越えて3次元シーンを再構成する。 この仕事は困難です。 1)眼のポーズを正確に推定することの困難さ 2)眼虹彩の絡み合った外観と場面の反射 本手法は,角膜ポーズ,シーンを描写する放射場,観察者の眼の虹彩テクスチャを共同で改善する。 さらに,虹彩テクスチャパターンに先立って簡易な正規化を提案し,再現性を向上させる。 様々な眼色を持つ人物を特徴とする合成および実世界の撮影実験を通じて,眼球反射を用いた3次元シーンの復元の可能性を示す。

The reflective nature of the human eye is an underappreciated source of information about what the world around us looks like. By imaging the eyes of a moving person, we can collect multiple views of a scene outside the camera's direct line of sight through the reflections in the eyes. In this paper, we reconstruct a 3D scene beyond the camera's line of sight using portrait images containing eye reflections. This task is challenging due to 1) the difficulty of accurately estimating eye poses and 2) the entangled appearance of the eye iris and the scene reflections. Our method jointly refines the cornea poses, the radiance field depicting the scene, and the observer's eye iris texture. We further propose a simple regularization prior on the iris texture pattern to improve reconstruction quality. Through various experiments on synthetic and real-world captures featuring people with varied eye colors, we demonstrate the feasibility of our approach to recover 3D scenes using eye reflections.
翻訳日:2024-03-05 20:54:29 公開日:2024-03-02
# 弱教師付き接地画像キャプチャのためのトップダウンフレームワーク

Top-Down Framework for Weakly-supervised Grounded Image Captioning ( http://arxiv.org/abs/2306.07490v3 )

ライセンス: Link先を確認
Chen Cai, Suchen Wang, Kim-hui Yap, Yi Wang(参考訳) 弱教師付き接地画像キャプション (WSGIC) は, 境界ボックスの監督を使わずに, 入力画像中の字幕と接地予測対象語を生成することを目的としている。 最近の2段階のソリューションは主にボトムアップパイプラインを適用している: 1) 入力画像をオブジェクト検出器を用いて複数の領域にエンコードする; (2) キャプションとグラウンドの領域特徴を利用する。 しかし, 対象物検出装置が生成する独立した提案を利用すれば, その後の接地キャプタは, 適切な対象語を探し出し, 対象物の関係を見落とし, 接地のための不適合な提案領域を選択するのに適している。 これらの問題に対処するために,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド化を行う一段弱教師付きグラウンドドキャプタを提案する。 具体的には,映像を視覚的トークン表現にエンコードし,デコーダ内の再帰的接地モジュール(rgm)を提案し,オブジェクトの空間的位置を認識する高精度視覚言語注意マップ(vlam)を得る。 さらに,関係モジュールを1段階のフレームワークに明示的に注入し,多ラベル分類による関係理解を促進する。 この関係セマンティクスは、キャプション内の関係語と対象語の予測を容易にする文脈情報として機能した。 より正確なキャプションを生成する際に,関係セマンティクスが接地キャプタを支援するだけでなく,接地性能も向上する。 提案手法の有効性を2つの挑戦的データセット(Flick30k EntitiesキャプションとMSCOCOキャプション)で検証した。 実験により,本手法が最先端の接地性能を実現することを示す。

Weakly-supervised grounded image captioning (WSGIC) aims to generate the caption and ground (localize) predicted object words in the input image without using bounding box supervision. Recent two-stage solutions mostly apply a bottom-up pipeline: (1) encode the input image into multiple region features using an object detector; (2) leverage region features for captioning and grounding. However, utilizing independent proposals produced by object detectors tends to make the subsequent grounded captioner overfitted in finding the correct object words, overlooking the relation between objects, and selecting incompatible proposal regions for grounding. To address these issues, we propose a one-stage weakly-supervised grounded captioner that directly takes the RGB image as input to perform captioning and grounding at the top-down image level. Specifically, we encode the image into visual token representations and propose a Recurrent Grounding Module (RGM) in the decoder to obtain precise Visual Language Attention Maps (VLAMs), which recognize the spatial locations of the objects. In addition, we explicitly inject a relation module into our one-stage framework to encourage relation understanding through multi-label classification. This relation semantics served as contextual information facilitating the prediction of relation and object words in the caption. We observe that the relation semantic not only assists the grounded captioner in generating a more accurate caption but also improves the grounding performance. We validate the effectiveness of our proposed method on two challenging datasets (Flick30k Entities captioning and MSCOCO captioning). The experimental results demonstrate that our method achieves state-of-the-art grounding performance.
翻訳日:2024-03-05 20:53:30 公開日:2024-03-02
# LLM集積アプリケーションに対するプロンプトインジェクション攻撃

Prompt Injection attack against LLM-integrated Applications ( http://arxiv.org/abs/2306.05499v2 )

ライセンス: Link先を確認
Yi Liu, Gelei Deng, Yuekang Li, Kailong Wang, Zihao Wang, Xiaofeng Wang, Tianwei Zhang, Yepang Liu, Haoyu Wang, Yan Zheng and Yang Liu(参考訳) 大きな言語モデル(LLM)は、言語理解と生成において優れた能力で知られ、周囲のアプリケーションの活気あるエコシステムを刺激する。 しかし、様々なサービスへの広範囲な同化は、重大なセキュリティリスクをもたらす。 本研究では,実際のLCM統合アプリケーションに対するインジェクション攻撃の複雑さと意味を分解する。 当初、我々は10の商用アプリケーションについて探索分析を行い、現在の攻撃戦略の制約を強調した。 これらの制限により、我々はその後、従来のWebインジェクション攻撃からインスピレーションを得る新しいブラックボックスプロンプトインジェクション攻撃テクニックであるHouYiを定式化した。 HouYiは、シームレスに組み込まれた事前構築プロンプト、インジェクションプロンプトによるコンテキストパーティション誘導、攻撃目標を達成するために設計された悪意のあるペイロードの3つの重要な要素に分割されている。 HouYiを利用することで、制限なしの任意のLSMの使用や、複雑でないアプリケーションプロンプト盗難など、これまで不明で深刻な攻撃結果が明らかになる。 我々は,実際のLLM統合アプリケーション36にHouYiをデプロイし,インジェクションの容易な31のアプリケーションを識別する。 数百万のユーザに影響を与える可能性があるNotionを含む10のベンダが、私たちの発見を検証しています。 我々の調査は、迅速な注射攻撃の可能性と緩和策の両方を照らしている。

Large Language Models (LLMs), renowned for their superior proficiency in language comprehension and generation, stimulate a vibrant ecosystem of applications around them. However, their extensive assimilation into various services introduces significant security risks. This study deconstructs the complexities and implications of prompt injection attacks on actual LLM-integrated applications. Initially, we conduct an exploratory analysis on ten commercial applications, highlighting the constraints of current attack strategies in practice. Prompted by these limitations, we subsequently formulate HouYi, a novel black-box prompt injection attack technique, which draws inspiration from traditional web injection attacks. HouYi is compartmentalized into three crucial elements: a seamlessly-incorporated pre-constructed prompt, an injection prompt inducing context partition, and a malicious payload designed to fulfill the attack objectives. Leveraging HouYi, we unveil previously unknown and severe attack outcomes, such as unrestricted arbitrary LLM usage and uncomplicated application prompt theft. We deploy HouYi on 36 actual LLM-integrated applications and discern 31 applications susceptible to prompt injection. 10 vendors have validated our discoveries, including Notion, which has the potential to impact millions of users. Our investigation illuminates both the possible risks of prompt injection attacks and the possible tactics for mitigation.
翻訳日:2024-03-05 20:53:01 公開日:2024-03-02
# クビットペア状態のステアリング測定設定の階層化の深層学習

Deep learning the hierarchy of steering measurement settings of qubit-pair states ( http://arxiv.org/abs/2306.05201v2 )

ライセンス: Link先を確認
Hong-Ming Wang, Huan-Yu Ku, Jie-Yien Lin, and Hong-Bin Chen(参考訳) 量子ステアリングは、その基本的な重要性と量子情報科学への応用により、研究の注目を集めている。 ここでは、階層構造を形成する特定の数の測定設定による量子状態のステアビリティを推定するために、ディープラーニングモデルのパワーを利用する。 一方、最適化を克服するために反復テストからなる計算プロトコルを構築し、必要なトレーニングデータを生成する。 認識すべき状態を符号化する異なる物理駆動的特徴に対するよく訓練されたモデルの反応によると、アリス-ボブ間ステアビリティの最もコンパクトな特徴はアリスの規則的に整列した操舵楕円体である。 また,この結果に対する一方向確率的局所操作と古典的コミュニケーションについても解説した。 さらに、我々のアプローチは量子ステアリングの階層構造に関するさらなる洞察を明らかにし、隠れたステアビリティを検出できる。

Quantum steering has attracted increasing research attention because of its fundamental importance, as well as its applications in quantum information science. Here we leverage the power of the deep learning model to infer the steerability of quantum states with specific numbers of measurement settings, which form a hierarchical structure. A computational protocol consisting of iterative tests is constructed to overcome the optimization, meanwhile, generating the necessary training data. According to the responses of the well-trained models to the different physics-driven features encoding the states to be recognized, we can numerically conclude that the most compact characterization of the Alice-to-Bob steerability is Alice's regularly aligned steering ellipsoid; whereas Bob's ellipsoid is irrelevant. We have also provided an explanation to this result with the one-way stochastic local operations and classical communication. Additionally, our approach is versatile in revealing further insights into the hierarchical structure of quantum steering and detecting the hidden steerability.
翻訳日:2024-03-05 20:52:39 公開日:2024-03-02
# GCD-DDPM:差分誘導DDPMに基づく生成的変化検出モデル

GCD-DDPM: A Generative Change Detection Model Based on Difference-Feature Guided DDPM ( http://arxiv.org/abs/2306.03424v4 )

ライセンス: Link先を確認
Yihan Wen, Xianping Ma, Xiaokang Zhang, Man-On Pun(参考訳) 近年,Deep Learning(DL)に基づく手法は,バイテンポラルチェンジ検出(CD)において大きな可能性を秘めている。 畳み込みニューラルネットワーク(cnns)とトランスフォーマ(transformer)に基づく既存の判別方法は、ローカルおよび長距離のコンテキスト依存を探求しながら、変更認識のための識別表現学習に依存している。 その結果、様々な地上シーンで細粒度でロバストなcdマップを得ることは依然として困難である。 この課題に対処するため,本研究では,各画素を変化または変化しないカテゴリに分類するのではなく,Dnoising Diffusion Probabilistic Model(DDPM)を利用してCDマップを直接生成するGCD-DDPMと呼ばれる生成的変化検出モデルを提案する。 さらに,多段差分特徴を利用してCDマップの生成を誘導するための差分条件エンコーダ (DCE) を設計した。 変分推論(VI)法を利用して、GCD-DDPMは、様々な場面における微妙で不規則な変化を正確に識別しつつ、反復的推論プロセスを通じてCD結果を適応的に再校正することができる。 最後に、ノイズ抑圧に基づくセマンティックエンハンサー(NSSE)は、CDエンコーダから現在のステップの変更対応特徴表現におけるノイズを軽減するように設計されている。 この改良はアテンションマップとして機能し、CD精度を高めながらその後のイテレーションをガイドすることができる。 4つの高分解能cdデータセットに関する広範な実験により、提案するgcd-ddpmの優れた性能が確認された。 この作業のコードはhttps://github.com/udrs/GCDで公開される。

Deep learning (DL)-based methods have recently shown great promise in bitemporal change detection (CD). Existing discriminative methods based on Convolutional Neural Networks (CNNs) and Transformers rely on discriminative representation learning for change recognition while struggling with exploring local and long-range contextual dependencies. As a result, it is still challenging to obtain fine-grained and robust CD maps in diverse ground scenes. To cope with this challenge, this work proposes a generative change detection model called GCD-DDPM to directly generate CD maps by exploiting the Denoising Diffusion Probabilistic Model (DDPM), instead of classifying each pixel into changed or unchanged categories. Furthermore, the Difference Conditional Encoder (DCE), is designed to guide the generation of CD maps by exploiting multi-level difference features. Leveraging the variational inference (VI) procedure, GCD-DDPM can adaptively re-calibrate the CD results through an iterative inference process, while accurately distinguishing subtle and irregular changes in diverse scenes. Finally, a Noise Suppression-based Semantic Enhancer (NSSE) is specifically designed to mitigate noise in the current step's change-aware feature representations from the CD Encoder. This refinement, serving as an attention map, can guide subsequent iterations while enhancing CD accuracy. Extensive experiments on four high-resolution CD datasets confirm the superior performance of the proposed GCD-DDPM. The code for this work will be available at https://github.com/udrs/GCD.
翻訳日:2024-03-05 20:52:21 公開日:2024-03-02
# 変圧器におけるマルチヘッド注意の記憶能力

Memorization Capacity of Multi-Head Attention in Transformers ( http://arxiv.org/abs/2306.02010v3 )

ライセンス: Link先を確認
Sadegh Mahdavi, Renjie Liao, Christos Thrampoulidis(参考訳) トランスフォーマーは言語および視覚タスクのゴートアーキテクチャとなっているが、その理論的特性、特に記憶能力は解明されていない。 本稿では,複数頭部注意機構の記憶能力について検討し,頭部数と配列長の関数として記憶できる例列の数について検討した。 視覚変換器の実験結果により,入力データの線形独立性に関する新たな仮定が導入された。 これらの仮定の下では、$H$ヘッド、次元$d$、コンテキストサイズ$n < d$で、$\Theta(Hd^2)$パラメータを特徴とする注意層が$\Omega(Hn)$例を記憶できることが示される。 本解析では, ソフトマックス演算子の飽和特性により, 異なる注意ヘッドが様々な例列をどのように扱うかを明らかにする。 結果は合成データを用いた実験により検証した。

Transformers have become the go-to architecture for language and vision tasks, yet their theoretical properties, especially memorization capacity, remain elusive. This paper investigates the memorization abilities of multi-head attention mechanisms, examining how many example sequences they can memorize, as a function of the number of heads and sequence length. Motivated by experimental findings on vision transformers, we introduce novel assumptions about the linear independence of input data, distinct from the commonly used general-position assumption. Under these assumptions, we demonstrate that an attention layer with $H$ heads, dimension $d$, and context size $n < d$, featuring $\Theta(Hd^2)$ parameters, can memorize $\Omega(Hn)$ examples. Our analysis sheds light on how different attention heads handle various example sequences, aided by the softmax operator's saturation property. We validate our findings through experiments on synthetic data.
翻訳日:2024-03-05 20:51:53 公開日:2024-03-02
# DiffusionVMR:ジョイントビデオモーメント検索とハイライト検出のための拡散モデル

DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and Highlight Detection ( http://arxiv.org/abs/2308.15109v2 )

ライセンス: Link先を確認
Henghao Zhao, Kevin Qinghong Lin, Rui Yan and Zechao Li(参考訳) ビデオモーメント検索とハイライト検出は、ビデオコンテンツの拡散の現在の時代に注目され、モーメントをローカライズし、ユーザ固有のクエリに基づいてクリップの関連性を推定することを目的としている。 ビデオコンテンツが時間内に連続していることを考えると、ビデオ内の時間的イベントの間には明確な境界がないことが多い。 この境界曖昧性により、モデルがテキストとビデオの対応を学習することが難しくなり、既存の手法による目標セグメントの予測性能が低下する。 この問題を軽減するため,我々は2つの課題を協調的に解くことを提案する。 さらに、粗粒から微粒への反復精細化により、目標境界を明瞭に局所化することができる。 具体的には、拡散モデルを組み合わせることにより、2つのタスクを統一された条件記述生成プロセスとして再定義する新しいフレームワークDiffusionVMRを提案する。 訓練中、ガウスノイズは基底真理を腐敗させるために追加され、ノイズ候補が入力として生成される。 モデルは、このノイズ付加プロセスを逆転するように訓練される。 推論フェーズでは、DiffusionVMRはガウスノイズから直接開始し、ノイズから有意義な出力への提案を徐々に洗練する。 特に、DiffusionVMRは、推論中に反復的に洗練された結果が得られる拡散モデルの利点を継承し、粗い値から細かい値への境界遷移を高める。 さらに、DiffusionVMRのトレーニングと推論を分離する。 任意の設定はDiffusionVMRでトレーニングフェーズと整合性のない推論で使用することができる。 広く使われている5つのベンチマーク(QVHighlight、Charades-STA、TACoS、YouTubeHighlights、TVSum)で実施された大規模な実験は、提案したDiffusionVMRの有効性と柔軟性を示している。

Video moment retrieval and highlight detection have received attention in the current era of video content proliferation, aiming to localize moments and estimate clip relevances based on user-specific queries. Given that the video content is continuous in time, there is often a lack of clear boundaries between temporal events in a video. This boundary ambiguity makes it challenging for the model to learn text-video clip correspondences, resulting in the subpar performance of existing methods in predicting target segments. To alleviate this problem, we propose to solve the two tasks jointly from the perspective of denoising generation. Moreover, the target boundary can be localized clearly by iterative refinement from coarse to fine. Specifically, a novel framework, DiffusionVMR, is proposed to redefine the two tasks as a unified conditional denoising generation process by combining the diffusion model. During training, Gaussian noise is added to corrupt the ground truth, with noisy candidates produced as input. The model is trained to reverse this noise addition process. In the inference phase, DiffusionVMR initiates directly from Gaussian noise and progressively refines the proposals from the noise to the meaningful output. Notably, the proposed DiffusionVMR inherits the advantages of diffusion models that allow for iteratively refined results during inference, enhancing the boundary transition from coarse to fine. Furthermore, the training and inference of DiffusionVMR are decoupled. An arbitrary setting can be used in DiffusionVMR during inference without consistency with the training phase. Extensive experiments conducted on five widely-used benchmarks (i.e., QVHighlight, Charades-STA, TACoS, YouTubeHighlights and TVSum) across two tasks (moment retrieval and/or highlight detection) demonstrate the effectiveness and flexibility of the proposed DiffusionVMR.
翻訳日:2024-03-05 20:45:01 公開日:2024-03-02
# 顔画像の神経的暗黙的モーフィング

Neural Implicit Morphing of Face Images ( http://arxiv.org/abs/2308.13888v2 )

ライセンス: Link先を確認
Guilherme Schardong, Tiago Novello, Hallison Paz, Iurii Medvedev, Vin\'icius da Silva, Luiz Velho, Nuno Gon\c{c}alves(参考訳) フェイスフォーミングは、多くの芸術的および法医学的応用を持つコンピュータグラフィックスにおける問題である。 ポーズ、照明、性別、民族のバリエーションのため、これは困難である。 このタスクは、特徴アライメントのためのワープと、歪んだ画像間のシームレスな遷移のためのブレンディングで構成される。 本稿では,coordベースのニューラルネットワークを用いて,顔画像の変形やブレンドを表現することを提案する。 学習中,古典的手法で用いたエネルギー汎関数を離散化せずに組み合わせることで,ネットワークの滑らかさと柔軟性を生かした。 さらに,この手法は時間依存であり,画像の経時的収差/ブレイディングが可能となる。 モーフィング推論の間、時間依存のワーピングの直接変換と逆変換の両方が必要である。 第1(第2)は、ターゲット(ソース)イメージをソース(ターゲット)イメージにワープする責務を持つ。 私たちのニューラルワープは、これらのマップを単一のネットワークに格納し、反転する必要をなくします。 実験の結果,本手法は画像品質と顔変形検出器のレンズ下での古典的および生成的モデルと競合することが示唆された。 美学的には、結果のイメージは、文学においてまだ普通ではない多様な顔のシームレスなブレンドを示す。

Face morphing is a problem in computer graphics with numerous artistic and forensic applications. It is challenging due to variations in pose, lighting, gender, and ethnicity. This task consists of a warping for feature alignment and a blending for a seamless transition between the warped images. We propose to leverage coord-based neural networks to represent such warpings and blendings of face images. During training, we exploit the smoothness and flexibility of such networks by combining energy functionals employed in classical approaches without discretizations. Additionally, our method is time-dependent, allowing a continuous warping/blending of the images. During morphing inference, we need both direct and inverse transformations of the time-dependent warping. The first (second) is responsible for warping the target (source) image into the source (target) image. Our neural warping stores those maps in a single network dismissing the need for inverting them. The results of our experiments indicate that our method is competitive with both classical and generative models under the lens of image quality and face-morphing detectors. Aesthetically, the resulting images present a seamless blending of diverse faces not yet usual in the literature.
翻訳日:2024-03-05 20:44:28 公開日:2024-03-02
# kinspeak:半教師付き学習手法によるkinyarwandaの音声認識改善

KinSPEAK: Improving speech recognition for Kinyarwanda via semi-supervised learning methods ( http://arxiv.org/abs/2308.11863v3 )

ライセンス: Link先を確認
Antoine Nzeyimana(参考訳) 近年,Kinyarwanda音声データが大規模に書き起こされているにもかかわらず,Kinyarwandaの頑健な音声認識はいまだに困難である。 本研究では,微調整中の簡単なカリキュラムスケジュールに従って,自己教師付き事前学習を行い,半教師付き学習を用いて大きなラベルなし音声データを活用することにより,kinyarwandaの音声認識性能が大幅に向上することを示す。 我々のアプローチはパブリックドメインデータのみを使うことに重点を置いている。 新しいスタジオ品質の音声データセットは、公開ウェブサイトから収集され、クリーンなベースラインモデルをトレーニングするために使用される。 クリーンベースラインモデルは、より多様で騒がしい公開データセットの例をランク付けするために使用され、単純なカリキュラムトレーニングスケジュールを定義する。 最後に,5世代連続の大規模未ラベルデータのラベル付けと学習に半教師付き学習を適用した。 私たちの最終的なモデルは、新しいデータセットで3.2%の単語誤り率(wer)、mozilla common voiceベンチマークで15.6%のwerを達成しています。 また,文字ベースのトークン化ではなく音節を用いることで,キニルワンダの音声認識性能が向上することを示す。

Despite recent availability of large transcribed Kinyarwanda speech data, achieving robust speech recognition for Kinyarwanda is still challenging. In this work, we show that using self-supervised pre-training, following a simple curriculum schedule during fine-tuning and using semi-supervised learning to leverage large unlabelled speech data significantly improve speech recognition performance for Kinyarwanda. Our approach focuses on using public domain data only. A new studio-quality speech dataset is collected from a public website, then used to train a clean baseline model. The clean baseline model is then used to rank examples from a more diverse and noisy public dataset, defining a simple curriculum training schedule. Finally, we apply semi-supervised learning to label and learn from large unlabelled data in five successive generations. Our final model achieves 3.2% word error rate (WER) on the new dataset and 15.6% WER on Mozilla Common Voice benchmark, which is state-of-the-art to the best of our knowledge. Our experiments also indicate that using syllabic rather than character-based tokenization results in better speech recognition performance for Kinyarwanda.
翻訳日:2024-03-05 20:44:13 公開日:2024-03-02
# mindmap: 知識グラフプロンプト - 大規模言語モデルにおける思考グラフの火花

MindMap: Knowledge Graph Prompting Sparks Graph of Thoughts in Large Language Models ( http://arxiv.org/abs/2308.09729v5 )

ライセンス: Link先を確認
Yilin Wen, Zifeng Wang, Jimeng Sun(参考訳) 大規模言語モデル(LLM)は、自然言語理解および生成タスクにおいて顕著な性能を達成した。 しかし、彼らはしばしば新しい知識を取り入れることの困難さ、幻覚の生成、推論プロセスの説明といった制限に苦しむ。 これらの課題に対処するために,知識グラフ(KG)を活用してLLMの推論と透明性を高める,新しいプロンプトパイプラインである‘method’を提案する。 本手法は, 暗黙の知識と外部の知識を組み合わせることで, kg 入力の理解と推測を可能にする。 さらに,本手法は,知識のオントロジーに基づく推論経路を明らかにするllmsのマインドマップを導出する。 特に医療領域における多様な質問・回答タスクにおいて,提案手法を評価し,ベースラインよりも大幅に改善した。 また,新しい幻覚評価ベンチマークを導入し,提案手法の異なる成分の効果を解析する。 提案手法は,llms と kgs からの知識を融合して合成推論を行う際の有効性と頑健性を示す。 結果を再現し、フレームワークをさらに拡張するために、コードベースはhttps://github.com/wyl-willing/MindMap.comで公開しています。

Large language models (LLMs) have achieved remarkable performance in natural language understanding and generation tasks. However, they often suffer from limitations such as difficulty in incorporating new knowledge, generating hallucinations, and explaining their reasoning process. To address these challenges, we propose a novel prompting pipeline, named \method, that leverages knowledge graphs (KGs) to enhance LLMs' inference and transparency. Our method enables LLMs to comprehend KG inputs and infer with a combination of implicit and external knowledge. Moreover, our method elicits the mind map of LLMs, which reveals their reasoning pathways based on the ontology of knowledge. We evaluate our method on diverse question \& answering tasks, especially in medical domains, and show significant improvements over baselines. We also introduce a new hallucination evaluation benchmark and analyze the effects of different components of our method. Our results demonstrate the effectiveness and robustness of our method in merging knowledge from LLMs and KGs for combined inference. To reproduce our results and extend the framework further, we make our codebase available at https://github.com/wyl-willing/MindMap.
翻訳日:2024-03-05 20:43:22 公開日:2024-03-02
# マルチチップ可変結合器を用いたモジュラー超電導量子アーキテクチャ

Modular Superconducting Qubit Architecture with a Multi-chip Tunable Coupler ( http://arxiv.org/abs/2308.09240v2 )

ライセンス: Link先を確認
Mark Field, Angela Q. Chen, Ben Scharmann, Eyob A. Sete, Feyza Oruc, Kim Vu, Valentin Kosenko, Joshua Y. Mutus, Stefano Poletto, Andrew Bestwick(参考訳) キュービット間の相互作用を分離したチップ上で仲介し、モジュラーアーキテクチャを構築するために、フローティング・チューナブル・カプラを使用する。 真空ギャップコンデンサまたは超伝導インジウムバンプボンドを用いたマルチチップチューナブルカップラの3つの異なる設計を実証し、カプラを共通基板上のマイクロ波線に接続し、次に次のチップ上のキュービットに接続する。 分離したチップ上の量子ビット間のゼロカップリング条件は各設計で達成でき、カプラと量子ビットの緩和率は余分な回路素子によって顕著に影響を受けないことを示す。 最後に、1つのチップに調整可能なカプラを備えたqubitsと同じレベルの忠実度を持つ2量子ビットゲート操作を実演する。 1つ以上のインジウム結合を用いると、クビットコヒーレンスが低下したり、2量子ゲートの性能に影響を与えない。

We use a floating tunable coupler to mediate interactions between qubits on separate chips to build a modular architecture. We demonstrate three different designs of multi-chip tunable couplers using vacuum gap capacitors or superconducting indium bump bonds to connect the coupler to a microwave line on a common substrate and then connect to the qubit on the next chip. We show that the zero-coupling condition between qubits on separate chips can be achieved in each design and that the relaxation rates for the coupler and qubits are not noticeably affected by the extra circuit elements. Finally, we demonstrate two-qubit gate operations with fidelity at the same level as qubits with a tunable coupler on a single chip. Using one or more indium bonds does not degrade qubit coherence or impact the performance of two-qubit gates.
翻訳日:2024-03-05 20:43:01 公開日:2024-03-02
# フラックス量子ビットと伝送線路共振器のインダクティブ結合の高周波抑制

High-frequency suppression of inductive coupling between flux qubit and transmission line resonator ( http://arxiv.org/abs/2308.07849v3 )

ライセンス: Link先を確認
Sahel Ashhab, Ziqiao Ao, Fumiki Yoshihara, Adrian Lupascu, Kouichi Semba(参考訳) 伝送線路共振器(TLR)に誘導的に結合されたフラックス量子ビットからなる回路において、自然発生する高周波遮断を理論的に検討する。 具体的には、キュービットと高周波モードの間にデカップリングが発生する。 qubitモードと共振器モードの結合強度は、モード周波数$\omega$が低周波数で$\sqrt{\omega}$となり、高周波数では$/\sqrt{\omega$となる。 この結果は、やや類似した回路設計を考慮した過去の研究と似ている。 解析において, キュービット-TLR結合を無視する近似を無視することにより, 従来の研究では得られなかった効果が得られる。 特に、TLRモード周波数をキュービット発振周波数に近いものにシフトさせる共振効果を得る。 我々は, TLRモード周波数, qubit-TLR結合強度, qubit Lambシフトの表現を導出した。 我々は、将来の実験で理論モデルのテストと検証に使用できるシステムのスペクトルの特徴を同定する。

We perform theoretical calculations to investigate the naturally occurring high-frequency cutoff in a circuit comprising a flux qubit coupled inductively to a transmission line resonator (TLR). Specifically, a decoupling occurs between the qubit and the high-frequency modes. The coupling strength between the qubit and resonator modes increases with mode frequency $\omega$ as $\sqrt{\omega}$ at low frequencies and decreases as $1/\sqrt{\omega}$ at high frequencies. This result is similar to those of past studies that considered somewhat similar circuit designs. By avoiding the approximation of ignoring the qubit-TLR coupling in certain steps in the analysis, we obtain effects not captured in previous studies. In particular, we obtain a resonance effect that shifts the TLR mode frequencies close to qubit oscillation frequencies. We derive expressions for the TLR mode frequencies, qubit-TLR coupling strengths and qubit Lamb shift. We identify features in the spectrum of the system that can be used in future experiments to test and validate the theoretical model.
翻訳日:2024-03-05 20:42:44 公開日:2024-03-02
# 量子レゴ拡張パック:テンソルネットワークからの列挙器

Quantum Lego Expansion Pack: Enumerators from Tensor Networks ( http://arxiv.org/abs/2308.05152v2 )

ライセンス: Link先を確認
ChunJun Cao, Michael J. Gullans, Brad Lackey, Zitao Wang(参考訳) 量子量列挙多項式を最も一般的な形式で計算するための最初のテンソルネットワーク法を提供する。 量子コードがエンコーディングマップの既知のテンソルネットワーク構成を持つ場合、この手法ははるかに効率的で、場合によっては既存の手法よりも指数関数的に高速である。 結果として、デコーダと、コード距離を計算するアルゴリズムを生成する。 非(pauli)安定化符号の場合、これはコード距離を計算するのに最適なアルゴリズムである。 縮退安定化符号の場合、現在の方法に比べて大幅に高速である。 また,新しい重み列挙器とその応用も紹介する。 特に,これらの列挙子を用いて論理的誤り率を正確に計算し,任意の単一キュービットやquditエラーチャネルに対して最適なデコーダを構築することができることを示す。 列挙器はまた、量子多体状態における非安定化性を計算するためのより効率的な方法を提供する。 これらのスピードアップのパワーは量子コードの量子レゴ分解に依存しているため、我々はさらに量子コードとグラフ状態をモジュラー構造に分解する体系的な方法を提供し、その手法を適用します。 原理の証明として,変形した表面符号,ホログラフィックペンタゴン符号,および(バイアスド)ポーリ雑音下での2次元ベーコン・ソール符号の正確な解析を行い,ブルート力により到達不能な大きさでのコヒーレント誤差の限定的な例を示す。

We provide the first tensor network method for computing quantum weight enumerator polynomials in the most general form. If a quantum code has a known tensor network construction of its encoding map, our method is far more efficient, and in some cases exponentially faster than the existing approach. As a corollary, it produces decoders and an algorithm that computes the code distance. For non-(Pauli)-stabilizer codes, this constitutes the current best algorithm for computing the code distance. For degenerate stabilizer codes, it can be substantially faster compared to the current methods. We also introduce novel weight enumerators and their applications. In particular, we show that these enumerators can be used to compute logical error rates exactly and thus construct (optimal) decoders for any i.i.d. single qubit or qudit error channels. The enumerators also provide a more efficient method for computing non-stabilizerness in quantum many-body states. As the power for these speedups rely on a Quantum Lego decomposition of quantum codes, we further provide systematic methods for decomposing quantum codes and graph states into a modular construction for which our technique applies. As a proof of principle, we perform exact analyses of the deformed surface codes, the holographic pentagon code, and the 2d Bacon-Shor code under (biased) Pauli noise and limited instances of coherent error at sizes that are inaccessible by brute force.
翻訳日:2024-03-05 20:42:11 公開日:2024-03-02
# Skeleton-of-Thought:高効率並列生成用LDMの試作

Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation ( http://arxiv.org/abs/2307.15337v3 )

ライセンス: Link先を確認
Xuefei Ning, Zinan Lin, Zixuan Zhou, Zifu Wang, Huazhong Yang, Yu Wang(参考訳) 本研究の目的は,大規模言語モデル(LLM)のエンドツーエンド生成遅延を低減することである。 次世代の遅延の大きな原因の1つは、ほとんどの最先端のLCMで採用されているシーケンシャルデコードアプローチである。 本研究は,人間の思考と記述のプロセスに動機付けられ,まずLSMを誘導して回答の骨格を生成し,次いで並列API呼び出しやバッチデコードを行い,各スケルトン点の内容を並列に補完するSkeleton-of-Thought (SoT)を提案する。 SoTは12 LLMでかなりのスピードアップを提供するだけでなく、いくつかの質問カテゴリの回答品質を改善することもできる。 SoTは推論効率をデータ中心で最適化するための最初の試みであり、言語で回答構造を明示的に計画することで高品質な回答を引き出す可能性を示している。

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted by almost all state-of-the-art LLMs. In this work, motivated by the thinking and writing process of humans, we propose Skeleton-of-Thought (SoT), which first guides LLMs to generate the skeleton of the answer, and then conducts parallel API calls or batched decoding to complete the contents of each skeleton point in parallel. Not only does SoT provide considerable speed-ups across 12 LLMs, but it can also potentially improve the answer quality on several question categories. SoT is an initial attempt at data-centric optimization for inference efficiency, and showcases the potential of eliciting high-quality answers by explicitly planning the answer structure in language.
翻訳日:2024-03-05 20:40:30 公開日:2024-03-02
# 退行学習が退行と拒絶に一致する場合

When No-Rejection Learning is Consistent for Regression with Rejection ( http://arxiv.org/abs/2307.02932v3 )

ライセンス: Link先を確認
Xiaocheng Li, Shang Liu, Chunlin Sun, Hanzhao Wang(参考訳) 拒絶による学習は、予測タスクにおける人間とAIの相互作用を研究するための原型モデルである。 サンプルインスタンスが到着すると、モデルはまず、リジェクタを使用して、ai予測器の受け入れと使用を判断し、予測を行うか、あるいは、そのサンプルを人間に拒否し、推論する。 そのようなモデルを学ぶと、元の損失関数の構造が変わり、しばしば望ましくない非凸性や矛盾の問題を引き起こす。 拒絶問題のある分類では、いくつかの研究が予測子と拒絶子の合同学習において一貫したサロゲート損失を生じさせるが、回帰問題に対する研究は少ない。 本稿では,レグレッションをリジェクション問題(RwR)を用いて検討し,すべてのデータを用いて予測器を学習するノンリジェクション学習戦略について検討する。 まず,そのような戦略の一貫性を,弱い実現可能性条件下で確立する。 そして, 弱実現可能性のない場合, 過大なリスクは予測誤差とキャリブレーション誤差の2つの部分の合計で上限を上回ることも可能であることを示した。 最後に,このような学習戦略の利点を実証的証拠で示す。

Learning with rejection has been a prototypical model for studying the human-AI interaction on prediction tasks. Upon the arrival of a sample instance, the model first uses a rejector to decide whether to accept and use the AI predictor to make a prediction or reject and defer the sample to humans. Learning such a model changes the structure of the original loss function and often results in undesirable non-convexity and inconsistency issues. For the classification with rejection problem, several works develop consistent surrogate losses for the joint learning of the predictor and the rejector, while there have been fewer works for the regression counterpart. This paper studies the regression with rejection (RwR) problem and investigates a no-rejection learning strategy that uses all the data to learn the predictor. We first establish the consistency for such a strategy under the weak realizability condition. Then for the case without the weak realizability, we show that the excessive risk can also be upper bounded with the sum of two parts: prediction error and calibration error. Lastly, we demonstrate the advantage of such a proposed learning strategy with empirical evidence.
翻訳日:2024-03-05 20:40:14 公開日:2024-03-02
# DQ-LoRe: 文脈内学習のための低ランク近似型デュアルクェリ

DQ-LoRe: Dual Queries with Low Rank Approximation Re-ranking for In-Context Learning ( http://arxiv.org/abs/2310.02954v5 )

ライセンス: Link先を確認
Jing Xiong, Zixuan Li, Chuanyang Zheng, Zhijiang Guo, Yichun Yin, Enze Xie, Zhicheng Yang, Qingxing Cao, Haiming Wang, Xiongwei Han, Jing Tang, Chengming Li, Xiaodan Liang(参考訳) 自然言語処理の最近の進歩は、主にLarge Language Models (LLM) によって推進され、文脈内学習に根ざした顕著な能力を示している。 複雑な推論タスクにおいてLLMを導くための有望な道は、Chain-of-Thought(CoT)パラダイムにおける中間的推論ステップの利用である。 それでも、中核的な課題は、インコンテキスト学習を促進するための例題の効果的な選択にある。 本研究では、DQ-LoRe(Dual Queries and Low-rank approximation Re- rank)を利用して、文脈内学習のための例を自動選択するフレームワークを提案する。 Dual Queries はまず LLM に問い合わせて、COT などの LLM 生成した知識を取得し、次に検索者に対して質問と知識の両方を通して最終例を得る。 さらに第2の質問に対して,loreは,入力質問の知識との密接な一致を保証し,例題選択を洗練するために,次元性低減手法を採用している。 広範な実験により, dq-lore は gpt-4 のexemplars の自動選択において, 従来の最先端手法を大幅に上回り, 92.5% から 94.2% に向上した。 総合分析の結果,dq-loreは,特に分布シフトを特徴とするシナリオにおいて,性能と適応性の両方において,検索ベースアプローチを一貫して上回っていることが明らかとなった。 DQ-LoReはコンテキスト内学習の境界を押し上げ、複雑な推論問題に対処するための新たな道を開く。 私たちのコードはhttps://github.com/AI4fun/DQ-LoRe}{https://github.com/AI4fun/DQ-LoReでリリースされています。

Recent advances in natural language processing, primarily propelled by Large Language Models (LLMs), have showcased their remarkable capabilities grounded in in-context learning. A promising avenue for guiding LLMs in intricate reasoning tasks involves the utilization of intermediate reasoning steps within the Chain-of-Thought (CoT) paradigm. Nevertheless, the central challenge lies in the effective selection of exemplars for facilitating in-context learning. In this study, we introduce a framework that leverages Dual Queries and Low-rank approximation Re-ranking (DQ-LoRe) to automatically select exemplars for in-context learning. Dual Queries first query LLM to obtain LLM-generated knowledge such as CoT, then query the retriever to obtain the final exemplars via both question and the knowledge. Moreover, for the second query, LoRe employs dimensionality reduction techniques to refine exemplar selection, ensuring close alignment with the input question's knowledge. Through extensive experiments, we demonstrate that DQ-LoRe significantly outperforms prior state-of-the-art methods in the automatic selection of exemplars for GPT-4, enhancing performance from 92.5% to 94.2%. Our comprehensive analysis further reveals that DQ-LoRe consistently outperforms retrieval-based approaches in terms of both performance and adaptability, especially in scenarios characterized by distribution shifts. DQ-LoRe pushes the boundary of in-context learning and opens up new avenues for addressing complex reasoning challenges. Our code is released at https://github.com/AI4fun/DQ-LoRe}{https://github.com/AI4fun/DQ-LoRe.
翻訳日:2024-03-05 20:35:23 公開日:2024-03-02
# 交換結合ドナー電子スピン量子ビットにおける絡み合う2ビット論理演算のトモグラフィー

Tomography of entangling two-qubit logic operations in exchange-coupled donor electron spin qubits ( http://arxiv.org/abs/2309.15463v2 )

ライセンス: Link先を確認
Holly G. Stemp, Serwan Asaad, Mark R. van Blankenstein, Arjen Vaartjes, Mark A. I. Johnson, Mateusz T. M\k{a}dzik, Amber J. A. Heskes, Hannes R. Firgau, Rocky Y. Su, Chih Hwan Yang, Arne Laucht, Corey I. Ostrove, Kenneth M. Rudinger, Kevin Young, Robin Blume-Kohout, Fay E. Hudson, Andrew S. Dzurak, Kohei M. Itoh, Alexander M. Jakob, Brett C. Johnson, David N. Jamieson and Andrea Morello(参考訳) スケーラブル量子プロセッサは、製造可能な物理プラットフォームにおける高忠実な普遍量子論理演算を必要とする。 シリコンのドナーは原子サイズ、量子コヒーレンスに優れ、標準半導体処理と互換性があるが、ドナー結合電子スピン間の絡み合いは証明されていない。 ここでは, イオン注入によりシリコン中に導入した単一リン供与体に結合した2つの弱い交換結合電子系における普遍的な1-および2-量子ゲートの実験実験とトモグラフィについて述べる。 我々は、交換相互作用がキュービットコヒーレンスに影響を与えないことを驚くほど観察する。 ゲート集合トモグラフィ (gst) を用いて量子演算の忠実度を定量化し, ユニバーサルゲート集合を用いて電子スピンの絡み合ったベル状態を作成し, 忠実度 ~ 93%, 共起率 0.91 +/- 0.08。 これらの結果は、ドナーベースの量子コンピュータのスケールアップに必要な基盤となる。

Scalable quantum processors require high-fidelity universal quantum logic operations in a manufacturable physical platform. Donors in silicon provide atomic size, excellent quantum coherence and compatibility with standard semiconductor processing, but no entanglement between donor-bound electron spins has been demonstrated to date. Here we present the experimental demonstration and tomography of universal 1- and 2-qubit gates in a system of two weakly exchange-coupled electrons, bound to single phosphorus donors introduced in silicon by ion implantation. We surprisingly observe that the exchange interaction has no effect on the qubit coherence. We quantify the fidelity of the quantum operations using gate set tomography (GST), and we use the universal gate set to create entangled Bell states of the electrons spins, with fidelity ~ 93%, and concurrence 0.91 +/- 0.08. These results form the necessary basis for scaling up donor-based quantum computers.
翻訳日:2024-03-05 20:34:11 公開日:2024-03-02
# gamma:オンライン把持姿勢融合に基づく把持性を考慮したモバイル操作ポリシー学習

GAMMA: Graspability-Aware Mobile MAnipulation Policy Learning based on Online Grasping Pose Fusion ( http://arxiv.org/abs/2309.15459v2 )

ライセンス: Link先を確認
Jiazhao Zhang, Nandiraju Gireesh, Jilong Wang, Xiaomeng Fang, Chaoyi Xu, Weiguang Chen, Liu Dai, and He Wang(参考訳) 移動操作はロボットアシスタントの基本的なタスクであり、ロボットコミュニティ内で大きな注目を集めている。 モバイル操作に固有の重要な課題は、つかむために接近しながらターゲットを効果的に観察することである。 本研究では,時間的に一貫した把持観察を可能にするオンライン把持姿勢融合フレームワークを用いて,把持性を考慮した移動操作手法を提案する。 具体的には、予測された把持姿勢をオンラインに整理し、冗長で外れた把持姿勢を排除し、強化学習のための把持姿勢観察状態として符号化する。 また、把持姿勢を用いるオンザフライでは、把持姿勢の量と品質の両方を包含して、把持性を直接評価することができる。

Mobile manipulation constitutes a fundamental task for robotic assistants and garners significant attention within the robotics community. A critical challenge inherent in mobile manipulation is the effective observation of the target while approaching it for grasping. In this work, we propose a graspability-aware mobile manipulation approach powered by an online grasping pose fusion framework that enables a temporally consistent grasping observation. Specifically, the predicted grasping poses are online organized to eliminate the redundant, outlier grasping poses, which can be encoded as a grasping pose observation state for reinforcement learning. Moreover, on-the-fly fusing the grasping poses enables a direct assessment of graspability, encompassing both the quantity and quality of grasping poses.
翻訳日:2024-03-05 20:33:53 公開日:2024-03-02
# 大規模言語モデルの知識衛生化

Knowledge Sanitization of Large Language Models ( http://arxiv.org/abs/2309.11852v2 )

ライセンス: Link先を確認
Yoichi Ishibashi, Hidetoshi Shimodaira(参考訳) 我々は,大規模言語モデル(llm)に関連するプライバシの懸念を軽減するための知識衛生手法を検討する。 Webデータの大規模なコーパスでトレーニングされたLLMは、機密情報や機密情報を記憶し、潜在的に明らかにし、重要なセキュリティ上の懸念を引き起こす可能性がある。 提案手法は,低ランク適応 (lora) 法を用いて,これらのモデルを効率的に微調整し,特定の情報について質問した場合に「知らない」などの無害な応答を発生させる。 クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLM全体の性能も維持できることがわかった。 これらの2つのアドバンテージは、抽出攻撃に対する防御を強化し、幻覚などの有害なコンテンツの排出を減らす。

We explore a knowledge sanitization approach to mitigate the privacy concerns associated with large language models (LLMs). LLMs trained on a large corpus of Web data can memorize and potentially reveal sensitive or confidential information, raising critical security concerns. Our technique efficiently fine-tunes these models using the Low-Rank Adaptation (LoRA) method, prompting them to generate harmless responses such as ``I don't know'' when queried about specific information. Experimental results in a closed-book question-answering task show that our straightforward method not only minimizes particular knowledge leakage but also preserves the overall performance of LLMs. These two advantages strengthen the defense against extraction attacks and reduces the emission of harmful content such as hallucinations.
翻訳日:2024-03-05 20:33:41 公開日:2024-03-02
# シールドによる安全なPOMDPオンラインプランニング

Safe POMDP Online Planning via Shielding ( http://arxiv.org/abs/2309.10216v2 )

ライセンス: Link先を確認
Shili Sheng, David Parker and Lu Feng(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定のために多くのロボットアプリケーションで広く利用されている。 部分的に観測可能なモンテカルロ計画(POMCP)のようなPOMDPオンライン計画アルゴリズムは、期待されるリターンを最大化することを目的として、非常に大きなPOMDPを解決することができる。 しかし、結果として生じる政策は、現実世界の安全クリティカルなタスク(例えば自動運転)に欠かせない安全保証を提供できない。 本研究では,安全要件をほぼ確実な到達回避仕様として考える(すなわち,目標状態のセットに到達する確率は1であり,安全でない状態のセットに到達する確率は0である)。 ほぼ確実なリーチ回避仕様に反する安全でないアクションを制限するシールドを計算します。 そして、これらのシールドをPOMCPアルゴリズムに統合し、安全なPOMDPオンラインプランニングを行う。 我々は,拡張性を改善するために設計されたファクタ付き変種を含む,シールドの計算と統合方法が異なる4つの異なる遮蔽方法を提案する。 一連のベンチマーク領域の実験結果から,提案手法は大規模なPOMDP上での安全(シールドなしのベースラインPOMCPとは異なり)の確保に成功し,オンラインプランニングのランタイムへの影響は無視できることがわかった。

Partially observable Markov decision processes (POMDPs) have been widely used in many robotic applications for sequential decision-making under uncertainty. POMDP online planning algorithms such as Partially Observable Monte-Carlo Planning (POMCP) can solve very large POMDPs with the goal of maximizing the expected return. But the resulting policies cannot provide safety guarantees which are imperative for real-world safety-critical tasks (e.g., autonomous driving). In this work, we consider safety requirements represented as almost-sure reach-avoid specifications (i.e., the probability to reach a set of goal states is one and the probability to reach a set of unsafe states is zero). We compute shields that restrict unsafe actions which would violate the almost-sure reach-avoid specifications. We then integrate these shields into the POMCP algorithm for safe POMDP online planning. We propose four distinct shielding methods, differing in how the shields are computed and integrated, including factored variants designed to improve scalability. Experimental results on a set of benchmark domains demonstrate that the proposed shielding methods successfully guarantee safety (unlike the baseline POMCP without shielding) on large POMDPs, with negligible impact on the runtime for online planning.
翻訳日:2024-03-05 20:33:07 公開日:2024-03-02
# Noisy Demkov-Kunikeモデル

Noisy Demkov-Kunike model ( http://arxiv.org/abs/2309.06448v3 )

ライセンス: Link先を確認
Lin Chen and Zhaoxin Liang(参考訳) Demkov-Kunike (DK) モデルは、時間依存の Rabi coupling $J~\text{sech}(t/T)$ と on-site detuning $\Delta_0+\Delta_1\tanh(t/T)$ が特徴であり、正確に解ける2状態量子系の最も一般的な形式の一つであり、従って量子ビットの量子状態のコヒーレントな操作のパラダイムを提供する。 ノイズのないケースに広く応用されているにもかかわらず、ノイズの多いDKモデルの探索は依然として限られている。 ここで、コヒーレントなDKモデルを拡張して、$J\rightarrow J_{\text{noisy}}(t)$というノイズの多い結合項を考慮する。 電信ノイズとガウスノイズで表される色付きマルコフ雑音源について考察する。 ノイズDKモデルの生存確率 $Q^{\text{noisy}}_{\text{DK}}$ の正確な解を示す。 緩やかな電信ノイズに対して、生存確率$Q^{\text{noisy}}_{\text{DK}}$がノイズによって強化されるのではなく抑制されるパラメータ状態を特定する。 対照的に、ガウス雑音が遅い場合、ノイズは常にエネルギーギャップを越えた雑音量子の吸収のために生存確率$q^{\text{noisy}}_{\text{dk}}$を増大させる。 この研究は、うるさいランダウ・ツェナーモデルに関する既存の研究を補完するだけでなく、2レベル量子システムの制御に関する貴重な洞察を提供する。

The Demkov-Kunike (DK) model, characterized by a time-dependent Rabi coupling $J~\text{sech}(t/T)$ and on-site detuning $\Delta_0+\Delta_1\tanh(t/T)$, has one of the most general forms of an exactly solvable two-state quantum system, and, therefore, it provides a paradigm for coherent manipulations of a qubit's quantum state. Despite its extensive applications in the noise-free cases, the exploration of the noisy DK model remains limited. Here, we extend the coherent DK model to take into account of a noisy coupling term $J\rightarrow J_{\text{noisy}}(t)$. We consider colored Markovian noise sources represented by the telegraph noise and Gaussian noise. We present exact solutions for the survival probability $Q^{\text{noisy}}_{\text{DK}}$ of the noisy DK model, namely the probability of the system to remain in its initial state. For the slow telegraph noise, we identify parameter regimes where the survival probability $Q^{\text{noisy}}_{\text{DK}}$ is suppressed rather than enhanced by noise. In contrast, for slow Gaussian noise, the noise always enhances the survival probability $Q^{\text{noisy}}_{\text{DK}}$, due to the absorption of noise quanta across the energy gap. This study not only complements the existing research on the noisy Landau-Zener model, but also provides valuable insights for the control of two-level quantum systems.
翻訳日:2024-03-05 20:32:14 公開日:2024-03-02
# MultIOD:リハーサルなしマルチヘッドインクリメンタルオブジェクト検出器

MultIOD: Rehearsal-free Multihead Incremental Object Detector ( http://arxiv.org/abs/2309.05334v2 )

ライセンス: Link先を確認
Eden Belouadah, Arnaud Dapogny, Kevin Bailly(参考訳) クラスインクリメンタルラーニング(英語: class-incremental learning、cil)とは、人工エージェントがストリームに現れる新しいクラスを統合する能力を指す。 エージェントがメモリや計算リソースへのアクセスを制限している進化環境では特に興味深い。 インクリメンタル学習の主な課題は、破滅的な忘れ方であり、ニューラルネットワークが新しい学習時に過去の知識を保持することができないことである。 残念ながら、オブジェクト検出のための既存のクラスインクリメンタルメソッドは、Faster-RCNNのような2段階のアルゴリズムに適用され、過去の知識を保持するためにリハーサルメモリに依存している。 それらは現実的ではなく、アンカーフリーでリハーサルフリーなオブジェクト検出に専念すべきである。 本研究では,CenterNetに基づくクラスインクリメンタルオブジェクト検出器であるMultIODを提案する。 1) クラス表現を効率的に分離するマルチヘッド特徴ピラミッドとマルチヘッド検出アーキテクチャを提案し, (2) まず学習したクラスと段階的に学習したクラス間の転送学習を行い, (3) 冗長なボックスを削除するための後処理手法としてクラスワイズ非マックス抑圧を用いる。 その結果、本手法は2つのpascal vocデータセットで最先端のメソッドを上回り、メモリフットプリントを半分以上削減した。

Class-Incremental learning (CIL) refers to the ability of artificial agents to integrate new classes as they appear in a stream. It is particularly interesting in evolving environments where agents have limited access to memory and computational resources. The main challenge of incremental learning is catastrophic forgetting, the inability of neural networks to retain past knowledge when learning a new one. Unfortunately, most existing class-incremental methods for object detection are applied to two-stage algorithms such as Faster-RCNN, and rely on rehearsal memory to retain past knowledge. We argue that those are not realistic, and more effort should be dedicated to anchor-free and rehearsal-free object detection. In this context, we propose MultIOD, a class-incremental object detector based on CenterNet. Our main contributions are: (1) we propose a multihead feature pyramid and multihead detection architecture to efficiently separate class representations, (2) we employ transfer learning between classes learned initially and those learned incrementally to tackle catastrophic forgetting, and (3) we use a class-wise non-max-suppression as a post-processing technique to remove redundant boxes. Results show that our method outperforms a range of state-of-the-art methods on two Pascal VOC datasets, while reducing memory footprint by more than half.
翻訳日:2024-03-05 20:31:41 公開日:2024-03-02
# FaNS: Facetベースのナラティブ類似度メトリクス

FaNS: a Facet-based Narrative Similarity Metric ( http://arxiv.org/abs/2309.04823v2 )

ライセンス: Link先を確認
Mousumi Akter, Shubhra Kanti Karmaker Santu(参考訳) 類似の物語検索は、物語が出来事の説明と理解に不可欠であるため、重要な課題であり、複数の関連する物語は、しばしば関心事の全体像を作るのに役立つ。 本稿では,従来の5W1Hファセット (Who, What, When, Where, Why, How, How) に基づいて,現在最先端のLarge Language Models (LLMs) を活用して抽出した物語類似度尺度であるFacet-based Narrative similarity (FaNS)を提案する。 既存の類似度メトリクスとは異なり、ファンは6つの異なるファセットに沿ってより細かいマッチングを提供し、それらを組み合わせる。 FaNSを評価するために、サードパーティのニュースポータルであるAllSidesから物語を収集し、包括的なデータセットを作成しました。 実験の結果、ファンメトリクスは、物語間の語彙/意味の一致を直接測定する従来のテキスト類似度指標よりも高い相関(37\%以上)を示し、一対の物語間の詳細を比較する効果を示している。

Similar Narrative Retrieval is a crucial task since narratives are essential for explaining and understanding events, and multiple related narratives often help to create a holistic view of the event of interest. To accurately identify semantically similar narratives, this paper proposes a novel narrative similarity metric called Facet-based Narrative Similarity (FaNS), based on the classic 5W1H facets (Who, What, When, Where, Why, and How), which are extracted by leveraging the state-of-the-art Large Language Models (LLMs). Unlike existing similarity metrics that only focus on overall lexical/semantic match, FaNS provides a more granular matching along six different facets independently and then combines them. To evaluate FaNS, we created a comprehensive dataset by collecting narratives from AllSides, a third-party news portal. Experimental results demonstrate that the FaNS metric exhibits a higher correlation (37\% higher) than traditional text similarity metrics that directly measure the lexical/semantic match between narratives, demonstrating its effectiveness in comparing the finer details between a pair of narratives.
翻訳日:2024-03-05 20:31:12 公開日:2024-03-02
# 会話型AIのためのデータ拡張

Data Augmentation for Conversational AI ( http://arxiv.org/abs/2309.04739v2 )

ライセンス: Link先を確認
Heydar Soudani, Evangelos Kanoulas and Faegheh Hasibi(参考訳) 会話システムの進歩は情報アクセスに革命をもたらし、単一のクエリの制限を超えた。 しかし、対話システムの開発には大量のトレーニングデータが必要であるため、低リソースのドメインや言語では困難である。 クラウドソーシングのような従来のデータ収集手法は、労働集約的で時間を要するため、この文脈では効果がない。 データ拡張 (da) は会話システムにおけるデータ不足問題を解決するための感情的なアプローチである。 このチュートリアルは、会話システムのコンテキストにおけるDAアプローチの包括的で最新の概要を提供する。 会話強化、オープンドメインとタスク指向の会話生成、およびこれらのモデルを評価するための異なるパラダイムの最近の進歩を強調している。 我々はまた、研究者や実践者がこの分野のさらなる発展を支援するために、現在の課題と今後の方向性についても論じる。

Advancements in conversational systems have revolutionized information access, surpassing the limitations of single queries. However, developing dialogue systems requires a large amount of training data, which is a challenge in low-resource domains and languages. Traditional data collection methods like crowd-sourcing are labor-intensive and time-consuming, making them ineffective in this context. Data augmentation (DA) is an affective approach to alleviate the data scarcity problem in conversational systems. This tutorial provides a comprehensive and up-to-date overview of DA approaches in the context of conversational systems. It highlights recent advances in conversation augmentation, open domain and task-oriented conversation generation, and different paradigms of evaluating these models. We also discuss current challenges and future directions in order to help researchers and practitioners to further advance the field in this area.
翻訳日:2024-03-05 20:30:50 公開日:2024-03-02
# PBP:自律走行のための経路に基づく軌道予測

PBP: Path-based Trajectory Prediction for Autonomous Driving ( http://arxiv.org/abs/2309.03750v2 )

ライセンス: Link先を確認
Sepideh Afshar, Nachiket Deo, Akshay Bhagat, Titas Chakraborty, Yunming Shao, Balarama Raju Buddharaju, Adwait Deshpande, Henggang Cui(参考訳) 軌道予測は、自動運転車が周囲のエージェントの動きを予測できるようにすることで、自動運転スタックにおいて重要な役割を果たす。 目標ベースの予測モデルは、将来の軌道のマルチモーダル性に対処するために近年注目を集めている。 ゴールベースの予測モデルは、エージェントの2次元目標位置を最初に予測し、各目標に条件付けられた軌道を予測することで、マルチモーダル予測を単純化する。 しかし、単一の2Dゴール位置は、軌道全体を予測するための弱い帰納バイアスとして機能し、しばしば地図コンプライアンスの貧弱、すなわち軌道の一部がオフロードまたは交通規則を破る原因となる。 本稿では,Path-based prediction(PBP)アプローチを提案することにより,目標に基づく予測を改善する。 pbpは、経路特徴を用いてhdマップ内の参照経路上の離散確率分布を予測し、経路関係フレネットフレームの軌跡を予測する。 我々は,HiVTシーンエンコーダ上にPBPトラジェクトリデコーダを適用し,Argoverseデータセットで結果を報告する。 実験の結果,PBPは標準軌跡予測指標の競争性能を向上する一方で,地図コンプライアンスの点で最先端のベースラインを著しく上回っていることがわかった。

Trajectory prediction plays a crucial role in the autonomous driving stack by enabling autonomous vehicles to anticipate the motion of surrounding agents. Goal-based prediction models have gained traction in recent years for addressing the multimodal nature of future trajectories. Goal-based prediction models simplify multimodal prediction by first predicting 2D goal locations of agents and then predicting trajectories conditioned on each goal. However, a single 2D goal location serves as a weak inductive bias for predicting the whole trajectory, often leading to poor map compliance, i.e., part of the trajectory going off-road or breaking traffic rules. In this paper, we improve upon goal-based prediction by proposing the Path-based prediction (PBP) approach. PBP predicts a discrete probability distribution over reference paths in the HD map using the path features and predicts trajectories in the path-relative Frenet frame. We applied the PBP trajectory decoder on top of the HiVT scene encoder and report results on the Argoverse dataset. Our experiments show that PBP achieves competitive performance on the standard trajectory prediction metrics, while significantly outperforming state-of-the-art baselines in terms of map compliance.
翻訳日:2024-03-05 20:30:29 公開日:2024-03-02
# CLIP-AD:ゼロショット異常検出のための言語ガイド付き段数パスモデル

CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2311.00453v2 )

ライセンス: Link先を確認
Xuhai Chen, Jiangning Zhang, Guanzhong Tian, Haoyang He, Wuhao Zhang, Yabiao Wang, Chengjie Wang, Yong Liu(参考訳) 本稿では、テスト対象の参照画像なしでADを行うゼロショット異常検出(AD)について考察する。 大規模視覚言語モデルCLIPのゼロショット機能を活用するために,CLIP-ADというフレームワークを提案する。 まず,分布的視点からテキストプロンプト設計を再解釈し,改良されたテキスト特徴を得るために代表ベクトル選択(rvs)パラダイムを提案する。 第二に、異常写像の直接計算における逆の予測と無関係なハイライトについて述べる。 これらの問題に対処するために、様々なレベルの特徴を活用し、アーキテクチャと機能手術を適用したStaged Dual-Path Model (SDP)を導入する。 最後に,2つの現象を深く掘り下げて,画像とテキストの特徴が結合埋め込み空間内で一致していないことを指摘する。 そこで我々は,線形層を追加し,拡張モデル SDP+ を構築することによって微調整戦略を導入し,さらなる性能向上を図る。 例えばMVTec-ADでは、SDPはセグメンテーションの指標F1-max/PROにおいてSOTA WinCLIPを+4.2/+10.7で上回り、SDP+は+8.3/+20.5で改善している。

This paper considers zero-shot Anomaly Detection (AD), performing AD without reference images of the test objects. We propose a framework called CLIP-AD to leverage the zero-shot capabilities of the large vision-language model CLIP. Firstly, we reinterpret the text prompts design from a distributional perspective and propose a Representative Vector Selection (RVS) paradigm to obtain improved text features. Secondly, we note opposite predictions and irrelevant highlights in the direct computation of the anomaly maps. To address these issues, we introduce a Staged Dual-Path model (SDP) that leverages features from various levels and applies architecture and feature surgery. Lastly, delving deeply into the two phenomena, we point out that the image and text features are not aligned in the joint embedding space. Thus, we introduce a fine-tuning strategy by adding linear layers and construct an extended model SDP+, further enhancing the performance. Abundant experiments demonstrate the effectiveness of our approach, e.g., on MVTec-AD, SDP outperforms the SOTA WinCLIP by +4.2/+10.7 in segmentation metrics F1-max/PRO, while SDP+ achieves +8.3/+20.5 improvements.
翻訳日:2024-03-05 20:26:34 公開日:2024-03-02
# 復調性およびサンプル不変連続オブジェクトエンコーダ

Decodable and Sample Invariant Continuous Object Encoder ( http://arxiv.org/abs/2311.00187v3 )

ライセンス: Link先を確認
Dehao Yuan, Furong Huang, Cornelia Ferm\"uller, Yiannis Aloimonos(参考訳) 我々は超次元関数符号化(HDFE)を提案する。 連続対象(例えば関数)のサンプルが与えられたとき、HDFEは与えられた対象の明示的なベクトル表現を生成し、サンプル分布と密度に不変である。 サンプル分布と密度不変性により、HDFEはサンプリングに関係なく連続オブジェクトを一貫してエンコードすることができ、ニューラルネットワークは分類や回帰といった機械学習タスクの入力として連続オブジェクトを受け取ることができる。 さらに、HDFEはいかなるトレーニングも必要とせず、オブジェクトを組織化された埋め込みスペースにマッピングすることが証明されており、下流タスクのトレーニングを容易にする。 さらに、エンコーディングはデコーダ可能であり、ニューラルネットワークはエンコーディングをレグレッションすることで連続オブジェクトをリグレッシブすることができる。 したがってHDFEは連続オブジェクトを処理するインターフェースとして機能する。 我々はHDFEを関数間マッピングに適用し、バニラHDFEは最先端のアルゴリズムとして競合性能を達成する。 hdfeをpoint cloud surface normal estimationに適用し,pointnetからhdfeへの単純な置き換えにより,2つのベンチマークで即時に12%,15%のエラー低減を実現する。 さらに、HDFEをPointNetベースのSOTAネットワークに統合することにより、同じベンチマークでSOTAベースラインを2.5%と1.7%改善する。

We propose Hyper-Dimensional Function Encoding (HDFE). Given samples of a continuous object (e.g. a function), HDFE produces an explicit vector representation of the given object, invariant to the sample distribution and density. Sample distribution and density invariance enables HDFE to consistently encode continuous objects regardless of their sampling, and therefore allows neural networks to receive continuous objects as inputs for machine learning tasks, such as classification and regression. Besides, HDFE does not require any training and is proved to map the object into an organized embedding space, which facilitates the training of the downstream tasks. In addition, the encoding is decodable, which enables neural networks to regress continuous objects by regressing their encodings. Therefore, HDFE serves as an interface for processing continuous objects. We apply HDFE to function-to-function mapping, where vanilla HDFE achieves competitive performance as the state-of-the-art algorithm. We apply HDFE to point cloud surface normal estimation, where a simple replacement from PointNet to HDFE leads to immediate 12% and 15% error reductions in two benchmarks. In addition, by integrating HDFE into the PointNet-based SOTA network, we improve the SOTA baseline by 2.5% and 1.7% in the same benchmarks.
翻訳日:2024-03-05 20:26:09 公開日:2024-03-02
# リスク対応エージェントの理論--ブリッジング・アクター批判と経済学

On the Theory of Risk-Aware Agents: Bridging Actor-Critic and Economics ( http://arxiv.org/abs/2310.19527v2 )

ライセンス: Link先を確認
Michal Nauman and Marek Cygan(参考訳) sacやtd3といったリスクアウェア強化学習(rl)アルゴリズムは、さまざまな継続的アクションタスクにおいて、リスク中立のアルゴリズムよりも優れていることが実証的に示されている。 しかしながら、これらのアルゴリズムが採用する悲観的目的の理論的基礎は確立されておらず、実装している特定のポリシーのクラスに関する疑問が提起されている。 本研究では, 経済の基本概念である期待効用仮説を適用し, リスク中立性とリスク対応型rl目標の両方が指数関数関数を用いた期待効用最大化によって解釈可能であることを示す。 このアプローチは、リスク認識政策が価値の確実性を効果的に最大化し、従来の決定理論の原則と一致させることを明らかにする。 さらに,デュアル・アクター・クリティカル (DAC) を提案する。 DACは、時間差学習のための悲観的なアクターと、探索のための楽観的なアクターという、2つの異なるアクターネットワークを特徴とするリスク対応のモデルフリーアルゴリズムである。 各種移動・操作タスクにおけるDACの評価は,サンプル効率と最終性能の向上を示す。 注目すべきは、DACは計算資源を著しく少なくするが、複雑な犬とヒューマノイドドメインにおける主要なモデルベースの手法のパフォーマンスと一致することである。

Risk-aware Reinforcement Learning (RL) algorithms like SAC and TD3 were shown empirically to outperform their risk-neutral counterparts in a variety of continuous-action tasks. However, the theoretical basis for the pessimistic objectives these algorithms employ remains unestablished, raising questions about the specific class of policies they are implementing. In this work, we apply the expected utility hypothesis, a fundamental concept in economics, to illustrate that both risk-neutral and risk-aware RL goals can be interpreted through expected utility maximization using an exponential utility function. This approach reveals that risk-aware policies effectively maximize value certainty equivalent, aligning them with conventional decision theory principles. Furthermore, we propose Dual Actor-Critic (DAC). DAC is a risk-aware, model-free algorithm that features two distinct actor networks: a pessimistic actor for temporal-difference learning and an optimistic actor for exploration. Our evaluations of DAC across various locomotion and manipulation tasks demonstrate improvements in sample efficiency and final performance. Remarkably, DAC, while requiring significantly less computational resources, matches the performance of leading model-based methods in the complex dog and humanoid domains.
翻訳日:2024-03-05 20:25:47 公開日:2024-03-02
# マルコフ量子力学のデイビス既約性の基準

Criteria for Davies Irreducibility of Markovian Quantum Dynamics ( http://arxiv.org/abs/2310.17641v3 )

ライセンス: Link先を確認
Yikang Zhang, Thomas Barthel(参考訳) マルコフ開量子系の力学はリンドブラッドマスター方程式によって記述され、量子力学半群を生成する。 そのようなシステムにとって重要な概念は (Davies) 既約性、すなわち非自明な不変部分空間が存在するかどうかという問題である。 既約系の定常状態はユニークで忠実である。 1970年代にフリゲリオは、リンドブラッド作用素が自明な可換な自己共役集合にまたがる場合、系は既約であることを示した。 我々はより一般的で強力な代数的基準について議論し、システムが既約であることと、リンドブラッド作用素 $L_a$ と作用素 $K=iH+\sum_a L^\dagger_aL_a$ によって生成される乗法代数が作用素空間全体であることを示す。 2段階のシステムの例では、ハミルトン項の変更や散逸子の追加や削除により、還元不能で逆もまた可能となる。 多体系の例では、1つまたは2つのサイトにおいて、大きなスピン鎖のクラスをディスシプターによって既約にすることができる。 さらに、近年の物理学文献、特に境界駆動系の文脈において、量子チャネルと動的半群に対する(Davies)再現性とエバンス再現性の間の決定的な違いについて論じる。 我々は、関連する古典マルコフ過程の観点から量子還元可能性の基準を与え、最後に、主結果と純状態の安定化との関係を議論し、局所的なリンドブラッド作用素を持つ系では純粋なフェルミ海状態は安定化できないと主張する。

The dynamics of Markovian open quantum systems are described by Lindblad master equations, generating a quantum dynamical semigroup. An important concept for such systems is (Davies) irreducibility, i.e., the question whether there exist non-trivial invariant subspaces. Steady states of irreducible systems are unique and faithful, i.e., they have full rank. In the 1970s, Frigerio showed that a system is irreducible if the Lindblad operators span a self-adjoint set with trivial commutant. We discuss a more general and powerful algebraic criterion, showing that a system is irreducible if and only if the multiplicative algebra generated by the Lindblad operators $L_a$ and the operator $K=iH+\sum_a L^\dagger_aL_a$, involving the Hamiltonian $H$, is the entire operator space. Examples for two-level systems, show that a change of Hamiltonian terms as well as the addition or removal of dissipators can render a reducible system irreducible and vice versa. Examples for many-body systems show that a large class of spin chains can be rendered irreducible by dissipators on just one or two sites. Additionally, we discuss the decisive differences between (Davies) reducibility and Evans reducibility for quantum channels and dynamical semigroups which has lead to some confusion in the recent physics literature, especially, in the context of boundary-driven systems. We give a criterion for quantum reducibility in terms of associated classical Markov processes and, lastly, discuss the relation of the main result to the stabilization of pure states and argue that systems with local Lindblad operators cannot stabilize pure Fermi-sea states.
翻訳日:2024-03-05 20:24:55 公開日:2024-03-02
# テンパリングとエントロピーミラーの輝きの関連

A connection between Tempering and Entropic Mirror Descent ( http://arxiv.org/abs/2310.11914v2 )

ライセンス: Link先を確認
Nicolas Chopin and Francesca R. Crucinio and Anna Korba(参考訳) 本稿では,非正規化密度が知られている対象確率分布から試料へのテンパリング(Sequential Monte Carlo, SMC)とエントロピックミラー降下の関係について検討する。 テンパリングSMCは、逆クルバック・リーブラー(KL)の発散に適用されるエントロピックミラー降下に対応し、テンパリング繰り返しに対する収束率を得る。 我々の結果は最適化の観点からテンパリング反復を動機付けており、ワッサーシュタイン2幾何に関してKLの降下を行うランゲヴィン力学とは対照的に、フィッシャー・ラオ幾何に関してKLの発散の降下スキームと見なせることを示す。 我々は,SMCにおける一般的なプラクティスを正当化するために,テンパリングとミラー降下の関連性を活用し,文献における他の代替ベンチマークよりも優れた適応的テンパリング規則を導出する。

This paper explores the connections between tempering (for Sequential Monte Carlo; SMC) and entropic mirror descent to sample from a target probability distribution whose unnormalized density is known. We establish that tempering SMC corresponds to entropic mirror descent applied to the reverse Kullback-Leibler (KL) divergence and obtain convergence rates for the tempering iterates. Our result motivates the tempering iterates from an optimization point of view, showing that tempering can be seen as a descent scheme of the KL divergence with respect to the Fisher-Rao geometry, in contrast to Langevin dynamics that perform descent of the KL with respect to the Wasserstein-2 geometry. We exploit the connection between tempering and mirror descent iterates to justify common practices in SMC and derive adaptive tempering rules that improve over other alternative benchmarks in the literature.
翻訳日:2024-03-05 20:23:49 公開日:2024-03-02
# 無限水平平均逆マルコフ決定過程のレグレト解析における量子スピードアップ

Quantum Speedups in Regret Analysis of Infinite Horizon Average-Reward Markov Decision Processes ( http://arxiv.org/abs/2310.11684v2 )

ライセンス: Link先を確認
Bhargav Ganguly and Yang Xu and Vaneet Aggarwal(参考訳) 本稿では,無限大地平線マルコフ決定過程(mdps)の解法における量子加速度のポテンシャルについて検討する。 我々は、エージェントが未知のMDPと関わり合うための革新的な量子フレームワークを導入し、従来の相互作用パラダイムを拡張した。 提案手法は,効率的な量子平均推定手法を用いて,エージェントが取得した量子信号を利用する楽観性駆動型表型強化学習アルゴリズムの設計を含む。 徹底的な理論解析を通じて,平均推定における量子優位は無限遠地平線強化学習における後悔保証の指数関数的発展をもたらすことを実証する。 具体的には、提案したQuantumアルゴリズムは、古典的対象によって示される$\tilde{\mathcal{O}}(1)$に対する大きな改善である$\tilde{\mathcal{O}}(1)$の後悔境界を達成する。

This paper investigates the potential of quantum acceleration in addressing infinite horizon Markov Decision Processes (MDPs) to enhance average reward outcomes. We introduce an innovative quantum framework for the agent's engagement with an unknown MDP, extending the conventional interaction paradigm. Our approach involves the design of an optimism-driven tabular Reinforcement Learning algorithm that harnesses quantum signals acquired by the agent through efficient quantum mean estimation techniques. Through thorough theoretical analysis, we demonstrate that the quantum advantage in mean estimation leads to exponential advancements in regret guarantees for infinite horizon Reinforcement Learning. Specifically, the proposed Quantum algorithm achieves a regret bound of $\tilde{\mathcal{O}}(1)$, a significant improvement over the $\tilde{\mathcal{O}}(\sqrt{T})$ bound exhibited by classical counterparts.
翻訳日:2024-03-05 20:23:30 公開日:2024-03-02
# FlorDB: 継続的トレーニングのためのマルチバージョン監視ロギング

FlorDB: Multiversion Hindsight Logging for Continuous Training ( http://arxiv.org/abs/2310.07898v3 )

ライセンス: Link先を確認
Rolando Garcia, Anusha Dandamudi, Gabriel Matute, Lehan Wan, Joseph Gonzalez, Joseph M. Hellerstein, Koushik Sen(参考訳) プロダクション機械学習には継続的トレーニングが伴う。複数のバージョンのモデルを時間とともにホストし、多くの場合、複数のモデルバージョンを同時に実行する。 モデルパフォーマンスが期待を満たさない場合、機械学習エンジニア(mles)は、多くの以前のバージョンのコードとトレーニングデータの探索と分析を通じて問題をデバッグし、根本原因を特定し、問題を緩和する。 従来のデバッグとロギングツールは、実験的なマルチバージョンコンテキストの管理に不足することが多い。 FlorDBはMultiversion Hindsight Loggingを導入し、エンジニアは最新のバージョンのロギングステートメントを使用して過去のバージョンを問い合わせることができる。 ログステートメントの伝搬は、コードベースの変更にかかわらず、過去のコードバージョンにロギングステートメントを一貫した注入を可能にする。 ログステートメントがコードバージョンに伝播されると、multiversionhindsight loggingの残りの課題は、以前の実行時のチェックポイントに基づいて、新しいログステートメントを効率的に再生することである。 最後に、すべてのバージョンのコードとデータのMLEデバッグを支援するために、一貫性のあるユーザエクスペリエンスが必要です。 この目的のためにflordbは、履歴クエリを効率的に処理するための統一リレーショナルモデルを提示し、ログ履歴の包括的なビューを提供し、過去のコードのイテレーションの探索を簡単にする。 本稿では,クエリベースのフィルタリングとチェックポイントベースの並列処理を有効活用し,そのスケーラビリティとリアルタイムクエリ応答能力を確認した多種多様なベンチマークの性能評価を行う。

Production Machine Learning involves continuous training: hosting multiple versions of models over time, often with many model versions running at once. When model performance does not meet expectations, Machine Learning Engineers (MLEs) debug issues by exploring and analyzing numerous prior versions of code and training data to identify root causes and mitigate problems. Traditional debugging and logging tools often fall short in managing this experimental, multi-version context. FlorDB introduces Multiversion Hindsight Logging, which allows engineers to use the most recent version's logging statements to query past versions, even when older versions logged different data. Log statement propagation enables consistent injection of logging statements into past code versions, regardless of changes to the codebase. Once log statements are propagated across code versions, the remaining challenge in Multiversion Hindsight Logging is to efficiently replay the new log statements based on checkpoints from previous runs. Finally, a coherent user experience is required to help MLEs debug across all versions of code and data. To this end, FlorDB presents a unified relational model for efficient handling of historical queries, offering a comprehensive view of the log history to simplify the exploration of past code iterations. We present a performance evaluation on diverse benchmarks confirming its scalability and the ability to deliver real-time query responses, leveraging query-based filtering and checkpoint-based parallelism for efficient replay.
翻訳日:2024-03-05 20:22:09 公開日:2024-03-02
# 巡回セールスマン問題に対するスケール不均衡データに基づくエッジアウェアグラフ自動エンコーダ

An Edge-Aware Graph Autoencoder Trained on Scale-Imbalanced Data for Traveling Salesman Problems ( http://arxiv.org/abs/2310.06543v2 )

ライセンス: Link先を確認
Shiqing Liu, Xueming Yan, Yaochu Jin(参考訳) 近年,組合せ最適化のための機械学習技術の研究が注目されている。 学習に基づく手法は,トラベリングセールスマン問題(TSP)における従来のヒューリスティックスや数学的解法よりも,性能と計算効率の両面で優れていることが示されている。 しかし、ほとんどの学習ベースのTSPソルバは、主に固定スケールのTSPインスタンス用に設計されており、最適なパフォーマンスを得るためには、多数のトレーニングサンプルを必要とする。 このギャップを埋めるために,様々な都市でtspを解決するためのデータ駆動グラフ表現学習手法を提案する。 具体的には、リンク予測タスクとしてTSPを定式化し、不均衡分布を持つ様々なスケールのサンプルから学習することでTSPを解くことができるエッジ認識グラフオートエンコーダ(EdgeGAE)モデルを提案する。 残留ゲートエンコーダは遅延エッジ埋め込みを学習するために訓練され、次いでエッジ中心のデコーダでリンク予測をエンドツーエンドに出力する。 さらに,大規模シナリオにおけるモデルの一般化能力を向上させるために,トレーニングプロセスにアクティブサンプリング戦略を導入する。 モデルの実用性を検討するため,50都市から500都市までの5万のTSPインスタンスからなるスケール不均衡データセットを生成する。 提案するエッジアウェアグラフオートエンコーダモデルは,tspを様々なスケールで解くための最先端グラフ学習手法と高い競合性能を実現し,実用的な最適化課題への対処の可能性を示す。

In recent years, there has been a notable surge in research on machine learning techniques for combinatorial optimization. It has been shown that learning-based methods outperform traditional heuristics and mathematical solvers on the Traveling Salesman Problem (TSP) in terms of both performance and computational efficiency. However, most learning-based TSP solvers are primarily designed for fixed-scale TSP instances, and also require a large number of training samples to achieve optimal performance. To fill this gap, this work proposes a data-driven graph representation learning method for solving TSPs with various numbers of cities. Specifically, we formulate the TSP as a link prediction task and propose an edge-aware graph autoencoder (EdgeGAE) model that can solve TSPs by learning from various-scale samples with an imbalanced distribution. A residual gated encoder is trained to learn latent edge embeddings, followed by an edge-centered decoder to output link predictions in an end-to-end manner. Furthermore, we introduce an active sampling strategy into the training process to improve the model's generalization capability in large-scale scenarios. To investigate the model's practical applicability, we generate a scale-imbalanced dataset comprising 50,000 TSP instances ranging from 50 to 500 cities. The experimental results demonstrate that the proposed edge-aware graph autoencoder model achieves a highly competitive performance among state-of-the-art graph learning-based approaches in solving TSPs with various scales, implying its remarkable potential in dealing with practical optimization challenges.
翻訳日:2024-03-05 20:21:42 公開日:2024-03-02
# 潜在原因のニューラルネットワークモデルにおける共有情報とコンテキスト情報の再検討

Reconciling Shared versus Context-Specific Information in a Neural Network Model of Latent Causes ( http://arxiv.org/abs/2312.08519v2 )

ライセンス: Link先を確認
Qihong Lu, Tan T. Nguyen, Qiong Zhang, Uri Hasson, Thomas L. Griffiths, Jeffrey M. Zacks, Samuel J. Gershman, Kenneth A. Norman(参考訳) 一連のイベントを処理する場合、人間は文脈依存学習をサポートするために推論された潜在原因(lcs)の観点で経験を分割することが提案されている。 しかし,共有構造が存在する場合,LCの「分割」と共有構造の学習を同時に行うことができるのかはいまだ不明である。 本稿では,LC推論のニューラルネットワークモデルであるLatent Cause Network(LCNet)を提案する。 学習を通じて、ネットワーク重みの中でタスク間で共有される構造を自然に保存する。 さらに、ベイズ非パラメトリック推論アルゴリズムによって制御されるコンテキストモジュールを用いてコンテキスト固有の構造を表現し、各推定LCに対して独自のコンテキストベクトルを割り当てる。 3つのシミュレーションでLCNetが実現可能であることが分かった。 1)破壊的干渉を避けつつ機能学習タスクにおけるlc間の共有構造を抽出する。 2)スキーマ学習におけるカリキュラム効果に関する人的データを取得し、 3) 日常イベントの自然映像処理の基盤となるイベント構造を推定する。 総じて,実験環境から自然条件設定までスケーラブルなlcsモデルにおいて,共有構造とコンテキスト固有の構造を調和させるための計算可能なアプローチを示す。

It has been proposed that, when processing a stream of events, humans divide their experiences in terms of inferred latent causes (LCs) to support context-dependent learning. However, when shared structure is present across contexts, it is still unclear how the "splitting" of LCs and learning of shared structure can be simultaneously achieved. Here, we present the Latent Cause Network (LCNet), a neural network model of LC inference. Through learning, it naturally stores structure that is shared across tasks in the network weights. Additionally, it represents context-specific structure using a context module, controlled by a Bayesian nonparametric inference algorithm, which assigns a unique context vector for each inferred LC. Across three simulations, we found that LCNet could 1) extract shared structure across LCs in a function learning task while avoiding catastrophic interference, 2) capture human data on curriculum effects in schema learning, and 3) infer the underlying event structure when processing naturalistic videos of daily events. Overall, these results demonstrate a computationally feasible approach to reconciling shared structure and context-specific structure in a model of LCs that is scalable from laboratory experiment settings to naturalistic settings.
翻訳日:2024-03-05 20:15:26 公開日:2024-03-02
# 多パラメータ複素行列アンサンブルのスペクトルゆらぎ:単一パラメータ依存性の証明

Spectral fluctuations of multiparametric complex matrix ensembles: evidence of a single parameter dependence ( http://arxiv.org/abs/2312.08203v2 )

ライセンス: Link先を確認
Mohd. Gayas Ansari and Pragya Shukla(参考訳) 平均値がゼロな複素行列のマルチパラメトリックガウスアンサンブルのスペクトル統計と、対角線から離れる異なる減衰経路を持つ分散のスペクトル統計を数値的に解析した。 後者は行列要素間の異なる有効空間の程度を模倣するので、そのようなアンサンブルは、例えば非エルミート系における非エルミート系への局在化や非エルミート系へのエルミート系への非局在化など、幅広い位相遷移のモデルとして機能する。 分析の結果、ポアソンからジニブレの普遍性クラスへのスペクトル統計量の交叉、有限行列サイズのばらつきの変化、無限行列サイズの急激な遷移、および全てのシステムパラメータの単一機能である複雑性パラメータの役割など、スペクトル統計量の下に隠れたリッチな振る舞いが、臨界点を決定する基準として明らかとなった。 また, 複雑性パラメータを特徴とする非エルミート系の非平衡状態におけるスペクトル統計の普遍性について, \cite{psgs, psnh} における理論的予測を確認した。

We numerically analyze the spectral statistics of the multiparametric Gaussian ensembles of complex matrices with zero mean and variances with different decay routes away from the diagonals. As the latter mimics different degree of effective sparsity among the matrix elements, such ensembles can serve as good models for a wide range of phase transitions e.g. localization to delocalization in non-Hermitian systems or Hermitian to non-Hermitian one. Our analysis reveals a rich behavior hidden beneath the spectral statistics e.g. a crossover of the spectral statistics from Poisson to Ginibre universality class with changing variances for finite matrix size, an abrupt transition for infinite matrix size and the role of complexity parameter, a single functional of all system parameters, as a criteria to determine critical point. We also confirm the theoretical predictions in \cite{psgs, psnh}, regarding the universality of the spectral statistics in non-equilibrium regime of non-Hermitian systems characterized by the complexity parameter.
翻訳日:2024-03-05 20:15:07 公開日:2024-03-02
# 量子場理論におけるメルミンの不等式の研究にワイル作用素を用いる

Using Weyl operators to study Mermin's inequalities in Quantum Field Theory ( http://arxiv.org/abs/2312.06918v2 )

ライセンス: Link先を確認
Philipe De Fabritiis, Fillipe M. Guedes, Marcelo S. Guimaraes, Itzhak Roditi, Silvio P. Sorella(参考訳) メルミンの不等式は、ワイル作用素で構築されたフォン・ノイマン代数を用いて量子場理論の枠組みで研究される。 我々は、富田竹崎モジュラー理論に基づく一般的な構成を考案し、それを用いて、メルミン作用素の真空期待値を計算し、パラメータ空間を解析し、マーミンの不等式を明示的に示す。 したがって、モジュラー作用素の力に頼って、スカラー場理論の真空状態内で調べると、メルミンの不等式が破られることを示すことができる。

Mermin's inequalities are investigated in a Quantum Field Theory framework by using von Neumann algebras built with Weyl operators. We devise a general construction based on the Tomita-Takesaki modular theory and use it to compute the vacuum expectation value of the Mermin operator, analyzing the parameter space and explicitly exhibiting a violation of Mermin's inequalities. Therefore, relying on the power of modular operators, we are able to demonstrate that Mermin's inequalities are violated when examined within the vacuum state of a scalar field theory.
翻訳日:2024-03-05 20:14:47 公開日:2024-03-02
# 境界条件をもつ格子ボルツマン方程式の量子カールマン線形化

Quantum Carleman Linearization of the Lattice Boltzmann Equation with Boundary Conditions ( http://arxiv.org/abs/2312.04781v3 )

ライセンス: Link先を確認
Bastien Bakker and Thomas W. Watts(参考訳) 格子ボルツマン法(Lattice Boltzmann Method, LBM)は, 単相・多相両方の流れをシミュレーションする効率的なアルゴリズムとして広く認識されている。 本研究では, bhatnagar gross と krook 平衡関数を用いて, 格子ボルツマン方程式の量子カールマン線形定式化について述べる。 提案手法は, 境界条件をバウンスバックスキームを用いて処理する手法である。 提案アルゴリズムの精度は, 従来のLBMシミュレーションと比較して, 矩形プリズムを過ぎる流れをシミュレートし, 流体流速と一致することを示す。 この改良された定式化は、幅広い流体流アプリケーションで計算スピードアップを提供する可能性を示している。 さらに、読み込みおよび読み出しのテクニックの詳細も提供します。

The Lattice Boltzmann Method (LBM) is widely recognized as an efficient algorithm for simulating fluid flows in both single-phase and multi-phase scenarios. In this research, a quantum Carleman Linearization formulation of the Lattice Boltzmann equation is described, employing the Bhatnagar Gross and Krook equilibrium function. Our approach addresses the treatment of boundary conditions with the commonly used bounce back scheme. The accuracy of the proposed algorithm is demonstrated by simulating flow past a rectangular prism, achieving agreement with respect to fluid velocity In comparison to classical LBM simulations. This improved formulation showcases the potential to provide computational speed-ups in a wide range of fluid flow applications. Additionally, we provide details on read in and read out techniques.
翻訳日:2024-03-05 20:14:37 公開日:2024-03-02
# Redditアカデミックコミュニティにおけるストレス関連ポストの検出と解析

Detection and Analysis of Stress-Related Posts in Reddit Acamedic Communities ( http://arxiv.org/abs/2312.01050v2 )

ライセンス: Link先を確認
Nazzere Oryngozha and Pakizar Shamoi and Ayan Igali(参考訳) 今日ではストレスレベルをモニターし、精神疾患の早期徴候を認識する重要性を誇張することはできない。 テキストの自動ストレス検出は、ストレスの管理と精神的健康の保護を積極的に支援する。 今日のデジタル時代には、ソーシャルメディアプラットフォームは様々なコミュニティにおける心理的幸福とストレスレベルを反映している。 本研究は,Reddit学術コミュニティにおけるストレス関連投稿の検出と分析に焦点をあてる。 オンライン教育とリモートワークにより、これらのコミュニティは学術的な議論と支援の中心となっている。 テキストを、自然言語処理と機械学習の分類器を使ってストレスのあるものと分類し、redditのラベル付きデータを含むトレーニングデータセットとしてdreadditを使用します。 次に,様々な学術論文の投稿を収集し,分析する。 ストレス検出の最も効果的な特徴は単語のバグであり、ロジスティック回帰分類器と組み合わせて77.78%の精度とDReadditデータセットでのF1スコアが0.79であることを確認した。 この組み合わせは、72%の精度で人間の注釈付きデータセットのストレス検出にも最適である。 私たちの重要な発見は、redditの教授による投稿やコメントが、学士、大学院、ph.d.の学生など他の学術レベルと比べて最もストレスが強いことを示しています。 本研究は,学術コミュニティにおけるストレスレベルの理解に寄与する。 学術機関やオンラインコミュニティがこの問題を効果的に解決するための対策や介入を行うのに役立つ。

Nowadays, the significance of monitoring stress levels and recognizing early signs of mental illness cannot be overstated. Automatic stress detection in text can proactively help manage stress and protect mental well-being. In today's digital era, social media platforms reflect the psychological well-being and stress levels within various communities. This study focuses on detecting and analyzing stress-related posts in Reddit academic communities. Due to online education and remote work, these communities have become central for academic discussions and support. We classify text as stressed or not using natural language processing and machine learning classifiers, with Dreaddit as our training dataset, which contains labeled data from Reddit. Next, we collect and analyze posts from various academic subreddits. We identified that the most effective individual feature for stress detection is the Bag of Words, paired with the Logistic Regression classifier, achieving a 77.78% accuracy rate and an F1 score of 0.79 on the DReaddit dataset. This combination also performs best in stress detection on human-annotated datasets, with a 72% accuracy rate. Our key findings reveal that posts and comments in professors Reddit communities are the most stressful, compared to other academic levels, including bachelor, graduate, and Ph.D. students. This research contributes to our understanding of the stress levels within academic communities. It can help academic institutions and online communities develop measures and interventions to address this issue effectively.
翻訳日:2024-03-05 20:14:01 公開日:2024-03-02
# 神経陰影表現における単眼カメラの連続ポーズ

Continuous Pose for Monocular Cameras in Neural Implicit Representation ( http://arxiv.org/abs/2311.17119v3 )

ライセンス: Link先を確認
Qi Ma, Danda Pani Paudel, Ajad Chhatkuli, Luc Van Gool(参考訳) 本稿では,時間的連続的な機能として単眼カメラポーズの最適化の有効性を示す。 カメラポーズは、所定の時刻を対応するカメラポーズにマッピングする暗黙のニューラル関数を使用して表現される。 マッピングされたカメラポーズは、ジョイントカメラポーズ最適化が必要な下流タスクに使用される。 その際、暗黙的にカメラポーズを表すネットワークパラメータが最適化される。 提案手法は,(1)ノイズのあるポーズからのNeRF,(2)非同期イベントからのNeRF,(3)視覚的局所化とマッピング(vSLAM),(4)VSLAMとIMUの4つの異なる実験環境において有効である。 これら4つの設定において,提案手法は比較したベースラインや最先端手法よりも性能が優れている。 さらに、連続運動の仮定を用いて、ポーズの変化は実際には6度以下の自由度(DOF)を持つ多様体に存在することができる。 我々はこの低DOF動作表現を \emph{intrinsic motion} と呼び、vSLAM設定でこのアプローチを使用し、カメラ追跡性能を高く評価した。

In this paper, we showcase the effectiveness of optimizing monocular camera poses as a continuous function of time. The camera poses are represented using an implicit neural function which maps the given time to the corresponding camera pose. The mapped camera poses are then used for the downstream tasks where joint camera pose optimization is also required. While doing so, the network parameters -- that implicitly represent camera poses -- are optimized. We exploit the proposed method in four diverse experimental settings, namely, (1) NeRF from noisy poses; (2) NeRF from asynchronous Events; (3) Visual Simultaneous Localization and Mapping (vSLAM); and (4) vSLAM with IMUs. In all four settings, the proposed method performs significantly better than the compared baselines and the state-of-the-art methods. Additionally, using the assumption of continuous motion, changes in pose may actually live in a manifold that has lower than 6 degrees of freedom (DOF) is also realized. We call this low DOF motion representation as the \emph{intrinsic motion} and use the approach in vSLAM settings, showing impressive camera tracking performance.
翻訳日:2024-03-05 20:13:39 公開日:2024-03-02
# 法律の翻訳: 法的要約者による裁判所意見の公衆理解の促進

Translating Legalese: Enhancing Public Understanding of Court Opinions with Legal Summarizers ( http://arxiv.org/abs/2311.06534v2 )

ライセンス: Link先を確認
Elliott Ash and Aniket Kesari and Suresh Naidu and Lena Song and Dominik Stammbach(参考訳) 司法的意見は説得力があり、裁判所の決定に公的な信頼を築くことができるが、非専門家が理解することは困難である。 本稿では,AIアシスタントを用いて簡易な意見要約を生成するパイプラインを提案する。 既存の専門家による要約と比較すると、これらのAI生成された単純な要約は、一般の人によりアクセスしやすく、非専門家によって理解しやすい。 調査実験では、AIサマリーは、回答者が判断の主要な特徴を理解し、特に正式な教育を受けていない回答者にとって、より高い品質を持つのに役立ちます。

Judicial opinions are written to be persuasive and could build public trust in court decisions, yet they can be difficult for non-experts to understand. We present a pipeline for using an AI assistant to generate simplified summaries of judicial opinions. Compared to existing expert-written summaries, these AI-generated simple summaries are more accessible to the public and more easily understood by non-experts. We show in a survey experiment that the AI summaries help respondents understand the key features of a ruling, and have higher perceived quality, especially for respondents with less formal education.
翻訳日:2024-03-05 20:11:39 公開日:2024-03-02
# Neuro-GPT:脳波の基礎モデルを目指して

Neuro-GPT: Towards A Foundation Model for EEG ( http://arxiv.org/abs/2311.03764v4 )

ライセンス: Link先を確認
Wenhui Cui, Woojae Jeong, Philipp Th\"olke, Takfarinas Medani, Karim Jerbi, Anand A. Joshi, Richard M. Leahy(参考訳) 脳-コンピューターインタフェース(bci)タスクのための脳波(eeg)データの不足と不均一性に対処するため、大規模な公開データセットのパワーを活用するために、脳波エンコーダとgptモデルからなる基礎モデルであるneuro-gptを提案する。 基礎モデルは、マスクされた脳波セグメントの再構築方法を学ぶ自己教師付きタスクを使用して、大規模データセット上で事前訓練される。 次に,モータ画像分類タスクのモデルを微調整し,低データ方式(9項目)の性能評価を行う。 基礎モデルの適用は,スクラッチからトレーニングしたモデルと比較して,分類性能を著しく向上できることを実証し,基礎モデルの一般化可能性と,脳波におけるデータ不足や多様性の課題に対処する能力を示す。 コードはgithub.com/wenhui0206/NeuroGPTで公開されている。

To handle the scarcity and heterogeneity of electroencephalography (EEG) data for Brain-Computer Interface (BCI) tasks, and to harness the power of large publicly available data sets, we propose Neuro-GPT, a foundation model consisting of an EEG encoder and a GPT model. The foundation model is pre-trained on a large-scale data set using a self-supervised task that learns how to reconstruct masked EEG segments. We then fine-tune the model on a Motor Imagery Classification task to validate its performance in a low-data regime (9 subjects). Our experiments demonstrate that applying a foundation model can significantly improve classification performance compared to a model trained from scratch, which provides evidence for the generalizability of the foundation model and its ability to address challenges of data scarcity and heterogeneity in EEG. The code is publicly available at github.com/wenhui0206/NeuroGPT.
翻訳日:2024-03-05 20:11:28 公開日:2024-03-02
# 強相関系のためのスパース量子状態調製

Sparse Quantum State Preparation for Strongly Correlated Systems ( http://arxiv.org/abs/2311.03347v5 )

ライセンス: Link先を確認
C. Feniou, O. Adjoua, B. Claudon, J. Zylberman, E. Giner, J.-P. Piquemal(参考訳) 量子コンピューティングは、原則として、指数関数的にスケーリングする多電子波動関数を線形スケーリング量子ビットレジスタにエンコーディングすることを可能にし、従来の量子化学手法の限界を克服する有望な解決策を提供する。 基底状態量子アルゴリズムが実用的であるためには、量子ビットの初期化が要求される基底状態の高品質な近似に必須である。 量子状態準備 (qsp) は古典計算から得られる近似固有状態の合成を可能にするが、量子情報ではしばしば神託として扱われる。 本研究では,Hyperion GPU加速状態ベクトルエミュレータを用いて,28量子ビットの原型的強相関系の基底状態に対してQSPを行う。 様々な変分法と非変分法は、回路深さと古典的複雑性の観点から比較される。 その結果,最近開発された overlap-adapt-vqe アルゴリズムは,短期的アプリケーションにおいて最も有利な性能を示す。

Quantum Computing allows, in principle, the encoding of the exponentially scaling many-electron wave function onto a linearly scaling qubit register, offering a promising solution to overcome the limitations of traditional quantum chemistry methods. An essential requirement for ground state quantum algorithms to be practical is the initialisation of the qubits to a high-quality approximation of the sought-after ground state. Quantum State Preparation (QSP) allows the preparation of approximate eigenstates obtained from classical calculations, but it is frequently treated as an oracle in quantum information. In this study, we conduct QSP on the ground state of prototypical strongly correlated systems, up to 28 qubits, using the Hyperion GPU-accelerated state-vector emulator. Various variational and non-variational methods are compared in terms of their circuit depth and classical complexity. Our results indicate that the recently developed Overlap-ADAPT-VQE algorithm offers the most advantageous performance for near-term applications.
翻訳日:2024-03-05 20:11:13 公開日:2024-03-02
# 洗練された行動シミュレーション:組織的複雑性問題の解決策

Sophisticated Behavioral Simulation: A Possible Solution to Problems of Organized Complexity ( http://arxiv.org/abs/2401.09851v2 )

ライセンス: Link先を確認
Cheng Wang, Chuwen Wang, Yu Zhao, Wang Zhang, Shirong Zeng, Ronghui Ning, Changjun Jiang(参考訳) シミュレーション技術は、天気予報、流体力学、生物集団など、多くの科学研究分野で広く利用されている。 事実として、閉じた形式表現が使えず、表現空間のターゲット分布が複雑すぎて、ディープラーニング(dl)モデルのようなデータ駆動学習モデルによって完全に表現できない複雑なシステムにおける問題に対処するための最善のツールとして機能する。 本稿では,科学的パラダイムと問題の分析に基づくシミュレーション技術の有効性と嗜好について検討する。 我々は、データ、アルゴリズム、計算力の観点から科学パラダイムの進化を再考し、組織的単純さの問題、非組織的複雑性の問題、組織的複雑性の問題からなる科学的問題の古典的な分類を再考する。 これらの異なる問題は異なるパラダイムの強みを反映しており、より複雑なシステムにおける組織化された複雑性の未解決問題に対処するために異なるパラダイムを統合する新しいシミュレーション技術が必要であることを示している。 そこで,既存のシミュレーション技術と科学的パラダイムを融合させ,行動シミュレーション(bs)の概念とより洗練された行動シミュレーション(sbs)を提案する。 これらは、高度な人間の戦略や行動を含む複雑な社会システムをシミュレートする基礎モデルに基づく高度なパラダイム統合を表している。 従来のエージェント・ベース・モデリング・シミュレーション(ABMS)の能力を超えて、BSとSBSは、科学の次のパラダイムとして考えられる複雑な人間のシステムに関する課題に取り組むように設計されている。 本研究を通じて、社会科学の科学研究分野におけるより強力なBSおよびSBS応用を期待する。

Simulation technologies have been widely utilized in many scientific research fields such as weather forecasting, fluid mechanics, and biological populations. As a matter of facts, they act as the best tool to handle problems in complex systems where closed-form expressions are unavailable and the target distribution in the representation space is too complex to be fully represented by data-driven learning models, such as deep learning (DL) models. This paper investigates the effectiveness and preference of simulation technologies based on the analyses of scientific paradigms and problems. We revisit the evolution of scientific paradigms from the perspective of data, algorithms, and computational power, and rethink a classic classification of scientific problems which consists of the problems of organized simplicity, problems of disorganized complexity, and problems of organized complexity. These different problems reflect the strengths of different paradigms, indicating that a new simulation technology integrating different paradigms is required to deal with unresolved problems of organized complexity in more complex systems. Therefore, we summarize existent simulation technologies aligning with the scientific paradigms, and propose the concept of behavioral simulation (BS), and further sophisticated behavioral simulation (SBS). They represent a higher degree of paradigms integration based on foundation models to simulate complex social systems involving sophisticated human strategies and behaviors. Beyond the capacity of traditional agent-based modeling simulation (ABMS), BS and further SBS are designed to tackle challenges concerning the complex human system, which can be regarded as a possible next paradigm for science. Through this work, we look forward to more powerful BS and SBS applications in scientific research branches within social science.
翻訳日:2024-03-05 20:07:27 公開日:2024-03-02
# PVTをベースとしたエンコーディングと精細復号によるCT肝セグメンテーション

CT Liver Segmentation via PVT-based Encoding and Refined Decoding ( http://arxiv.org/abs/2401.09630v2 )

ライセンス: Link先を確認
Debesh Jha, Nikhil Kumar Tomar, Koushik Biswas, Gorkem Durak, Alpay Medetalibeyoglu, Matthew Antalek, Yury Velichko, Daniela Ladner, Amir Borhani, Ulas Bagci(参考訳) CTスキャンからの正確な肝分画は、効果的な診断と治療計画に不可欠である。 コンピュータ支援診断システムは、肝疾患の診断、疾患の進行、治療計画の精度を向上させることを約束する。 そこで本研究では,事前学習されたピラミッド型視覚トランスフォーマ(pvt v2)と高度な残差アップサンプリングとデコーダブロックを組み合わせた,新しいディープラーニング手法である \textit{\textbf{pvtformer}} を提案する。 改良された特徴チャネルアプローチを階層的デコーディング戦略に統合することにより、PVTFormerはセマンティック機能を強化して高品質なセグメンテーションマスクを生成する。 肝腫瘍分節ベンチマーク(lits)2017において,提案手法の厳密な評価を行った結果,提案手法は,dice係数が86.78\%,miouが78.46\%,低hdが3.50であった。 その結果,最新肝セグメンテーション法におけるPVTFormerの有効性が示された。 提案されたPVTFormerのソースコードは、 \url{https://github.com/DebeshJha/PVTFormer} で入手できる。

Accurate liver segmentation from CT scans is essential for effective diagnosis and treatment planning. Computer-aided diagnosis systems promise to improve the precision of liver disease diagnosis, disease progression, and treatment planning. In response to the need, we propose a novel deep learning approach, \textit{\textbf{PVTFormer}}, that is built upon a pretrained pyramid vision transformer (PVT v2) combined with advanced residual upsampling and decoder block. By integrating a refined feature channel approach with a hierarchical decoding strategy, PVTFormer generates high quality segmentation masks by enhancing semantic features. Rigorous evaluation of the proposed method on Liver Tumor Segmentation Benchmark (LiTS) 2017 demonstrates that our proposed architecture not only achieves a high dice coefficient of 86.78\%, mIoU of 78.46\%, but also obtains a low HD of 3.50. The results underscore PVTFormer's efficacy in setting a new benchmark for state-of-the-art liver segmentation methods. The source code of the proposed PVTFormer is available at \url{https://github.com/DebeshJha/PVTFormer}.
翻訳日:2024-03-05 20:07:01 公開日:2024-03-02
# 軌道情報と運命情報による細胞識別の予測

Prediction of Cellular Identities from Trajectory and Cell Fate Information ( http://arxiv.org/abs/2401.06182v2 )

ライセンス: Link先を確認
Baiyang Dai, Jiamin Yang, Hari Shroff, Patrick La Riviere(参考訳) 画像配列における細胞同定は重要な課題である。 従来の細胞同定法は、複雑で時間を要する細胞追跡法である。 本研究では,早期の$\textit{C。 エレガンス=機械学習を用いた胚発生 $\textit{C} 中のセルの識別。 エレガンス=胚発生は、ヒトを含む高等生物に影響を及ぼす神経発達に関する洞察を与える。 まず, ランダム森林, MLP, LSTMモデルを用い, 最初の4時間にわたる3次元時間ラプス共焦点データセットの細胞分類精度を調べた。 細胞軌跡や細胞運命情報など,個々の細胞の空間的・時間的特徴を少数活用することで,限られたデータでも91%以上の精度が得られる。 また、最も重要な特徴の貢献を判断し、生物学的知識の文脈でこれらの特徴を解釈することができる。 本研究は,単純時空間的特徴から直接時間経過画像のセルアイデンティティを予測できることを実証する。

Determining cell identities in imaging sequences is an important yet challenging task. The conventional method for cell identification is via cell tracking, which is complex and can be time-consuming. In this study, we propose an innovative approach to cell identification during early $\textit{C. elegans}$ embryogenesis using machine learning. Cell identification during $\textit{C. elegans}$ embryogenesis would provide insights into neural development with implications for higher organisms including humans. We employed random forest, MLP, and LSTM models, and tested cell classification accuracy on 3D time-lapse confocal datasets spanning the first 4 hours of embryogenesis. By leveraging a small number of spatial-temporal features of individual cells, including cell trajectory and cell fate information, our models achieve an accuracy of over 91%, even with limited data. We also determine the most important feature contributions and can interpret these features in the context of biological knowledge. Our research demonstrates the success of predicting cell identities in time-lapse imaging sequences directly from simple spatio-temporal features.
翻訳日:2024-03-05 20:05:43 公開日:2024-03-02
# matsam: visual large model による材料の微細構造の効率的な抽出

MatSAM: Efficient Extraction of Microstructures of Materials via Visual Large Model ( http://arxiv.org/abs/2401.05638v2 )

ライセンス: Link先を確認
Changtai Li, Xu Han, Chao Yao, Xiaojuan Ban(参考訳) 材料のマイクログラフ中の微細構造の効率的かつ正確な抽出は、プロセス最適化と構造・特性関係の探索に不可欠である。 手動アノテーションに依存するディープラーニングベースのイメージセグメンテーション技術は、手間がかかり、時間を要するため、さまざまなソースイメージに対するモデル転送可能性や一般化の要求をほとんど満たさない。 Segment Anything Model (SAM)は、強力な深い特徴表現とゼロショットの一般化機能を備えた大きなビジュアルモデルであり、画像セグメンテーションのための新しいソリューションを提供している。 本稿では,SAMに基づく汎用的で効率的なマイクロ構造抽出法であるMatSAMを提案する。 ミクロ組織分布と形状に基づく,単純かつ効果的なポイントベースプロンプト生成戦略を考案した。 具体的には、教師なし、トレーニング不要な方法で、異なる顕微鏡画像のプロンプトポイントを適応的に生成し、粗い抽出領域(ROI)とネイティブグリッドポイントのセントロイドポイントを融合させ、材料のミクロ構造を定量的に評価するための対応する後処理操作を統合する。 粒界や多相を含む一般的なミクロ組織では、従来の規則に基づく手法よりもゼロショットセグメンテーション性能が優れており、光学顕微鏡(OM)や走査電子顕微鏡(SEM)によってマイクログラフが撮像された16の顕微鏡データセットで評価された教師あり学習法よりも好ましい。 特に4つの公開データセットでは、スペシャリストモデルに対する予期せぬ競合セグメンテーションのパフォーマンスを示している。 人間のラベル付けを必要とせずに、MatSAMは材料の広範囲な微細構造を定量的に解析するコストを大幅に削減し、新しい材料の設計を加速できると考えている。

Efficient and accurate extraction of microstructures in micrographs of materials is essential in process optimization and the exploration of structure-property relationships. Deep learning-based image segmentation techniques that rely on manual annotation are laborious and time-consuming and hardly meet the demand for model transferability and generalization on various source images. Segment Anything Model (SAM), a large visual model with powerful deep feature representation and zero-shot generalization capabilities, has provided new solutions for image segmentation. In this paper, we propose MatSAM, a general and efficient microstructure extraction solution based on SAM. A simple yet effective point-based prompt generation strategy is designed, grounded on the distribution and shape of microstructures. Specifically, in an unsupervised and training-free way, it adaptively generates prompt points for different microscopy images, fuses the centroid points of the coarsely extracted region of interest (ROI) and native grid points, and integrates corresponding post-processing operations for quantitative characterization of microstructures of materials. For common microstructures including grain boundary and multiple phases, MatSAM achieves superior zero-shot segmentation performance to conventional rule-based methods and is even preferable to supervised learning methods evaluated on 16 microscopy datasets whose micrographs are imaged by the optical microscope (OM) and scanning electron microscope (SEM). Especially, on 4 public datasets, MatSAM shows unexpected competitive segmentation performance against their specialist models. We believe that, without the need for human labeling, MatSAM can significantly reduce the cost of quantitative characterization and statistical analysis of extensive microstructures of materials, and thus accelerate the design of new materials.
翻訳日:2024-03-05 20:05:02 公開日:2024-03-02
# グラフニューラルネットワークの推論特性

Inferring Properties of Graph Neural Networks ( http://arxiv.org/abs/2401.03790v2 )

ライセンス: Link先を確認
Dat Nguyen (1), Hieu M. Vu (2), Cong-Thanh Le (1), Bach Le (1), David Lo (3), ThanhVu Nguyen (4) Corina Pasareanu (5) ((1) University of Melbourne, (2) Independent Researcher, (3) Singapore Management University, (4) George Mason University, (5) Carnegie Mellon University)(参考訳) GNNにおける最初の自動プロパティ推論手法であるGNNInferを提案する。 GNNにおける入力構造の変化に対処するため、GNNInferはまず、GNNの予測に大きく貢献する代表的影響力を持つ構造の集合を同定する。 これらの構造を用いて、gnninferは、影響のある構造とgnnの各対を等価なfnnに変換し、既存のプロパティ推論技術を利用して、影響のある構造に特有のgnnのプロパティを効果的にキャプチャする。 GNNINferは取得したプロパティを、影響力のある構造を含む任意の入力グラフに一般化する。 最後に、GNNInferは、完全な入力グラフが与えられた推論特性からGNN出力の偏差を推定するモデル(決定木または線形回帰)を構築することにより、推論特性の正しさを改善する。 学習モデルは、GNNInferがGNNの入力と出力に制約のある推論プロパティを拡張し、完全な入力グラフを保持する強いプロパティを得るのに役立つ。 我々の実験は、GNNInferが、人気のある現実世界のGNNの潜在的な特性を推測するのに効果的であることを示し、さらに重要なのは、これらの特性がGNNのバックドア攻撃を効果的に防御するのに役立ちます。 特に、13の基底真理特性のうち、GNNInferは8つの正しい性質を再発見し、残りの5つの基底真理特性を近似するおそらく正しい性質を発見した。 GNNInferが推定したプロパティを使用して、GNNの最先端のバックドア攻撃テクニック、すなわちUGBAを防御する実験により、GNNInferの防衛成功率は、既存のベースラインの最大30倍であることが示された。

We propose GNNInfer, the first automatic property inference technique for GNNs. To tackle the challenge of varying input structures in GNNs, GNNInfer first identifies a set of representative influential structures that contribute significantly towards the prediction of a GNN. Using these structures, GNNInfer converts each pair of an influential structure and the GNN to their equivalent FNN and then leverages existing property inference techniques to effectively capture properties of the GNN that are specific to the influential structures. GNNINfer then generalizes the captured properties to any input graphs that contain the influential structures. Finally, GNNInfer improves the correctness of the inferred properties by building a model (either a decision tree or linear regression) that estimates the deviation of GNN output from the inferred properties given full input graphs. The learned model helps GNNInfer extend the inferred properties with constraints to the input and output of the GNN, obtaining stronger properties that hold on full input graphs. Our experiments show that GNNInfer is effective in inferring likely properties of popular real-world GNNs, and more importantly, these inferred properties help effectively defend against GNNs' backdoor attacks. In particular, out of the 13 ground truth properties, GNNInfer re-discovered 8 correct properties and discovered likely correct properties that approximate the remaining 5 ground truth properties. Using properties inferred by GNNInfer to defend against the state-of-the-art backdoor attack technique on GNNs, namely UGBA, experiments show that GNNInfer's defense success rate is up to 30 times better than existing baselines.
翻訳日:2024-03-05 20:03:52 公開日:2024-03-02
# サブセット状態からの擬似ランダム状態と擬似エンタングル状態

Pseudorandom and Pseudoentangled States from Subset States ( http://arxiv.org/abs/2312.15285v2 )

ライセンス: Link先を確認
Fernando Granha Jeronimo, Nir Magrafta, Pei Wu(参考訳) Pseudorandom state (PRS) は量子暗号において重要なプリミティブである。 本稿では,集合状態がprsの構成に利用できることを示す。 計算基底の部分集合である$S$に対する部分集合状態は \[ \frac{1}{\sqrt{|S|}}\sum_{i\in S} |i\rangle である。 技術的な中心要素として、任意の固定されたサブセットサイズに対して、$s = 2^n/\omega(\mathrm{poly}(n))$ と $s=\omega(\mathrm{poly}(n))$ が、$n$ が qubits の数である場合、ランダムなサブセット状態は、多項式的に多くのコピーが与えられたとしても、haar のランダム状態から情報論的に区別できない。 このパラメータの範囲は厳密です。 私たちの仕事は、Ji、Liu、Songの予想を解決します。 小さいサイズの部分集合状態はすべての切断にまたがる小さな絡み合いを持つため、この構成はまた擬似絡み合い現象を示している。

Pseudorandom states (PRS) are an important primitive in quantum cryptography. In this paper, we show that subset states can be used to construct PRSs. A subset state with respect to $S$, a subset of the computational basis, is \[ \frac{1}{\sqrt{|S|}}\sum_{i\in S} |i\rangle. \] As a technical centerpiece, we show that for any fixed subset size $|S|=s$ such that $s = 2^n/\omega(\mathrm{poly}(n))$ and $s=\omega(\mathrm{poly}(n))$, where $n$ is the number of qubits, a random subset state is information-theoretically indistinguishable from a Haar random state even provided with polynomially many copies. This range of parameter is tight. Our work resolves a conjecture by Ji, Liu and Song. Since subset states of small size have small entanglement across all cuts, this construction also illustrates a pseudoentanglement phenomenon.
翻訳日:2024-03-05 20:03:03 公開日:2024-03-02
# LPR:大規模言語モデルに基づくプログラム削減

LPR: Large Language Models-Aided Program Reduction ( http://arxiv.org/abs/2312.13064v2 )

ライセンス: Link先を確認
Mengxiao Zhang, Yongqiang Tian, Zhenyang Xu, Yiwen Dong, Shin Hwei Tan and Chengnian Sun(参考訳) プログラムリダクションは、バグトリガプログラムを自動的に最小化し、コンパイラのデバッグを容易にする一般的なテクニックである。 既存のプログラムリダクション技術は、言語全体(例えばPersesやVulcan)にまたがって汎用的であるか、C-Reduceのような言語固有の機能を使って特定の言語用に特別にカスタマイズされている。 しかし、複数のプログラミング言語にまたがる汎用性と、プログラム削減における個々の言語に対する特異性とのバランスは、まだ検討されていない。 本稿では,LLMを用いて複数の言語に対して言語固有のプログラム還元を行う最初の手法であるLPRを提案する。 中心となる洞察は、言語ジェネリックな構文レベルでのプログラム還元(例えばPerses)とLLMによって学習された言語固有の意味レベルでのプログラム変換の両方を活用することである。 言語ジェネリック・プログラム・リデューサは、プログラムを1-ツリー・ミニマリティに効率的に還元するが、LLMは学習セマンティクスを通じてプログラムを効果的に変換し、言語ジェネリック・プログラム・リデューサに新たな還元機会を公開し、プログラムをさらに削減する。 3つの言語(C、Rust、JavaScript)にわたる50のベンチマークに関する広範な評価では、最先端の言語ジェネリックプログラムリデューサであるVulcanよりもLPRの実用性と優位性が強調されました。 LPRは、C、Rust、JavaScriptのベンチマークで24.93%、4.47%、11.71%の小さなプログラムを生成することで、Vulcanを上回っている。 さらに、LPRとVulcanは互いに補完する可能性を実証している。 C プログラムの LPR 出力に Vulcan を用いることで,C-Reduce で削減されたプログラムに匹敵するプログラムサイズを実現する。 効率性のために、LPRは10.77%、34.88%、36.96%の時間をVulcanより短くし、C、Rust、JavaScriptのすべてのベンチマークを別々に完了する。

Program reduction is a prevalent technique to facilitate compilers' debugging by automatically minimizing bug-triggering programs. Existing program reduction techniques are either generic across languages (e.g., Perses and Vulcan) or specifically customized for one certain language by employing language-specific features, like C-Reduce. However, striking the balance between generality across multiple programming languages and specificity to individual languages in program reduction is yet to be explored. This paper proposes LPR, the first technique utilizing LLMs to perform language-specific program reduction for multiple languages. The core insight is to utilize both the language-generic syntax level program reduction (e.g., Perses) and the language-specific semantic level program transformations learned by LLMs. Alternately, language-generic program reducers efficiently reduce programs into 1-tree-minimality, which is small enough to be manageable for LLMs; LLMs effectively transform programs via the learned semantics to expose new reduction opportunities for the language-generic program reducers to further reduce the programs. Our extensive evaluation on 50 benchmarks across three languages (C, Rust, and JavaScript) has highlighted LPR's practicality and superiority over Vulcan, the state-of-the-art language-generic program reducer. For effectiveness, LPR surpasses Vulcan by producing 24.93%, 4.47%, and 11.71% smaller programs on benchmarks in C, Rust and JavaScript. Moreover, LPR and Vulcan have demonstrated their potential to complement each other. By using Vulcan on LPR's output for C programs, we achieve program sizes comparable to those reduced by C-Reduce. For efficiency, LPR takes 10.77%, 34.88%, 36.96% less time than Vulcan to finish all benchmarks in C, Rust and JavaScript, separately.
翻訳日:2024-03-05 20:02:29 公開日:2024-03-02
# RL-VLM-F:ビジョン言語モデルからの強化学習

RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback ( http://arxiv.org/abs/2402.03681v3 )

ライセンス: Link先を確認
Yufei Wang, Zhanyi Sun, Jesse Zhang, Zhou Xian, Erdem Biyik, David Held, Zackory Erickson(参考訳) 報酬工学は強化学習(rl)研究において長年の課題であり、効果的な報酬機能を設計するには、人間の努力と試行錯誤の反復プロセスがしばしば必要となる。 本稿では,視覚言語基礎モデル(VLM)からのフィードバックを利用して,タスク目標のテキスト記述とエージェントの視覚観察のみを用いて,エージェントが新しいタスクを学習するための報酬関数を自動的に生成する手法であるRL-VLM-Fを提案する。 提案手法の鍵となるのは,タスクゴールのテキスト記述に基づいて,エージェントのイメージ観察のペアよりも好みを与えるためにこれらのモデルをクエリし,そのモデルに生の報酬スコアを出力させるのではなく,好みラベルから報酬関数を学習することである。 我々は、RL-VLM-Fが、古典的な制御を含む様々な領域にまたがる効果的な報酬とポリシー、および、厳密で明瞭で変形可能な物体の操作を、人間の監督なしに実現できることを実証した。 ビデオはプロジェクトのwebサイトにある。 https://rlvlmf2024.github.io/

Reward engineering has long been a challenge in Reinforcement Learning (RL) research, as it often requires extensive human effort and iterative processes of trial-and-error to design effective reward functions. In this paper, we propose RL-VLM-F, a method that automatically generates reward functions for agents to learn new tasks, using only a text description of the task goal and the agent's visual observations, by leveraging feedbacks from vision language foundation models (VLMs). The key to our approach is to query these models to give preferences over pairs of the agent's image observations based on the text description of the task goal, and then learn a reward function from the preference labels, rather than directly prompting these models to output a raw reward score, which can be noisy and inconsistent. We demonstrate that RL-VLM-F successfully produces effective rewards and policies across various domains - including classic control, as well as manipulation of rigid, articulated, and deformable objects - without the need for human supervision, outperforming prior methods that use large pretrained models for reward generation under the same assumptions. Videos can be found on our project website: https://rlvlmf2024.github.io/
翻訳日:2024-03-05 19:56:30 公開日:2024-03-02
# SGS-SLAM: 感性ガウススプラッティングによるニューラルセンスSLAM

SGS-SLAM: Semantic Gaussian Splatting For Neural Dense SLAM ( http://arxiv.org/abs/2402.03246v3 )

ライセンス: Link先を確認
Mingrui Li, Shuhong Liu, Heng Zhou, Guohao Zhu, Na Cheng, Hongyu Wang(参考訳) 意味的理解は、Dense Simultaneous Localization and Mapping (SLAM)において重要な役割を果たす。 SLAMシステムにガウススプラッティングを組み込んだ最近の進歩は、高品質なレンダリングを実現する上での有効性を実証している。 本研究では, 高精度な3次元セマンティックセグメンテーションと高忠実度再構成を実現するSGS-SLAMを提案する。 具体的には,多チャンネル最適化をマッピングプロセスに導入し,外観,幾何学的,意味的制約をキーフレーム最適化と統合し,コンストラクション品質を向上させることを提案する。 SGS-SLAMは、カメラポーズ推定、マップ再構成、セマンティックセグメンテーションにおいて最先端のパフォーマンスを提供する。 これは、リアルタイムレンダリング能力を維持する一方で、既存のメソッドを大きなマージンで上回っている。

Semantic understanding plays a crucial role in Dense Simultaneous Localization and Mapping (SLAM). Recent advancements that integrate Gaussian Splatting into SLAM systems have demonstrated its effectiveness in generating high-quality renderings. Building on this progress, we propose SGS-SLAM which provides precise 3D semantic segmentation alongside high-fidelity reconstructions. Specifically, we propose to employ multi-channel optimization during the mapping process, integrating appearance, geometric, and semantic constraints with key-frame optimization to enhance reconstruction quality. Extensive experiments demonstrate that SGS-SLAM delivers state-of-the-art performance in camera pose estimation, map reconstruction, and semantic segmentation. It outperforms existing methods by a large margin meanwhile preserving real-time rendering ability.
翻訳日:2024-03-05 19:56:05 公開日:2024-03-02
# セグメンテーションとパースのための真の統合ニューラルアーキテクチャ

A Truly Joint Neural Architecture for Segmentation and Parsing ( http://arxiv.org/abs/2402.02564v2 )

ライセンス: Link先を確認
Danit Yshaayahu Levi and Reut Tsarfaty(参考訳) 現代の多言語依存構文解析器は多様な言語を解析できるが、形態学的にリッチな言語(mrls)の場合、性能は他の言語よりも低いことが証明される。 鍵となる課題は、空間制限された入力トークンの形態的複雑さと曖昧さのため、ツリーのノードとして機能する言語単位が事前に分かっていないことである。 MRLに対する前神経依存性パーサは, 形態的セグメンテーションと構文解析は, セグメンテーションが解析に先行するパイプラインとしてではなく, 共同で解決されるべきである。 しかし、これまでの最先端のニューラルパーサーは厳格なパイプラインを使用する。 本稿では,入力のすべての形態的あいまいさを保存した格子ベースの表現をarc-factoredモデルに提供し,形態的セグメンテーションと構文解析タスクを一度に解くジョイントニューラルアーキテクチャを提案する。 リッチで高度にあいまいなmrlであるヘブライの実験では、単一のモデルを用いて、udのヘブライ語のセクションのパース、タグ付け、セグメンテーションにおける最先端のパフォーマンスを示す。 提案アーキテクチャはLLMベースで言語に依存しないため,MRLがさらなるパフォーマンス向上と,他の言語とのギャップを埋めるための基盤となる。

Contemporary multilingual dependency parsers can parse a diverse set of languages, but for Morphologically Rich Languages (MRLs), performance is attested to be lower than other languages. The key challenge is that, due to high morphological complexity and ambiguity of the space-delimited input tokens, the linguistic units that act as nodes in the tree are not known in advance. Pre-neural dependency parsers for MRLs subscribed to the joint morpho-syntactic hypothesis, stating that morphological segmentation and syntactic parsing should be solved jointly, rather than as a pipeline where segmentation precedes parsing. However, neural state-of-the-art parsers to date use a strict pipeline. In this paper we introduce a joint neural architecture where a lattice-based representation preserving all morphological ambiguity of the input is provided to an arc-factored model, which then solves the morphological segmentation and syntactic parsing tasks at once. Our experiments on Hebrew, a rich and highly ambiguous MRL, demonstrate state-of-the-art performance on parsing, tagging and segmentation of the Hebrew section of UD, using a single model. This proposed architecture is LLM-based and language agnostic, providing a solid foundation for MRLs to obtain further performance improvements and bridge the gap with other languages.
翻訳日:2024-03-05 19:55:51 公開日:2024-03-02
# グラフによる少しのショットラーニング:メタラーニングから事前学習とプロンプト

Few-Shot Learning on Graphs: from Meta-learning to Pre-training and Prompting ( http://arxiv.org/abs/2402.01440v3 )

ライセンス: Link先を確認
Xingtong Yu, Yuan Fang, Zemin Liu, Yuxia Wu, Zhihao Wen, Jianyuan Bo, Xinming Zhang and Steven C.H. Hoi(参考訳) グラフ中心のタスクにおける重要なステップであるグラフ表現学習は、大きな進歩を遂げている。 従来の手法はエンドツーエンドで動作し、性能は豊富なラベル付きデータの可用性に大きく依存する。 この制約により、グラフ上の数発の学習が出現し、各タスクで利用可能なタスク固有のラベルはわずかである。 この分野での広範な文献を踏まえ、この調査は、最近の発展を総合し、比較洞察を提供し、将来の方向性を特定するための努力である。 我々は,既存の研究を,メタラーニングアプローチ,事前学習アプローチ,ハイブリッドアプローチの3つの主要なファミリーに体系的に分類し,各ファミリーの詳細な分類を行い,読者の方法選択プロセスを支援する。 各カテゴリにおいて,これらの手法間の関係を分析し,その強度と限界を比較する。 最後に,この分野におけるイノベーションの継続を触媒するグラフ上での,少数ショット学習の今後の方向性について概説する。

Graph representation learning, a critical step in graph-centric tasks, has seen significant advancements. Earlier techniques often operate in an end-to-end setting, where performance heavily relies on the availability of ample labeled data. This constraint has spurred the emergence of few-shot learning on graphs, where only a few task-specific labels are available for each task. Given the extensive literature in this field, this survey endeavors to synthesize recent developments, provide comparative insights, and identify future directions. We systematically categorize existing studies into three major families: meta-learning approaches, pre-training approaches, and hybrid approaches, with a finer-grained classification in each family to aid readers in their method selection process. Within each category, we analyze the relationships among these methods and compare their strengths and limitations. Finally, we outline prospective future directions for few-shot learning on graphs to catalyze continued innovation in this field.
翻訳日:2024-03-05 19:55:25 公開日:2024-03-02
# 単一ファイバー中の量子信号と古典信号の共存による大域的絡み合い分布

Metropolitan-scale Entanglement Distribution with Co-existing Quantum and Classical Signals in a single fiber ( http://arxiv.org/abs/2402.00617v2 )

ライセンス: Link先を確認
A. Rahmouni, P. S. Kuo, Y.S. Li-Baboud, I. A. Burenkov, Y. Shi, M. V. Jabir, N. Lal, D. Reddy, M. Merzouki, L. Ma, A. Battou, S. V. Polyakov, O. Slattery, T. Gerrits(参考訳) プロトタイプのメトロポリタンスケール量子ネットワークの開発は進行中であり、数十kmに及ぶ展開された光ファイバを通して単一光子を介して量子情報を送信することを含む。 大都市圏の量子ネットワークを構築する上での大きな課題は、分極モード分散の補償、高精度クロック同期、累積伝送時間変動の補償である。 これらの課題に対処する1つのアプローチは、古典的なプローブ信号を量子信号と同じファイバーに共役させることである。 したがって、両方の信号は同じ条件を経験し、繊維の変化をモニターして補償することができる。 そこで本研究では,白ウサギ精密時間プロトコル (wr-ptp) と共伝播する偏光絡み量子信号の分布を,同一単一コア繊維線において大域距離で示す。 以上の結果から,100kmの光ファイバで分離したノード間の高忠実度絡み合い分布を実現することで,この量子古典的共存の実現可能性を示す。 この進歩は、堅牢で効率的なメトロポリタンスケール量子ネットワークの実現に向けた重要な一歩である。

The development of prototype metropolitan-scale quantum networks is underway and entails transmitting quantum information via single photons through deployed optical fibers spanning several tens of kilometers. The major challenges in building metropolitan-scale quantum networks are compensation of polarization mode dispersion, high-precision clock synchronization, and compensation for cumulative transmission time fluctuations. One approach addressing these challenges is to co-propagate classical probe signals in the same fiber as the quantum signal. Thus, both signals experience the same conditions, and the changes of the fiber can therefore be monitored and compensated. Here, we demonstrate the distribution of polarization entangled quantum signals co-propagating with the White Rabbit Precision Time Protocol (WR-PTP) classical signals in the same single-core fiber strand at metropolitan-scale distances. Our results demonstrate the feasibility of this quantum-classical coexistence by achieving high-fidelity entanglement distribution between nodes separated by 100 km of optical fiber. This advancement is a significant step towards the practical implementation of robust and efficient metropolitan-scale quantum networks.
翻訳日:2024-03-05 19:54:41 公開日:2024-03-02
# コアセット選択のための深い特徴の寄与次元構造

Contributing Dimension Structure of Deep Feature for Coreset Selection ( http://arxiv.org/abs/2401.16193v2 )

ライセンス: Link先を確認
Zhijing Wan, Zhixiang Wang, Yuran Wang, Zheng Wang, Hongyuan Zhu, Shin'ichi Satoh(参考訳) Coreset selectionは、効率的な学習のための重要なトレーニングサンプルのサブセットを選択することを目指している。 ディープラーニングでは、特にトレーニングデータセットサイズの増加によって、注目を集めている。 サンプルの選択は、パフォーマンス向上におけるサンプルの表現と、オーバーフィッティング回避におけるサンプルの多様性の役割である。 既存の手法は通常、L2-ノルムのような類似度指標に基づいてデータの表現と多様性を計測する。 それらは、特徴、勾配、あるいはデータ間の他の情報の類似性によって導かれる分布マッチングを通じて、表現に取り組むことができる。 しかし, 有効多種多様な試料選択の結果は準最適に反映される。 これは、通常、類似度メトリクスは、最終類似度に大きく寄与する次元間の差を認めずに、単に集合次元の類似度を集約するからである。 その結果、多様性を適切にとらえることができない。 そこで本稿では,特徴に基づく多様性制約を提案し,選択したサブセットが最大多様性を示すように促す。 私たちの鍵は、新しい寄与次元構造(cds)メトリックの導入にあります。 高次元特徴の全体的な類似度を測定する類似度指標と異なり、cds計量は特徴次元における冗長性の低減だけでなく、最終類似度に大きく寄与する次元間の差も考慮している。 既存の手法では,CDSに類似したサンプルが好まれる傾向にあり,コアセット内のCDSタイプが減少し,モデル性能が低下する傾向にある。 これに対して,CDS制約を統合することにより,5種類の古典的選択手法の性能を向上させる。 3つのデータセットに対する実験により,提案手法の有効性を実証した。

Coreset selection seeks to choose a subset of crucial training samples for efficient learning. It has gained traction in deep learning, particularly with the surge in training dataset sizes. Sample selection hinges on two main aspects: a sample's representation in enhancing performance and the role of sample diversity in averting overfitting. Existing methods typically measure both the representation and diversity of data based on similarity metrics, such as L2-norm. They have capably tackled representation via distribution matching guided by the similarities of features, gradients, or other information between data. However, the results of effectively diverse sample selection are mired in sub-optimality. This is because the similarity metrics usually simply aggregate dimension similarities without acknowledging disparities among the dimensions that significantly contribute to the final similarity. As a result, they fall short of adequately capturing diversity. To address this, we propose a feature-based diversity constraint, compelling the chosen subset to exhibit maximum diversity. Our key lies in the introduction of a novel Contributing Dimension Structure (CDS) metric. Different from similarity metrics that measure the overall similarity of high-dimensional features, our CDS metric considers not only the reduction of redundancy in feature dimensions, but also the difference between dimensions that contribute significantly to the final similarity. We reveal that existing methods tend to favor samples with similar CDS, leading to a reduced variety of CDS types within the coreset and subsequently hindering model performance. In response, we enhance the performance of five classical selection methods by integrating the CDS constraint. Our experiments on three datasets demonstrate the general effectiveness of the proposed method in boosting existing methods.
翻訳日:2024-03-05 19:54:24 公開日:2024-03-02
# Open-RadVLAD:高速かつロバストなレーダー位置認識

Open-RadVLAD: Fast and Robust Radar Place Recognition ( http://arxiv.org/abs/2401.15380v2 )

ライセンス: Link先を確認
Matthew Gadd, Paul Newman(参考訳) レーダー位置認識は、しばしばライブスキャンをベクトルとして符号化し、車両が以前訪れた場所にあることを認識するために、このベクトルをデータベースにマッチさせる。 レーダーは本質的に照明や気象条件に頑健であるが、このセンサーによる位置認識は、(1)視点の変化、すなわち翻訳と回転、(2)センサアーティファクトや「ノイズ」に影響されている。 360度スキャニングレーダの場合、回転は何らかの方法で方位を集約することで容易に処理される。 また、本研究では、特に道路を繰り返すときに主に車両が同じ車線をたどる都市運転において、翻訳的不変性を扱うよりも、表現とセンサノイズの豊かさを扱うことがより重要であると論じている。 計算効率の面では極性表現のみを用いる。 信号雑音に対する部分的変換不変性とロバスト性のためには、ラジアルリターンに沿って1次元フーリエ変換のみを用いる。 また,局所集計ディスクリプタのベクトルを構築することにより,回転不変性と非常に識別的なディスクリプタ空間を実現する。 我々の手法は、オックスフォード・レーダー・ロボットカー・データセット(約10km)の870対の軌道を網羅的に組み合わせて、従来の全てのレーダー位置認識作業よりも包括的にテストされている。 コードと詳細な結果はgithub.com/mttgdd/open-radvladで提供されている。 Recall@1 では 91.52% の中央値を実現し、他のオープン実装である RaPlace の69.55% を上回り、計算コストのごく一部(例えば Radon, Fourier, inverse Fourier など)を上回ります。

Radar place recognition often involves encoding a live scan as a vector and matching this vector to a database in order to recognise that the vehicle is in a location that it has visited before. Radar is inherently robust to lighting or weather conditions, but place recognition with this sensor is still affected by: (1) viewpoint variation, i.e. translation and rotation, (2) sensor artefacts or "noises". For 360-degree scanning radar, rotation is readily dealt with by in some way aggregating across azimuths. Also, we argue in this work that it is more critical to deal with the richness of representation and sensor noises than it is to deal with translational invariance - particularly in urban driving where vehicles predominantly follow the same lane when repeating a route. In our method, for computational efficiency, we use only the polar representation. For partial translation invariance and robustness to signal noise, we use only a one-dimensional Fourier Transform along radial returns. We also achieve rotational invariance and a very discriminative descriptor space by building a vector of locally aggregated descriptors. Our method is more comprehensively tested than all prior radar place recognition work - over an exhaustive combination of all 870 pairs of trajectories from 30 Oxford Radar RobotCar Dataset sequences (each approximately 10 km). Code and detailed results are provided at github.com/mttgdd/open-radvlad, as an open implementation and benchmark for future work in this area. We achieve a median of 91.52% in Recall@1, outstripping the 69.55% for the only other open implementation, RaPlace, and at a fraction of its computational cost (relying on fewer integral transforms e.g. Radon, Fourier, and inverse Fourier).
翻訳日:2024-03-05 19:54:02 公開日:2024-03-02
# 自己承認型技術的負債はセキュリティに何をもたらすのか? 混合手法の研究

What Can Self-Admitted Technical Debt Tell Us About Security? A Mixed-Methods Study ( http://arxiv.org/abs/2401.12768v3 )

ライセンス: Link先を確認
Nicol\'as E. D\'iaz Ferreyra, Mojtaba Shahin, Mansooreh Zahedi, Sodiq Quadri and Ricardo Scandariato(参考訳) SATD(Self-Admitted Technical Debt)は、ソフトウェアアーチファクト(例えば、コードコメントやコミットメッセージ)で報告される様々なサブ最適化設計と実装の選択を含む。 このような報告は、過去数十年間、ソフトウェアのメンテナンスと進化の研究の中心だった。 しかし、それらは潜在的に悪用可能な脆弱性やセキュリティ上の欠陥に関する恐ろしい情報源と見なすこともできる。 この研究は、技術と開発者中心の観点からsatdのセキュリティへの影響を調査します。 オープンソースソフトウェア(oss)のプロジェクトやリポジトリの脆弱性を特徴付けるために、satソース内で公開されているセキュリティポインタが使用できるかどうかを分析する。 一方で、このプラクティスの背景にあるモチベーション、その頻度、潜在的なネガティブな結果について、開発者の視点を掘り下げている。 我々は混合メソドのアプローチに従った。 i) 8,812個のSATDインスタンスを含む既存のデータセットの解析 (ii)OSS実践者222名によるオンライン調査。 データセット分析を通じて201のSATDインスタンスを収集し、それらをさまざまなCommon Weakness Enumeration(CWE)識別子にマッピングしました。 全体として、コミットメッセージ、プルリクエスト、コードコメント、イシューセクションで25種類のCWEが発見され、そのうち8つがMITREの最も危険なもののトップ25に含まれている。 この調査では、ソフトウェア実践者がsatの成果物にセキュリティポインタを配置することで、仲間間のセキュリティ文化を促進し、脆弱なコードセクションを見つけるのに役立つことが示されている。 しかし、脆弱性のエクスプロイトを促進する可能性があるため、そのようなプラクティスもリスクがあると考えている。 本研究は,SATDアーティファクトに散在するセキュリティポインタのコンテキスト整合性を維持することが,ゼロデイ攻撃に対する商用およびOSSソリューションの保護に重要であることを示唆している。

Self-Admitted Technical Debt (SATD) encompasses a wide array of sub-optimal design and implementation choices reported in software artefacts (e.g., code comments and commit messages) by developers themselves. Such reports have been central to the study of software maintenance and evolution over the last decades. However, they can also be deemed as dreadful sources of information on potentially exploitable vulnerabilities and security flaws. This work investigates the security implications of SATD from a technical and developer-centred perspective. On the one hand, it analyses whether security pointers disclosed inside SATD sources can be used to characterise vulnerabilities in Open-Source Software (OSS) projects and repositories. On the other hand, it delves into developers' perspectives regarding the motivations behind this practice, its prevalence, and its potential negative consequences. We followed a mixed-methods approach consisting of (i) the analysis of a preexisting dataset containing 8,812 SATD instances and (ii) an online survey with 222 OSS practitioners. We gathered 201 SATD instances through the dataset analysis and mapped them to different Common Weakness Enumeration (CWE) identifiers. Overall, 25 different types of CWEs were spotted across commit messages, pull requests, code comments, and issue sections, from which 8 appear among MITRE's Top-25 most dangerous ones. The survey shows that software practitioners often place security pointers across SATD artefacts to promote a security culture among their peers and help them spot flaky code sections, among other motives. However, they also consider such a practice risky as it may facilitate vulnerability exploits. Our findings suggest that preserving the contextual integrity of security pointers disseminated across SATD artefacts is critical to safeguard both commercial and OSS solutions against zero-day attacks.
翻訳日:2024-03-05 19:52:54 公開日:2024-03-02
# Schr\\odinger型量子シミュレーションのロッシー圧縮

Lossy Compression for Schr\"odinger-style Quantum Simulations ( http://arxiv.org/abs/2401.11088v3 )

ライセンス: Link先を確認
Noah Huffman, Dmitri Pavlichin, and Tsachy Weissman(参考訳) 古典的ハードウェア上での量子回路のシミュレーションは、量子アルゴリズムとハードウェアの開発とテスト、およびノイズ中間量子(NISQ)システムにおける量子超越性(quantum supremacy)の主張を評価するための強力で必要なツールである。 Schr\\odingerスタイルのシミュレーションは、保存する必要がある状態振幅の指数関数的な増加によって制限される。 本研究では,量子回路をシミュレートするビット数を削減するために,スカラーとベクトル量子化を損失圧縮スキームとしてschr\"odingerスタイルの量子回路シミュレーションに適用する。 量子化を用いることで、量子フーリエ変換をシミュレートする際のシミュレーションフィデリティ$>0.99$を維持し、浮動小数点数において7ビットのみを使用して各振幅の実数成分と虚数成分を特徴づける。 さらに、ベクトル量子化を用いて、所望のフィリティを達成する回路のシミュレーションにおいて状態ベクトルを格納するのに必要なビット数/振幅を束縛する手法を提案し、量子フーリエ変換の6キュービットシミュレーションの場合、15ビット/振幅はフィリティを10^4$で0.9$に維持するのに十分であることを示す。

Simulating quantum circuits on classical hardware is a powerful and necessary tool for developing and testing quantum algorithms and hardware as well as evaluating claims of quantum supremacy in the Noisy Intermediate-Scale Quantum (NISQ) regime. Schr\"odinger-style simulations are limited by the exponential growth of the number of state amplitudes which need to be stored. In this work, we apply scalar and vector quantization to Schr\"odinger-style quantum circuit simulations as lossy compression schemes to reduce the number of bits needed to simulate quantum circuits. Using quantization, we can maintain simulation fidelities $>0.99$ when simulating the Quantum Fourier Transform, while using only 7 significand bits in a floating-point number to characterize the real and imaginary components of each amplitude. Furthermore, using vector quantization, we propose a method to bound the number of bits/amplitude needed to store state vectors in a simulation of a circuit that achieves a desired fidelity, and show that for a 6 qubit simulation of the Quantum Fourier Transform, 15 bits/amplitude is sufficient to maintain fidelity $>0.9$ at $10^4$ depth.
翻訳日:2024-03-05 19:52:26 公開日:2024-03-02
# 粗粒核融合によるrgb赤外物体検出の改善と除去

Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion ( http://arxiv.org/abs/2401.10731v3 )

ライセンス: Link先を確認
Tianyi Zhao, Maoxun Yuan, Xingxing Wei(参考訳) 近年,可視光(RGB)と赤外線(IR)画像の物体検出が広く行われている。 オブジェクト検出器は、RGBとIR画像の補完特性を活用して、昼夜の信頼性と堅牢な物体位置決めを提供する。 既存の融合戦略は、RGBとIR画像を畳み込みニューラルネットワークに直接注入し、検出性能が劣る。 RGB と IR の特徴はモーダリティ特有のノイズを持っているため、これらの戦略は伝搬とともに融合した特徴を悪化させる。 人間の脳がマルチモーダル情報を処理するメカニズムに触発され、この研究は2つのモダリティの特徴を精製し融合するための新しい粗い視点を導入する。 具体的には,各モダリティ内の干渉情報を粗末に除去する冗長スペクトル除去モジュールと,特徴融合に必要な特徴を微細に選択する動的特徴選択モジュールを設計した。 粗大な核融合戦略の有効性を検証するため,除去・選択検出器 (RSDet) と呼ばれる新しい物体検出器を構築した。 3つのRGB-IRオブジェクト検出データセットの大規模な実験により,本手法の優れた性能が検証された。

Object detection in visible (RGB) and infrared (IR) images has been widely applied in recent years. Leveraging the complementary characteristics of RGB and IR images, the object detector provides reliable and robust object localization from day to night. Existing fusion strategies directly inject RGB and IR images into convolution neural networks, leading to inferior detection performance. Since the RGB and IR features have modality-specific noise, these strategies will worsen the fused features along with the propagation. Inspired by the mechanism of human brain processing multimodal information, this work introduces a new coarse-to-fine perspective to purify and fuse two modality features. Specifically, following this perspective, we design a Redundant Spectrum Removal module to coarsely remove interfering information within each modality and a Dynamic Feature Selection module to finely select the desired features for feature fusion. To verify the effectiveness of the coarse-to-fine fusion strategy, we construct a new object detector called Removal and Selection Detector (RSDet). Extensive experiments on three RGB-IR object detection datasets verify the superior performance of our method.
翻訳日:2024-03-05 19:52:00 公開日:2024-03-02
# AutoChunk: メモリ効率の良いロングシーケンス推論のための自動アクティベーションチャンク

AutoChunk: Automated Activation Chunk for Memory-Efficient Long Sequence Inference ( http://arxiv.org/abs/2401.10652v2 )

ライセンス: Link先を確認
Xuanlei Zhao, Shenggan Cheng, Guangyang Lu, Jiarui Fang, Haotian Zhou, Bin Jia, Ziming Liu, Yang You(参考訳) 大規模なディープラーニングモデルは、さまざまなアプリケーションで素晴らしいパフォーマンスを達成しています。 しかしながら、パラメータメモリやアクティベーションメモリなどの大きなメモリ要件は、実用的なサービスにとって大きな課題となっている。 既存の手法は主にパラメータメモリを扱うが、アクティベーションメモリの重要性は見過ごされている。 特に長い入力シーケンスでは、アクティベーションメモリはシーケンス長が増加するにつれて指数関数的に増加することが期待されている。 本手法では,チャンク戦略による長いシーケンス推論の活性化メモリを効率的に削減する自動適応型コンパイラシステムautochunkを提案する。 提案システムは,複数段階の最適化によりチャンクプランを生成する。 各段階で、チャンク検索パスは可能なチャンク候補をすべて探索し、チャンク選択パスは最適なチャンクを識別する。 実行時にAutoChunkはコード生成を使用してチャンク戦略を自動的に適用する。 実験の結果、AutoChunkは10%以内の速度損失を維持しながら80%以上のアクティベーションメモリを削減し、最大シーケンス長を3.2倍から11.7倍に拡張し、最先端の手法よりも大きなマージンで性能を向上できることが示された。

Large deep learning models have achieved impressive performance across a range of applications. However, their large memory requirements, including parameter memory and activation memory, have become a significant challenge for their practical serving. While existing methods mainly address parameter memory, the importance of activation memory has been overlooked. Especially for long input sequences, activation memory is expected to experience a significant exponential growth as the length of sequences increases. In this approach, we propose AutoChunk, an automatic and adaptive compiler system that efficiently reduces activation memory for long sequence inference by chunk strategies. The proposed system generates chunk plans by optimizing through multiple stages. In each stage, the chunk search pass explores all possible chunk candidates and the chunk selection pass identifies the optimal one. At runtime, AutoChunk employs code generation to automatically apply chunk strategies. The experiments demonstrate that AutoChunk can reduce over 80\% of activation memory while maintaining speed loss within 10%, extend max sequence length by 3.2x to 11.7x, and outperform state-of-the-art methods by a large margin.
翻訳日:2024-03-05 19:51:09 公開日:2024-03-02
# 治療効果推定のための二重ロバスト学習の構造依存的最適性

Structure-agnostic Optimality of Doubly Robust Learning for Treatment Effect Estimation ( http://arxiv.org/abs/2402.14264v2 )

ライセンス: Link先を確認
Jikai Jin and Vasilis Syrgkanis(参考訳) 平均処理効果推定は因果推論において最も中心的な問題であり、多くの分野に適用できる。 多くの推定戦略が文献で提案されているが、これらの方法の統計的最適性は、特にパラメトリック率を達成していない状況において、まだ調査の対象となっている。 本稿では,最近導入された統計下限の構造非依存な枠組みを採用し,統計的な推定率を達成するブラックボックス推定子へのアクセス以外に,ニュアサンス関数の構造的特性をもたらさない。 この枠組みは、非パラメトリック回帰と分類オラクルをブラックボックスのサブプロセスとして利用する推定戦略のみを考えると特に魅力的である。 この枠組みでは, 平均治療効果 (ate) と治療効果 (att) に対する平均治療効果, および政策評価において生じる重み付けされた前者に対する重み付け型の両方に対して, 祝われ, 広く使用される二重ロバストな推定器の統計的最適性を証明する。

Average treatment effect estimation is the most central problem in causal inference with application to numerous disciplines. While many estimation strategies have been proposed in the literature, the statistical optimality of these methods has still remained an open area of investigation, especially in regimes where these methods do not achieve parametric rates. In this paper, we adopt the recently introduced structure-agnostic framework of statistical lower bounds, which poses no structural properties on the nuisance functions other than access to black-box estimators that achieve some statistical estimation rate. This framework is particularly appealing when one is only willing to consider estimation strategies that use non-parametric regression and classification oracles as black-box sub-processes. Within this framework, we prove the statistical optimality of the celebrated and widely used doubly robust estimators for both the Average Treatment Effect (ATE) and the Average Treatment Effect on the Treated (ATT), as well as weighted variants of the former, which arise in policy evaluation.
翻訳日:2024-03-05 19:46:18 公開日:2024-03-02
# sdxl-lightning:プログレッシブ・アドバーサリー拡散蒸留

SDXL-Lightning: Progressive Adversarial Diffusion Distillation ( http://arxiv.org/abs/2402.13929v3 )

ライセンス: Link先を確認
Shanchuan Lin, Anran Wang, Xiao Yang(参考訳) SDXLに基づく1ステップ/2ステップ1024pxのテキスト・トゥ・イメージ生成において新しい最先端を実現する拡散蒸留法を提案する。 本手法は, プログレッシブ蒸留と逆蒸留を組み合わせることで, 品質とモードカバレッジのバランスを図る。 本稿では, 理論的解析, 識別器設計, モデル定式化, 訓練技術について論じる。 蒸留したSDXL-LightningモデルをLoRAおよびフルUNet重みとしてオープンソース化した。

We propose a diffusion distillation method that achieves new state-of-the-art in one-step/few-step 1024px text-to-image generation based on SDXL. Our method combines progressive and adversarial distillation to achieve a balance between quality and mode coverage. In this paper, we discuss the theoretical analysis, discriminator design, model formulation, and training techniques. We open-source our distilled SDXL-Lightning models both as LoRA and full UNet weights.
翻訳日:2024-03-05 19:46:00 公開日:2024-03-02
# ミンコフスキー時空のコーシー曲面上の量子粒子局在観測器とその因果特性

Quantum particle localization observables on Cauchy surfaces of Minkowski spacetime and their causal properties ( http://arxiv.org/abs/2402.13894v3 )

ライセンス: Link先を確認
Carmine De Rosa, Valter Moretti(参考訳) ミンコフスキー時空における量子系の空間様滑らかなコーシー曲面上の空間局在の一般概念を紹介・研究する。 この概念は正規化された povm のコヒーレント族(英語版)(coherent family)という用語で構成される。 このタイプのPOVMの族が自動的にカスティーリャーノ曲面を一般化する因果条件を満たすことを証明し、平坦な空間のようなコーシー曲面に制限するときにそれを暗示する。 その結果、ヘーゲルフェルトの定理との矛盾は生じない。 さらに、これらのPOVMの族がクライン=ゴルドン粒子に対して存在することを証明している。 これらは正定核から構成されるか、あるいは応力エネルギーテンソル作用素の項で定義される。 これらの構造のさらなる特徴、特にニュートン・ウィグナー自己随伴作用素の三重項と他のミンコフスキー参照フレームの3$-空間におけるハイゼンベルク不等式の修正形式との関係について検討する。

We introduce and study a general notion of spatial localization on spacelike smooth Cauchy surfaces of quantum systems in Minkowski spacetime. The notion is constructed in terms of a coherent family of normalized POVMs, one for each said Cauchy surface. We prove that a family of POVMs of this type automatically satisfies a causality condition which generalizes Castrigiano's one and implies it when restricting to flat spacelike Cauchy surfaces. As a consequence no conflict with Hegerfeldt's theorem arises. We furthermore prove that such families of POVMs do exist for massive Klein-Gordon particles, since some of them are extensions of already known spatial localization observables. These are constructed out of positive definite kernels or are defined in terms of the stress-energy tensor operator. Some further features of these structures are investigated, in particular, the relation with the triple of Newton-Wigner selfadjoint operators and a modified form of Heisenberg inequality in the rest $3$-spaces of Minkowski reference frames
翻訳日:2024-03-05 19:45:52 公開日:2024-03-02
# Neural Diffuser:一次視像誘導拡散を用いた制御可能なfMRI再構成

NeuralDiffuser: Controllable fMRI Reconstruction with Primary Visual Feature Guided Diffusion ( http://arxiv.org/abs/2402.13809v2 )

ライセンス: Link先を確認
Haoyu Li, Hao Wu, Badong Chen(参考訳) 潜在拡散モデル(LDM)に基づく機能的磁気共鳴イメージング(fMRI)による視覚刺激の再構成は、脳のきめ細かい検索を可能にする。 課題は、詳細(構造、背景、テクスチャ、色など)の凝集的なアラインメントを再構築することにある。 さらに、LDMは同じ条件下でも異なる画像結果を生成する。 そこで我々はまず,大量の画像から事前学習した知識に基づいてトップダウン生成を行うLCMベースの手法の神経科学的視点を明らかにする。 本稿では,LDMに基づく手法のボトムアッププロセスを拡張し,忠実なセマンティクスと詳細を実現するための視覚的特徴ガイダンスを提案する。 また, 様々な結果よりも, 繰り返し再現の一貫性を確保するための新しい指導戦略を開発した。 我々は,Nano Senses Dataset (NSD) におけるNeuralDiffuserの最先端性能を取得し,より忠実な詳細と一貫した結果を提供する。

Reconstructing visual stimuli from functional Magnetic Resonance Imaging (fMRI) based on Latent Diffusion Models (LDM) provides a fine-grained retrieval of the brain. A challenge persists in reconstructing a cohesive alignment of details (such as structure, background, texture, color, etc.). Moreover, LDMs would generate different image results even under the same conditions. For these, we first uncover the neuroscientific perspective of LDM-based methods that is top-down creation based on pre-trained knowledge from massive images but lack of detail-driven bottom-up perception resulting in unfaithful details. We propose NeuralDiffuser which introduces primary visual feature guidance to provide detail cues in the form of gradients, extending the bottom-up process for LDM-based methods to achieve faithful semantics and details. We also developed a novel guidance strategy to ensure the consistency of repeated reconstructions rather than a variety of results. We obtain the state-of-the-art performance of NeuralDiffuser on the Natural Senses Dataset (NSD), which offers more faithful details and consistent results.
翻訳日:2024-03-05 19:45:34 公開日:2024-03-02
# MRI再建術を施行したNeRF Solvesの1例

NeRF Solves Undersampled MRI Reconstruction ( http://arxiv.org/abs/2402.13226v2 )

ライセンス: Link先を確認
Tae Jun Jang, Chang Min Hyun(参考訳) 本稿では,ニューラル・ラジアンス・フィールド(nerf)の概念を応用した,新しいアンダーサンプリング磁気共鳴イメージング(mri)技術を提案する。 放射アンサンプにより、対応する撮像問題をスパースビューレンダリングデータから画像モデリングタスクに再構成することができ、暗黙のニューラル表現を利用して、アンサンプされたk空間データから高次元MR画像を得ることができる。 空間座標から画像強度を出力するように設計された多層パーセプトロンは、与えられた測定データと所望の画像とのmr物理駆動レンダリング関係を学習する。 高品質な神経表現のための効果的なアンダーサンプリング戦略について検討した。 提案手法は2つの利点をもたらす。 (i)学習は、測定データとターゲット画像セットの束ではなく、単一のアンダーサンプリングされたk空間データに基づいている。 胎児MRIのような診断用MRI画像に応用できる可能性があり、診断用MRI画像の取得は比較的稀か、あるいは臨床画像の多様性に対して制限されている。 二 再構成MR画像は、所定のk空間測定に高度に適応した走査特異的な表現である。 提案手法の有効性と性能を検証した実験が多数ある。

This article presents a novel undersampled magnetic resonance imaging (MRI) technique that leverages the concept of Neural Radiance Field (NeRF). With radial undersampling, the corresponding imaging problem can be reformulated into an image modeling task from sparse-view rendered data; therefore, a high dimensional MR image is obtainable from undersampled k-space data by taking advantage of implicit neural representation. A multi-layer perceptron, which is designed to output an image intensity from a spatial coordinate, learns the MR physics-driven rendering relation between given measurement data and desired image. Effective undersampling strategies for high-quality neural representation are investigated. The proposed method serves two benefits: (i) The learning is based fully on single undersampled k-space data, not a bunch of measured data and target image sets. It can be used potentially for diagnostic MR imaging, such as fetal MRI, where data acquisition is relatively rare or limited against diversity of clinical images while undersampled reconstruction is highly demanded. (ii) A reconstructed MR image is a scan-specific representation highly adaptive to the given k-space measurement. Numerous experiments validate the feasibility and capability of the proposed approach.
翻訳日:2024-03-05 19:45:14 公開日:2024-03-02
# pac-fno:低品質画像認識のための並列構造全成分フーリエニューラルネットワーク

PAC-FNO: Parallel-Structured All-Component Fourier Neural Operators for Recognizing Low-Quality Images ( http://arxiv.org/abs/2402.12721v2 )

ライセンス: Link先を確認
Jinsung Jeon, Hyundong Jin, Jonghyun Choi, Sanghyun Hong, Dongeun Lee, Kookjin Lee, Noseong Park(参考訳) 画像認識モデルを開発する標準的なプラクティスは、特定の画像解像度でモデルをトレーニングし、デプロイすることです。 しかし、実世界の推論では、モデルはしばしば、解像度のトレーニングセットとは異なるイメージや、天候の変化、ノイズタイプ、圧縮アーティファクトといった自然なバリエーションに遭遇する。 従来のソリューションでは、解像度や入力のバリエーションの異なる複数のモデルを訓練するが、これらの手法は計算コストが高く、実際にはスケールしない。 この目的のために,並列構造および全成分フーリエニューラル演算子 (PAC-FNO) を用いた新しいニューラルネットワークモデルを提案する。 従来のフィードフォワードニューラルネットワークとは異なり、PAC-FNOは周波数領域で動作し、単一のモデル内で様々な解像度の画像を処理することができる。 また、元の下流モデルに最小限の修正を加えてPAC-FNOを訓練するための2段階のアルゴリズムを提案する。 さらに、提案したPAC-FNOは既存の画像認識モデルで動作する準備ができている。 7つの画像認識ベンチマークを用いた大規模評価手法により,提案したPAC-FNOは,様々な解像度の画像上での既存のベースラインモデルの性能を77.1%向上し,推論時の画像の様々な種類の自然変化を改善できることを示す。

A standard practice in developing image recognition models is to train a model on a specific image resolution and then deploy it. However, in real-world inference, models often encounter images different from the training sets in resolution and/or subject to natural variations such as weather changes, noise types and compression artifacts. While traditional solutions involve training multiple models for different resolutions or input variations, these methods are computationally expensive and thus do not scale in practice. To this end, we propose a novel neural network model, parallel-structured and all-component Fourier neural operator (PAC-FNO), that addresses the problem. Unlike conventional feed-forward neural networks, PAC-FNO operates in the frequency domain, allowing it to handle images of varying resolutions within a single model. We also propose a two-stage algorithm for training PAC-FNO with a minimal modification to the original, downstream model. Moreover, the proposed PAC-FNO is ready to work with existing image recognition models. Extensively evaluating methods with seven image recognition benchmarks, we show that the proposed PAC-FNO improves the performance of existing baseline models on images with various resolutions by up to 77.1% and various types of natural variations in the images at inference.
翻訳日:2024-03-05 19:44:31 公開日:2024-03-02
# 自己ガイドロバストグラフ構造再構成

Self-Guided Robust Graph Structure Refinement ( http://arxiv.org/abs/2402.11837v2 )

ライセンス: Link先を確認
Yeonjun In, Kanghoon Yoon, Kibum Kim, Kijung Shin, and Chanyoung Park(参考訳) 近年の研究では、GNNは敵の攻撃に弱いことが判明している。 このような攻撃に対して、堅牢なグラフ構造改善(GSR)手法は、ノードの特徴、グラフ構造、外部情報に基づく対角線の影響を最小限に抑えることを目的としている。 しかし,既存のGSR手法は,クリーンノードの特徴の仮定,中程度の構造的攻撃,外部クリーングラフの可用性など,狭義の手法によって制限されていることが判明した。 本稿では,攻撃されたグラフ自体のクリーンな部分グラフを利用する自己誘導型GSRフレームワーク(SG-GSR)を提案する。 さらに、クリーンな部分グラフ抽出における2つの技術的課題に対処する新しいグラフ強化とグループ学習戦略を提案する。 1)構造情報の喪失、及び 2)不均衡なノード次数分布。 非標的攻撃、標的攻撃、フィーチャーアタック、Eコマース詐欺、ノイズの多いノードラベルなど、さまざまなシナリオにおけるSG-GSRの有効性を示す。 私たちのコードはhttps://github.com/yeonjun-in/torch-SG-GSRで公開されています。

Recent studies have revealed that GNNs are vulnerable to adversarial attacks. To defend against such attacks, robust graph structure refinement (GSR) methods aim at minimizing the effect of adversarial edges based on node features, graph structure, or external information. However, we have discovered that existing GSR methods are limited by narrowassumptions, such as assuming clean node features, moderate structural attacks, and the availability of external clean graphs, resulting in the restricted applicability in real-world scenarios. In this paper, we propose a self-guided GSR framework (SG-GSR), which utilizes a clean sub-graph found within the given attacked graph itself. Furthermore, we propose a novel graph augmentation and a group-training strategy to handle the two technical challenges in the clean sub-graph extraction: 1) loss of structural information, and 2) imbalanced node degree distribution. Extensive experiments demonstrate the effectiveness of SG-GSR under various scenarios including non-targeted attacks, targeted attacks, feature attacks, e-commerce fraud, and noisy node labels. Our code is available at https://github.com/yeonjun-in/torch-SG-GSR.
翻訳日:2024-03-05 19:44:10 公開日:2024-03-02
# LLMは何か新しいものを提供するのか?

Word Embeddings Revisited: Do LLMs Offer Something New? ( http://arxiv.org/abs/2402.11094v2 )

ライセンス: Link先を確認
Matthew Freestone and Shubhra Kanti Karmaker Santu(参考訳) 有意義な単語埋め込みを学ぶことは、堅牢な言語モデルをトレーニングするための鍵となる。 最近のLarge Language Models(LLMs)の増加は、多くの新しい単語/文/文書の埋め込みモデルを提供してくれました。 LLM は様々な NLP タスクにおいて顕著な進歩を見せているが、性能改善が単にスケールのためなのか、基礎となる埋め込みが SBERT (Sentence-BERT) や Universal Sentence Encoder (USE) のような古典的なエンコーディングモデルと大きく異なるのかは不明である。 本稿では, 古典的単語埋め込み法とllmに基づく単語埋め込み法を, 潜在ベクトル意味論の観点から比較し, この問題を体系的に検討する。 その結果,llmは古典モデルよりも意味的に関連した単語をクラスタ化する傾向が見られた。 LLMは古典的手法よりも、より高い平均精度をBigger Analogy Test Set (BATS)上で得られる。 最後に、一部のLLMは比較的軽量な古典モデルであるSBERTに似た単語埋め込みを生成する傾向がある。

Learning meaningful word embeddings is key to training a robust language model. The recent rise of Large Language Models (LLMs) has provided us with many new word/sentence/document embedding models. Although LLMs have shown remarkable advancement in various NLP tasks, it is still unclear whether the performance improvement is merely because of scale or whether underlying embeddings they produce significantly differ from classical encoding models like Sentence-BERT (SBERT) or Universal Sentence Encoder (USE). This paper systematically investigates this issue by comparing classical word embedding techniques against LLM-based word embeddings in terms of their latent vector semantics. Our results show that LLMs tend to cluster semantically related words more tightly than classical models. LLMs also yield higher average accuracy on the Bigger Analogy Test Set (BATS) over classical methods. Finally, some LLMs tend to produce word embeddings similar to SBERT, a relatively lighter classical model.
翻訳日:2024-03-05 19:43:51 公開日:2024-03-02
# ゲームにおける再帰的ジョイントシミュレーション

Recursive Joint Simulation in Games ( http://arxiv.org/abs/2402.08128v2 )

ライセンス: Link先を確認
Vojtech Kovarik, Caspar Oesterheld, Vincent Conitzer(参考訳) AIエージェント間のゲーム理論のダイナミクスは、様々な方法で従来の人間と人間の相互作用とは異なる可能性がある。 そのような違いの1つは、例えばソースコードが知られているため、AIエージェントを正確にシミュレートすることができることである。 我々の目標は、この可能性を活用して、戦略的設定においてより協力的な結果を達成する方法を探ることである。 本稿では,エージェントが再帰的関節シミュレーションを行うAIエージェント間の相互作用について検討する。 つまり、エージェントはまず、彼らが直面する状況のシミュレーションを共同で観察する。 このシミュレーションは再帰的に追加のシミュレーション(小さな失敗の確率で、無限の再帰を避ける)を含み、これらのネストされたシミュレーションの結果は、アクションが選択される前に観察される。 得られた相互作用は、元のゲームの無限に繰り返されるバージョンと戦略的に等価であることを示し、様々な民間定理のような既存の結果を直接転送できるようにする。

Game-theoretic dynamics between AI agents could differ from traditional human-human interactions in various ways. One such difference is that it may be possible to accurately simulate an AI agent, for example because its source code is known. Our aim is to explore ways of leveraging this possibility to achieve more cooperative outcomes in strategic settings. In this paper, we study an interaction between AI agents where the agents run a recursive joint simulation. That is, the agents first jointly observe a simulation of the situation they face. This simulation in turn recursively includes additional simulations (with a small chance of failure, to avoid infinite recursion), and the results of all these nested simulations are observed before an action is chosen. We show that the resulting interaction is strategically equivalent to an infinitely repeated version of the original game, allowing a direct transfer of existing results such as the various folk theorems.
翻訳日:2024-03-05 19:42:42 公開日:2024-03-02
# アルゴリズム性能に対する仮定フリーテストの限界

The Limits of Assumption-free Tests for Algorithm Performance ( http://arxiv.org/abs/2402.07388v2 )

ライセンス: Link先を確認
Yuetian Luo and Rina Foygel Barber(参考訳) アルゴリズムの評価と比較は、機械学習と統計学における基本的な問題です -- 特定のモデリングタスクでアルゴリズムはどの程度の性能を持ち、どのアルゴリズムが最適か? アルゴリズムの性能を評価するために多くの手法が開発され、しばしばクロスバリデーション型の戦略に基づいて、データの異なるサブセットに対する関心のアルゴリズムを再訓練し、保持されたデータポイントでそのパフォーマンスを評価する。 このような方法が広く用いられているにもかかわらず、これらの手法の理論的性質はまだ完全には理解されていない。 本研究では,これらの疑問に限られたデータで答える基本的な限界について検討する。 特に、2つの質問を区別する: アルゴリズムが、サイズが$n$のトレーニングセットから学習する問題に対して、アルゴリズムが$a$、サイズが$n$のトレーニングデータセットで$a$を実行して生成された特定の適合モデルがどの程度優れているか? 我々の主な結果は、アルゴリズムの$A$を 'black box'' として扱うテスト(つまり、$A$の振る舞いを経験的にしか研究できない)に対して、利用可能なデータポイントの数が $n$ のサンプルサイズの $n$ よりも何倍も大きい場合を除いて、$A$のパフォーマンスを推論する能力に根本的な制限があることを証明している。 (一方で、特定の適合モデルの性能を評価することは、ホールドアウトデータセットが利用可能である限り簡単であり、つまり、$N-n$が小さすぎる限りである)。 また,アルゴリズム安定性の仮定が,この困難さを回避できるかどうかを問う。 驚くべきことに、これはそうではない:同じ硬さの結果は、収まるモデルが本質的に非ランダムな高安定性な状態を除いても、$A$のパフォーマンスを評価する問題に依然として当てはまる。 最後に、複数のアルゴリズムを比較する問題に対して、同様の硬度結果を確立する。

Algorithm evaluation and comparison are fundamental questions in machine learning and statistics -- how well does an algorithm perform at a given modeling task, and which algorithm performs best? Many methods have been developed to assess algorithm performance, often based around cross-validation type strategies, retraining the algorithm of interest on different subsets of the data and assessing its performance on the held-out data points. Despite the broad use of such procedures, the theoretical properties of these methods are not yet fully understood. In this work, we explore some fundamental limits for answering these questions with limited amounts of data. In particular, we make a distinction between two questions: how good is an algorithm $A$ at the problem of learning from a training set of size $n$, versus, how good is a particular fitted model produced by running $A$ on a particular training data set of size $n$? Our main results prove that, for any test that treats the algorithm $A$ as a ``black box'' (i.e., we can only study the behavior of $A$ empirically), there is a fundamental limit on our ability to carry out inference on the performance of $A$, unless the number of available data points $N$ is many times larger than the sample size $n$ of interest. (On the other hand, evaluating the performance of a particular fitted model is easy as long as a holdout data set is available -- that is, as long as $N-n$ is not too small.) We also ask whether an assumption of algorithmic stability might be sufficient to circumvent this hardness result. Surprisingly, we find that this is not the case: the same hardness result still holds for the problem of evaluating the performance of $A$, aside from a high-stability regime where fitted models are essentially nonrandom. Finally, we also establish similar hardness results for the problem of comparing multiple algorithms.
翻訳日:2024-03-05 19:42:29 公開日:2024-03-02
# 複雑さをナビゲートする:ウィンドウマッチングの拡張によるロスレスグラフ凝縮に向けて

Navigating Complexity: Toward Lossless Graph Condensation via Expanding Window Matching ( http://arxiv.org/abs/2402.05011v2 )

ライセンス: Link先を確認
Yuchen Zhang and Tianle Zhang and Kai Wang and Ziyao Guo and Yuxuan Liang and Xavier Bresson and Wei Jin and Yang You(参考訳) グラフ凝縮は、訓練されたグラフニューラルネットワーク(GNN)のパフォーマンスを犠牲にすることなく、コンパクトなグラフデータセットを合成することで、大規模グラフデータセットのサイズを小さくすることを目的としている。 それでも、既存の手法は、特定のデータセットの元のグラフを正確に複製するに足りず、結果として損失のない凝縮の目的を達成できないことが多い。 この現象を解明するために,本研究では, 既往の最先端軌跡マッチング手法が, 凝縮度を最適化する際に, 元のグラフから偏り, 制限された監視信号を提供することを示す。 これは凝縮グラフのスケールと有効性の両方を著しく制限する。 本稿では,これまで無視されていた監視信号のブリッジを施すことで,textit{lossless graph condensation} に対する最初の試みを行う。 具体的には、カリキュラム学習戦略を用いて、元のグラフからより多様な監視信号で専門家の軌跡を訓練し、その情報をウィンドウマッチングを拡張した凝縮グラフに効果的に転送する。 さらに,専門家の軌跡からさらに知識を抽出するために,損失関数を設計する。 理論的解析は,提案手法の設計を正当化し,その優位性を様々なデータセットで検証する。 コードはhttps://github.com/NUS-HPC-AI-Lab/GEOMで公開されている。

Graph condensation aims to reduce the size of a large-scale graph dataset by synthesizing a compact counterpart without sacrificing the performance of Graph Neural Networks (GNNs) trained on it, which has shed light on reducing the computational cost for training GNNs. Nevertheless, existing methods often fall short of accurately replicating the original graph for certain datasets, thereby failing to achieve the objective of lossless condensation. To understand this phenomenon, we investigate the potential reasons and reveal that the previous state-of-the-art trajectory matching method provides biased and restricted supervision signals from the original graph when optimizing the condensed one. This significantly limits both the scale and efficacy of the condensed graph. In this paper, we make the first attempt toward \textit{lossless graph condensation} by bridging the previously neglected supervision signals. Specifically, we employ a curriculum learning strategy to train expert trajectories with more diverse supervision signals from the original graph, and then effectively transfer the information into the condensed graph with expanding window matching. Moreover, we design a loss function to further extract knowledge from the expert trajectories. Theoretical analysis justifies the design of our method and extensive experiments verify its superiority across different datasets. Code is released at https://github.com/NUS-HPC-AI-Lab/GEOM.
翻訳日:2024-03-05 19:41:22 公開日:2024-03-02
# 人間のシミュラクラ:大規模言語モデルのパーソナライズに向けて

Human Simulacra: A Step toward the Personification of Large Language Models ( http://arxiv.org/abs/2402.18180v2 )

ライセンス: Link先を確認
Qiuejie Xie, Qiming Feng, Tianqi Zhang, Qingqiu Li, Yuejie Zhang, Rui Feng, Shang Gao(参考訳) 大規模言語モデル(LLM)は人間の知性の側面を忠実に模倣するシステムとして認識されている。 この能力は社会科学界から注目を集めており、LLMを活用して人間の実験参加者を置き換え、研究コストと複雑さを低減させる可能性があると考えている。 本稿では,人間の認知過程をシミュレートするマルチエージェント認知機構と,自己と観察の両方の観点から人間のシミュレーションを評価する心理誘導評価手法を含む,大規模言語モデルの擬人化のためのフレームワークを紹介する。 実験の結果,構築したシミュラクラは,対象キャラクタに合わせた人格化応答を生成できることが判明した。 我々の研究は予備的な探索であり、実践的な応用に大きな可能性を秘めている。 すべてのコードとデータセットがリリースされ、さらなる調査を促進することを期待している。

Large language models (LLMs) are recognized as systems that closely mimic aspects of human intelligence. This capability has attracted attention from the social science community, who see the potential in leveraging LLMs to replace human participants in experiments, thereby reducing research costs and complexity. In this paper, we introduce a framework for large language models personification, including a strategy for constructing virtual characters' life stories from the ground up, a Multi-Agent Cognitive Mechanism capable of simulating human cognitive processes, and a psychology-guided evaluation method to assess human simulations from both self and observational perspectives. Experimental results demonstrate that our constructed simulacra can produce personified responses that align with their target characters. Our work is a preliminary exploration which offers great potential in practical applications. All the code and datasets will be released, with the hope of inspiring further investigations.
翻訳日:2024-03-05 19:37:27 公開日:2024-03-02
# G4G:細粒度モード内アライメントを用いた高忠実発話顔生成のためのジェネリックフレームワーク

G4G:A Generic Framework for High Fidelity Talking Face Generation with Fine-grained Intra-modal Alignment ( http://arxiv.org/abs/2402.18122v2 )

ライセンス: Link先を確認
Juan Zhang, Jiahao Chen, Cheng Wang, Zhiwang Yu, Tangquan Qi, Di Wu(参考訳) 多くの研究が完了したにもかかわらず、任意の音声に対応する高度に同期した唇の動きで高忠実な話し顔生成を達成することは、この分野において重要な課題である。 出版研究の欠点は多くの研究者を混乱させ続けている。 本稿では,モーダル内アライメントを微粒化した高忠実度音声顔生成のための汎用フレームワークG4Gを紹介する。 G4Gは、与えられた音声のトーンやボリュームに関わらず、高度に同期された唇の動きを生成しながら、オリジナルビデオの忠実度を再現することができる。 g4gの成功の鍵は、正と負のサンプル間の比較学習を著しく増加させるオーディオ画像内特徴の通常のアライメントを強化するために対角行列を使用することである。 さらに、唇の動きと入力音声の同期を強調しつつ、顔領域全体にわたるオリジナル映像の知覚忠実度を包括的に再現するマルチスケール監視モジュールを導入する。 次に、融合ネットワークを使用して、顔領域と残りをさらに融合させる。 実験結果から,映像品質の再現と高調波発声唇の再現に有意な成果が得られた。 G4Gは、現在の最先端の手法よりも、地上の真理レベルに競争力のあるビデオを生成することができる、優れた汎用フレームワークである。

Despite numerous completed studies, achieving high fidelity talking face generation with highly synchronized lip movements corresponding to arbitrary audio remains a significant challenge in the field. The shortcomings of published studies continue to confuse many researchers. This paper introduces G4G, a generic framework for high fidelity talking face generation with fine-grained intra-modal alignment. G4G can reenact the high fidelity of original video while producing highly synchronized lip movements regardless of given audio tones or volumes. The key to G4G's success is the use of a diagonal matrix to enhance the ordinary alignment of audio-image intra-modal features, which significantly increases the comparative learning between positive and negative samples. Additionally, a multi-scaled supervision module is introduced to comprehensively reenact the perceptional fidelity of original video across the facial region while emphasizing the synchronization of lip movements and the input audio. A fusion network is then used to further fuse the facial region and the rest. Our experimental results demonstrate significant achievements in reenactment of original video quality as well as highly synchronized talking lips. G4G is an outperforming generic framework that can produce talking videos competitively closer to ground truth level than current state-of-the-art methods.
翻訳日:2024-03-05 19:36:58 公開日:2024-03-02
# Mixerは単なるモデルではない

Mixer is more than just a model ( http://arxiv.org/abs/2402.18007v2 )

ライセンス: Link先を確認
Qingfeng Ji, Yuxin Wang, Letong Sun(参考訳) 近年、MLP構造が復活し、MLP-Mixerが顕著な例となっている。 コンピュータビジョンの分野では、mlp-mixerはチャネルとトークンの両方の観点からデータ情報を抽出でき、チャネルとトークン情報の融合として効果的に機能する。 事実、mixerはチャネルとトークン情報を融合した情報抽出のパラダイムを表している。 ミキサーの本質は、様々な視点から情報をブレンドし、ニューラルネットワークアーキテクチャの領域における「ミックス」の真の概念を具現化する能力にある。 チャネルやトークンの考慮を超えて、さまざまな観点からよりカスタマイズされたミキサーを作成して、特定のタスク要求に適合させることができる。 本研究は,時間領域と周波数領域の両方から洞察を取り入れた,ロールタイムとハーミットFFT(ASM-RH)を用いたオーディオスペクトログラムミキサーという新しいモデルを導入することを目的とした。 実験により、ASM-RHは音声データに特に適しており、複数の分類タスクで有望な結果が得られることが示された。 モデルと最適な重み付けファイルが公開される。

Recently, MLP structures have regained popularity, with MLP-Mixer standing out as a prominent example. In the field of computer vision, MLP-Mixer is noted for its ability to extract data information from both channel and token perspectives, effectively acting as a fusion of channel and token information. Indeed, Mixer represents a paradigm for information extraction that amalgamates channel and token information. The essence of Mixer lies in its ability to blend information from diverse perspectives, epitomizing the true concept of "mixing" in the realm of neural network architectures. Beyond channel and token considerations, it is possible to create more tailored mixers from various perspectives to better suit specific task requirements. This study focuses on the domain of audio recognition, introducing a novel model named Audio Spectrogram Mixer with Roll-Time and Hermit FFT (ASM-RH) that incorporates insights from both time and frequency domains. Experimental results demonstrate that ASM-RH is particularly well-suited for audio data and yields promising outcomes across multiple classification tasks. The models and optimal weights files will be published.
翻訳日:2024-03-05 19:36:15 公開日:2024-03-02
# JMLR: 推論と専門的質問応答能力向上のための共同医療LLMと検索訓練

JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability ( http://arxiv.org/abs/2402.17887v2 )

ライセンス: Link先を確認
Junda Wang, Zhichao Yang, Zonghai Yao, Hong Yu(参考訳) 医療データの爆発的な成長と人工知能技術の急速な発展により、精密医療は医療サービスの質と効率を高める鍵となった。 この文脈では、大規模言語モデル(llm)は医学的知識獲得と質問応答システムにおいてますます重要な役割を担っている。 医療領域におけるこれらのシステムの性能をさらに向上させるために,情報検索(ir)システムとllmを協調して微調整段階で訓練する革新的な手法を提案する。 JMLR(Joint Medical LLM and Retrieval Training)と呼ばれるこのアプローチは、医療質問応答タスクの処理において従来のモデルが直面する課題を克服するために設計されている。 同期トレーニング機構を利用することで、JMLRは計算リソースの需要を減らし、推論や回答のための医療知識を活用するモデルの能力を高める。 JMLR-13B (81.2%, MedQAは61.3%, MedQAは61.3%, AMBOSSは76.4%, MedQAは60.3%) は従来の事前学習および微調整によるモデルより優れていた。 同じ7Bスケールのモデルでは、JMLR-7B(68.7%、MedQAは51.7%)は、他の公開モデル(Meditron-7B: 50.1%、47.9%)よりも優れており、コスト(トレーニング時間:37時間、伝統的な手法:144時間)、効率、医療質問応答タスクにおける効率、有効性を証明している。 本研究は,医療情報検索と質問応答システムにIRとLLMトレーニングを統合する大きな可能性を示す,医療のための新しい,効率的な知識向上ツールを提供する。

With the explosive growth of medical data and the rapid development of artificial intelligence technology, precision medicine has emerged as a key to enhancing the quality and efficiency of healthcare services. In this context, Large Language Models (LLMs) play an increasingly vital role in medical knowledge acquisition and question-answering systems. To further improve the performance of these systems in the medical domain, we introduce an innovative method that jointly trains an Information Retrieval (IR) system and an LLM during the fine-tuning phase. This approach, which we call Joint Medical LLM and Retrieval Training (JMLR), is designed to overcome the challenges faced by traditional models in handling medical question-answering tasks. By employing a synchronized training mechanism, JMLR reduces the demand for computational resources and enhances the model's ability to leverage medical knowledge for reasoning and answering questions. Our experimental results demonstrate that JMLR-13B (81.2% on Amboos, 61.3% on MedQA) outperforms models using conventional pre-training and fine-tuning Meditron-70B (76.4% on AMBOSS, 60.3% on MedQA). For models of the same 7B scale, JMLR-7B(68.7% on Amboos, 51.7% on MedQA) significantly outperforms other public models (Meditron-7B: 50.1%, 47.9%), proving its superiority in terms of cost (our training time: 37 hours, traditional method: 144 hours), efficiency, and effectiveness in medical question-answering tasks. Through this work, we provide a new and efficient knowledge enhancement tool for healthcare, demonstrating the great potential of integrating IR and LLM training in precision medical information retrieval and question-answering systems.
翻訳日:2024-03-05 19:35:45 公開日:2024-03-02
# 医用画像における神経放射場 : 課題と次のステップ

Neural Radiance Fields in Medical Imaging: Challenges and Next Steps ( http://arxiv.org/abs/2402.17797v2 )

ライセンス: Link先を確認
Xin Wang, Shu Hu, Heng Fan, Hongtu Zhu, Xin Li(参考訳) コンピュータビジョンの先駆的技術であるNeRF(Neural Radiance Fields)は、投影された2次元画像データから3次元表現を合成することにより、医用画像に革命をもたらす大きな可能性を提供する。 しかし、医療応用にはユニークな課題がある。 本稿では,NeRFの医用画像への応用を包括的に検討し,画像の基本原理,内部構造要件,オブジェクト境界定義,色密度の4つの重要な課題について述べる。 異なる臓器の現在の方法について議論し、関連する限界について論じる。 また、いくつかのデータセットと評価指標をレビューし、今後の研究に有望な方向性をいくつか提案する。

Neural Radiance Fields (NeRF), as a pioneering technique in computer vision, offer great potential to revolutionize medical imaging by synthesizing three-dimensional representations from the projected two-dimensional image data. However, they face unique challenges when applied to medical applications. This paper presents a comprehensive examination of applications of NeRFs in medical imaging, highlighting four imminent challenges, including fundamental imaging principles, inner structure requirement, object boundary definition, and color density significance. We discuss current methods on different organs and discuss related limitations. We also review several datasets and evaluation metrics and propose several promising directions for future research.
翻訳日:2024-03-05 19:35:04 公開日:2024-03-02
# 一貫性の問題 - ブラックボックスの観点からのLCMの一貫性を探る

Consistency Matters: Explore LLMs Consistency From a Black-Box Perspective ( http://arxiv.org/abs/2402.17411v2 )

ライセンス: Link先を確認
Fufangchen Zhao, Guoqiang Jin, Jiaheng Huang, Rui Zhao and Fei Tan(参考訳) 現在、商用とオープンソースの両方の学術的 LLM が NLP の主流となっている。 しかし、LLMの一貫性に関する研究がまだ不足しているため、LLMの研究と展開の様々な段階において、内部のパラメータと能力は変わらないはずである。 この問題は産業と学術の両方に存在している。 この問題に対する解決策は、しばしば時間消費と労働集約であり、また二次配備の追加コストがあり、結果として経済的および時間的損失が生じる。 このギャップを埋めるために、LLM一貫性タスクデータセットを構築し、いくつかのベースラインを設計する。 さらに,本実験では,様々なスケールのモデルを選択する。 具体的には、LightGBM実験において、従来のNLGメトリクス(ROUGE、BLEU、METEOR)をモデルトレーニングに必要な機能として使用しました。 最終結果は、手動評価とGPT3.5、およびメイン実験における他のモデルを超え、最高の性能を達成する。 最終的には、最高のパフォーマンスのLightGBMモデルをベースモデルとして使用して評価ツールを構築し、ビジネスモデルの展開を効果的に支援します。 私たちのコードとツールのデモはhttps://github.com/heavenhellchen/consistency.gitで利用可能です。

Nowadays both commercial and open-source academic LLM have become the mainstream models of NLP. However, there is still a lack of research on LLM consistency, meaning that throughout the various stages of LLM research and deployment, its internal parameters and capabilities should remain unchanged. This issue exists in both the industrial and academic sectors. The solution to this problem is often time-consuming and labor-intensive, and there is also an additional cost of secondary deployment, resulting in economic and time losses. To fill this gap, we build an LLM consistency task dataset and design several baselines. Additionally, we choose models of diverse scales for the main experiments. Specifically, in the LightGBM experiment, we used traditional NLG metrics (i.e., ROUGE, BLEU, METEOR) as the features needed for model training. The final result exceeds the manual evaluation and GPT3.5 as well as other models in the main experiment, achieving the best performance. In the end, we use the best performing LightGBM model as the base model to build the evaluation tool, which can effectively assist in the deployment of business models. Our code and tool demo are available at https://github.com/heavenhellchen/Consistency.git
翻訳日:2024-03-05 19:34:52 公開日:2024-03-02
# LDB: 実行時実行のステップバイステップ検証による大規模言語モデルデバッガ

LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step ( http://arxiv.org/abs/2402.16906v2 )

ライセンス: Link先を確認
Li Zhong, Zilong Wang, Jingbo Shang(参考訳) 大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。 ワンパスコード生成以外にも、近年の作業では、ユニットテストとプログラム検証器をLCMに統合して、生成されたプログラムを反復的に洗練している。 しかし、これらの研究は生成されたプログラムを識別不可能な実体とみなし、特に複雑な論理フローやデータ操作を含む場合、プログラムのデバッグにおいてLLMでは不足している。 対照的に、ヒューマン開発者がプログラムをデバッグする場合、通常はブレークポイントを設定し、実行時情報を選択的に検査する。 実行フローと中間変数はデバッグプロセスにおいて重要な役割を果たすが、コード生成に関する既存の文献では使われていない。 本研究では,Large Language Model Debugger (LDB)を紹介し,LLMが実行時情報を用いて生成されたプログラムを洗練できる新しいデバッグフレームワークを提案する。 具体的には、LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。 これにより、LCMは実行フロー全体においてより単純なコードユニットに集中でき、ブロックによってタスク記述ブロックに対する正当性を検証でき、潜在的なエラーを効率的に特定できる。 実験によると、LDBはHumanEval、MBPP、TransCoderベンチマークで最大9.8%のベースライン性能を継続的に向上し、様々なLLM選択のためのコードデバッグにおける新しい最先端のパフォーマンスをアーカイブしている。

Large language models (LLMs) are leading significant progress in code generation. Beyond one-pass code generation, recent works further integrate unit tests and program verifiers into LLMs to iteratively refine the generated programs. However, these works consider the generated programs as an indivisible entity, which falls short for LLMs in debugging the programs, especially when the programs contain complex logic flows and data operations. In contrast, when human developers debug programs, they typically set breakpoints and selectively examine runtime execution information. The execution flow and the intermediate variables play a crucial role in the debugging process, yet they are underutilized in the existing literature on code generation. In this study, we introduce Large Language Model Debugger (LDB), a novel debugging framework that enables LLMs to refine their generated programs with the runtime execution information. Specifically, LDB segments the programs into basic blocks and tracks the values of intermediate variables after each block throughout the runtime execution. This allows LLMs to concentrate on simpler code units within the overall execution flow, verify their correctness against the task description block by block, and efficiently pinpoint any potential errors. Experiments demonstrate that LDB consistently enhances the baseline performance by up to 9.8% across the HumanEval, MBPP, and TransCoder benchmarks, archiving new state-of-the-art performance in code debugging for various LLM selections.
翻訳日:2024-03-05 19:33:53 公開日:2024-03-02
# クロスコンフォーマルな$p$値を用いた異常検出の不確かさの定量化

Uncertainty Quantification in Anomaly Detection with Cross-Conformal $p$-Values ( http://arxiv.org/abs/2402.16388v2 )

ライセンス: Link先を確認
Oliver Hennh\"ofer and Christine Preisach(参考訳) 信頼性,信頼性,説明可能な機械学習の重要性が高まり,異常検出システムに対する不確実性定量化の必要性が高まっている。 この文脈では、これらのシステムの統計力(1-\beta$)を損なうことなく、効果的にタイプIエラー率(1-\beta$)を制御することができ、特にフォローアップ手順が高価である場合に、誤った発見に関連するコストを削減できる。 共形予測の原理を活用することは、モデルの不確かさを校正することで各統計的保証を提供するための有望なアプローチとして現れる。 本研究は、予測タスク用に設計されたよく知られたクロスコンフォーマルな手法に基づいて、クロスコンフォーマルな異常検出と呼ばれる新しい異常検出フレームワークを導入する。 これにより、モデルキャリブレーションのための分割共形アプローチに依拠して、帰納的共形異常検出の文脈で以前の作品を拡張することによって、自然研究のギャップに対処できる。 コンフォーメーション予測から得られた知見に基づき,クロスコンフォーマルな$p$-valuesの計算手法が,ベンチマークデータセットにおける不確実性定量化異常検出のための統計効率(フルコンフォーマル)と計算効率(スプライトコンフォーマル)の実用的妥協をもたらすことを実証した。

Given the growing significance of reliable, trustworthy, and explainable machine learning, the requirement of uncertainty quantification for anomaly detection systems has become increasingly important. In this context, effectively controlling Type I error rates ($\alpha$) without compromising the statistical power ($1-\beta$) of these systems can build trust and reduce costs related to false discoveries, particularly when follow-up procedures are expensive. Leveraging the principles of conformal prediction emerges as a promising approach for providing respective statistical guarantees by calibrating a model's uncertainty. This work introduces a novel framework for anomaly detection, termed cross-conformal anomaly detection, building upon well-known cross-conformal methods designed for prediction tasks. With that, it addresses a natural research gap by extending previous works in the context of inductive conformal anomaly detection, relying on the split-conformal approach for model calibration. Drawing on insights from conformal prediction, we demonstrate that the derived methods for calculating cross-conformal $p$-values strike a practical compromise between statistical efficiency (full-conformal) and computational efficiency (split-conformal) for uncertainty-quantified anomaly detection on benchmark datasets.
翻訳日:2024-03-05 19:33:30 公開日:2024-03-02
# ハイパーリレーショナル知識グラフにおけるメッセージパッシングに対する関係-対話的アプローチ

A Relation-Interactive Approach for Message Passing in Hyper-relational Knowledge Graphs ( http://arxiv.org/abs/2402.15140v2 )

ライセンス: Link先を確認
Yonglin Jing(参考訳) hyper-relational knowledge graphs (kgs) には追加のキーと値のペアが含まれており、関係に関するさらなる情報を提供している。 多くのシナリオにおいて、同じ関係は異なるキーと値のペアを持つことができ、元の三重項事実をより認識可能かつ特定することができる。 ハイパーリレーショナルKGの先行研究は、ハイパーリレーショナルグラフ符号化の標準標準法を確立した。 本稿では,グローバルリレーション構造認識機能を有するメッセージパッシングベースのグラフエンコーダを提案し,これをresaeと呼ぶ。 従来の最先端アプローチと比較して、ReSaEはメッセージパッシングプロセス中の関係の相互作用を強調し、リンク予測タスクの読み出し構造を最適化する。 全体として、ReSaEはハイパーリレーショナルなKGのエンコーディングソリューションを提供し、下流リンク予測タスクにおけるより強力なパフォーマンスを保証する。 実験により、ReSaEは複数のリンク予測ベンチマークで最先端の性能を達成することを示した。 さらに,異なるモデル構造がモデル性能に与える影響についても分析する。

Hyper-relational knowledge graphs (KGs) contain additional key-value pairs, providing more information about the relations. In many scenarios, the same relation can have distinct key-value pairs, making the original triple fact more recognizable and specific. Prior studies on hyper-relational KGs have established a solid standard method for hyper-relational graph encoding. In this work, we propose a message-passing-based graph encoder with global relation structure awareness ability, which we call ReSaE. Compared to the prior state-of-the-art approach, ReSaE emphasizes the interaction of relations during message passing process and optimizes the readout structure for link prediction tasks. Overall, ReSaE gives a encoding solution for hyper-relational KGs and ensures stronger performance on downstream link prediction tasks. Our experiments demonstrate that ReSaE achieves state-of-the-art performance on multiple link prediction benchmarks. Furthermore, we also analyze the influence of different model structures on model performance.
翻訳日:2024-03-05 19:33:04 公開日:2024-03-02
# 大規模言語モデルがレコメンダーシステムに与える影響を探求する

Exploring the Impact of Large Language Models on Recommender Systems: An Extensive Review ( http://arxiv.org/abs/2402.18590v2 )

ライセンス: Link先を確認
Arpita Vats, Vinija Jain, Rahul Raja, Aman Chadha(参考訳) この論文は、レコメンデーションシステムの再形成における大規模言語モデル(llm)の重要性を強調し、伝統的なレコメンデーションシステムに欠けているユニークな推論能力にその価値を帰結させる。 直接的ユーザインタラクションデータを持たない従来のシステムとは異なり、llmは推奨項目に優れた熟練度を示し、言語理解の難しさを示す。 これはレコメンデーションの領域における根本的なパラダイムシフトである。 動的研究の展望の中で、研究者はリコメンデーションタスクの基礎を再定義するためにLLMの言語理解と生成能力を積極的に活用している。 この調査は、レコメンデーションフレームワークにおけるLLMの本質的な強み、曖昧なコンテキスト理解、さまざまなドメイン間のシームレスな移行、統一されたアプローチの採用、共有データ貯水池を活用した総合的な学習戦略、透明性のある意思決定、反復的な改善などについて、徹底的に調査している。 トランスフォーメーションの可能性にもかかわらず、入力プロンプトに対する感受性、時には誤解釈、予期せぬレコメンデーション、LLM駆動のレコメンデーションシステムにおける継続的な洗練と進化の必要性といった課題が続いている。

The paper underscores the significance of Large Language Models (LLMs) in reshaping recommender systems, attributing their value to unique reasoning abilities absent in traditional recommenders. Unlike conventional systems lacking direct user interaction data, LLMs exhibit exceptional proficiency in recommending items, showcasing their adeptness in comprehending intricacies of language. This marks a fundamental paradigm shift in the realm of recommendations. Amidst the dynamic research landscape, researchers actively harness the language comprehension and generation capabilities of LLMs to redefine the foundations of recommendation tasks. The investigation thoroughly explores the inherent strengths of LLMs within recommendation frameworks, encompassing nuanced contextual comprehension, seamless transitions across diverse domains, adoption of unified approaches, holistic learning strategies leveraging shared data reservoirs, transparent decision-making, and iterative improvements. Despite their transformative potential, challenges persist, including sensitivity to input prompts, occasional misinterpretations, and unforeseen recommendations, necessitating continuous refinement and evolution in LLM-driven recommender systems.
翻訳日:2024-03-05 19:23:50 公開日:2024-03-02
# latentswap: 顔スワップのための効率的な潜在コードマッピングフレームワーク

LatentSwap: An Efficient Latent Code Mapping Framework for Face Swapping ( http://arxiv.org/abs/2402.18351v2 )

ライセンス: Link先を確認
Changho Choi, Minho Kim, Junhyeok Lee, Hyoung-Kyu Song, Younggeun Kim, Seungryong Kim(参考訳) 我々は、あるジェネレータのフェイススワップ潜在コードを生成するシンプルなフェイススワップフレームワーク latentswapを提案する。 ランダムにサンプリングされた潜在コードを利用することで、我々のフレームワークは軽量で、事前訓練されたモデル以外にデータセットを必要としない。 損失目的は3項のみで構成され、ソース画像とターゲット画像間の顔スワップ結果を効果的に制御できる。 モデルに依存しない事前学習されたGANインバージョンモデルとStyleGAN2ジェネレータを併用することにより、他の競合顔スワップモデルに匹敵するフォトリアリスティックで高解像度の画像を生成する。 このフレームワークは、StyleNeRFのような他のジェネレータに適用可能で、3D対応の顔スワップも可能で、他の下流のStyleGAN2ジェネレータタスクと互換性がある。 ソースコードとモデルは \url{https://github.com/usingcolor/LatentSwap} で見ることができる。

We propose LatentSwap, a simple face swapping framework generating a face swap latent code of a given generator. Utilizing randomly sampled latent codes, our framework is light and does not require datasets besides employing the pre-trained models, with the training procedure also being fast and straightforward. The loss objective consists of only three terms, and can effectively control the face swap results between source and target images. By attaching a pre-trained GAN inversion model independent to the model and using the StyleGAN2 generator, our model produces photorealistic and high-resolution images comparable to other competitive face swap models. We show that our framework is applicable to other generators such as StyleNeRF, paving a way to 3D-aware face swapping and is also compatible with other downstream StyleGAN2 generator tasks. The source code and models can be found at \url{https://github.com/usingcolor/LatentSwap}.
翻訳日:2024-03-05 19:23:28 公開日:2024-03-02
# クラウドソーシングは銀行を破るのか? 韻律最適化を用いた事前学習言語モデルのコスト効果微調整

Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of Pre-trained Language Models with Proximal Policy Optimization ( http://arxiv.org/abs/2402.18284v2 )

ライセンス: Link先を確認
Shuo Yang and Gjergji Kasneci(参考訳) ChatGPTの幅広い使用は、人間のフィードバックから強化学習の可能性を強調している。 しかし、トレーニングパイプラインは、リソース集約的なプロセスである手動のランキングに依存している。 作業コストを削減するため,人間アノテータの必要性を排除しつつ,微調整言語モデルに適用するための自己教師付きテキストランキング手法を提案する。 提案手法は,言語モデルが各入力に対して多様な応答を生成するよう促す確率的サンプリングから始める。 次に、TextRankとISODATAアルゴリズムを使用して、これらの応答をセマンティクスに基づいてランク付け、クラスタ化する。 その後、報酬モデルを構築し、ランクを学習し、生成ポリシーを最適化する。 3つのタスクで2つの言語モデルを用いて実験を行った結果,BLEU,GLEU,METEORのスコアに関して,本手法で訓練したモデルは,ベースラインよりもかなり優れていた。 さらに,手作業による評価の結果から,人間との相関性は極めて高いことが示された。 本研究は, 近位政策誘導モデルの学習コストを大幅に削減し, 言語モデルの自己補正の可能性を示す。

Wide usage of ChatGPT has highlighted the potential of reinforcement learning from human feedback. However, its training pipeline relies on manual ranking, a resource-intensive process. To reduce labor costs, we propose a self-supervised text ranking approach for applying Proximal-Policy-Optimization to fine-tune language models while eliminating the need for human annotators. Our method begins with probabilistic sampling to encourage a language model to generate diverse responses for each input. We then employ TextRank and ISODATA algorithms to rank and cluster these responses based on their semantics. Subsequently, we construct a reward model to learn the rank and optimize our generative policy. Our experimental results, conducted using two language models on three tasks, demonstrate that the models trained by our method considerably outperform baselines regarding BLEU, GLEU, and METEOR scores. Furthermore, our manual evaluation shows that our ranking results exhibit a remarkably high consistency with that of humans. This research significantly reduces training costs of proximal policy-guided models and demonstrates the potential for self-correction of language models.
翻訳日:2024-03-05 19:23:12 公開日:2024-03-02
# 学習か自尊心か? インストラクションファインチューニングの再考

Learning or Self-aligning? Rethinking Instruction Fine-tuning ( http://arxiv.org/abs/2402.18243v2 )

ライセンス: Link先を確認
Mengjie Ren, Boxi Cao, Hongyu Lin, Cao Liu, Xianpei Han, Ke Zeng, Guanglu Wan, Xunliang Cai, Le Sun(参考訳) インストラクションファインチューニング~(IFT)は、大きな言語モデル~(LLM)を構築する上で重要なフェーズである。 以前の著作は主に行動規範の伝達と追加の世界知識の学習におけるiftの役割に焦点を当てている。 しかし、IFTの基盤となるメカニズムの理解は依然として著しく制限されている。 本稿では,IFTの潜在的な要因を分離し,異なる要因の個別分析を可能にする知識介入フレームワークを設計する。 驚くべきことに、我々の実験では、IFTを通じてさらなる世界の知識を学ぼうとすると、ポジティブな影響を生み出すのに苦労し、重大なネガティブな影響をもたらすことさえある。 さらに、IFTの前後における内部知識の整合性を維持することが、IFTの成功の鍵となる。 本研究は,IFTの基盤となるメカニズムを明らかにするとともに,最近の将来的な研究に対する堅牢な支援を提供するものである。

Instruction Fine-tuning~(IFT) is a critical phase in building large language models~(LLMs). Previous works mainly focus on the IFT's role in the transfer of behavioral norms and the learning of additional world knowledge. However, the understanding of the underlying mechanisms of IFT remains significantly limited. In this paper, we design a knowledge intervention framework to decouple the potential underlying factors of IFT, thereby enabling individual analysis of different factors. Surprisingly, our experiments reveal that attempting to learn additional world knowledge through IFT often struggles to yield positive impacts and can even lead to markedly negative effects. Further, we discover that maintaining internal knowledge consistency before and after IFT is a critical factor for achieving successful IFT. Our findings reveal the underlying mechanisms of IFT and provide robust support for some very recent and potential future works.
翻訳日:2024-03-05 19:22:52 公開日:2024-03-02
# Lemur: エントロピーサンプリングとチェーン・オブ・サートマージによるログ解析

Lemur: Log Parsing with Entropy Sampling and Chain-of-Thought Merging ( http://arxiv.org/abs/2402.18205v2 )

ライセンス: Link先を確認
Wei Zhang, Hongcheng Guo, Anjie Le, Jian Yang, Jiaheng Liu, Zhoujun Li, Tieqiao Zheng, Shi Xu, Runqiang Zang, Liangfan Zheng, Bo Zhang(参考訳) 広範なソフトウェアシステムによって生成されるログは、システムの振る舞いを監視するのに不可欠である。 高度なログ分析は、システム障害の検出、警告、診断を容易にする。 生ログメッセージを構造化テンプレートに変換するログ解析は、ログ分析の自動化において重要なフェーズを構成する。 既存のログパーサは、ヒューマンメイドのルールに依存するため、正しいテンプレートを識別できない。 さらに,これらの手法はログメッセージ中の意味情報を無視しながら,統計的特徴に重点を置いている。 これらの課題に対処するため,近縁な \textbf{L}og 解析フレームワークに \textbf{E}ntropy sample と Chain-of-Thought \textbf{M}erging (Lemur) を導入した。 具体的には、面倒なマニュアルルールを捨てる。 本稿では,典型的なログを効率的に収集する情報エントロピーに触発された新しいサンプリング手法を提案する。 さらに,ログテンプレートのマージを強化するために,大規模言語モデル(LLM)のチェーン・オブ・シント法を設計する。 LLMは例外的な意味理解を示し、パラメータと不変トークンをはっきりと区別する。 大規模な公開データセットの実験を行った。 広範な評価は、lemurが最先端のパフォーマンスと印象的な効率を実現していることを示している。

Logs produced by extensive software systems are integral to monitoring system behaviors. Advanced log analysis facilitates the detection, alerting, and diagnosis of system faults. Log parsing, which entails transforming raw log messages into structured templates, constitutes a critical phase in the automation of log analytics. Existing log parsers fail to identify the correct templates due to reliance on human-made rules. Besides, These methods focus on statistical features while ignoring semantic information in log messages. To address these challenges, we introduce a cutting-edge \textbf{L}og parsing framework with \textbf{E}ntropy sampling and Chain-of-Thought \textbf{M}erging (Lemur). Specifically, to discard the tedious manual rules. We propose a novel sampling method inspired by information entropy, which efficiently clusters typical logs. Furthermore, to enhance the merging of log templates, we design a chain-of-thought method for large language models (LLMs). LLMs exhibit exceptional semantic comprehension, deftly distinguishing between parameters and invariant tokens. We have conducted experiments on large-scale public datasets. Extensive evaluation demonstrates that Lemur achieves the state-of-the-art performance and impressive efficiency.
翻訳日:2024-03-05 19:22:36 公開日:2024-03-02
# GraphRCG: ブートストラップ表現による自己条件グラフ生成

GraphRCG: Self-conditioned Graph Generation via Bootstrapped Representations ( http://arxiv.org/abs/2403.01071v1 )

ライセンス: Link先を確認
Song Wang, Zhen Tan, Xinyu Zhao, Tianlong Chen, Huan Liu, Jundong Li(参考訳) グラフ生成は一般的に、特定のグラフ分布と密接に一致する新しいグラフを作成することを目的としている。 既存の作品は、ジェネレータの最適化によって暗黙的にこの分布を捉え、分布自体の複雑さを見逃してしまう可能性がある。 さらに、これらのアプローチは一般的にグラフ生成の学習分布によって提供される洞察を無視している。 そこで本研究では,グラフ分布を明示的にモデル化し,それらの分布を用いて生成過程を導出する,新しい自己条件付きグラフ生成フレームワークを提案する。 まず、各グラフサンプルを低次元表現に変換し、表現生成器を最適化することにより、学習した分布を反映した新しい表現を生成する。 次に,これらの自己調整表現を生成プロセスの自己調整ガイダンスとして活用し,学習した分布をより正確に反映するグラフ生成を容易にする。 様々な分野にまたがる汎用グラフおよび分子グラフデータセットに関する広範な実験を行う。 本フレームワークは,既存のグラフ生成手法よりも,グラフ品質とトレーニングデータへの忠実性において優れた性能を示す。

Graph generation generally aims to create new graphs that closely align with a specific graph distribution. Existing works often implicitly capture this distribution through the optimization of generators, potentially overlooking the intricacies of the distribution itself. Furthermore, these approaches generally neglect the insights offered by the learned distribution for graph generation. In contrast, in this work, we propose a novel self-conditioned graph generation framework designed to explicitly model graph distributions and employ these distributions to guide the generation process. We first perform self-conditioned modeling to capture the graph distributions by transforming each graph sample into a low-dimensional representation and optimizing a representation generator to create new representations reflective of the learned distribution. Subsequently, we leverage these bootstrapped representations as self-conditioned guidance for the generation process, thereby facilitating the generation of graphs that more accurately reflect the learned distributions. We conduct extensive experiments on generic and molecular graph datasets across various fields. Our framework demonstrates superior performance over existing state-of-the-art graph generation methods in terms of graph quality and fidelity to training data.
翻訳日:2024-03-05 15:30:05 公開日:2024-03-02
# llmcrit: 大きな言語モデルに基準の使用を教える

LLMCRIT: Teaching Large Language Models to Use Criteria ( http://arxiv.org/abs/2403.01069v1 )

ライセンス: Link先を確認
Weizhe Yuan and Pengfei Liu and Matthias Gall\'e(参考訳) 人間はタスクの実行時に基準に従い、これらの基準はタスク完了の質を評価するために直接使用される。 したがって、モデルにフィードバックを提供するための基準を学習させることは、人間やモデルがタスクをより良く実行するのに役立つ。 しかしながら、この分野の既存の研究は、限られた基準や品質評価の側面のみを考慮しがちである。 このギャップを埋めるために,大規模言語モデル (LLM) がタスク実行に対する自然言語フィードバックの提供において,タスクの包括的基準を利用できるような汎用フレームワークを提案する。 特に,各基準に対する異なる記述タスクのガイドラインとコンテクスト内デモの構成から,半自動で基準を導出するモデル・イン・ザ・ループ・フレームワークを提案する。 私たちは、実世界のシナリオから3つのタスクを選択して、このアイデアを運用します。ペーパー入門ライティング、pythonコードライティング、reddit投稿ライティングです。 その結果, 基準と実演を取り入れることによるきめ細かい効果を明らかにし, 基準をより効果的に活用するためのLLMの教え方に関する貴重な知見を提供することができた。

Humans follow criteria when they execute tasks, and these criteria are directly used to assess the quality of task completion. Therefore, having models learn to use criteria to provide feedback can help humans or models to perform tasks better. However, existing research in this field tends to consider only a limited set of criteria or quality assessment aspects. To fill this gap, we propose a general framework that enables large language models (LLMs) to use comprehensive criteria for a task in delivering natural language feedback on task execution. In particular, we present a model-in-the-loop framework that semi-automatically derives criteria from collected guidelines for different writing tasks and constructs in-context demonstrations for each criterion. We choose three tasks from real-world scenarios to operationalize this idea: paper introduction writing, Python code writing, and Reddit post writing, and evaluate our feedback generation framework using different LLMs. The results reveal the fine-grained effects of incorporating criteria and demonstrations and provide valuable insights on how to teach LLMs to use criteria more effectively.
翻訳日:2024-03-05 15:29:34 公開日:2024-03-02
# faima:マルチドメインアスペクトベース感情分析のための機能対応インコンテキスト学習

FaiMA: Feature-aware In-context Learning for Multi-domain Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2403.01063v1 )

ライセンス: Link先を確認
Songhua Yang, Xinke Jiang, Hanjie Zhao, Wenxuan Zeng, Hongde Liu, Yuxiang Jia(参考訳) マルチドメインアスペクトベースの感情分析(ABSA)は、多様なドメインにわたってきめ細かい感情を捉えようとしている。 既存の研究は、方法論上の制限とデータ不足によって制約された単一ドメインアプリケーションに焦点を当てているが、現実には、感情は自然に複数のドメインを横断する。 大規模言語モデル(LLM)はABSAに有望なソリューションを提供するが、内部アーキテクチャの変更は容易ではないため、グラフベースのモデルや言語学を含む既存の技術と効果的に統合することは困難である。 この問題を軽減するため,我々はマルチドメインabsa(faima)のための特徴認識インコンテキスト学習という新しいフレームワークを提案する。 FaiMAの中核となる洞察は、マルチドメインABSAタスクにおける適応学習を容易にする機能認識メカニズムとして、インコンテキスト学習(ICL)を利用することである。 具体的には,言語的,ドメイン的,感情的特徴のヒューリスティックな規則に最適化されたテキストエンコーダとしてマルチヘッドグラフアテンションネットワークを用いる。 コントラスト学習を通じて,これらの多様な特徴に着目して文表現を最適化する。 さらに,FaiMAが任意の入力に対して,複数の次元にまたがる高関連事例を安定して検索できる効率的なインデックス化機構を構築する。 FaiMAの有効性を評価するため,最初のマルチドメインABSAベンチマークデータセットを構築した。 広範囲な実験の結果、faimaはベースラインと比較して複数のドメインで大幅なパフォーマンス改善を達成し、平均でf1を2.07%増加させた。 ソースコードとデータセットはhttps://github.com/SupritYoung/FaiMA.comで匿名で入手できる。

Multi-domain aspect-based sentiment analysis (ABSA) seeks to capture fine-grained sentiment across diverse domains. While existing research narrowly focuses on single-domain applications constrained by methodological limitations and data scarcity, the reality is that sentiment naturally traverses multiple domains. Although large language models (LLMs) offer a promising solution for ABSA, it is difficult to integrate effectively with established techniques, including graph-based models and linguistics, because modifying their internal architecture is not easy. To alleviate this problem, we propose a novel framework, Feature-aware In-context Learning for Multi-domain ABSA (FaiMA). The core insight of FaiMA is to utilize in-context learning (ICL) as a feature-aware mechanism that facilitates adaptive learning in multi-domain ABSA tasks. Specifically, we employ a multi-head graph attention network as a text encoder optimized by heuristic rules for linguistic, domain, and sentiment features. Through contrastive learning, we optimize sentence representations by focusing on these diverse features. Additionally, we construct an efficient indexing mechanism, allowing FaiMA to stably retrieve highly relevant examples across multiple dimensions for any given input. To evaluate the efficacy of FaiMA, we build the first multi-domain ABSA benchmark dataset. Extensive experimental results demonstrate that FaiMA achieves significant performance improvements in multiple domains compared to baselines, increasing F1 by 2.07% on average. Source code and data sets are anonymously available at https://github.com/SupritYoung/FaiMA.
翻訳日:2024-03-05 15:29:07 公開日:2024-03-02
# 確率の時間方向について

On the Time Orientation of Probability ( http://arxiv.org/abs/2403.01062v1 )

ライセンス: Link先を確認
Andrea Di Biagio, Carlo Rovelli(参考訳) サトシ・ウォタベの影響力のある定理は、非自明な前方遷移確率と後方遷移確率の両方を持つ真に確率論的理論が存在しないことを多くの人々に納得させた。 この結論は定理に従わないことを示す。 議論の欠点を指摘し、よく定義された後方遷移確率と前方遷移確率を持つ理論の例を示す。

An influential theorem by Satosi Wantabe convinced many that there can be no genuinely probabilistic theory with both non-trivial forward and backward transition probabilities. We show that this conclusion does not follow from the theorem. We point out the flaw in the argument, and we showcase examples of theories with well-defined backward and forward transition probabilities.
翻訳日:2024-03-05 15:28:40 公開日:2024-03-02
# サブテキストを読む:著者による短編要約による大規模言語モデルの評価

Reading Subtext: Evaluating Large Language Models on Short Story Summarization with Writers ( http://arxiv.org/abs/2403.01061v1 )

ライセンス: Link先を確認
Melanie Subbiah, Sean Zhang, Lydia B. Chilton, Kathleen McKeown(参考訳) 近年の大規模言語モデル(llms)において,長文化やニュアンス付きサブテキストやスクランブル付きタイムラインを含む短文要約の課題について評価を行った。 重要なことは、著者たちと直接協力して、ストーリーがオンラインに共有されていないこと(従ってモデルには見えない)を確認し、著者自身による判断を用いて要約品質のインフォームド評価を得る。 GPT-4, Claude-2.1, LLama-2-70Bの比較を行った。 3つのモデルはすべて、要約の50%以上で忠実さの誤りを犯し、難しい文を解釈するのに苦労している。 しかし、最善を尽くして、モデルはストーリーの思慮深いテーマ分析を提供することができる。 さらに,要約品質のllm判断は,著者からのフィードバックと一致しないことを示す。

We evaluate recent Large language Models (LLMs) on the challenging task of summarizing short stories, which can be lengthy, and include nuanced subtext or scrambled timelines. Importantly, we work directly with authors to ensure that the stories have not been shared online (and therefore are unseen by the models), and to obtain informed evaluations of summary quality using judgments from the authors themselves. Through quantitative and qualitative analysis grounded in narrative theory, we compare GPT-4, Claude-2.1, and LLama-2-70B. We find that all three models make faithfulness mistakes in over 50% of summaries and struggle to interpret difficult subtext. However, at their best, the models can provide thoughtful thematic analysis of stories. We additionally demonstrate that LLM judgments of summary quality do not match the feedback from the writers.
翻訳日:2024-03-05 15:28:33 公開日:2024-03-02
# 連続平均ゼロ不一致正規化模倣学習(cmz-dril)

Continuous Mean-Zero Disagreement-Regularized Imitation Learning (CMZ-DRIL) ( http://arxiv.org/abs/2403.01059v1 )

ライセンス: Link先を確認
Noah Ford, Ryan W. Gardner, Austin Juhl, and Nathan Larson(参考訳) 模倣学習や強化学習のような機械学習パラダイムは、様々な複雑な環境で高性能なエージェントを生成することができる。 しかし、一般的に使用される方法は大量のデータと/または既知の報酬機能を必要とする。 本稿では,少数の専門家によるデモンストレーションにのみアクセス可能な模擬学習エージェントの性能向上のために,新しい報酬構造を用いた連続平均ゼロ分解規則化学習(CMZ-DRIL)を提案する。 CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。 この方法は環境固有の報酬を一切用いないが、エージェントアンサンブルのアクション不一致から連続的かつ平均ゼロの報酬関数を生成する。 waypoint-navigation環境と2つのmujoco環境で示されているように、cmz-drilは、いくつかの主要なメトリクスにおける主要なアプローチよりもエキスパートによく振る舞うパフォーマンスエージェントを生成することができる。

Machine-learning paradigms such as imitation learning and reinforcement learning can generate highly performant agents in a variety of complex environments. However, commonly used methods require large quantities of data and/or a known reward function. This paper presents a method called Continuous Mean-Zero Disagreement-Regularized Imitation Learning (CMZ-DRIL) that employs a novel reward structure to improve the performance of imitation-learning agents that have access to only a handful of expert demonstrations. CMZ-DRIL uses reinforcement learning to minimize uncertainty among an ensemble of agents trained to model the expert demonstrations. This method does not use any environment-specific rewards, but creates a continuous and mean-zero reward function from the action disagreement of the agent ensemble. As demonstrated in a waypoint-navigation environment and in two MuJoCo environments, CMZ-DRIL can generate performant agents that behave more similarly to the expert than primary previous approaches in several key metrics.
翻訳日:2024-03-05 15:28:19 公開日:2024-03-02
# ターゲットエンコーディングと分類損失によるニューラルフィールド分類

Neural Field Classifiers via Target Encoding and Classification Loss ( http://arxiv.org/abs/2403.01058v1 )

ライセンス: Link先を確認
Xindi Yang, Zeke Xie, Xiong Zhou, Boyu Liu, Buhua Liu, Yi Liu, Haoran Wang, Yunfeng Cai, Mingming Sun(参考訳) ニューラルフィールド法は、新しいビュー合成や幾何再構成など、コンピュータビジョンやコンピュータグラフィックスにおける長年のタスクにおいて大きな進歩を遂げてきた。 既存のニューラルフィールド法は、RGB for Neural Radiance Field (NeRF)のような座標に基づく連続目標値を予測しようとするため、これらの手法はすべて回帰モデルであり、回帰損失によって最適化される。 しかし、回帰モデルはニューラルネットワークの分類モデルよりも優れているのだろうか? この研究では、機械学習の観点から、非常に基本的だが見過ごされがちな神経分野の問題に目を向けようとしている。 本稿では,既存のニューラルネットワーク手法を回帰タスクではなく分類タスクとして定式化する新しいニューラルネットワーク分類器(NFC)フレームワークを提案する。 提案したNFCは、新しいターゲットエンコーディングモジュールを使用し、分類損失を最適化することにより、任意のニューラルネットワークレグレッサ(NFR)をその分類変種に容易に変換することができる。 連続回帰対象を高次元離散符号化に符号化することにより、自然にマルチラベル分類タスクを定式化する。 大規模な実験では、NFCのほぼ自由な余剰計算コストにおける印象的な効果が示されている。 さらにNFCは、スパース入力、破損した画像、ダイナミックシーンに対して堅牢性を示す。

Neural field methods have seen great progress in various long-standing tasks in computer vision and computer graphics, including novel view synthesis and geometry reconstruction. As existing neural field methods try to predict some coordinate-based continuous target values, such as RGB for Neural Radiance Field (NeRF), all of these methods are regression models and are optimized by some regression loss. However, are regression models really better than classification models for neural field methods? In this work, we try to visit this very fundamental but overlooked question for neural fields from a machine learning perspective. We successfully propose a novel Neural Field Classifier (NFC) framework which formulates existing neural field methods as classification tasks rather than regression tasks. The proposed NFC can easily transform arbitrary Neural Field Regressor (NFR) into its classification variant via employing a novel Target Encoding module and optimizing a classification loss. By encoding a continuous regression target into a high-dimensional discrete encoding, we naturally formulate a multi-label classification task. Extensive experiments demonstrate the impressive effectiveness of NFC at the nearly free extra computational costs. Moreover, NFC also shows robustness to sparse inputs, corrupted images, and dynamic scenes.
翻訳日:2024-03-05 15:28:00 公開日:2024-03-02
# AIによる完全なオーサリングに向けて - AI生成ビューによるリビジョンのサポート

Towards Full Authorship with AI: Supporting Revision with AI-Generated Views ( http://arxiv.org/abs/2403.01055v1 )

ライセンス: Link先を確認
Jiho Kim, Ray C. Flanagan, Noelle E. Haviland, ZeAi Sun, Souad N. Yakubu, Edom A. Maru and Kenneth C. Arnold(参考訳) 大規模言語モデル(llms)は,プロンプトによるテキスト生成を可能にすることで,ツール記述における新しいユーザインターフェース(ui)パラダイムを形作っている。 このパラダイムは、ユーザからシステムへの創造的なコントロールを移行することで、書き込みプロセスにおけるユーザのオーサシップと自律性を低下させる。 自律性を回復するために,ユーザの役割を強調する人間中心のアプローチを調査するためのUIプロトタイプであるTextfocalsを紹介した。 テキストフォーカスは、テキストエディターのサイドバーにLCM生成した要約、質問、アドバイス(すなわちLCMビュー)を提供し、直接テキスト生成なしで、リフレクションと自己駆動的なリビジョンを促進することによって、書き込みプロセスをサポートする。 textfocalsのuiアプライアンスには、文脈に適応したビューや、プロンプトの選択とカスタマイズのための足場が含まれており、ユーザはllmと対話する新しい方法を提供する。 Textfocalsを用いたフォーマティブなユーザスタディは、このアプローチが未開発なアイデアを開発し、修辞的なオーディエンスに適応し、記述を明確にするのに役立つという有望な証拠を示した。 しかし,本研究では,文書ナビゲーションやスコーピング,エンジニアリングの促進,コンテキスト管理に関するインタラクション設計の課題も示した。 我々の研究は、著者の整合性を維持するジェネレーティブAIを活用したサポートインターフェイスを書くことのデザイン空間の広さを強調している。

Large language models (LLMs) are shaping a new user interface (UI) paradigm in writing tools by enabling users to generate text through prompts. This paradigm shifts some creative control from the user to the system, thereby diminishing the user's authorship and autonomy in the writing process. To restore autonomy, we introduce Textfocals, a UI prototype designed to investigate a human-centered approach that emphasizes the user's role in writing. Textfocals supports the writing process by providing LLM-generated summaries, questions, and advice (i.e., LLM views) in a sidebar of a text editor, encouraging reflection and self-driven revision in writing without direct text generation. Textfocals' UI affordances, including contextually adaptive views and scaffolding for prompt selection and customization, offer a novel way to interact with LLMs where users maintain full authorship of their writing. A formative user study with Textfocals showed promising evidence that this approach might help users develop underdeveloped ideas, cater to the rhetorical audience, and clarify their writing. However, the study also showed interaction design challenges related to document navigation and scoping, prompt engineering, and context management. Our work highlights the breadth of the design space of writing support interfaces powered by generative AI that maintain authorship integrity.
翻訳日:2024-03-05 15:27:39 公開日:2024-03-02
# 時空間光渦における軌道角運動量の量子理論

Quantum theory of orbital angular momentum in spatiotemporal optical vortices ( http://arxiv.org/abs/2403.01054v1 )

ライセンス: Link先を確認
Pronoy Das, Sathwik Bharadwaj, Zubin jacob(参考訳) 時空間光渦(STOVs)は、時空領域における位相特異点を持つ自由空間で伝播する構造電磁場である。 ヘリカルフェイズフロントの傾きによって、STOVは縦方向と横方向の軌道角運動量(OAM)の両方を運ぶことができる。 STOVは近年大きな関心を集めているが、現在の理解は半古典的図形に限られている。 ここでは、任意の傾きを持つSTOVの量子理論を開発し、同軸極限を超えて拡張する。 我々は、フォックやコヒーレントねじれ光子パルスなどの量子STOV状態が、従来の単色ねじれパルスに欠落する非消滅長手OAM変動を示すことを示した。 これらの量子揺らぎは独自のテクスチャ、すなわちこれらの量子効果を実験的に分離するために使用できる空間分布を示す。 本研究は,OAMベースの符号化プロトコルや2次元材料システムにおける新しい光-物質相互作用を探索するプラットフォームなど,構造化光の量子効果の活用に向けた一歩である。

Spatiotemporal Optical Vortices (STOVs) are structured electromagnetic fields propagating in free space with phase singularities in the space-time domain. Depending on the tilt of the helical phase front, STOVs can carry both longitudinal and transverse orbital angular momentum (OAM). Although STOVs have gained significant interest in the recent years, the current understanding is limited to the semi-classical picture. Here, we develop a quantum theory for STOVs with an arbitrary tilt, extending beyond the paraxial limit. We demonstrate that quantum STOV states, such as Fock and coherent twisted photon pulses, display non-vanishing longitudinal OAM fluctuations that are absent in conventional monochromatic twisted pulses. We show that these quantum fluctuations exhibit a unique texture, i.e. a spatial distribution which can be used to experimentally isolate these quantum effects. Our findings represent a step towards the exploitation of quantum effects of structured light for various applications such as OAM-based encoding protocols and platforms to explore novel light-matter interaction in 2D material systems.
翻訳日:2024-03-05 15:27:14 公開日:2024-03-02
# unseen:geometryconstrained probabilistic modelingによる新しい生物医学概念の発見

Seeing Unseen: Discover Novel Biomedical Concepts via GeometryConstrained Probabilistic Modeling ( http://arxiv.org/abs/2403.01053v1 )

ライセンス: Link先を確認
Jianan Fan, Dongnan Liu, Hang Chang, Heng Huang, Mei Chen, and Weidong Cai(参考訳) 機械学習は、そのデータ駆動性によって科学的発見の基本的な実践を変革する、という大きな約束を持っている。 研究データ収集がどんどん増えていく中、観察データからパターンや洞察を自律的に探究し、新しい表現型や概念の発見に役立てることができるだろう。 しかし, 生物医学領域では, 累積データに固有の課題がいくつか存在し, 新たなクラス発見の進展を阻害している。 異なるクラス間の厳しい不均衡を伴う非i.i.d.データ分布は、本質的に曖昧で偏った意味表現をもたらす。 本研究では,幾何制約付き確率的モデリング処理を行い,その課題を解決する。 まず、分布の遅延バイアスの干渉を考慮するために、最小のvon MisesFisher分布としてインスタンス埋め込みの近似後部をパラメータ化することを提案する。 次に,構築された埋め込み空間のレイアウトに適切な制約を課すために,重要な幾何学的性質のスイートを組み込んで,未知のクラス学習や構造化の制御不能なリスクを最小化する。 さらに, 潜在新規クラス数を推定するために, スペクトルグラフ理論法を考案した。 これは、既存のアプローチと比較して興味深い2つの利点、すなわち、高い計算効率と分類順応性推定の柔軟性を継承する。 様々なバイオメディカルシナリオにまたがる広範囲な実験により,本手法の有効性と汎用性を実証した。

Machine learning holds tremendous promise for transforming the fundamental practice of scientific discovery by virtue of its data-driven nature. With the ever-increasing stream of research data collection, it would be appealing to autonomously explore patterns and insights from observational data for discovering novel classes of phenotypes and concepts. However, in the biomedical domain, there are several challenges inherently presented in the cumulated data which hamper the progress of novel class discovery. The non-i.i.d. data distribution accompanied by the severe imbalance among different groups of classes essentially leads to ambiguous and biased semantic representations. In this work, we present a geometry-constrained probabilistic modeling treatment to resolve the identified issues. First, we propose to parameterize the approximated posterior of instance embedding as a marginal von MisesFisher distribution to account for the interference of distributional latent bias. Then, we incorporate a suite of critical geometric properties to impose proper constraints on the layout of constructed embedding space, which in turn minimizes the uncontrollable risk for unknown class learning and structuring. Furthermore, a spectral graph-theoretic method is devised to estimate the number of potential novel classes. It inherits two intriguing merits compared to existent approaches, namely high computational efficiency and flexibility for taxonomy-adaptive estimation. Extensive experiments across various biomedical scenarios substantiate the effectiveness and general applicability of our method.
翻訳日:2024-03-05 15:26:55 公開日:2024-03-02
# 鏡のライブラリー:低次元のディープニューラルネットは反射特徴を持つ凸ラッソモデルである

A Library of Mirrors: Deep Neural Nets in Low Dimensions are Convex Lasso Models with Reflection Features ( http://arxiv.org/abs/2403.01046v1 )

ライセンス: Link先を確認
Emi Zeger, Yifei Wang, Aaron Mishkin, Tolga Ergen, Emmanuel Cand\`es, Mert Pilanci(参考訳) 1次元データに対するニューラルネットワークのトレーニングは,固定的で明示的な特徴の辞書行列を用いた凸ラッソ問題の解法と同値であることが証明される。 特定の辞書はアクティベーションと深さに依存する。 分割線形アクティベーションを持つ2層ネットワーク,最大4層までの細いReLUネットワーク,符号アクティベーションと任意の深さを持つ長方形およびツリーネットワークを考える。 興味深いことに、ReLUネットワークでは、第4のレイヤが、自分自身に関するトレーニングデータのリフレクションを表す機能を生成する。 Lasso表現は、グローバルに最適なネットワークとソリューションランドスケープに洞察を与える。

We prove that training neural networks on 1-D data is equivalent to solving a convex Lasso problem with a fixed, explicitly defined dictionary matrix of features. The specific dictionary depends on the activation and depth. We consider 2-layer networks with piecewise linear activations, deep narrow ReLU networks with up to 4 layers, and rectangular and tree networks with sign activation and arbitrary depth. Interestingly in ReLU networks, a fourth layer creates features that represent reflections of training data about themselves. The Lasso representation sheds insight to globally optimal networks and the solution landscape.
翻訳日:2024-03-05 15:26:35 公開日:2024-03-02
# 量子エンハンス密度行列ダウンフォールディングを用いた有効ハミルトニアン構築のための要件

Requirements for building effective Hamiltonians using quantum-enhanced density matrix downfolding ( http://arxiv.org/abs/2403.01043v1 )

ライセンス: Link先を確認
Shivesh Pathak, Antonio E. Russo, Stefan Seritan, Alicia B. Magann, Eric Bobrow, Andrew J. Landahl, Andrew D. Baczewski(参考訳) 密度行列ダウンフォールディング(DMD)は、量子多体ハミルトニアンから低エネルギー有効ハミルトニアンを退避させる技術である。 DMDの古典的実装の精度の制限要因の1つは、近似低エネルギー部分空間上の量子多体系の観測可能性のサンプリングに付随する難解な体系的誤差の存在である。 本稿では,この制限を回避するためのハイブリッドな量子古典的プロトコルを提案する。 我々は、ハミルトニアンの性質を定量化する圧縮可能性の概念と、その量子dmdが効率的であるような低エネルギー部分空間を含む、これが可能な場合の3つの要件を導入する。 これらの要件を満たすと仮定すると、我々は、我々のプロトコルの設計選択を分析し、ドープされた2次元フェルミ-ハッバードモデルと銅酸化物超伝導体のアブイニシアトモデルの両方で量子強化MDを実装するためのリソース推定を提供する。

Density matrix downfolding (DMD) is a technique for regressing low-energy effective Hamiltonians from quantum many-body Hamiltonians. One limiting factor in the accuracy of classical implementations of DMD is the presence of difficult-to-quantify systematic errors attendant to sampling the observables of quantum many-body systems on an approximate low-energy subspace. We propose a hybrid quantum-classical protocol for circumventing this limitation, relying on the prospective ability of quantum computers to efficiently prepare and sample from states in well-defined low-energy subspaces with systematically improvable accuracy. We introduce three requirements for when this is possible, including a notion of compressibility that quantifies features of Hamiltonians and low-energy subspaces thereof for which quantum DMD might be efficient. Assuming that these requirements are met, we analyze design choices for our protocol and provide resource estimates for implementing quantum-enhanced DMD on both the doped 2-D Fermi-Hubbard model and an ab initio model of a cuprate superconductor.
翻訳日:2024-03-05 15:26:24 公開日:2024-03-02
# AutoAttacker: 自動サイバー攻撃を実装する大規模言語モデルガイドシステム

AutoAttacker: A Large Language Model Guided System to Implement Automatic Cyber-attacks ( http://arxiv.org/abs/2403.01038v1 )

ライセンス: Link先を確認
Jiacen Xu, Jack W. Stokes, Geoff McDonald, Xuesong Bai, David Marshall, Siyue Wang, Adith Swaminathan, Zhou Li(参考訳) 大規模言語モデル(llm)は自然言語タスクにおいて印象的な結果を示しており、セキュリティ研究者は攻撃システムと防御システムの両方でそれらを採用し始めている。 サイバーセキュリティでは、フィッシングやマルウェア生成といった攻撃の前段階に焦点をあてて、LSMを利用する複数の研究努力がなされている。 しかし、これまでのところ、様々な攻撃技術や環境下での人手による攻撃や「ハンズ・オン・キーボード」攻撃の後の段階をシミュレートするためにLLMベースのシステムが活用できるかどうかに関する包括的な研究はない。 LLMは必然的に前進するので、前と後の両方の攻撃段階を自動化できるかもしれない。 このシフトは、組織の攻撃を、希少で専門家主導のイベントから、専門知識を必要とせず、自動化のスピードと規模で実行される頻繁な自動化オペレーションに転換する可能性がある。 このリスクは、世界規模のコンピュータセキュリティを根本的に変化させ、それに応じて経済的な影響を引き起こす。そして、この研究の目標は、これらのリスクをよりよく理解し、今後、避けられない、より高機能なllmに備えることである。 直接的な影響として、この研究は3つの目的を果たす。 第一に、自動LLMベースのポストブリーチエクスプロイトフレームワークは、アナリストが前例のない攻撃に対する組織のネットワークセキュリティ姿勢を迅速にテストし、継続的に改善するのに役立つ。 第2に、llmベースの侵入テストシステムは、少数の人間アナリストでレッドチームの有効性を伸ばすことができる。 最後に、この研究は防衛システムとチームが、野生で使用する前に先制攻撃行動を検出することを学ぶのに役立つ。

Large language models (LLMs) have demonstrated impressive results on natural language tasks, and security researchers are beginning to employ them in both offensive and defensive systems. In cyber-security, there have been multiple research efforts that utilize LLMs focusing on the pre-breach stage of attacks like phishing and malware generation. However, so far there lacks a comprehensive study regarding whether LLM-based systems can be leveraged to simulate the post-breach stage of attacks that are typically human-operated, or "hands-on-keyboard" attacks, under various attack techniques and environments. As LLMs inevitably advance, they may be able to automate both the pre- and post-breach attack stages. This shift may transform organizational attacks from rare, expert-led events to frequent, automated operations requiring no expertise and executed at automation speed and scale. This risks fundamentally changing global computer security and correspondingly causing substantial economic impacts, and a goal of this work is to better understand these risks now so we can better prepare for these inevitable ever-more-capable LLMs on the horizon. On the immediate impact side, this research serves three purposes. First, an automated LLM-based, post-breach exploitation framework can help analysts quickly test and continually improve their organization's network security posture against previously unseen attacks. Second, an LLM-based penetration test system can extend the effectiveness of red teams with a limited number of human analysts. Finally, this research can help defensive systems and teams learn to detect novel attack behaviors preemptively before their use in the wild....
翻訳日:2024-03-05 15:26:05 公開日:2024-03-02
# 協調型多エージェント強化学習の効率的なエピソード記憶利用

Efficient Episodic Memory Utilization of Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2403.01112v1 )

ライセンス: Link先を確認
Hyungho Na, Yunkyeong Seo, Il-chul Moon(参考訳) 協調型マルチエージェント強化学習(marl)では、エージェントは敵を倒したり、ゴールを決めたりといった共通の目標を達成することを目指している。 既存のMARLアルゴリズムは有効であるが、依然としてかなりの学習時間を必要としており、複雑なタスクによって局所的な最適状態に陥り、その結果、目標達成ポリシーの発見に失敗することが多い。 これを解決するために,MARLのための効率的なエピソードメモリ利用法(EMU)を紹介した。 (a)エピソードバッファからのセマンティックコヒーレントメモリを活用して強化学習を促進すること b) 局所収束を防ぐために望ましい遷移を選択的に促進する。 達成するために (a) EMUは、MARLと共にトレーニング可能なエンコーダ/デコーダ構造を採用し、探索メモリリコールを容易にするコヒーレントなメモリ埋め込みを生成する。 達成するために (b)EMUは、国家の望ましさに基づく叙述的インセンティブと呼ばれる新しい報酬構造を導入する。 この報酬はQラーニングにおけるTD目標を改善し、望ましい移行のための追加のインセンティブとして機能する。 提案するインセンティブを理論的に支援し,従来のエピソード制御と比較してEMUの有効性を示す。 提案手法はStarCraft II と Google Research Football で評価され,実験結果から最先端の手法よりも性能が向上したことを示す。

In cooperative multi-agent reinforcement learning (MARL), agents aim to achieve a common goal, such as defeating enemies or scoring a goal. Existing MARL algorithms are effective but still require significant learning time and often get trapped in local optima by complex tasks, subsequently failing to discover a goal-reaching policy. To address this, we introduce Efficient episodic Memory Utilization (EMU) for MARL, with two primary objectives: (a) accelerating reinforcement learning by leveraging semantically coherent memory from an episodic buffer and (b) selectively promoting desirable transitions to prevent local convergence. To achieve (a), EMU incorporates a trainable encoder/decoder structure alongside MARL, creating coherent memory embeddings that facilitate exploratory memory recall. To achieve (b), EMU introduces a novel reward structure called episodic incentive based on the desirability of states. This reward improves the TD target in Q-learning and acts as an additional incentive for desirable transitions. We provide theoretical support for the proposed incentive and demonstrate the effectiveness of EMU compared to conventional episodic control. The proposed method is evaluated in StarCraft II and Google Research Football, and empirical results indicate further performance improvement over state-of-the-art methods.
翻訳日:2024-03-05 15:20:31 公開日:2024-03-02
# 拡散モデルによる顔スワップ

Face Swap via Diffusion Model ( http://arxiv.org/abs/2403.01108v1 )

ライセンス: Link先を確認
Feifei Wang(参考訳) 本稿では,2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。 ip-adapter、controlnet、stable diffusionのinpainting pipelineの3つのコンポーネントで構成されており、それぞれface feature encoding、multi-conditional generation、face inpaintingである。 さらに、顔面誘導最適化とCodeFormerベースのブレンディングを導入して、生成品質をさらに改善します。 具体的には,最近の軽量カスタマイズ手法(dreambooth-lora)を用いて,アイデンティティの一貫性を保証する。 1) ソースIDを表すために稀な識別子 "sks" を使用して, 2)テキスト特徴のような各クロスアテンション層にソースポートレートの画像特徴を注入する。 次に、安定拡散の強い塗装能力を活用し、ターゲットポートレートのキャニー画像と顔検出アノテーションを条件として利用し、ContorlNetの生成をガイドし、ソースポートレートとターゲットポートレートを整列させる。 さらに顔のアライメントを補正するため、サンプル生成時のテキスト埋め込みを最適化するために顔誘導損失を追加する。

This technical report presents a diffusion model based framework for face swapping between two portrait images. The basic framework consists of three components, i.e., IP-Adapter, ControlNet, and Stable Diffusion's inpainting pipeline, for face feature encoding, multi-conditional generation, and face inpainting respectively. Besides, I introduce facial guidance optimization and CodeFormer based blending to further improve the generation quality. Specifically, we engage a recent light-weighted customization method (i.e., DreamBooth-LoRA), to guarantee the identity consistency by 1) using a rare identifier "sks" to represent the source identity, and 2) injecting the image features of source portrait into each cross-attention layer like the text features. Then I resort to the strong inpainting ability of Stable Diffusion, and utilize canny image and face detection annotation of the target portrait as the conditions, to guide ContorlNet's generation and align source portrait with the target portrait. To further correct face alignment, we add the facial guidance loss to optimize the text embedding during the sample generation.
翻訳日:2024-03-05 15:20:09 公開日:2024-03-02
# LLMからの自己説明によるテキストスタイルの蒸留

Distilling Text Style Transfer With Self-Explanation From LLMs ( http://arxiv.org/abs/2403.01106v1 )

ライセンス: Link先を確認
Chiyu Zhang, Honglong Cai, Yuezhang (Music) Li, Yuexin Wu, Le Hou, Muhammad Abdul-Mageed(参考訳) Text Style Transfer (TST)は、中核的なコンテンツを保持しながら、テキストのスタイルを変えようとしている。 TSTの限られた並列データセットの制約を考慮し,TSTの促進を促すために,大型言語モデル(LLM)とチェーン・オブ・シント(CoT)を併用したフレームワークであるCoTeXを提案する。 CoTeXは、LLMの複雑な書き換えと推論能力を、非並列データと並列データの両方を扱うことができるより簡潔なモデルに蒸留する。 4つのTSTデータセットにわたる実験により、CoTeXは、特に低リソース環境において、従来の微調整および知識蒸留法を超えることが示されている。 我々は、CoTeXを現在の教師なし、教師なし、コンテキスト内学習(ICL)技術と命令調整LLMと比較し、包括的な評価を行う。 さらに、CoTeXはスタイル転送プロセスに対して透過的な説明を提供することで、自分自身を区別する。

Text Style Transfer (TST) seeks to alter the style of text while retaining its core content. Given the constraints of limited parallel datasets for TST, we propose CoTeX, a framework that leverages large language models (LLMs) alongside chain-of-thought (CoT) prompting to facilitate TST. CoTeX distills the complex rewriting and reasoning capabilities of LLMs into more streamlined models capable of working with both non-parallel and parallel data. Through experimentation across four TST datasets, CoTeX is shown to surpass traditional supervised fine-tuning and knowledge distillation methods, particularly in low-resource settings. We conduct a comprehensive evaluation, comparing CoTeX against current unsupervised, supervised, in-context learning (ICL) techniques, and instruction-tuned LLMs. Furthermore, CoTeX distinguishes itself by offering transparent explanations for its style transfer process.
翻訳日:2024-03-05 15:19:50 公開日:2024-03-02
# 単一画像デハジングのための深度情報支援協調促進ネットワーク

Depth Information Assisted Collaborative Mutual Promotion Network for Single Image Dehazing ( http://arxiv.org/abs/2403.01105v1 )

ライセンス: Link先を確認
Yafei Zhang, Shen Zhou, Huafeng Li(参考訳) 一つのぼんやりした画像から明確なイメージを復元することは、オープンな逆問題である。 重要な研究の進展はあったが、ほとんどの既存の手法では下流のタスクが上流のデハジングを促進させる効果を無視している。 ヘイズ生成機構の観点からは、シーンの深さ情報とヘイズ画像との間に潜在的な関係がある。 そこで本稿では,1つの画像のデハジングを実現するために,デュアルタスク協調促進フレームワークを提案する。 本フレームワークは,両タスクインタラクション機構による深度推定とデハージングを統合し,性能の相互向上を実現する。 2つのタスクの協調最適化を実現するために,差分認識を用いた代替実装機構を開発した。 一方,デハジング結果の深度マップと理想像との差分認識を提案し,デハジングネットワークを促進させ,デハジングの非理想領域に注意を払う。 一方、ヘイズ画像の回収困難な領域における深度推定性能を向上させることにより、ヘイズ画像の深度情報を明示的に利用して鮮明な画像復元を支援することができる。 深度推定を促進するために,デハズド画像と地上の真実との差を利用して,デハズド一理想領域に焦点を合わせるために深度推定ネットワークを誘導することを提案する。 これにより、デハジングと深さの推定は、相互に強化された方法でその強さを活用することができる。 実験の結果,提案手法は最先端手法よりも優れた性能が得られることがわかった。

Recovering a clear image from a single hazy image is an open inverse problem. Although significant research progress has been made, most existing methods ignore the effect that downstream tasks play in promoting upstream dehazing. From the perspective of the haze generation mechanism, there is a potential relationship between the depth information of the scene and the hazy image. Based on this, we propose a dual-task collaborative mutual promotion framework to achieve the dehazing of a single image. This framework integrates depth estimation and dehazing by a dual-task interaction mechanism and achieves mutual enhancement of their performance. To realize the joint optimization of the two tasks, an alternative implementation mechanism with the difference perception is developed. On the one hand, the difference perception between the depth maps of the dehazing result and the ideal image is proposed to promote the dehazing network to pay attention to the non-ideal areas of the dehazing. On the other hand, by improving the depth estimation performance in the difficult-to-recover areas of the hazy image, the dehazing network can explicitly use the depth information of the hazy image to assist the clear image recovery. To promote the depth estimation, we propose to use the difference between the dehazed image and the ground truth to guide the depth estimation network to focus on the dehazed unideal areas. It allows dehazing and depth estimation to leverage their strengths in a mutually reinforcing manner. Experimental results show that the proposed method can achieve better performance than that of the state-of-the-art approaches.
翻訳日:2024-03-05 15:19:33 公開日:2024-03-02
# 特徴アライメント:事前学習モデルにおけるプロキシによる効率的な能動学習の再考

Feature Alignment: Rethinking Efficient Active Learning via Proxy in the Context of Pre-trained Models ( http://arxiv.org/abs/2403.01101v1 )

ライセンス: Link先を確認
Ziting Wen, Oscar Pizarro, Stefan Williams(参考訳) アクティブラーニングによる事前学習モデルの微調整は、アノテーションコストの削減を約束する。 しかし、この組み合わせは、特に事前訓練されたモデルの規模が大きくなるにつれて、かなりの計算コストをもたらす。 最近の研究では、計算コストを削減するために機能を事前計算するプロキシベースのアクティブラーニングが提案されている。 しかし、このアプローチは、しばしばアクティブな学習性能が大幅に低下し、計算コストの節約を上回る可能性がある。 本稿では,ラベル付きサンプルのカテゴリを区別できない機能や,冗長なサンプルの選定だけでなく,プロキシモデルで選択したサンプルを微調整する場合に,有意義な事前学習情報を漏洩させる傾向から,性能低下が生じることを論じる。 そこで本研究では,事前学習情報を継承する適切な訓練方法を選択しながら,事前学習機能を更新するためのプロキシによるアライメント選択という新しい手法を提案する。 本手法は,計算効率を維持しつつ,効率的な能動学習の総コストを大幅に向上させる。

Fine-tuning the pre-trained model with active learning holds promise for reducing annotation costs. However, this combination introduces significant computational costs, particularly with the growing scale of pre-trained models. Recent research has proposed proxy-based active learning, which pre-computes features to reduce computational costs. Yet, this approach often incurs a significant loss in active learning performance, which may even outweigh the computational cost savings. In this paper, we argue the performance drop stems not only from pre-computed features' inability to distinguish between categories of labeled samples, resulting in the selection of redundant samples but also from the tendency to compromise valuable pre-trained information when fine-tuning with samples selected through the proxy model. To address this issue, we propose a novel method called aligned selection via proxy to update pre-computed features while selecting a proper training method to inherit valuable pre-training information. Extensive experiments validate that our method significantly improves the total cost of efficient active learning while maintaining computational efficiency.
翻訳日:2024-03-05 15:19:10 公開日:2024-03-02
# 電子ガス中の集合量子励起の拡散的崩壊

Diffusive Decay of Collective Quantum Excitations in Electron Gas ( http://arxiv.org/abs/2403.01099v1 )

ライセンス: Link先を確認
M. Akbari-Moghanjoughi(参考訳) 本研究では、集合電子励起の多流準粒子モデルを用いて、相互作用電子ガス中の集合量子励起のエネルギー密度分布を任意の縮退度で研究する。 確率電流とエネルギー密度分布に関する一般化された関係が得られ、これは顕微鏡レベルで純準粒子状態の拡散崩壊の新しい興味深い量子現象を示す。 この効果は、自由準粒子、無限平方ウェルポテンシャル中の準粒子、半空間集合励起の様々なケースで研究される。 プラズモン励起は、一様エネルギー密度空間分布を持つ平衡状態へと崩壊する本質的な傾向を示す。 正方形ウェルポテンシャルにおける準パティクルのプラズモン準位は、集合励起の基本的な性質により平衡状態に不安定に崩壊する。 純プラズモン状態の崩壊速度は分析的に決定される。 さらに、減衰準粒子励起の場合、非破壊確率電流の発散は仮想エネルギー密度につながり、エネルギー密度動的に減衰不安定となる。 低レベルの励起で半空間境界に近いエネルギー密度谷は、表面に近い引力を予測する。 最近の研究はプラズモニクスや関連分野の応用に影響を与えうる。 電流解析は、外部電位と磁場効果を含むように容易に一般化できる。

In this work the multistream quasiparticle model of collective electron excitations is used to study the energy-density distribution of collective quantum excitations in an interacting electron gas with arbitrary degree of degeneracy. Generalized relations for the probability current and energy density distributions is obtained which reveals a new interesting quantum phenomenon of diffusive decay of pure quasiparticle states at microscopic level. The effects is studied for various cases of free quasiparticles, quasiparticle in an infinite square-well potential and half-space collective excitations. It is shown that plasmon excitations have the intrinsic tendency to decay into equilibrium state with uniform energy density spacial distribution. It is found that plasmon levels of quasipaticle in a square-well potential are unstable decaying into equilibrium state due to the fundamental property of collective excitations. The decay rates of pure plasmon states are determined analytically. Moreover, for damped quasiparticle excitations the non-vanishing probability current divergence leads to imaginary energy density resulting in damping instability of energy density dynamic. The pronounced energy density valley close to half-space boundary at low level excitations predicts attractive force close to the surface. Current research can have implications with applications in plasmonics and related fields. Current analysis can be readily generalized to include external potential and magnetic field effects.
翻訳日:2024-03-05 15:18:52 公開日:2024-03-02
# Inevitable-Metaverse: メタバースの公開感のための新しいTwitterデータセット

Inevitable-Metaverse: A Novel Twitter Dataset for Public Sentiments on Metaverse ( http://arxiv.org/abs/2403.01095v1 )

ライセンス: Link先を確認
Kadhim Hayawi, Sakib Shahriar, Mohamed Adel Serhani, Eiman Alothali(参考訳) metaverseは、物理世界と仮想世界を統合することを目的とした新しい技術として登場した。 この技術は近年、facebookを含む著名な組織から多くの関心と投資を受けており、同社はこのテクノロジー開発をリードすることを目指して会社名をmetaに変更した。 仮想会議や仮想学習環境のような潜在的なユースケースによるメタバースの見通しは概して期待されているが、潜在的なネガティブな結果による懸念もある。 たとえば、人びとはデータのプライバシーやメタバースに多くの時間を費やすことが、現実の生活に悪影響を及ぼすことを心配している。 そこで本研究では,ソーシャルメディア上でのメタバースに関する世論感情をさらに調査することを目的とする。 86565件のメタバース関連ツイートが辞書ベースの感情分析に使用された。 さらに,様々なテキスト特徴を持つ機械学習モデルと深層学習モデルを用いて感情クラスを予測した。 BERTトランスモデルは、テストデータセット上で92.6%の精度と0.91のF測定で感情カテゴリーを予測するのに最適であることが示されている。 最後に,その意義と今後の研究方向性についても考察した。

Metaverse has emerged as a novel technology with the objective to merge the physical world into the virtual world. This technology has seen a lot of interest and investment in recent times from prominent organizations including Facebook which has changed its company name to Meta with the goal of being the leader in developing this technology. Although people in general are excited about the prospects of metaverse due to potential use cases such as virtual meetings and virtual learning environments, there are also concerns due to potential negative consequences. For instance, people are concerned about their data privacy as well as spending a lot of their time on the metaverse leading to negative impacts in real life. Therefore, this research aims to further investigate the public sentiments regarding metaverse on social media. A total of 86565 metaverse-related tweets were used to perform lexicon-based sentiment analysis. Furthermore, various machine and deep learning models with various text features were utilized to predict the sentiment class. The BERT transformer model was demonstrated to be the best at predicting the sentiment categories with 92.6% accuracy and 0.91 F-measure on the test dataset. Finally, the implications and future research directions were also discussed.
翻訳日:2024-03-05 15:18:34 公開日:2024-03-02
# グラフ領域適応性を改善するペアワイズアライメント

Pairwise Alignment Improves Graph Domain Adaptation ( http://arxiv.org/abs/2403.01092v1 )

ライセンス: Link先を確認
Shikun Liu, Deyu Zou, Han Zhao, Pan Li(参考訳) 実世界の多くのアプリケーションで相互接続されたオブジェクトをラベル推論するための重要なグラフベースメソッドは、モデルトレーニングに使用されるグラフがテストに使用されるグラフと大きく異なる場合、しばしば一般化の課題に遭遇する。 この作業は、グラフデータ上の分散シフトのユニークな複雑さに対処するため、グラフドメイン適応(GDA)に組み込まれ、相互接続されたデータポイントは、機能やラベル、特に接続パターンのシフトを経験する。 本稿では,条件構造シフト (CSS) とラベルシフト (LS) を緩和することにより,グラフ構造シフトに対処する新しい理論的手法であるペアワイズアライメント (ペアワイズアライメント) を提案する。 pair-alignはエッジウェイトを使用して、隣接するノード間の影響を調整してcssを処理し、分類損失をラベル重みで調整してlsを処理する。 提案手法は,ネットワークの領域シフトを伴うノード分類や粒子衝突実験におけるパイルアップ緩和タスクなど,実世界のアプリケーションにおいて優れた性能を示す。 最初のアプリケーションでは、GDA研究のために、これまでで最大のデータセットをキュレートします。 本手法は合成および既存のベンチマークデータセットにおいて強力な性能を示す。

Graph-based methods, pivotal for label inference over interconnected objects in many real-world applications, often encounter generalization challenges, if the graph used for model training differs significantly from the graph used for testing. This work delves into Graph Domain Adaptation (GDA) to address the unique complexities of distribution shifts over graph data, where interconnected data points experience shifts in features, labels, and in particular, connecting patterns. We propose a novel, theoretically principled method, Pairwise Alignment (Pair-Align) to counter graph structure shift by mitigating conditional structure shift (CSS) and label shift (LS). Pair-Align uses edge weights to recalibrate the influence among neighboring nodes to handle CSS and adjusts the classification loss with label weights to handle LS. Our method demonstrates superior performance in real-world applications, including node classification with region shift in social networks, and the pileup mitigation task in particle colliding experiments. For the first application, we also curate the largest dataset by far for GDA studies. Our method shows strong performance in synthetic and other existing benchmark datasets.
翻訳日:2024-03-05 15:18:17 公開日:2024-03-02
# COOL:交通予測のための時空間グラフニューラルネットワークのコンジョイント視点

COOL: A Conjoint Perspective on Spatio-Temporal Graph Neural Network for Traffic Forecasting ( http://arxiv.org/abs/2403.01091v1 )

ライセンス: Link先を確認
Wei Ju, Yusheng Zhao, Yifang Qin, Siyu Yi, Jingyang Yuan, Zhiping Xiao, Xiao Luo, Xiting Yan, and Ming Zhang(参考訳) 本稿では,過去の状況に基づいて交通の予測を行う交通予測について検討する。 この問題は様々なシナリオで注目され続け、都市計画や交通管理といった下流の多くのアプリケーションの開発が促進された。 しかし、時間的関係と空間的関係を独立にモデル化する傾向から、既存の方法の有効性は相変わらず最適であり、それによって両世界の複雑な高次相互作用を不適切に考慮している。 さらに、トラフィック予測におけるトランジッションパターンの多様性は、既存のアプローチを捉えるのを難しくし、その多様性をより深く探究することを保証する。 そこで本稿では,先行情報と後続情報から不均一グラフをモデル化し,高次時空間関係を連続的に捉えるコンジョイント時空間グラフニューラルネットワーク(cool)を提案する。 一方、逐次観測を繋ぐ異種グラフを構築し、先行メッセージパッシングによる複合時空間関係を抽出する。 一方、構築された親和性とペナルティグラフを用いて動的関係をモデル化し、後続メッセージパッシングを誘導し、補足意味情報をノード表現に組み込む。 さらに,トラヒック予測のための多様な遷移特性を捉えるために,マルチランクとマルチスケールの両方から多様な時間パターンをモデル化するコンジョイント・セルフアテンション・デコーダを提案する。 4つの人気のあるベンチマークデータセットにおける実験結果から,提案するcoolは,競合ベースラインと比較して最先端のパフォーマンスを提供することが示された。

This paper investigates traffic forecasting, which attempts to forecast the future state of traffic based on historical situations. This problem has received ever-increasing attention in various scenarios and facilitated the development of numerous downstream applications such as urban planning and transportation management. However, the efficacy of existing methods remains sub-optimal due to their tendency to model temporal and spatial relationships independently, thereby inadequately accounting for complex high-order interactions of both worlds. Moreover, the diversity of transitional patterns in traffic forecasting makes them challenging to capture for existing approaches, warranting a deeper exploration of their diversity. Toward this end, this paper proposes Conjoint Spatio-Temporal graph neural network (abbreviated as COOL), which models heterogeneous graphs from prior and posterior information to conjointly capture high-order spatio-temporal relationships. On the one hand, heterogeneous graphs connecting sequential observation are constructed to extract composite spatio-temporal relationships via prior message passing. On the other hand, we model dynamic relationships using constructed affinity and penalty graphs, which guide posterior message passing to incorporate complementary semantic information into node representations. Moreover, to capture diverse transitional properties to enhance traffic forecasting, we propose a conjoint self-attention decoder that models diverse temporal patterns from both multi-rank and multi-scale views. Experimental results on four popular benchmark datasets demonstrate that our proposed COOL provides state-of-the-art performance compared with the competitive baselines.
翻訳日:2024-03-05 15:17:57 公開日:2024-03-02
# 正確な唇と音声の合成を目指して

Towards Accurate Lip-to-Speech Synthesis in-the-Wild ( http://arxiv.org/abs/2403.01087v1 )

ライセンス: Link先を確認
Sindhu Hegde, Rudrabha Mukhopadhyay, C.V. Jawahar, Vinay Namboodiri(参考訳) 本稿では,唇の動きのみに基づいて,無声音声から音声を合成する新しい手法を提案する。 リップビデオから直接音声を生成する従来のアプローチは、音声だけでは堅牢な言語モデルを学べないという課題に直面しており、満足できない結果をもたらす。 この問題を解決するために,我々は,言語情報をモデルに組み込む最先端のリップ・ツー・テキストネットワークを用いて,ノイズの多いテキストの監督を行うことを提案する。 ノイズの多いテキストは、事前トレーニングされたlip-to-textモデルを使用して生成されます。 我々は、視覚ストリームを利用して、サイレント入力ビデオと同期した正確な音声を生成するビジュアルテキスト音声ネットワークを設計する。 我々は、様々なベンチマークデータセット上で、最先端の手法よりもアプローチが優れていることを示す広範な実験とアブレーション研究を行う。 また,als患者に対して音声を失くしながら口の動きを起こせる音声を生成させることにより,補助技術における本手法の実用的応用を実証する。 デモビデオ、コード、その他の詳細は、 \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/ms-l2s-itw} で見ることができる。

In this paper, we introduce a novel approach to address the task of synthesizing speech from silent videos of any in-the-wild speaker solely based on lip movements. The traditional approach of directly generating speech from lip videos faces the challenge of not being able to learn a robust language model from speech alone, resulting in unsatisfactory outcomes. To overcome this issue, we propose incorporating noisy text supervision using a state-of-the-art lip-to-text network that instills language information into our model. The noisy text is generated using a pre-trained lip-to-text model, enabling our approach to work without text annotations during inference. We design a visual text-to-speech network that utilizes the visual stream to generate accurate speech, which is in-sync with the silent input video. We perform extensive experiments and ablation studies, demonstrating our approach's superiority over the current state-of-the-art methods on various benchmark datasets. Further, we demonstrate an essential practical application of our method in assistive technology by generating speech for an ALS patient who has lost the voice but can make mouth movements. Our demo video, code, and additional details can be found at \url{http://cvit.iiit.ac.in/research/projects/cvit-projects/ms-l2s-itw}.
翻訳日:2024-03-05 15:17:30 公開日:2024-03-02
# 夜の可視性を超えて:赤外線と可視画像の適応的マルチスケール融合

Beyond Night Visibility: Adaptive Multi-Scale Fusion of Infrared and Visible Images ( http://arxiv.org/abs/2403.01083v1 )

ライセンス: Link先を確認
Shufan Pei, Junhong Lin, Wenxi Liu, Tiesong Zhao and Chia-Wen Lin(参考訳) 低照度に加えて、夜間画像は光の影響(例えば、グレア、フラッドライトなど)によって劣化する。 しかし、既存の夜間視認性向上法は一般的に低照度領域に焦点を合わせ、無視したり、光効果を増幅したりする。 この問題に対処するため,赤外線および可視画像を用いた適応型マルチスケール核融合ネットワーク(AMFusion)を提案し,異なる照明領域に応じて融合ルールを設計する。 まず,光分布の調整に前者が,後者が検出精度の向上に使用される赤外線画像と可視画像から空間的特徴と意味的特徴を別々に融合する。 これにより、低光・光効果のない画像を得ることができ、夜間物体検出の性能が向上する。 第2に,事前学習したバックボーンから抽出した検出機能を利用して,意味的特徴の融合を誘導する。 そこで我々は,検出誘導セマンティックフュージョンモジュール(DSFM)を設計し,検出と意味的特徴の間の領域ギャップを埋める。 第3に、通常の光強度で融合画像を制約する新しい照明損失を提案する。 実験により,視品質と検出精度が向上し,AMFusionの優位性が示された。 ソースコードは、ピアレビュープロセス後にリリースされる。

In addition to low light, night images suffer degradation from light effects (e.g., glare, floodlight, etc). However, existing nighttime visibility enhancement methods generally focus on low-light regions, which neglects, or even amplifies the light effects. To address this issue, we propose an Adaptive Multi-scale Fusion network (AMFusion) with infrared and visible images, which designs fusion rules according to different illumination regions. First, we separately fuse spatial and semantic features from infrared and visible images, where the former are used for the adjustment of light distribution and the latter are used for the improvement of detection accuracy. Thereby, we obtain an image free of low light and light effects, which improves the performance of nighttime object detection. Second, we utilize detection features extracted by a pre-trained backbone that guide the fusion of semantic features. Hereby, we design a Detection-guided Semantic Fusion Module (DSFM) to bridge the domain gap between detection and semantic features. Third, we propose a new illumination loss to constrain fusion image with normal light intensity. Experimental results demonstrate the superiority of AMFusion with better visual quality and detection accuracy. The source code will be released after the peer review process.
翻訳日:2024-03-05 15:17:08 公開日:2024-03-02
# LAB: チャットボットの大規模アライメント

LAB: Large-Scale Alignment for ChatBots ( http://arxiv.org/abs/2403.01081v1 )

ライセンス: Link先を確認
Shivchander Sudalairaj, Abhishek Bhandwaldar, Aldo Pareja, Kai Xu, David D. Cox, Akash Srivastava(参考訳) LAB(Large-scale Alignment for chatBots)は,大規模言語モデル(LLM)学習の指導・チューニングフェーズにおいて,スケーラビリティの課題を克服する新しい手法である。 分類誘導合成データ生成プロセスと多相チューニングフレームワークを活用することで、LABは高価な人間のアノテーションやGPT-4のようなプロプライエタリなモデルへの依存を著しく低減する。 従来の人間アノテーションやGPT-4生成合成データを用いて学習したモデルと比較して,LAB学習モデルが複数のベンチマークで競合性能を達成できることを実証した。 したがって,LLMの能力向上のためのスケーラブルで費用対効果の高いソリューションと,大惨な忘れ込みの欠点を伴わない命令追従動作を提供することで,LLMの幅広い応用のための効率的なトレーニングの一歩となる。

This work introduces LAB (Large-scale Alignment for chatBots), a novel methodology designed to overcome the scalability challenges in the instruction-tuning phase of large language model (LLM) training. Leveraging a taxonomy-guided synthetic data generation process and a multi-phase tuning framework, LAB significantly reduces reliance on expensive human annotations and proprietary models like GPT-4. We demonstrate that LAB-trained models can achieve competitive performance across several benchmarks compared to models trained with traditional human-annotated or GPT-4 generated synthetic data. Thus offering a scalable, cost-effective solution for enhancing LLM capabilities and instruction-following behaviors without the drawbacks of catastrophic forgetting, marking a step forward in the efficient training of LLMs for a wide range of applications.
翻訳日:2024-03-05 15:16:47 公開日:2024-03-02
# MLPにもっとグラフ情報を教える: 3段階のマルチタスク知識蒸留フレームワーク

Teaching MLP More Graph Information: A Three-stage Multitask Knowledge Distillation Framework ( http://arxiv.org/abs/2403.01079v1 )

ライセンス: Link先を確認
Junxian Li, Bin Shi, Erfei Cui, Hua Wei, Qinghua Zheng(参考訳) グラフニューラルネットワークの大規模グラフデータセットにおける推論タスクの課題として,膨大な時間とメモリ消費について検討し,グラフ構造への依存度を低減し,その克服を試みる。 グラフ知識を学生MLPに蒸留することは優れたアイデアであるが、位置情報損失と低一般化の2つの大きな問題に直面している。 そこで本研究では,新しい3段階マルチタスク蒸留フレームワークを提案する。 具体的には,位置情報の取得に位置符号化を用いる。 また,gnnにおけるグラフデータ処理を担うニューラルヒートカーネルを導入し,学生mlpの隠れレイヤの性能向上のために,隠れレイヤ出力マッチングを利用する。 我々の知る限りでは、グラフ上の学生MDPに隠れた層蒸留を取り入れ、グラフ位置エンコーディングとMLPを組み合わせた最初の研究である。 パフォーマンスと堅牢性をいくつかの設定でテストし、作業が優れた安定性で優れたパフォーマンスを達成できるという結論を導きました。

We study the challenging problem for inference tasks on large-scale graph datasets of Graph Neural Networks: huge time and memory consumption, and try to overcome it by reducing reliance on graph structure. Even though distilling graph knowledge to student MLP is an excellent idea, it faces two major problems of positional information loss and low generalization. To solve the problems, we propose a new three-stage multitask distillation framework. In detail, we use Positional Encoding to capture positional information. Also, we introduce Neural Heat Kernels responsible for graph data processing in GNN and utilize hidden layer outputs matching for better performance of student MLP's hidden layers. To the best of our knowledge, it is the first work to include hidden layer distillation for student MLP on graphs and to combine graph Positional Encoding with MLP. We test its performance and robustness with several settings and draw the conclusion that our work can outperform well with good stability.
翻訳日:2024-03-05 15:16:32 公開日:2024-03-02
# $\Gamma$-VAE:高次元データにおける創発的低次元幾何学構造を明らかにするための曲率正規化変分オートエンコーダ

$\Gamma$-VAE: Curvature regularized variational autoencoders for uncovering emergent low dimensional geometric structure in high dimensional data ( http://arxiv.org/abs/2403.01078v1 )

ライセンス: Link先を確認
Jason Z. Kim, Nicolas Perrin-Gilbert, Erkan Narmanli, Paul Klein, Christopher R. Myers, Itai Cohen, Joshua J. Waterfall, James P. Sethna(参考訳) 創発的挙動を持つ自然系はしばしば高次元空間の低次元部分集合に沿って組織される。 例えば、ヒトゲノムに数万の遺伝子があるにもかかわらず、生物学的プロセスは低次元の表現型をもたらす調整された組織に依存するため、ゲノム学の原理的な研究は実りある。 この構造を明らかにするために、多くの非線形次元減少技術は、データポイント間の局所的な類似性を保ちながら、高次元データを低次元空間に埋め込むことに成功した。 しかし、これらの手法の非線形性は、過度の曲率によって複数の非隣り合うデータクラスタの一般的な傾向を保ち、解釈可能性や分布外データへの一般化性を制限する。 ここでは、変分オートエンコーダが生成する多様体の曲率を正規化することにより、これらの制限に対処する( ``$\Gamma$-VAE'' )。 The Cancer Genome Atlas (TCGA) と Genotype tissue Expression (GTEx) のバルクRNA-seq と、造血幹細胞分化における系統追跡実験の単一細胞RNA-seq の2つの例を用いてその有用性を実証した。 得られた正則化多様体は、異なるがん細胞型に関連するメソスケール構造を同定し、組織が完全に見えない分布癌から正確に再組込みされたことを、もともとそれらに基づいて訓練されたかのように示す。 最後に、分化した細胞との長期的関係を維持することは、最終的な運命に従って、未分化の細胞を分離することを示します。 概して、生成モデルの曲率の規則化は、創発的な低次元挙動を持つ任意の高次元システムにおいて、より一貫性があり、予測可能で、一般化可能なモデルを可能にすることを期待する。

Natural systems with emergent behaviors often organize along low-dimensional subsets of high-dimensional spaces. For example, despite the tens of thousands of genes in the human genome, the principled study of genomics is fruitful because biological processes rely on coordinated organization that results in lower dimensional phenotypes. To uncover this organization, many nonlinear dimensionality reduction techniques have successfully embedded high-dimensional data into low-dimensional spaces by preserving local similarities between data points. However, the nonlinearities in these methods allow for too much curvature to preserve general trends across multiple non-neighboring data clusters, thereby limiting their interpretability and generalizability to out-of-distribution data. Here, we address both of these limitations by regularizing the curvature of manifolds generated by variational autoencoders, a process we coin ``$\Gamma$-VAE''. We demonstrate its utility using two example data sets: bulk RNA-seq from the The Cancer Genome Atlas (TCGA) and the Genotype Tissue Expression (GTEx); and single cell RNA-seq from a lineage tracing experiment in hematopoietic stem cell differentiation. We find that the resulting regularized manifolds identify mesoscale structure associated with different cancer cell types, and accurately re-embed tissues from completely unseen, out-of distribution cancers as if they were originally trained on them. Finally, we show that preserving long-range relationships to differentiated cells separates undifferentiated cells -- which have not yet specialized -- according to their eventual fate. Broadly, we anticipate that regularizing the curvature of generative models will enable more consistent, predictive, and generalizable models in any high-dimensional system with emergent low-dimensional behavior.
翻訳日:2024-03-05 15:16:18 公開日:2024-03-02
# OOD検出のための不確かさ定量化による量子化ネットワークからの有効予測抽出

Extracting Usable Predictions from Quantized Networks through Uncertainty Quantification for OOD Detection ( http://arxiv.org/abs/2403.01076v1 )

ライセンス: Link先を確認
Rishi Singhal and Srinath Srinivasan(参考訳) OOD検出は、ネットワーク設計の進歩とタスクの複雑さの増加により、より重要になっている。 ネットワークのどの部分が誤って分類されているかを特定することは、ネットワーク全体のパフォーマンスと同じくらいの価値がある。 モデルを量子化で圧縮することはできますが、パフォーマンスの損失は少ないです。 性能の低下は、ネットワークの予測に対する信頼度推定を導出する必要性をさらに高める。 この考え方に沿って、事前学習された視覚モデルから予測の不確かさを定量化する不確実性定量化(UQ)手法を導入する。 この情報を利用して、信頼できない予測を無視しながら、貴重な予測を抽出する。 我々の手法は、無視されたサンプルの80%が誤分類されるのを防ぐ。 同じコードはここで入手できる。

OOD detection has become more pertinent with advances in network design and increased task complexity. Identifying which parts of the data a given network is misclassifying has become as valuable as the network's overall performance. We can compress the model with quantization, but it suffers minor performance loss. The loss of performance further necessitates the need to derive the confidence estimate of the network's predictions. In line with this thinking, we introduce an Uncertainty Quantification(UQ) technique to quantify the uncertainty in the predictions from a pre-trained vision model. We subsequently leverage this information to extract valuable predictions while ignoring the non-confident predictions. We observe that our technique saves up to 80% of ignored samples from being misclassified. The code for the same is available here.
翻訳日:2024-03-05 15:15:43 公開日:2024-03-02
# 慣性ブレグマン交互線形最小化によるエッジ誘導低光度画像強調

Edge-guided Low-light Image Enhancement with Inertial Bregman Alternating Linearized Minimization ( http://arxiv.org/abs/2403.01142v1 )

ライセンス: Link先を確認
Chaoyan Huang, Zhongming Wu, Tieyong Zeng(参考訳) 低照度画像強調のための先行手法は、ディム画像から利用可能な事前情報を抽出する際の課題に直面することが多い。 この制限を克服するために,提案したエッジ抽出を用いた簡易かつ効果的なRetinexモデルを提案する。 より具体的には、低照度画像から微細なエッジ特徴を直接キャプチャするエッジ抽出ネットワークを設計する。 そこで,retinex理論に基づいて低光度画像を照明・反射成分に分解し,低光度画像のエッジ誘導retinexモデルを導入する。 提案モデルを解くために,新しい慣性ブレグマン交互線形最小化アルゴリズムを提案する。 このアルゴリズムはエッジ誘導レチネックスモデルに関連する最適化問題に対処し、低照度画像の効果的強化を可能にする。 厳密な理論解析を通じて、アルゴリズムの収束特性を確立する。 さらに,提案アルゴリズムが非凸最適化理論によって問題の定常点に収束することを証明する。 さらに,提案手法の効率性と優越性を示すため,実世界の低光度画像データセットの多面的実験を行った。

Prior-based methods for low-light image enhancement often face challenges in extracting available prior information from dim images. To overcome this limitation, we introduce a simple yet effective Retinex model with the proposed edge extraction prior. More specifically, we design an edge extraction network to capture the fine edge features from the low-light image directly. Building upon the Retinex theory, we decompose the low-light image into its illumination and reflectance components and introduce an edge-guided Retinex model for enhancing low-light images. To solve the proposed model, we propose a novel inertial Bregman alternating linearized minimization algorithm. This algorithm addresses the optimization problem associated with the edge-guided Retinex model, enabling effective enhancement of low-light images. Through rigorous theoretical analysis, we establish the convergence properties of the algorithm. Besides, we prove that the proposed algorithm converges to a stationary point of the problem through nonconvex optimization theory. Furthermore, extensive experiments are conducted on multiple real-world low-light image datasets to demonstrate the efficiency and superiority of the proposed scheme.
翻訳日:2024-03-05 15:11:02 公開日:2024-03-02
# parallelparc:自然言語アナロジーを生成するスケーラブルなパイプライン

ParallelPARC: A Scalable Pipeline for Generating Natural-Language Analogies ( http://arxiv.org/abs/2403.01139v1 )

ライセンス: Link先を確認
Oren Sultan, Yonatan Bitton, Ron Yosef, Dafna Shahaf(参考訳) アナロジー作成は人間の認知の中心であり、新しい状況に適応することができる。 現在、ほとんどのアナログデータセットは単純なアナログ(例:単語類似)に焦点を当てている。 これは計算類似の進歩を後押しすると考えられている。 本研究では,現在最先端のLarge Language Models (LLM) を利用したデータ生成パイプラインであるParallelPARC (Parallel Paragraph Creator) を設計し,複雑な段落をベースとしたアナロジーと,単純かつ困難であるイントラクタを作成する。 当社のパイプラインを実演し、科学的プロセス間のアナロジーのデータセットであるProPara-Logyを作成します。 我々は人によって検証されたゴールドセットと銀セットを自動生成する。 我々は、LLMと人間のアナロジー認識を二分選択および複数選択設定でテストし、光監督後、人間が最良のモデル(〜13%のギャップ)より優れていることを示した。 シルバーセットがトレーニングモデルに有用であることを実証する。 最後に、難易度障害者はLSMを混乱させるが、人間ではないことを示す。 この新興分野の研究を促進することを願っています。

Analogy-making is central to human cognition, allowing us to adapt to novel situations -- an ability that current AI systems still lack. Most analogy datasets today focus on simple analogies (e.g., word analogies); datasets including complex types of analogies are typically manually curated and very small. We believe that this holds back progress in computational analogy. In this work, we design a data generation pipeline, ParallelPARC (Parallel Paragraph Creator) leveraging state-of-the-art Large Language Models (LLMs) to create complex, paragraph-based analogies, as well as distractors, both simple and challenging. We demonstrate our pipeline and create ProPara-Logy, a dataset of analogies between scientific processes. We publish a gold-set, validated by humans, and a silver-set, generated automatically. We test LLMs' and humans' analogy recognition in binary and multiple-choice settings, and found that humans outperform the best models (~13% gap) after a light supervision. We demonstrate that our silver-set is useful for training models. Lastly, we show challenging distractors confuse LLMs, but not humans. We hope our pipeline will encourage research in this emerging field.
翻訳日:2024-03-05 15:10:44 公開日:2024-03-02
# 神経放射場に基づくホログラフィー [invited]

Neural radiance fields-based holography [Invited] ( http://arxiv.org/abs/2403.01137v1 )

ライセンス: Link先を確認
Minsung Kang and Fan Wang and Kai Kumano and Tomoyoshi Ito and Tomoyoshi Shimobaba(参考訳) 本研究ではニューラル放射場(NeRF)技術に基づくホログラム生成手法を提案する。 ホログラム計算では3次元データの生成は困難である。 NeRFはボリュームレンダリングに基づく2次元画像からの3次元光場再構成技術である。 NeRFは、トレーニングデータセットを含まない新しいビューイメージを迅速に予測できる。 本研究では,NeRFによる2次元画像から生成した3次元光場から直接,深層ニューラルネットワークを用いたホログラム生成のためのレンダリングパイプラインを構築した。 パイプラインは、NeRF、深度予測器、ホログラム生成器の3つの主要コンポーネントで構成され、いずれもディープニューラルネットワークを用いて構築されている。 パイプラインには物理計算は一切含まれない。 提案するパイプラインを用いて,任意の方向から見る3次元シーンのホログラムを計算した。 シミュレーションと実験結果が得られた。

This study presents a novel approach for generating holograms based on the neural radiance fields (NeRF) technique. Generating three-dimensional (3D) data is difficult in hologram computation. NeRF is a state-of-the-art technique for 3D light-field reconstruction from 2D images based on volume rendering. The NeRF can rapidly predict new-view images that do not include a training dataset. In this study, we constructed a rendering pipeline directly from a 3D light field generated from 2D images by NeRF for hologram generation using deep neural networks within a reasonable time. The pipeline comprises three main components: the NeRF, a depth predictor, and a hologram generator, all constructed using deep neural networks. The pipeline does not include any physical calculations. The predicted holograms of a 3D scene viewed from any direction were computed using the proposed pipeline. The simulation and experimental results are presented.
翻訳日:2024-03-05 15:10:23 公開日:2024-03-02
# LLM-PQ:相認識分割と適応量子化による不均一クラスタ上でのLDMの実現

LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition and Adaptive Quantization ( http://arxiv.org/abs/2403.01136v1 )

ライセンス: Link先を確認
Juntao Zhao, Borui Wan, Yanghua Peng, Haibin Lin, Chuan Wu(参考訳) 最近の大規模言語モデル(llm)のブレークスルーは、様々なタスクで印象的なパフォーマンスを示している。 LLMの巨大なサイズは、モデルを実行するための非常に高いリソース需要とコストをもたらしました。 モデルは現在、均一なハイカリバーGPUを使用しているが、利用可能な高容量と低容量のGPUを混合した異種クラスタを利用することで、サービスコストを大幅に削減することができる。 ヘテロジニアスクラスタを使用する効率的なllmサービスをサポートするための設計が欠けている一方で、現在のソリューションは均質なデバイス間のモデル分割と一様圧縮に焦点を当てている。 本稿では、不均一GPUクラスタ上でのLCM機能効率を改善するために、適応モデル量子化と位相認識分割を提唱するLLM-PQを提案する。 高速アルゴリズムを用いた分散LLMにおける位相認識モデル分割とマイクロバッチサイズを併用した混合精度モデル量子化を慎重に検討し,ユーザ特定モデル品質目標を達成しつつ,推論スループットを大幅に向上させる。 11の異なるクラスタにおけるプロダクション推論ワークロードに関する大規模な実験は、LLM-PQが推論のスループットを最大2.88倍(2.26倍)向上させることを示した。

Recent breakthroughs in Large-scale language models (LLMs) have demonstrated impressive performance on various tasks. The immense sizes of LLMs have led to very high resource demand and cost for running the models. Though the models are largely served using uniform high-caliber GPUs nowadays, utilizing a heterogeneous cluster with a mix of available high- and low-capacity GPUs can potentially substantially reduce the serving cost. There is a lack of designs to support efficient LLM serving using a heterogeneous cluster, while the current solutions focus on model partition and uniform compression among homogeneous devices. This paper proposes LLM-PQ, a system that advocates adaptive model quantization and phase-aware partition to improve LLM serving efficiency on heterogeneous GPU clusters. We carefully decide on mixed-precision model quantization together with phase-aware model partition and micro-batch sizing in distributed LLM serving with an efficient algorithm, to greatly enhance inference throughput while fulfilling user-specified model quality targets. Extensive experiments on production inference workloads in 11 different clusters demonstrate that LLM-PQ achieves up to 2.88x (2.26x on average) throughput improvement in inference, showing great advantages over state-of-the-art works.
翻訳日:2024-03-05 15:10:11 公開日:2024-03-02
# 時系列物理センシングデータの仮想アノテーションとしての大規模言語モデルの評価

Evaluating Large Language Models as Virtual Annotators for Time-series Physical Sensing Data ( http://arxiv.org/abs/2403.01133v1 )

ライセンス: Link先を確認
Aritra Hota, Soumyajit Chatterjee, Sandip Chakraborty(参考訳) 慣性データのような時系列データに対する従来のヒューマン・イン・ザ・ループベースのアノテーションは、しばしば環境からビデオやオーディオといった代替のモダリティにアクセスする必要がある。 これらの代替情報源は人間のアノテータに必要な情報を提供するが、生の数値データは専門家にとっても難解すぎることが多い。 しかしながら、この従来のアプローチには、全体的なコスト、効率、追加のモダリティの保存、時間、スケーラビリティ、プライバシに関する多くの懸念がある。 興味深いことに、最近の大規模言語モデル (LLMs) も、膨大な量の公用アルファ数値データで訓練されており、自然言語処理以外のタスクを理解、実行することができる。 当然のことながら、これはllmを仮想アノテーションとして探究する潜在的な道を開き、llmは別のモダリティに頼るのではなく、アノテーションの生のセンサーデータを直接提供する。 当然のことながら、これは従来のヒューマン・イン・ザ・ループ・アプローチの問題を緩和する可能性がある。 本報告では, 時系列物理センシングデータをラベル付けするための仮想アノテータとして, 最先端(SOTA) LLMを使用できるかどうかを詳細に検討する。 これを原則的に行うために、研究を2つの主要なフェーズに分離する。 第1段階では,GPT-4のようなLCMが生センサデータを解釈する際に直面する課題について検討する。 フェーズ1の観測から次のフェーズにおいて,SOTA SSLアプローチを用いて生センサデータを符号化し,予測時系列データを用いてLCMからアノテーションを取得する可能性を検討する。 4つのベンチマークHARデータセットによる詳細な評価は、SSLベースのエンコーディングとメトリックベースのガイダンスにより、計算コストのかかる微調整や高度なプロンプトエンジニアリングを必要とせずに、LSMがより合理的な判断と正確なアノテーションを提供できることを示している。

Traditional human-in-the-loop-based annotation for time-series data like inertial data often requires access to alternate modalities like video or audio from the environment. These alternate sources provide the necessary information to the human annotator, as the raw numeric data is often too obfuscated even for an expert. However, this traditional approach has many concerns surrounding overall cost, efficiency, storage of additional modalities, time, scalability, and privacy. Interestingly, recent large language models (LLMs) are also trained with vast amounts of publicly available alphanumeric data, which allows them to comprehend and perform well on tasks beyond natural language processing. Naturally, this opens up a potential avenue to explore LLMs as virtual annotators where the LLMs will be directly provided the raw sensor data for annotation instead of relying on any alternate modality. Naturally, this could mitigate the problems of the traditional human-in-the-loop approach. Motivated by this observation, we perform a detailed study in this paper to assess whether the state-of-the-art (SOTA) LLMs can be used as virtual annotators for labeling time-series physical sensing data. To perform this in a principled manner, we segregate the study into two major phases. In the first phase, we investigate the challenges an LLM like GPT-4 faces in comprehending raw sensor data. Considering the observations from phase 1, in the next phase, we investigate the possibility of encoding the raw sensor data using SOTA SSL approaches and utilizing the projected time-series data to get annotations from the LLM. Detailed evaluation with four benchmark HAR datasets shows that SSL-based encoding and metric-based guidance allow the LLM to make more reasonable decisions and provide accurate annotations without requiring computationally expensive fine-tuning or sophisticated prompt engineering.
翻訳日:2024-03-05 15:09:44 公開日:2024-03-02
# MPIPN:パラメトリック音響構造システムのための多物理インフォームドポイントネット

MPIPN: A Multi Physics-Informed PointNet for solving parametric acoustic-structure systems ( http://arxiv.org/abs/2403.01132v1 )

ライセンス: Link先を確認
Chu Wang, Jinhong Wu, Yanzhi Wang, Zhijian Zha, Qi Zhou(参考訳) 機械学習は、一般非線形偏微分方程式(PDE)によって支配される物理系を解くために用いられる。 しかしながら、音響構造結合のような複雑な多物理系はしばしば、パラメトリック系と呼ばれる様々な物理量を含む一連のPDEによって記述される。 暗黙の量と暗黙の量を含むPDEが支配するパラメトリックシステムを解くための戦略が欠けている。 本稿では,パラメトリック音響構造を解くために,深層学習に基づくマルチ物理インフォームドポイントネット(MPIPN)を提案する。 まず、MPIPNは、計算領域の明示的な物理量と幾何学的特徴を含む拡張されたポイントクラウドアーキテクチャを誘導する。 そして、MPIPNは、それぞれパラメトリックシステムの解法基準の一部として、再構成された点雲の局所的特徴と大域的特徴を抽出する。 さらに、暗黙の物理量は、解決基準の別の部分として符号化技術によって埋め込まれている。 最後に、パラメトリックシステムを特徴づける全ての解法基準は、その出力がシステムの解であるMPIPNの入力として特異なシーケンスを形成するために集約される。 提案するフレームワークは、対応する計算領域に対する適応的な物理インフォームド損失関数によって訓練される。 この枠組みはシステムの新しいパラメトリック条件を扱うために一般化されている。 MPIPNの有効性は、ヘルムホルツ方程式が支配する定常パラメトリック音響構造結合系に応用することで検証される。 少数の教師データに対する物理学的影響の有効性を実証するためにアブレーション実験が実施された。 提案手法は, 定パラメータ条件下での計算領域全体の妥当な精度と, 音響構造系のパラメトリック条件の変更可能な組合せを与える。

Machine learning is employed for solving physical systems governed by general nonlinear partial differential equations (PDEs). However, complex multi-physics systems such as acoustic-structure coupling are often described by a series of PDEs that incorporate variable physical quantities, which are referred to as parametric systems. There are lack of strategies for solving parametric systems governed by PDEs that involve explicit and implicit quantities. In this paper, a deep learning-based Multi Physics-Informed PointNet (MPIPN) is proposed for solving parametric acoustic-structure systems. First, the MPIPN induces an enhanced point-cloud architecture that encompasses explicit physical quantities and geometric features of computational domains. Then, the MPIPN extracts local and global features of the reconstructed point-cloud as parts of solving criteria of parametric systems, respectively. Besides, implicit physical quantities are embedded by encoding techniques as another part of solving criteria. Finally, all solving criteria that characterize parametric systems are amalgamated to form distinctive sequences as the input of the MPIPN, whose outputs are solutions of systems. The proposed framework is trained by adaptive physics-informed loss functions for corresponding computational domains. The framework is generalized to deal with new parametric conditions of systems. The effectiveness of the MPIPN is validated by applying it to solve steady parametric acoustic-structure coupling systems governed by the Helmholtz equations. An ablation experiment has been implemented to demonstrate the efficacy of physics-informed impact with a minority of supervised data. The proposed method yields reasonable precision across all computational domains under constant parametric conditions and changeable combinations of parametric conditions for acoustic-structure systems.
翻訳日:2024-03-05 15:09:10 公開日:2024-03-02
# LLaMoCo:最適化コード生成のための大規模言語モデルの命令チューニング

LLaMoCo: Instruction Tuning of Large Language Models for Optimization Code Generation ( http://arxiv.org/abs/2403.01131v1 )

ライセンス: Link先を確認
Zeyuan Ma, Hongshu Guo, Jiacheng Chen, Guojun Peng, Zhiguang Cao, Yining Ma, Yue-Jiao Gong(参考訳) 最近の研究は、llmsから次段階のソリューションを反復的に探すか、オプティマイザにllmを直接促すことによって、大規模言語モデル(llm)による最適化を探求している。 しかしながら、これらのアプローチは、運用効率の低下、設計の迅速化への高感度化、ドメイン固有の知識の欠如など、固有の制限を示す。 LLaMoCoは,LLMをコード-コード方式で最適化問題に適応する最初の命令チューニングフレームワークである。 具体的には、よく記述された問題プロンプトと効果的な最適化コードを含む包括的命令セットを確立する。 そこで本研究では,コントラスト学習に基づくウォームアップ手順を指導調整フェーズの前に組み込んだ新しい2相学習戦略を開発し,モデルの微調整時の収束挙動を向上させる。 実験の結果,LLaMoCoにより微調整されたCodeGen(350M)モデルでは,合成問題と現実問題の両方において,GPT-4 Turboや他の競合製品と比較して優れた最適化性能が得られた。 微調整されたモデルと使用指示はhttps://anonymous.4open.science/r/LLaMoCo-722Aで入手できる。

Recent research explores optimization using large language models (LLMs) by either iteratively seeking next-step solutions from LLMs or directly prompting LLMs for an optimizer. However, these approaches exhibit inherent limitations, including low operational efficiency, high sensitivity to prompt design, and a lack of domain-specific knowledge. We introduce LLaMoCo, the first instruction-tuning framework designed to adapt LLMs for solving optimization problems in a code-to-code manner. Specifically, we establish a comprehensive instruction set containing well-described problem prompts and effective optimization codes. We then develop a novel two-phase learning strategy that incorporates a contrastive learning-based warm-up procedure before the instruction-tuning phase to enhance the convergence behavior during model fine-tuning. The experiment results demonstrate that a CodeGen (350M) model fine-tuned by our LLaMoCo achieves superior optimization performance compared to GPT-4 Turbo and the other competitors across both synthetic and realistic problem sets. The fine-tuned model and the usage instructions are available at https://anonymous.4open.science/r/LLaMoCo-722A.
翻訳日:2024-03-05 15:08:42 公開日:2024-03-02
# 2Dビデオとしての動的3Dポイントクラウドシーケンス

Dynamic 3D Point Cloud Sequences as 2D Videos ( http://arxiv.org/abs/2403.01129v1 )

ライセンス: Link先を確認
Yiming Zeng, Junhui Hou, Qijian Zhang, Siyu Ren, Wenping Wang(参考訳) 動的3Dポイントクラウドシーケンスは、動的現実世界環境の最も一般的で実用的な表現の1つである。 しかし、空間領域と時間領域の両方における非構造的性質は、効率的かつ効率的な処理に重大な課題をもたらす。 既存のディープポイントクラウドシーケンスモデリングアプローチは、複雑な時空間的ポイント隣接グルーピングと特徴集約スキームを開発することによって、成熟した2dビデオ学習メカニズムを模倣している。 本稿では,新しい汎用表現である \textit{structured point cloud videos} (spcvs) を提案する。 直観的には、3次元幾何学的形状が本質的に2次元多様体であるという事実を利用して、SPCVは、点の3次元座標に対応する画素値が空間的滑らかさと時間的一貫性を持つ2次元ビデオとして点雲列を再編成する。 spcv表現の構造的性質により,確立された2次元画像/映像技術のシームレスな適応が可能となり,3次元点雲列の効率的かつ効率的な処理と解析が可能となった。 このような再編成を実現するために,我々は,自己再構成および変形場学習の目的により幾何学的に規則化され,駆動される自己教師あり学習パイプラインを設計する。 さらに,SPCVをベースとした低レベル・高レベルの3Dポイントクラウドシーケンス処理と解析タスクの構築を行い,動作認識,時間的補間,圧縮などを行った。 広範な実験により提案されたSPCVの汎用性と優位性が示され、非構造化の3Dポイントクラウドシークエンスの深層学習に新たな可能性をもたらす可能性がある。 コードはhttps://github.com/ZENGYIMING-EAMON/SPCV.comでリリースされる。

Dynamic 3D point cloud sequences serve as one of the most common and practical representation modalities of dynamic real-world environments. However, their unstructured nature in both spatial and temporal domains poses significant challenges to effective and efficient processing. Existing deep point cloud sequence modeling approaches imitate the mature 2D video learning mechanisms by developing complex spatio-temporal point neighbor grouping and feature aggregation schemes, often resulting in methods lacking effectiveness, efficiency, and expressive power. In this paper, we propose a novel generic representation called \textit{Structured Point Cloud Videos} (SPCVs). Intuitively, by leveraging the fact that 3D geometric shapes are essentially 2D manifolds, SPCV re-organizes a point cloud sequence as a 2D video with spatial smoothness and temporal consistency, where the pixel values correspond to the 3D coordinates of points. The structured nature of our SPCV representation allows for the seamless adaptation of well-established 2D image/video techniques, enabling efficient and effective processing and analysis of 3D point cloud sequences. To achieve such re-organization, we design a self-supervised learning pipeline that is geometrically regularized and driven by self-reconstructive and deformation field learning objectives. Additionally, we construct SPCV-based frameworks for both low-level and high-level 3D point cloud sequence processing and analysis tasks, including action recognition, temporal interpolation, and compression. Extensive experiments demonstrate the versatility and superiority of the proposed SPCV, which has the potential to offer new possibilities for deep learning on unstructured 3D point cloud sequences. Code will be released at https://github.com/ZENGYIMING-EAMON/SPCV.
翻訳日:2024-03-05 15:08:24 公開日:2024-03-02
# ロスランドスケープの感度解析

Sensitivity Analysis On Loss Landscape ( http://arxiv.org/abs/2403.01128v1 )

ライセンス: Link先を確認
Salman Faroz(参考訳) 感度分析には勾配を用いることができる。 ここでは,損失環境の利点を生かして,どの独立変数が依存変数に影響を与えるかを理解する。 我々は,第1,第2,第3導関数を自動微分により活用し,損失景観の把握を目指す。 スピアマンのランク相関係数は、2つの変数の間の単調な関係を検出できる。 しかし,二階勾配はスピアマンの結果と同様に可視化できる情報を提供しており,本手法では損失関数と活性化関数を組み込んで非線形パターンを生成する。 再訓練によって失われた風景を探索するごとに、新たな貴重な情報が得られる。 さらに、第1および第3の微分もまた、独立変数が依存変数にどの程度影響するかを示すため、有益である。

Gradients can be employed for sensitivity analysis. Here, we leverage the advantages of the Loss Landscape to comprehend which independent variables impact the dependent variable. We seek to grasp the loss landscape by utilizing first, second, and third derivatives through automatic differentiation. we know that Spearman's rank correlation coefficient can detect the monotonic relationship between two variables. However, I have found that second-order gradients, with certain configurations and parameters, provide information that can be visualized similarly to Spearman's results.In our approach, we incorporate a loss function with an activation function, resulting in a non-linear pattern. Each exploration of the loss landscape through retraining yields new valuable information. Furthermore, the first and third derivatives are also beneficial, as they indicate the extent to which independent variables influence the dependent variable.
翻訳日:2024-03-05 15:07:55 公開日:2024-03-02
# 1次元導波路に結合した巨大原子鎖からの単一光子散乱

Single photon scattering from a chain of giant atoms coupled to a one-dimensional waveguide ( http://arxiv.org/abs/2403.01126v1 )

ライセンス: Link先を確認
Y. P. Peng and W. Z. Jia(参考訳) 複数の巨大原子を含む導波路型量子電磁流体構造におけるコヒーレント単一光子輸送について検討した。 単一光子散乱振幅は実空間法を用いて解く。 その結果,マルチチャネル散乱過程の明確な画像が得られた。 同一かつ等間隔の巨大原子が分離された構成の場合、散乱スペクトルの性質を便利に解析できるようなコンパクトな解析的励起子による散乱振幅の表現にも転送行列法を用いる。 これらの理論の結果から,超ラジアント現象,多重ファノ干渉,フォトニックバンドギャップなどの出力場のいくつかの種類の集合的性質を,設定設計に関係のある巨大原子の非双極子効果が強く操作できることが判明した。 これにより、小さな原子よりも幅広い方法で光子輸送を操作できる。 また、光子散乱スペクトルを用いて巨大原子の連鎖の位相状態を調べる提案を行い、巨大原子を持つ導波路量子電磁力学系は位相物理学とオンチップ量子光学を融合する理想的なプラットフォームであることを示した。

We investigate coherent single-photon transport in a waveguide quantum electrodynamics struc- ture containing multiple giant atoms. The single-photon scattering amplitudes are solved using a real-space method. The results give rise to a clear picture of the multi-channel scattering process. In the case of identical and equally-spaced giant atoms in a separate configuration, we also use the transfer-matrix method to express the scattering amplitudes in terms of compact analytical expres- sions, which allow us to conveniently analyze the properties of the scattering spectra. Based on these theoretical results, we find that the non-dipole effects of giant atoms, which are relevant to the design of the setup, can strongly manipulate several types of collective properties of the output fields, including the superradiant phenomenon, the multiple Fano interference, and the photonic band gap. This makes it possible to manipulate the photon transport in a more versatile way than with small atoms. We also make a proposal to probe the topological states of a chain of braided giant atoms by using photon scattering spectra, showing that waveguide quantum electrodynamics systems with giant atoms are ideal platforms to merge topological physics and on-chip quantum optics.
翻訳日:2024-03-05 15:07:43 公開日:2024-03-02
# テキスト誘導探索可能な超高解像度画像

Text-guided Explorable Image Super-resolution ( http://arxiv.org/abs/2403.01124v1 )

ライセンス: Link先を確認
Kanchana Vaishnavi Gandikota, Paramanand Chandramouli(参考訳) 本稿では,オープンドメイン画像の超解像に対するゼロショットテキスト誘導探索の問題を紹介する。 我々のゴールは、ユーザがこれらの特定の劣化を明示的にトレーニングすることなく、様々な大きなダウンサンプリング要因に対する低解像度の入力とデータ一貫性を維持する多様な意味論的に正確な再構築を探索できるようにすることです。 ゼロショットテキスト誘導超解像のための2つのアプローチを提案する。 一 低解像度入力との一貫性を促進するために、テキストから画像への拡散モデルの生成過程を変更すること。 二 ゼロショット拡散に基づく復元方法に言語指導を取り入れること。 提案手法は,テキストプロンプトによって提供された意味的意味に適合し,劣化した入力とデータの一貫性を保ちながら多様な解が得られることを示す。 超高分解能の課題に対する提案したベースラインを評価し,ソリューションの回復品質,多様性,探索可能性の面でのメリットを実証する。

In this paper, we introduce the problem of zero-shot text-guided exploration of the solutions to open-domain image super-resolution. Our goal is to allow users to explore diverse, semantically accurate reconstructions that preserve data consistency with the low-resolution inputs for different large downsampling factors without explicitly training for these specific degradations. We propose two approaches for zero-shot text-guided super-resolution - i) modifying the generative process of text-to-image \textit{T2I} diffusion models to promote consistency with low-resolution inputs, and ii) incorporating language guidance into zero-shot diffusion-based restoration methods. We show that the proposed approaches result in diverse solutions that match the semantic meaning provided by the text prompt while preserving data consistency with the degraded inputs. We evaluate the proposed baselines for the task of extreme super-resolution and demonstrate advantages in terms of restoration quality, diversity, and explorability of solutions.
翻訳日:2024-03-05 15:07:23 公開日:2024-03-02
# ELA:Deep Convolutional Neural Networksの効率的なローカルアテンション

ELA: Efficient Local Attention for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2403.01123v1 )

ライセンス: Link先を確認
Wei Xu and Yi Wan(参考訳) このアテンションメカニズムは、ディープニューラルネットワークの性能を効果的に向上する能力によって、コンピュータビジョンの分野で大きな認知を得た。 しかし、既存の手法は、しばしば空間情報の有効利用に苦しむか、その場合、チャネル次元を減らしたり、ニューラルネットワークの複雑さを増大させるコストがかかる。 これらの制約に対処するために,簡単な構造で大幅な性能向上を実現する効率的な局所注意法(ELA)を提案する。 コーディネート・アテンション法の限界を解析することにより,バッチ正規化における一般化能力の欠如,チャネルアテンションに対する次元減少の悪影響,およびアテンション生成過程の複雑さを明らかにする。 これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。 提案手法は,次元を縮小することなく2つの1次元位置特徴写像を効率的に符号化し,軽量な実装を実現することにより,関心領域の正確なローカライズを可能にする。 ELA-T, ELA-B, ELA-S, ELA-Lの3種類のハイパーパラメータを慎重に設計し, 画像分類, 物体検出, 寸法分割などの異なる視覚的タスクの要求を満たす。 ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。 ImageNet、MSCOCO、Pascal VOCデータセットの大規模な評価は、前述の3つの視覚タスクすべてにおいて、現在の最先端手法よりも提案されたERAモジュールの方が優れていることを示している。

The attention mechanism has gained significant recognition in the field of computer vision due to its ability to effectively enhance the performance of deep neural networks. However, existing methods often struggle to effectively utilize spatial information or, if they do, they come at the cost of reducing channel dimensions or increasing the complexity of neural networks. In order to address these limitations, this paper introduces an Efficient Local Attention (ELA) method that achieves substantial performance improvements with a simple structure. By analyzing the limitations of the Coordinate Attention method, we identify the lack of generalization ability in Batch Normalization, the adverse effects of dimension reduction on channel attention, and the complexity of attention generation process. To overcome these challenges, we propose the incorporation of 1D convolution and Group Normalization feature enhancement techniques. This approach enables accurate localization of regions of interest by efficiently encoding two 1D positional feature maps without the need for dimension reduction, while allowing for a lightweight implementation. We carefully design three hyperparameters in ELA, resulting in four different versions: ELA-T, ELA-B, ELA-S, and ELA-L, to cater to the specific requirements of different visual tasks such as image classification, object detection and sementic segmentation. ELA can be seamlessly integrated into deep CNN networks such as ResNet, MobileNet, and DeepLab. Extensive evaluations on the ImageNet, MSCOCO, and Pascal VOC datasets demonstrate the superiority of the proposed ELA module over current state-of-the-art methods in all three aforementioned visual tasks.
翻訳日:2024-03-05 15:07:08 公開日:2024-03-02
# OpenGraph: Open Graph Foundationモデルに向けて

OpenGraph: Towards Open Graph Foundation Models ( http://arxiv.org/abs/2403.01121v1 )

ライセンス: Link先を確認
Lianghao Xia, Ben Kao and Chao Huang(参考訳) グラフ学習は、レコメンデーションシステムからソーシャルネットワーク分析まで、さまざまな分野における関係データの解釈と活用に不可欠である。 この文脈では、グラフの構造情報を符号化するための有望な手法として様々なGNNが出現している。 グラフの基盤構造を効果的に把握することにより、これらのGNNは、リンク予測やノード分類といったグラフ学習タスクのパフォーマンスを高める大きな可能性を示している。 これらの高度な手法は、トレーニングインスタンスと大きく異なる未確認のグラフデータへの一般化において、しばしば困難に直面します。 本研究の目的は,汎用グラフ基礎モデルの開発により,グラフ学習パラダイムを前進させることである。 このモデルは、多様なグラフデータに存在する複雑なトポロジパターンを理解するために設計されており、異なる下流データセットをまたいだゼロショットグラフ学習タスクを最適化することができる。 この目標を達成するために、OpenGraphモデルのいくつかの重要な技術的課題に対処します。 まず,基礎となるグラフ特性がトレーニング中に遭遇したグラフと大きく異なる場合でも,グラフモデルを適用して未認識のグラフデータにうまく一般化する統一グラフトークン化手法を提案する。 第2に,グローバルトポロジカルコンテキスト内のノード依存性を効果的にキャプチャする基盤エンコーダとして,スケーラブルなグラフトランスフォーマを開発する。 第3に,LLMによって強化されたデータ拡張機構を導入し,実世界のシナリオにおけるデータ不足の限界を軽減する。 広範な実験は、我々のフレームワークの有効性を検証する。 我々はOpenGraphを新しいグラフ特性に適用し、多様なグラフのニュアンスを理解することにより、様々な設定や領域にわたって優れたゼロショットグラフ学習性能を実現する。

Graph learning has become indispensable for interpreting and harnessing relational data in diverse fields, ranging from recommendation systems to social network analysis. In this context, a variety of GNNs have emerged as promising methodologies for encoding the structural information of graphs. By effectively capturing the graph's underlying structure, these GNNs have shown great potential in enhancing performance in graph learning tasks, such as link prediction and node classification. However, despite their successes, a significant challenge persists: these advanced methods often face difficulties in generalizing to unseen graph data that significantly differs from the training instances. In this work, our aim is to advance the graph learning paradigm by developing a general graph foundation model. This model is designed to understand the complex topological patterns present in diverse graph data, enabling it to excel in zero-shot graph learning tasks across different downstream datasets. To achieve this goal, we address several key technical challenges in our OpenGraph model. Firstly, we propose a unified graph tokenizer to adapt our graph model to generalize well on unseen graph data, even when the underlying graph properties differ significantly from those encountered during training. Secondly, we develop a scalable graph transformer as the foundational encoder, which effectively captures node-wise dependencies within the global topological context. Thirdly, we introduce a data augmentation mechanism enhanced by a LLM to alleviate the limitations of data scarcity in real-world scenarios. Extensive experiments validate the effectiveness of our framework. By adapting our OpenGraph to new graph characteristics and comprehending the nuances of diverse graphs, our approach achieves remarkable zero-shot graph learning performance across various settings and domains.
翻訳日:2024-03-05 15:06:42 公開日:2024-03-02
# 画像認識特性の低減による視覚グラウンドの逆テスト

Adversarial Testing for Visual Grounding via Image-Aware Property Reduction ( http://arxiv.org/abs/2403.01118v1 )

ライセンス: Link先を確認
Zhiyuan Chang, Mingyang Li, Junjie Wang, Cheng Li, Boyu Wu, Fanjiang Xu, Qing Wang(参考訳) 様々なモダリティから情報を取り出すことの利点から,マルチモーダル学習が注目されている。 マルチモーダル学習の基本的なタスクであるVisual Grounding (VG)は、自然言語表現による画像中のオブジェクトの発見を目的としている。 VGモデルの品質を保証することは、タスクの複雑な性質のために大きな課題となる。 ブラックボックスのシナリオでは、既存の敵対的テスト技術は情報の両方のモダリティの可能性を十分に活用できないことが多い。 彼らは通常、画像またはテキスト情報のみに基づいて摂動を応用し、2つのモダリティ間の重要な相関を無視し、テストオラクルの失敗や、効果的にvgモデルに挑戦できないことに繋がる。 そこで本研究では,vgモデルの逆テストのための画像認識特性低減によるテキスト摂動手法であるpeeringを提案する。 中心となる考え方は、元の表現におけるプロパティ関連の情報を減らし、縮小した表現が画像中の元のオブジェクトを一意に記述できることを保証することである。 これを実現するために、ピーリングはまずオブジェクトとプロパティの抽出と再結合を行い、候補プロパティの還元式を生成する。 そして、画像内の他のオブジェクトが表現を満たさないよう、視覚理解技術で画像に照会することで、元のオブジェクトを正確に記述した満足した表現を選択する。 我々は3つの一般的なデータセットを含む最先端VGモデル、すなわちOFA-VGを用いてPEElingを評価する。 PEEINGが生成した敵対的テストは、MMI(MultiModal Impact score)の21.4%を達成し、画像やテキストの最先端ベースラインを8.2%から15.1%上回る結果となった。

Due to the advantages of fusing information from various modalities, multimodal learning is gaining increasing attention. Being a fundamental task of multimodal learning, Visual Grounding (VG), aims to locate objects in images through natural language expressions. Ensuring the quality of VG models presents significant challenges due to the complex nature of the task. In the black box scenario, existing adversarial testing techniques often fail to fully exploit the potential of both modalities of information. They typically apply perturbations based solely on either the image or text information, disregarding the crucial correlation between the two modalities, which would lead to failures in test oracles or an inability to effectively challenge VG models. To this end, we propose PEELING, a text perturbation approach via image-aware property reduction for adversarial testing of the VG model. The core idea is to reduce the property-related information in the original expression meanwhile ensuring the reduced expression can still uniquely describe the original object in the image. To achieve this, PEELING first conducts the object and properties extraction and recombination to generate candidate property reduction expressions. It then selects the satisfied expressions that accurately describe the original object while ensuring no other objects in the image fulfill the expression, through querying the image with a visual understanding technique. We evaluate PEELING on the state-of-the-art VG model, i.e. OFA-VG, involving three commonly used datasets. Results show that the adversarial tests generated by PEELING achieves 21.4% in MultiModal Impact score (MMI), and outperforms state-of-the-art baselines for images and texts by 8.2%--15.1%.
翻訳日:2024-03-05 15:06:15 公開日:2024-03-02
# MulCogBench:中国語と英語の計算言語モデルを評価するためのマルチモーダル認知ベンチマークデータセット

MulCogBench: A Multi-modal Cognitive Benchmark Dataset for Evaluating Chinese and English Computational Language Models ( http://arxiv.org/abs/2403.01116v1 )

ライセンス: Link先を確認
Yunhao Zhang, Xiaohan Zhang, Chong Li, Shaonan Wang, Chengqing Zong(参考訳) 事前学習された計算言語モデルは、最近、人間特有の言語能力の活用において顕著な進歩を遂げた。 彼らの成功は、これらのモデルが人間のような言語を表現し、処理するかどうかに関心を寄せている。 そこで本研究では,中国語と英語の参加者から収集したマルチモーダル認知ベンチマークであるMulCogBenchを提案する。 主観的意味評価、視線追跡、機能的磁気共鳴画像(fMRI)、脳磁図(MEG)など、様々な認知データを含んでいる。 言語モデルと認知データとの関係を評価するために,テキスト埋め込みとパターン類似性に基づいて認識データをデコードする類似度エンコーディング分析を行った。 その結果、言語モデルは人間の認知データと大きな類似性を共有し、類似性パターンはデータモダリティと刺激の複雑さによって変調されることがわかった。 特に、文脈認識モデルは、言語刺激の複雑さが増加するにつれて、文脈に依存しないモデルを上回る。 文脈認識モデルの浅い層は高時間分解能MEG信号とよく一致しているが、深い層は高空間分解能fMRIとより類似している。 これらの結果から,言語モデルと脳言語表現との微妙な関係が示唆された。 さらに、中国語と英語の結果は極めて一貫したものであり、これらの発見が言語間で一般化可能であることを示唆している。

Pre-trained computational language models have recently made remarkable progress in harnessing the language abilities which were considered unique to humans. Their success has raised interest in whether these models represent and process language like humans. To answer this question, this paper proposes MulCogBench, a multi-modal cognitive benchmark dataset collected from native Chinese and English participants. It encompasses a variety of cognitive data, including subjective semantic ratings, eye-tracking, functional magnetic resonance imaging (fMRI), and magnetoencephalography (MEG). To assess the relationship between language models and cognitive data, we conducted a similarity-encoding analysis which decodes cognitive data based on its pattern similarity with textual embeddings. Results show that language models share significant similarities with human cognitive data and the similarity patterns are modulated by the data modality and stimuli complexity. Specifically, context-aware models outperform context-independent models as language stimulus complexity increases. The shallow layers of context-aware models are better aligned with the high-temporal-resolution MEG signals whereas the deeper layers show more similarity with the high-spatial-resolution fMRI. These results indicate that language models have a delicate relationship with brain language representations. Moreover, the results between Chinese and English are highly consistent, suggesting the generalizability of these findings across languages.
翻訳日:2024-03-05 15:05:45 公開日:2024-03-02
# ソフトRLLFを用いたLLMの高次否定理解のためのバランシング探索と爆発

Balancing Exploration and Exploitation in LLM using Soft RLLF for Enhanced Negation Understanding ( http://arxiv.org/abs/2403.01185v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen, Ken Satoh(参考訳) NLPにおける微調整のアプローチは、しばしば探索よりも搾取に焦点を当てる。 自然言語の膨大な探索空間を考えると、この限定された探索は、正確な否定理解と論理的推論能力が不可欠である複雑で高度な領域におけるそれらの性能を制限することができる。 この問題に対処するために、論理フィードバック(RLLF)からの強化学習を活用し、LLMにおける探索と活用の効果的なバランスを作る。 本手法は,学習と評価に適切なベンチマークデータセットを用い,否定理解能力向上における探索の重要性を強調する。 RLLFを使用せずにトレーニングしたベースラインモデルと比較し,このバランスの取れたアプローチの有効性を示した。 さらに, トランスファー学習を応用し, ネゲーション理解に与える影響を評価することで, 法的ai応用における本手法の可能性を示す。 実験の結果,LLMの否定能力向上にRLLFを用いた探索と利用のバランスをとる効果が示された。 これは、より正確で信頼性が高く、論理的に一貫性のある言語モデルの開発に意味を持つ。

Finetuning approaches in NLP often focus on exploitation rather than exploration, which may lead to suboptimal models. Given the vast search space of natural language, this limited exploration can restrict their performance in complex, high-stakes domains, where accurate negation understanding and logical reasoning abilities are crucial. To address this issue, we leverage Reinforcement Learning from Logical Feedback (RLLF) to create an effective balance between exploration and exploitation in LLMs. Our approach employs an appropriate benchmark dataset for training and evaluation, highlighting the importance of exploration in enhancing negation understanding capabilities. We compare the performance of our RLLF-enhanced LLMs with baseline models trained without RLLF, demonstrating the value of this balanced approach. Furthermore, we showcase the potential of our method in legal AI applications by employing transfer learning and evaluating its impact on negation understanding. Our experimental results exhibit the effectiveness of balancing exploration and exploitation with RLLF in improving LLMs' negation capabilities. This has implications for the development of more accurate, reliable, and logically consistent language models in high-stakes domains.
翻訳日:2024-03-05 15:01:50 公開日:2024-03-02
# 児童性虐待画像におけるシーン認識のための自己監督学習の活用

Leveraging Self-Supervised Learning for Scene Recognition in Child Sexual Abuse Imagery ( http://arxiv.org/abs/2403.01183v1 )

ライセンス: Link先を確認
Pedro H. V. Valois, Jo\~ao Macedo, Leo S. F. Ribeiro, Jefersson A. dos Santos, Sandra Avila(参考訳) 21世紀の犯罪は、仮想世界と実世界に分けられる。 しかし、後者は人々の幸福と安全に対する世界的な脅威となっている。 その課題は、グローバルな統一的な協力に直面する必要があり、オンライン犯罪の絶え間ない自然と戦うために、これまで以上に自動化され、信頼に値するツールに頼らなければならない。 毎年1000万人以上の児童性的虐待の報告が米国国立行方不明・搾取児童センターに提出され、80%以上がオンラインソースから来ている。 したがって、調査センターやクリーニングハウスは、手動で全ての画像を調査できない。 それを踏まえて、このデータを安全かつ効率的に処理できる信頼性の高い自動化ツールが最重要である。 この意味では、シーン認識タスクは環境における文脈的手がかりを求め、センシティブな素材で訓練されることなく、児童性的虐待データをグループ化し分類することができる。 子どもの性的虐待の画像を扱うことの不足と限界は、ラベルのないデータを活用して、ターゲットのタスクに簡単に転送できる強力な表現を生成する機械学習手法である、自己教師付き学習につながる。 本研究は,シーン中心データに事前学習した自己教師付きディープラーニングモデルが,室内シーン分類タスクにおいて71.6%のバランスのとれた精度に達し,全教師付きモデルよりも平均2.2ポイント高いパフォーマンスが得られることを示す。 我々はブラジル連邦警察の専門家と協力し、実際の児童虐待資料の屋内分類モデルを評価する。 その結果,広範に使用されているシーンデータセットと感性材料に表された特徴との間に顕著な相違が認められた。

Crime in the 21st century is split into a virtual and real world. However, the former has become a global menace to people's well-being and security in the latter. The challenges it presents must be faced with unified global cooperation, and we must rely more than ever on automated yet trustworthy tools to combat the ever-growing nature of online offenses. Over 10 million child sexual abuse reports are submitted to the US National Center for Missing & Exploited Children every year, and over 80% originated from online sources. Therefore, investigation centers and clearinghouses cannot manually process and correctly investigate all imagery. In light of that, reliable automated tools that can securely and efficiently deal with this data are paramount. In this sense, the scene recognition task looks for contextual cues in the environment, being able to group and classify child sexual abuse data without requiring to be trained on sensitive material. The scarcity and limitations of working with child sexual abuse images lead to self-supervised learning, a machine-learning methodology that leverages unlabeled data to produce powerful representations that can be more easily transferred to target tasks. This work shows that self-supervised deep learning models pre-trained on scene-centric data can reach 71.6% balanced accuracy on our indoor scene classification task and, on average, 2.2 percentage points better performance than a fully supervised version. We cooperate with Brazilian Federal Police experts to evaluate our indoor classification model on actual child abuse material. The results demonstrate a notable discrepancy between the features observed in widely used scene datasets and those depicted on sensitive materials.
翻訳日:2024-03-05 15:01:17 公開日:2024-03-02
# 同時空洞内および外腔外圧縮光による光学的冷却

Optomechanical cooling with simultaneous intracavity and extracavity squeezed light ( http://arxiv.org/abs/2403.01179v1 )

ライセンス: Link先を確認
S. S. Zheng, F. X. Sun, M. Asjad, G. W. Zhang, J. Huo, J. Li, J. Zhou, Z. Ma, Q. Y. He(参考訳) 本研究では, 空洞内および空洞外スクイージングの補助により, 深く未解決なサイドバンド条件下での光学機械系における機械振動子の高効率な基底状態冷却を実現するための, 新規かつ実験的に実現可能な手法を提案する。 この方式では、退化した光パラメトリック増幅器を光学キャビティ内に配置し、キャビティ内スクイーズを生成するとともに、外部から発生したスクイーズ光、すなわち、外キャビティスクイーズにより光学キャビティを駆動する。 キャビティ内スクイーズおよび外部スクイーズにより生じる量子干渉効果は、非共鳴ストークス加熱過程を完全に抑制し、反ストークス冷却過程を大幅に強化する。 したがって、共振方式は、解決されたサイドバンド状態から遠く離れた状態において、機械振動子を量子基底状態に冷却することができる。 他の従来の光学式冷却方式と比較すると、このジョイント・スケーズ方式の単光子冷却速度は3桁近く大きくすることができる。 同時に、基底状態冷却を達成するのに必要な結合強度を著しく低減することができる。 この方式は、大質量および低周波の機械振動子を冷却し、マクロ量子システムにおける非古典的状態を準備および操作するための前提条件を提供し、量子操作の重要な基礎を成す。

We propose a novel and experimentally feasible approach to achieve high-efficiency ground-state cooling of a mechanical oscillator in an optomechanical system under the deeply unresolved sideband condition with the assistance of both intracavity and extracavity squeezing. In the scheme, a degenerate optical parametric amplifier is placed inside the optical cavity, generating the intracavity squeezing; besides, the optical cavity is driven by externally generated squeezing light, namely the extracavity squeezing. The quantum interference effect generated by intracavity squeezing and extracavity squeezing can completely suppress the non-resonant Stokes heating process while greatly enhancing the anti-Stokes cooling process. Therefore, the joint-squeezing scheme is capable of cooling the mechanical oscillators to their quantum ground state in a regime far away from the resolved sideband condition. Compared with other traditional optomechanical cooling schemes, the single-photon cooling rate in this joint-squeezing scheme can be tremendously enlarged by nearly three orders of magnitude. At the same time, the coupling strength required to achieve ground-state cooling can be significantly reduced. This scheme is promising for cooling large-mass and low-frequency mechanical oscillators, which provides a prerequisite for preparing and manipulating non-classical states in macroscopic quantum systems and lays a significant foundation for quantum manipulation.
翻訳日:2024-03-05 15:00:49 公開日:2024-03-02
# カメラモーション推定における一貫性と漸近的統計的有効解法

Consistent and Asymptotically Statistically-Efficient Solution to Camera Motion Estimation ( http://arxiv.org/abs/2403.01174v1 )

ライセンス: Link先を確認
Guangyang Zeng, Qingcheng Zeng, Xinghan Li, Biqiang Mu, Jiming Chen, Ling Shi, and Junfeng Wu(参考訳) 画像ペア間の2Dポイント対応を考えると、カメラの動きを推定することはコンピュータビジョンのコミュニティにおいて基本的な問題である。 既存の研究は通常、極性制約から出発し、必須行列を推定するが、これは最大可能性(ML)の意味で最適ではない。 本稿では,回転行列と正規化変換ベクトルに関して,元の計測モデルに潜り込み,ML問題を定式化する。 第1段階では,計測ノイズのばらつきを推定し,バイアス除去に基づく一貫した推定器を考案する。第2ステップでは,多様体上の1ステップガウス・ニュートン反復を実行し,一貫した推定を洗練する。 提案する推定値がml推定値と同じ漸近的統計的性質を持つことを証明した: 第一は一貫性、すなわち、推定値は点数の増加に伴って基底真理に収束する;第二は漸近的効率、すなわち推定の平均二乗誤差は理論上の下限-クレイマー-ラオ境界に収束する。 さらに,本アルゴリズムが線形時間複雑性を持つことを示す。 これらの魅力的な特徴は、高密度点対応の場合、推定器に大きな利点をもたらす。 合成データと実画像の両方の実験により、点数が数百の順序に達すると、推定器は推定精度とCPU時間で最先端の値より優れていることが示された。

Given 2D point correspondences between an image pair, inferring the camera motion is a fundamental issue in the computer vision community. The existing works generally set out from the epipolar constraint and estimate the essential matrix, which is not optimal in the maximum likelihood (ML) sense. In this paper, we dive into the original measurement model with respect to the rotation matrix and normalized translation vector and formulate the ML problem. We then propose a two-step algorithm to solve it: In the first step, we estimate the variance of measurement noises and devise a consistent estimator based on bias elimination; In the second step, we execute a one-step Gauss-Newton iteration on manifold to refine the consistent estimate. We prove that the proposed estimate owns the same asymptotic statistical properties as the ML estimate: The first is consistency, i.e., the estimate converges to the ground truth as the point number increases; The second is asymptotic efficiency, i.e., the mean squared error of the estimate converges to the theoretical lower bound -- Cramer-Rao bound. In addition, we show that our algorithm has linear time complexity. These appealing characteristics endow our estimator with a great advantage in the case of dense point correspondences. Experiments on both synthetic data and real images demonstrate that when the point number reaches the order of hundreds, our estimator outperforms the state-of-the-art ones in terms of estimation accuracy and CPU time.
翻訳日:2024-03-05 15:00:26 公開日:2024-03-02
# 学習表現を用いた自動運転システムにおける2次元物体検出のリアルタイムイントロスペクション

Run-time Introspection of 2D Object Detection in Automated Driving Systems Using Learning Representations ( http://arxiv.org/abs/2403.01172v1 )

ライセンス: Link先を確認
Hakan Yekta Yatbaz, Mehrdad Dianati, Konstantinos Koufos, Roger Woodman(参考訳) 自動走行システム(ADS)の安全運転には,周辺環境における各種物体や道路利用者の信頼性の高い検出が不可欠である。 近年、Deep Neural Networks (DNN) に基づく高精度な物体検出装置の開発が進んでいるが、それでもなお検出エラーが発生しやすいため、ADSのような安全クリティカルなアプリケーションでは致命的な結果をもたらす可能性がある。 この問題に対する効果的な解決策は、自律システムのコンテキストにおけるイントロスペクション(introspection)と呼ばれるランタイム監視をシステムに提供することである。 そこで我々は,DNNに基づく2次元物体検出のためのフレームレベルで動作し,ニューラルネットワークの活性化パターンを活用する新しいイントロスペクションソリューションを提案する。 提案手法は、複数の異なるモードを用いて、物体検出器のバックボーンの神経活性化パターンを前処理する。 KITTIとBDDのデータセットで評価された1段階および2段階のオブジェクト検出器を用いて,2次元オブジェクト検出におけるエラー検出のための複数の最先端(SOTA)イントロスペクション機構を適用および実装する。 提案手法の性能を,エラー検出,データセットシフトへの適応性,計算量およびメモリ資源要件の観点から比較した。 性能評価の結果,提案手法はSOTA法より優れており,BDDデータセットのエラー率を9%から17%まで絶対的に削減できることがわかった。

Reliable detection of various objects and road users in the surrounding environment is crucial for the safe operation of automated driving systems (ADS). Despite recent progresses in developing highly accurate object detectors based on Deep Neural Networks (DNNs), they still remain prone to detection errors, which can lead to fatal consequences in safety-critical applications such as ADS. An effective remedy to this problem is to equip the system with run-time monitoring, named as introspection in the context of autonomous systems. Motivated by this, we introduce a novel introspection solution, which operates at the frame level for DNN-based 2D object detection and leverages neural network activation patterns. The proposed approach pre-processes the neural activation patterns of the object detector's backbone using several different modes. To provide extensive comparative analysis and fair comparison, we also adapt and implement several state-of-the-art (SOTA) introspection mechanisms for error detection in 2D object detection, using one-stage and two-stage object detectors evaluated on KITTI and BDD datasets. We compare the performance of the proposed solution in terms of error detection, adaptability to dataset shift, and, computational and memory resource requirements. Our performance evaluation shows that the proposed introspection solution outperforms SOTA methods, achieving an absolute reduction in the missed error ratio of 9% to 17% in the BDD dataset.
翻訳日:2024-03-05 14:59:58 公開日:2024-03-02
# ビデオ異常検出のためのイベントプロンプトからの疑似異常の学習

Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection ( http://arxiv.org/abs/2403.01169v1 )

ライセンス: Link先を確認
Chenchen Tao, Chong Wang, Yuexian Zou, Xiaohao Peng, Jiafei Wu and Jiangbo Qian(参考訳) 弱い教師付きビデオ異常検出(ws-vad)のためのほとんどのモデルは、複数のインスタンス学習に依存しており、異常の種類を指定することなく、正常スニペットと異常スニペットを区別することを目指している。 コンテキスト間の異常定義の不明瞭な性質は、異常バッグ内の異常および正常なスニペットを検出するバイアスをもたらす。 異常である理由をモデルに示す第一歩として,イベントプロンプトから疑わしい異常を学習するための新しい枠組みを提案する。 潜在的な異常イベントと異常ビデオから生成されたキャプションのテキスト的プロンプト辞書を考えると、それらの意味的異常類似性は、各ビデオスニペットの異常事象を識別するために計算できる。 これは、新しいマルチプロンプト学習プロセスにより、すべてのビデオで視覚的な特徴を制限できるだけでなく、擬似異常をラベル付けして自己学習する新しい方法を提供する。 有効性を示すために, xd-violence, ucf-crime, tad, shanghaitechの4つのデータセットについて包括的実験と詳細なアブレーション実験を行った。 提案手法は,AP や AUC (82.6 %,87.7 %,93.1 %,97.4 %) の最先端手法よりも優れている。 さらに、オープンセットおよびクロスデータセットケースで有望なパフォーマンスを示す。

Most models for weakly supervised video anomaly detection (WS-VAD) rely on multiple instance learning, aiming to distinguish normal and abnormal snippets without specifying the type of anomaly. The ambiguous nature of anomaly definitions across contexts introduces bias in detecting abnormal and normal snippets within the abnormal bag. Taking the first step to show the model why it is anomalous, a novel framework is proposed to guide the learning of suspected anomalies from event prompts. Given a textual prompt dictionary of potential anomaly events and the captions generated from anomaly videos, the semantic anomaly similarity between them could be calculated to identify the suspected anomalous events for each video snippet. It enables a new multi-prompt learning process to constrain the visual-semantic features across all videos, as well as provides a new way to label pseudo anomalies for self-training. To demonstrate effectiveness, comprehensive experiments and detailed ablation studies are conducted on four datasets, namely XD-Violence, UCF-Crime, TAD, and ShanghaiTech. Our proposed model outperforms most state-of-the-art methods in terms of AP or AUC (82.6\%, 87.7\%, 93.1\%, and 97.4\%). Furthermore, it shows promising performance in open-set and cross-dataset cases.
翻訳日:2024-03-05 14:59:31 公開日:2024-03-02
# DINER:多変量因果推論を用いたアスペクトに基づく知覚分析

DINER: Debiasing Aspect-based Sentiment Analysis with Multi-variable Causal Inference ( http://arxiv.org/abs/2403.01166v1 )

ライセンス: Link先を確認
Jialong Wu, Linhai Zhang, Deyu Zhou, Guoqiang Xu(参考訳) 顕著な進歩はあったが、神経ベースのアスペクトベースの感情分析(ABSA)モデルは、アノテーションバイアスから素早い相関を学習しがちである。 脱バイアスソリューションの中で、因果推論に基づく手法は多くの研究の注目を集めており、主に因果介入法と反事実推論法に分類できる。 しかし、現在のデバイアス手法のほとんどは1変数因果推論に焦点をあてており、2つの入力変数(対象アスペクトとレビュー)を持つabsaには適していない。 本稿では,absaに対する多変量因果推論に基づく新しい枠組みを提案する。 この枠組みでは、異なる因果介入法に基づいて、様々な種類のバイアスに取り組む。 レビューブランチでは、バイアスはコンテキストから間接的な共起としてモデル化され、バックドア調整がデバイアスに使用される。 アスペクトブランチでは、バイアスはラベルとの直接的な相関として記述され、デバイアスには反事実推論が採用される。 提案手法の有効性を,実世界の2つのアスペクトロバスト性テストデータセットの様々なベースラインと比較実験により実証した。

Though notable progress has been made, neural-based aspect-based sentiment analysis (ABSA) models are prone to learn spurious correlations from annotation biases, resulting in poor robustness on adversarial data transformations. Among the debiasing solutions, causal inference-based methods have attracted much research attention, which can be mainly categorized into causal intervention methods and counterfactual reasoning methods. However, most of the present debiasing methods focus on single-variable causal inference, which is not suitable for ABSA with two input variables (the target aspect and the review). In this paper, we propose a novel framework based on multi-variable causal inference for debiasing ABSA. In this framework, different types of biases are tackled based on different causal intervention methods. For the review branch, the bias is modeled as indirect confounding from context, where backdoor adjustment intervention is employed for debiasing. For the aspect branch, the bias is described as a direct correlation with labels, where counterfactual reasoning is adopted for debiasing. Extensive experiments demonstrate the effectiveness of the proposed method compared to various baselines on the two widely used real-world aspect robustness test set datasets.
翻訳日:2024-03-05 14:59:06 公開日:2024-03-02
# STAR:大規模言語モデルのデータ効率向上のための動的アクティブラーニングによる制約LoRA

STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models ( http://arxiv.org/abs/2403.01165v1 )

ライセンス: Link先を確認
Linhai Zhang, Jialong Wu, Deyu Zhou, Guoqiang Xu(参考訳) 大規模言語モデル(llm)は、プロンプトメソッドによる少数発学習の強力な能力を示しているが、複雑な推論タスクには教師あり訓練が必要である。 広いパラメータとメモリ消費のため、パラメータ効率の良いファインチューニング(PEFT)法とメモリ効率の良いファインチューニング法の両方がLLM向けに提案されている。 それでも、データ効率の良いファインチューニングの目的である大量のアノテートデータ消費の問題は未解決のままである。 1つの明らかな方法はPEFT法とアクティブラーニングを組み合わせることである。 しかし, 実験結果から, このような組み合わせは自明なものではなく, 劣る結果が得られた。 プローブ実験を通じて、そのような観測は、不確実性ギャップとモデルキャリブレーションの2つの主な理由によって説明できる。 そこで本稿では,不確実性に基づくアクティブラーニングとLoRAを効果的に統合する手法を提案する。 特に、不確実性ギャップについて、アクティブラーニングの繰り返しにおけるベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。 モデルキャリブレーションの貧弱な場合には,loraトレーニング中に正規化法を組み込んでモデルが信頼できないようにし,モンテカルロドロップアウト機構を用いて不確実性推定を行う。 実験の結果,提案手法は3つの複雑な推論タスクにおいて既存のベースラインモデルよりも優れていることがわかった。

Though Large Language Models (LLMs) have demonstrated the powerful capabilities of few-shot learning through prompting methods, supervised training is still necessary for complex reasoning tasks. Because of their extensive parameters and memory consumption, both Parameter-Efficient Fine-Tuning (PEFT) methods and Memory-Efficient Fine-Tuning methods have been proposed for LLMs. Nevertheless, the issue of large annotated data consumption, the aim of Data-Efficient Fine-Tuning, remains unexplored. One obvious way is to combine the PEFT method with active learning. However, the experimental results show that such a combination is not trivial and yields inferior results. Through probe experiments, such observation might be explained by two main reasons: uncertainty gap and poor model calibration. Therefore, in this paper, we propose a novel approach to effectively integrate uncertainty-based active learning and LoRA. Specifically, for the uncertainty gap, we introduce a dynamic uncertainty measurement that combines the uncertainty of the base model and the uncertainty of the full model during the iteration of active learning. For poor model calibration, we incorporate the regularization method during LoRA training to keep the model from being over-confident, and the Monte-Carlo dropout mechanism is employed to enhance the uncertainty estimation. Experimental results show that the proposed approach outperforms existing baseline models on three complex reasoning tasks.
翻訳日:2024-03-05 14:58:48 公開日:2024-03-02
# BootTOD: 多様な応答の調整によるタスク指向対話表現

BootTOD: Bootstrap Task-oriented Dialogue Representations by Aligning Diverse Responses ( http://arxiv.org/abs/2403.01163v1 )

ライセンス: Link先を確認
Weihao Zeng, Keqing He, Yejie Wang, Dayuan Fu, Weiran Xu(参考訳) 事前訓練された言語モデルは、多くのシナリオで成功している。 しかしながら、タスク指向対話におけるそれらの有用性は、一般的なテキストとタスク指向対話の言語的違いによって制限されている。 現在のタスク指向の対話事前学習手法は、真のポジティブとハードネガティブの選択や多様性の欠如といった課題に直面している対照的なフレームワークに依存している。 本稿では,BootTODと呼ばれる対話事前学習モデルを提案する。 セルフブートストラッピングフレームワークを通じてタスク指向の対話表現を学習する。 対照的な表現とは異なり、boottodはコンテキストとコンテキスト+レスポンスの表現を調整し、コントラストペアの要件を無視する。 BootTODはまた、人間の会話の固有の1対多の多様性をモデル化するために、複数の適切な応答ターゲットを使用する。 実験の結果,BootTODは多様な下流対話タスクにおいて,強いTODベースラインよりも優れていた。

Pre-trained language models have been successful in many scenarios. However, their usefulness in task-oriented dialogues is limited due to the intrinsic linguistic differences between general text and task-oriented dialogues. Current task-oriented dialogue pre-training methods rely on a contrastive framework, which faces challenges such as selecting true positives and hard negatives, as well as lacking diversity. In this paper, we propose a novel dialogue pre-training model called BootTOD. It learns task-oriented dialogue representations via a self-bootstrapping framework. Unlike contrastive counterparts, BootTOD aligns context and context+response representations and dismisses the requirements of contrastive pairs. BootTOD also uses multiple appropriate response targets to model the intrinsic one-to-many diversity of human conversations. Experimental results show that BootTOD outperforms strong TOD baselines on diverse downstream dialogue tasks.
翻訳日:2024-03-05 14:58:23 公開日:2024-03-02
# 酸素含有有機化合物のベイズ委員会機械ポテンシャル

A Bayesian Committee Machine Potential for Oxygen-containing Organic Compounds ( http://arxiv.org/abs/2403.01158v1 )

ライセンス: Link先を確認
Seungwon Kim, D. ChangMo Yang, Soohaeng Yoo Willow, and Chang Woo Myung(参考訳) 生物のエネルギー源となり、タンパク質形成に寄与する酸素を含む有機化合物の重要な役割を理解することは、生化学の分野において重要である。 本研究は,タンパク質-タンパク質相互作用(PPI)の理解と,タンパク質と有機化合物の述語モデルの開発という課題に対処する。 ここでは, 活性ベイズ委員会機械 (BCM) の可能性について紹介し, 酸素を含む有機化合物をCHOの8つのグループで予測することを目的としている。 BCMの可能性は、特に大規模なデータセットを扱う場合、カーネルレグレッタに関連するスケーラビリティ問題に対処するための委員会ベースのアプローチを採用する。 その適応可能な構造は効率的でコスト効率のよい拡張を可能にし、転送性と拡張性の両方を維持できる。 系統的なベンチマークを通じて、スパースBCMポテンシャルを普遍的な機械学習ポテンシャルの追求における有望な競争相手として位置付ける。

Understanding the pivotal role of oxygen-containing organic compounds in serving as an energy source for living organisms and contributing to protein formation is crucial in the field of biochemistry. This study addresses the challenge of comprehending protein-protein interactions (PPI) and developing predicitive models for proteins and organic compounds, with a specific focus on quantifying their binding affinity. Here, we introduce the active Bayesian Committee Machine (BCM) potential, specifically designed to predict oxygen-containing organic compounds within eight groups of CHO. The BCM potential adopts a committee-based approach to tackle scalability issues associated with kernel regressors, particularly when dealing with large datasets. Its adaptable structure allows for efficient and cost-effective expansion, maintaing both transferability and scalability. Through systematic benchmarking, we position the sparse BCM potential as a promising contender in the pursuit of a universal machine learning potential.
翻訳日:2024-03-05 14:58:12 公開日:2024-03-02
# 異なる負債: 技術的負債データセットの追加と開発者パーソナリティを用いたデモ

Different Debt: An Addition to the Technical Debt Dataset and a Demonstration Using Developer Personality ( http://arxiv.org/abs/2403.01157v1 )

ライセンス: Link先を確認
Lorenz Graf-Vlachy, Stefan Wagner(参考訳) 背景: "技術的負債データセット(TDD)"は、30以上のJavaプロジェクトのメインブランチにおける技術的負債(TD)に関する包括的なデータセットである。 しかし、SonarQubeによって生成されるいくつかのTDアイテムは、例えばコミットがコンパイルに失敗したため、多くのコミットには含まれない。 これはデータセットを使った以前の研究に制限がある。 目的と方法: この論文では、Teamscaleを使って37のプロジェクトからなるスーパーセットにおいて、すべてのブランチの278,320のコミットの分析を含むデータセットを追加します。 次に,先行研究の再現により,開発者のパーソナリティの関係を探究し,データセットの有用性を示す。 結果: 新しいデータセットは、以前の作業よりも大きなサンプルを使用することができ、111人の開発者と5,497人のコミットのパーソナリティを分析します。 開発者のパーソナリティとtdの導入と削除の間の関係は、以前の仕事に見られるものと異なる。 結論:TDのトピックに関する今後の研究を可能にするデータセットを提供し、開発者の性格がTDとどのように関係しているかについて、さらなる洞察を提供する。

Background: The "Technical Debt Dataset" (TDD) is a comprehensive dataset on technical debt (TD) in the main branches of more than 30 Java projects. However, some TD items produced by SonarQube are not included for many commits, for instance because the commits failed to compile. This has limited previous studies using the dataset. Aims and Method: In this paper, we provide an addition to the dataset that includes an analysis of 278,320 commits of all branches in a superset of 37 projects using Teamscale. We then demonstrate the utility of the dataset by exploring the relationship between developer personality by replicating a prior study. Results: The new dataset allows us to use a larger sample than prior work could, and we analyze the personality of 111 developers and 5,497 of their commits. The relationships we find between developer personality and the introduction and removal of TD differ from those found in prior work. Conclusions: We offer a dataset that may enable future studies into the topic of TD and we provide additional insights on how developer personality relates to TD.
翻訳日:2024-03-05 14:57:58 公開日:2024-03-02
# 弱教師付きセマンティクスセグメンテーションのためのデュアルアフィニティ学習の補助課題

Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.01156v1 )

ライセンス: Link先を確認
Lian Xu, Mohammed Bennamoun, Farid Boussaid, Wanli Ouyang, Ferdous Sohel, Dan Xu(参考訳) 既存の弱い教師付きセマンティックセマンティックセグメンテーション (WSSS) 手法は、画像レベルラベルを用いて、粗いクラス固有のローカライゼーションマップを抽出するためにクラスアクティベーションマッピング (CAM) に依存している。 従来の研究では、CAMマップと一般の訓練済みサリエンシモデルによって作成された市販のサリエンシマップを組み合わせて、より正確な擬似セグメンテーションラベルを生成する、オフラインのヒューリスティックしきい値付けプロセスが一般的であった。 auxsegnet+は,これらのサリエンシーマップからリッチな情報を探索するための補助学習フレームワークであり,サリエンシー検出と意味セグメンテーションとの間に有意なタスク間相関がある。 提案する auxsegnet+ では, 画像レベルの接地ラベルのみを用いて意味セグメンテーションのタスクを改善する補助タスクとして, 塩分検出とマルチラベル画像分類が用いられている。 また,Saliency and segmentation feature mapから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。 特に,問合せ依存と問合せ非依存の両方のグローバルコンテキストをサリエンシ検出とセマンティクスセグメンテーションの両方に集約することにより,タスク固有の特徴と予測を強化するために使用される,ペアワイズとユニリーアフィニティの両方を学ぶクロスタスク・アフィニティ学習モジュールを提案する。 学習されたクロスタスクのペアワイズ親和性は、CAMマップを洗練・伝播させ、両方のタスクにより良い擬似ラベルを提供するためにも使用できる。 セグメンテーション性能の反復的改善は、クロスタスク親和性学習と擬似ラベル更新によって実現される。 PASCAL VOCとMS COCOのベンチマークにおいて,最新のWSSSによる提案手法の有効性を実証した。

Most existing weakly supervised semantic segmentation (WSSS) methods rely on Class Activation Mapping (CAM) to extract coarse class-specific localization maps using image-level labels. Prior works have commonly used an off-line heuristic thresholding process that combines the CAM maps with off-the-shelf saliency maps produced by a general pre-trained saliency model to produce more accurate pseudo-segmentation labels. We propose AuxSegNet+, a weakly supervised auxiliary learning framework to explore the rich information from these saliency maps and the significant inter-task correlation between saliency detection and semantic segmentation. In the proposed AuxSegNet+, saliency detection and multi-label image classification are used as auxiliary tasks to improve the primary task of semantic segmentation with only image-level ground-truth labels. We also propose a cross-task affinity learning mechanism to learn pixel-level affinities from the saliency and segmentation feature maps. In particular, we propose a cross-task dual-affinity learning module to learn both pairwise and unary affinities, which are used to enhance the task-specific features and predictions by aggregating both query-dependent and query-independent global context for both saliency detection and semantic segmentation. The learned cross-task pairwise affinity can also be used to refine and propagate CAM maps to provide better pseudo labels for both tasks. Iterative improvement of segmentation performance is enabled by cross-task affinity learning and pseudo-label updating. Extensive experiments demonstrate the effectiveness of the proposed approach with new state-of-the-art WSSS results on the challenging PASCAL VOC and MS COCO benchmarks.
翻訳日:2024-03-05 14:57:40 公開日:2024-03-02
# aiによるテキスト鑑識システムに関する調査研究 : 検出・帰属・特徴付け

A Survey of AI-generated Text Forensic Systems: Detection, Attribution, and Characterization ( http://arxiv.org/abs/2403.01152v1 )

ライセンス: Link先を確認
Tharindu Kumarage, Garima Agrawal, Paras Sheth, Raha Moraffah, Aman Chadha, Joshua Garland, Huan Liu(参考訳) 我々は最近,高品質なテキストを生成する高度言語モデル(LLM)の急速な普及を目撃している。 これらのLSMは、様々な領域でテキスト生成に革命をもたらしたが、説得力のあるプロパガンダ、誤情報、偽情報を大規模に生成する可能性など、情報エコシステムに重大なリスクをもたらす。 本稿では,LLM誤用問題に対処する新たな分野である,AIによるテキスト鑑定システムのレビューを行う。 本稿では,ai生成テキスト法医学における既存の取り組みの概要を,検出,帰属,特徴付けという3つの主要な柱に着目し,詳細な分類法を紹介する。 これらの柱は、AI生成されたコンテンツ(検出)を特定し、関連するAIモデルを決定する(属性)、テキスト(特性)の基本的な意図をグループ化するなど、AI生成されたテキストの実践的な理解を可能にします。 さらに、AI生成テキスト法医学研究の利用可能なリソースを調査し、AI時代の法医学システムの進化的課題と今後の方向性について議論する。

We have witnessed lately a rapid proliferation of advanced Large Language Models (LLMs) capable of generating high-quality text. While these LLMs have revolutionized text generation across various domains, they also pose significant risks to the information ecosystem, such as the potential for generating convincing propaganda, misinformation, and disinformation at scale. This paper offers a review of AI-generated text forensic systems, an emerging field addressing the challenges of LLM misuses. We present an overview of the existing efforts in AI-generated text forensics by introducing a detailed taxonomy, focusing on three primary pillars: detection, attribution, and characterization. These pillars enable a practical understanding of AI-generated text, from identifying AI-generated content (detection), determining the specific AI model involved (attribution), and grouping the underlying intents of the text (characterization). Furthermore, we explore available resources for AI-generated text forensics research and discuss the evolving challenges and future directions of forensic systems in an AI era.
翻訳日:2024-03-05 14:57:07 公開日:2024-03-02
# 生成型逆ネットワークとトランスフォーマモデルに基づく交通インシデント検出のためのハイブリッドモデル

A Hybrid Model for Traffic Incident Detection based on Generative Adversarial Networks and Transformer Model ( http://arxiv.org/abs/2403.01147v1 )

ライセンス: Link先を確認
Xinying Lu, Doudou Zhang, Jianli Xiao(参考訳) 交通安全の向上と緊急対応の迅速化に加えて、リアルタイム交通状況情報の提供により、インテリジェントな交通システムにおいて交通インシデント検出が不可欠である。 これにより、インテリジェントなトラフィック制御と管理の実現が可能になる。 従来の研究では、高度なアルゴリズムモデルを採用することとは別に、検出の有効性は、大規模なデータセットの取得とデータセットの不均衡に対処することに関する課題にも大きく影響している。 これらの課題に対処するために,トランスフォーマと生成逆数ネットワーク(GAN)を組み合わせたハイブリッドモデルを提案する。 トラヒックインシデント検出における変圧器の優位性を検証するために, 4つの実データを用いた実験を行った。 さらにganを用いてデータセットを拡張し、1:4,2:3,1:1のバランス比を達成する。 提案モデルはベースラインモデルに対して評価される。 その結果,提案モデルがデータセットサイズを向上し,データセットのバランスを保ち,交通事故検出の性能を様々な面で向上することを示した。

In addition to enhancing traffic safety and facilitating prompt emergency response, traffic incident detection plays an indispensable role in intelligent transportation systems by providing real-time traffic status information. This enables the realization of intelligent traffic control and management. Previous research has identified that apart from employing advanced algorithmic models, the effectiveness of detection is also significantly influenced by challenges related to acquiring large datasets and addressing dataset imbalances. A hybrid model combining transformer and generative adversarial networks (GANs) is proposed to address these challenges. Experiments are conducted on four real datasets to validate the superiority of the transformer in traffic incident detection. Additionally, GANs are utilized to expand the dataset and achieve a balanced ratio of 1:4, 2:3, and 1:1. The proposed model is evaluated against the baseline model. The results demonstrate that the proposed model enhances the dataset size, balances the dataset, and improves the performance of traffic incident detection in various aspects.
翻訳日:2024-03-05 14:56:49 公開日:2024-03-02
# 実行タイタントを用いた突然変異解析

Mutation Analysis with Execution Taints ( http://arxiv.org/abs/2403.01146v1 )

ライセンス: Link先を確認
Rahul Gopinath and Philipp Goerz(参考訳) 突然変異解析は、ソフトウェアテストスイートがバグを防ぐ能力を評価する最も効果的だがコストのかかる方法の1つである。 従来の突然変異解析では、評価中のテストスイートが、振る舞いの観点から、変異とオリジナルを区別できるかどうかを確認するために、オリジナルの構文的変種を作成および評価する。 各ミュータントを別々に評価することは、元のプログラムとミュータントの間でも、また異なるミュータント間でも、大量の冗長な計算を意味する。 以前の研究は冗長性を取り除く多くの方法を探究した。 しかし、ある程度の冗長性は特に変質後の段階で残されている。 本稿では,突然変異解析のために動的データフローテントを再利用する新しい手法であるexecution taintsを提案する。 本手法は,突然変異後の冗長性を除去し,突然変異解析の効率を向上できる唯一の手法である。 さらに,プログラム間の冗長な実行を排除するために,メモ化を利用する。

Mutation analysis is one of the most effective, but costly means of assessing the ability of software test suites to prevent bugs. Traditional mutation analysis involves producing and evaluating syntactic variants of the original to check whether the test suite under evaluation is capable of distinguishing between the variant and the original in terms of behavior. Evaluating each mutant separately means a large amount of redundant computation, both between the original program and mutants, and also between different mutants. Previous work explored numerous means of removing redundancy. However, some amount of redundancy has remained especially in the post-mutation phase. In this paper, we propose execution taints--A novel technique that repurposes dynamic data-flow taints for mutation analysis. Our technique is the only technique that can remove the redundancy in post-mutation phase, achieving better efficiency in mutation analysis. We further leverage memoization to eliminate redundant execution between program variants.
翻訳日:2024-03-05 14:56:32 公開日:2024-03-02
# TCIG:拡散による画質向上を伴う2段階制御画像生成

TCIG: Two-Stage Controlled Image Generation with Quality Enhancement through Diffusion ( http://arxiv.org/abs/2403.01212v1 )

ライセンス: Link先を確認
Salaheldin Mohamed(参考訳) 近年,テキスト・ツー・イメージ生成モデルの開発において,大きな進歩を遂げている。 しかし、これらのモデルは生成プロセス中に完全な制御性を達成することに関して制限に直面している。 多くの場合、spe-cific trainingや限定的なモデルの使用が必要であり、それでも一定の制限がある。 これらの課題に対処するために,effecによる画像生成の制御性と高品質化を両立する2段階法を提案する。 このアプローチは、訓練済みのモデルの専門知識を活用して、生成された画像を正確に制御すると同時に、拡散モデルの力を利用して最先端の品質を達成する。 制御性を高品質から分離することにより,優れた結果が得られる。 潜像拡散モデルと画像空間拡散モデルの両方と互換性があり、柔軟性と柔軟性を確保している。 さらに、このアプローチは、フィールドにおける現在の最先端メソッドと同等の結果を一貫して生成する。 全体として,提案手法はテキスト対画像生成の著しい進歩を示し,生成画像の品質を損なうことなく制御性の向上を実現する。

In recent years, significant progress has been made in the development of text- to-image generation models. However, these models still face limitations when it comes to achieving full controllability during the generation process. Often, spe- cific training or the use of limited models is required, and even then, they have certain restrictions. To address these challenges, A two-stage method that effec- tively combines controllability and high quality in the generation of images is proposed. This approach leverages the expertise of pre-trained models to achieve precise control over the generated images, while also harnessing the power of diffusion models to achieve state-of-the-art quality. By separating controllability from high quality, This method achieves outstanding results. It is compatible with both latent and image space diffusion models, ensuring versatility and flexibil- ity. Moreover, This approach consistently produces comparable outcomes to the current state-of-the-art methods in the field. Overall, This proposed method rep- resents a significant advancement in text-to-image generation, enabling improved controllability without compromising on the quality of the generated images.
翻訳日:2024-03-05 14:50:47 公開日:2024-03-02
# SAR-AE-SFP:ターゲット散乱特性パラメータを持つ実物理領域におけるSAR画像の逆例

SAR-AE-SFP: SAR Imagery Adversarial Example in Real Physics domain with Target Scattering Feature Parameters ( http://arxiv.org/abs/2403.01210v1 )

ライセンス: Link先を確認
Jiahao Cui, Jiale Duan, Binyan Luo, Hang Cao, Wang Guo, Haifeng Li(参考訳) ディープニューラルネットワークに基づくSAR(Synthetic Aperture Radar)ターゲット認識モデルは、敵対的な例の影響を受けやすい。 現在のsar画像の逆例生成手法は、主に画像逆例として知られる2dデジタルドメインで機能する。 最近の研究は、SARイメージング散乱機構を考慮しながら、実際の撮像過程を考慮せず、3次元の物理領域では不可能な攻撃を擬似物理対逆例と呼ぶ。 そこで本稿では,対象物体の散乱特性パラメータを変更することで,実際の物理敵の例を生成する手法であるsar-ae-sfp-attackを提案する。 具体的には、三次元対象物の散乱特徴パラメータにおける反射係数と散乱係数を摂動させることにより、目標エコーのコヒーレントエネルギー蓄積を反復的に最適化し、RaySARシミュレータにおけるエコー信号処理および撮像処理後の逆例を得る。 実験結果から,SAR-AE-SFPアタックはCNNベースモデル(30倍以上)とトランスフォーマーベースモデル(13倍以上)の攻撃効率を有意に向上し,異なるモデルや視点における攻撃効果の有意な伝達性を示した。

Deep neural network-based Synthetic Aperture Radar (SAR) target recognition models are susceptible to adversarial examples. Current adversarial example generation methods for SAR imagery primarily operate in the 2D digital domain, known as image adversarial examples. Recent work, while considering SAR imaging scatter mechanisms, fails to account for the actual imaging process, rendering attacks in the three-dimensional physical domain infeasible, termed pseudo physics adversarial examples. To address these challenges, this paper proposes SAR-AE-SFP-Attack, a method to generate real physics adversarial examples by altering the scattering feature parameters of target objects. Specifically, we iteratively optimize the coherent energy accumulation of the target echo by perturbing the reflection coefficient and scattering coefficient in the scattering feature parameters of the three-dimensional target object, and obtain the adversarial example after echo signal processing and imaging processing in the RaySAR simulator. Experimental results show that compared to digital adversarial attack methods, SAR-AE-SFP Attack significantly improves attack efficiency on CNN-based models (over 30\%) and Transformer-based models (over 13\%), demonstrating significant transferability of attack effects across different models and perspectives.
翻訳日:2024-03-05 14:50:30 公開日:2024-03-02
# LLMを用いたPrompt Tuningによるデータフリーマルチラベル画像認識

Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning ( http://arxiv.org/abs/2403.01209v1 )

ライセンス: Link先を確認
Shuo Yang, Zirui Shang, Yongqi Wang, Derong Deng, Hongwei Chen, Qiyuan Cheng, Xinxiao Wu(参考訳) 本稿では,プリトレーニング済み大言語モデル(LLM)の知識を用いて,CLIPのような事前学習済み視覚言語モデル(VLM)をマルチラベル分類に適応させる手法を学習する,データフリーフレームワーク(Data-free framework)を提案する。 適切に設計された質問によってllmを問うことで,オブジェクトの特徴や文脈に関する包括的知識を得る。 次に,複数ラベル依存を考慮に入れて階層的プロンプト学習法を提案し,対応する対象が類似する属性を持つ場合や共起しやすい場合,カテゴリ固有のプロンプトトークンのサブセットを共有する。 CLIPの視覚的・言語的意味論の顕著な整合性から、テキスト記述から学習した階層的プロンプトを適用して、推論中に画像の分類を行う。 本フレームワークは,新しいカテゴリ認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。 3つの公開データセット(MS-COCO, VOC2007, NUS-WIDE)の大規模な実験により,本手法は最先端の手法よりも優れた結果が得られることが示された。

This paper proposes a novel framework for multi-label image recognition without any training data, called data-free framework, which uses knowledge of pre-trained Large Language Model (LLM) to learn prompts to adapt pretrained Vision-Language Model (VLM) like CLIP to multilabel classification. Through asking LLM by well-designed questions, we acquire comprehensive knowledge about characteristics and contexts of objects, which provides valuable text descriptions for learning prompts. Then we propose a hierarchical prompt learning method by taking the multi-label dependency into consideration, wherein a subset of category-specific prompt tokens are shared when the corresponding objects exhibit similar attributes or are more likely to co-occur. Benefiting from the remarkable alignment between visual and linguistic semantics of CLIP, the hierarchical prompts learned from text descriptions are applied to perform classification of images during inference. Our framework presents a new way to explore the synergies between multiple pre-trained models for novel category recognition. Extensive experiments on three public datasets (MS-COCO, VOC2007, and NUS-WIDE) demonstrate that our method achieves better results than the state-of-the-art methods, especially outperforming the zero-shot multi-label recognition methods by 4.7% in mAP on MS-COCO.
翻訳日:2024-03-05 14:50:05 公開日:2024-03-02
# 効率的な設計空間探索による量子分割器の効率向上

Boosting the Efficiency of Quantum Divider through Effective Design Space Exploration ( http://arxiv.org/abs/2403.01206v1 )

ライセンス: Link先を確認
Siyi Wang, Eugene Lim and Anupam Chattopadhyay(参考訳) スケーラブルで堅牢な量子コンピューティングの設計の急速な進展は、実用的なアルゴリズムの効率的な量子回路実装を必要とする。 いくつかのアルゴリズムでは、算術カーネル、特に除算が重要な役割を果たす。 本稿では,加算器などのサブブロックの設計選択を探索することにより,量子緩やかな分割器の性能向上に焦点をあてる。 最先端の量子付加ビルディングブロックの包括的な設計空間の探索により、我々の研究は、toffoliの深さを94.06%まで減少させ、さらにtoffoliとqubitのそれぞれ91.98%と99.37%の大幅な減少をもたらした。 本稿では,量子分割器の効率的な設計に関する重要な視点を提供し,体系的設計空間探索手法を採用することの重要性を強調する。

Rapid progress in the design of scalable, robust quantum computing necessitates efficient quantum circuit implementation for algorithms with practical relevance. For several algorithms, arithmetic kernels, in particular, division plays an important role. In this manuscript, we focus on enhancing the performance of quantum slow dividers by exploring the design choices of its sub-blocks, such as, adders. Through comprehensive design space exploration of state-of-the-art quantum addition building blocks, our work have resulted in an impressive achievement: a reduction in Toffoli Depth of up to 94.06%, accompanied by substantial reductions in both Toffoli and Qubit Count of up to 91.98% and 99.37%, respectively. This paper offers crucial perspectives on efficient design of quantum dividers, and emphasizes the importance of adopting a systematic design space exploration approach.
翻訳日:2024-03-05 14:49:40 公開日:2024-03-02
# マッサート雑音を伴うストリーミング線形および整流線形系の確率勾配降下

Stochastic gradient descent for streaming linear and rectified linear systems with Massart noise ( http://arxiv.org/abs/2403.01204v1 )

ライセンス: Link先を確認
Halyun Jeong, Deanna Needell, Elizaveta Rebrova(参考訳) sgd-exp(sgd-exp)は,マッサートノイズ(逆半ランダム破壊モデル)下での線形回帰とrelu回帰の確率的勾配降下手法である。 我々は, sgd-exp を最大 50 % のマスアート汚損率で真のパラメータに近似し, 対称的絶対的汚損の場合はいかなる汚損率も持たない, 新たな線形収束保証を示す。 これはストリーミング設定におけるロバストなrelu回帰に対する最初の収束保証であり、実際の効率で知られている指数関数的に減衰するステップサイズの選択により、従来のロバストなl_1$線形回帰の収束速度が改善されたことを示している。 我々の分析は、離散確率過程のドリフト解析に基づいている。

We propose SGD-exp, a stochastic gradient descent approach for linear and ReLU regressions under Massart noise (adversarial semi-random corruption model) for the fully streaming setting. We show novel nearly linear convergence guarantees of SGD-exp to the true parameter with up to $50\%$ Massart corruption rate, and with any corruption rate in the case of symmetric oblivious corruptions. This is the first convergence guarantee result for robust ReLU regression in the streaming setting, and it shows the improved convergence rate over previous robust methods for $L_1$ linear regression due to a choice of an exponentially decaying step size, known for its efficiency in practice. Our analysis is based on the drift analysis of a discrete stochastic process, which could also be interesting on its own.
翻訳日:2024-03-05 14:49:22 公開日:2024-03-02
# 擬似ラベル校正半教師型マルチモーダルエンティティアライメント

Pseudo-Label Calibration Semi-supervised Multi-Modal Entity Alignment ( http://arxiv.org/abs/2403.01203v1 )

ライセンス: Link先を確認
Luyao Wang and Pengnian Qi and Xigang Bao and Chunlai Zhou and Biao Qin(参考訳) マルチモーダルエンティティアライメント(MMEA)は、統合のための2つのマルチモーダル知識グラフ間で等価なエンティティを識別することを目的としている。 残念なことに、先行技術はマルチモーダル情報の相互作用と融合を改善しようとしており、モダル特有のノイズやラベル付きデータやラベル付きデータの半教師付き設定の影響を見逃している。 本研究では,Pseudo-label Calibration Multi-modal Entity Alignment(PCMEA)を半教師付き方式で導入する。 具体的には,様々な埋め込みモジュールとアテンション機構を考案し,視覚的,構造的,関係的,属性的特徴を抽出した。 本稿では,従来の直接融合法と異なり,モーダル固有ノイズをフィルタし,モーダル不変の共通性を高めるために相互情報の最大化を利用する手法を提案する。 そして,擬似ラベルキャリブレーションと運動量に基づくコントラスト学習を組み合わせることで,ラベル付きデータとラベルなしデータの完全活用を実現し,擬似ラベルの品質を向上し,アライメントされたエンティティを近づける。 最後に,2つのMMEAデータセットに対する広範な実験により,PCMEAの有効性が示された。

Multi-modal entity alignment (MMEA) aims to identify equivalent entities between two multi-modal knowledge graphs for integration. Unfortunately, prior arts have attempted to improve the interaction and fusion of multi-modal information, which have overlooked the influence of modal-specific noise and the usage of labeled and unlabeled data in semi-supervised settings. In this work, we introduce a Pseudo-label Calibration Multi-modal Entity Alignment (PCMEA) in a semi-supervised way. Specifically, in order to generate holistic entity representations, we first devise various embedding modules and attention mechanisms to extract visual, structural, relational, and attribute features. Different from the prior direct fusion methods, we next propose to exploit mutual information maximization to filter the modal-specific noise and to augment modal-invariant commonality. Then, we combine pseudo-label calibration with momentum-based contrastive learning to make full use of the labeled and unlabeled data, which improves the quality of pseudo-label and pulls aligned entities closer. Finally, extensive experiments on two MMEA datasets demonstrate the effectiveness of our PCMEA, which yields state-of-the-art performance.
翻訳日:2024-03-05 14:49:06 公開日:2024-03-02
# 動物に優しいAIの事例

The Case for Animal-Friendly AI ( http://arxiv.org/abs/2403.01199v1 )

ライセンス: Link先を確認
Sankalpa Ghose, Yip Fai Tse, Kasra Rasaee, Jeff Sebo, Peter Singer(参考訳) しかし、AI倫理とAI工学の分野は、大きな言語モデル(LLM)を含むこれらの技術が動物に多大な影響を与えることを十分に認識していない。 動物は道徳的に重要であるので、この影響は重要だと我々は主張する。 llmsにおける動物評価の最初の実験として,複数の視点からllm反応とバイアスを評価する概念実証評価システムを構築した。 本システムは, LLMのアウトプットを, その真理性と, 動物の利益に対する考慮度という2つの基準で評価する。 構造化クエリと事前定義された規範的視点を用いて,OpenAI ChatGPT 4 と Anthropic Claude 2.1 をテストした。 予備結果は,実験モデルの結果を動物に与えた考慮についてベンチマークし,生成した位置やバイアスを,より発達し検証されたシステムで解決し緩和できることを示唆している。 本研究は、動物倫理をaiに統合する一つのアプローチであり、将来の研究の道を開き、教育、公共政策、規制など、動物や社会に関わる様々な分野における実践的応用に寄与する。 全体として、この研究はより有用で責任あるAIシステムへの一歩であり、すべての知覚的存在の重要な関心と視点をよりよく認識し、尊重する。

Artificial intelligence is seen as increasingly important, and potentially profoundly so, but the fields of AI ethics and AI engineering have not fully recognized that these technologies, including large language models (LLMs), will have massive impacts on animals. We argue that this impact matters, because animals matter morally. As a first experiment in evaluating animal consideration in LLMs, we constructed a proof-of-concept Evaluation System, which assesses LLM responses and biases from multiple perspectives. This system evaluates LLM outputs by two criteria: their truthfulness, and the degree of consideration they give to the interests of animals. We tested OpenAI ChatGPT 4 and Anthropic Claude 2.1 using a set of structured queries and predefined normative perspectives. Preliminary results suggest that the outcomes of the tested models can be benchmarked regarding the consideration they give to animals, and that generated positions and biases might be addressed and mitigated with more developed and validated systems. Our research contributes one possible approach to integrating animal ethics in AI, opening pathways for future studies and practical applications in various fields, including education, public policy, and regulation, that involve or relate to animals and society. Overall, this study serves as a step towards more useful and responsible AI systems that better recognize and respect the vital interests and perspectives of all sentient beings.
翻訳日:2024-03-05 14:48:41 公開日:2024-03-02
# DMoERM:効果的なリワードモデリングのためのMixture-of-Expertsの準備

DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling ( http://arxiv.org/abs/2403.01197v1 )

ライセンス: Link先を確認
Shanghaoran Quan(参考訳) 報奨モデル(RM)の性能は,アライメント微調整時の大規模言語モデル(LLM)の有効性を向上させる上で重要な要素である。 RMトレーニングには2つの課題がある。 1) 様々なカテゴリのデータを用いた同じrmのトレーニングは、その一般化性能をマルチタスク障害に苦しめる可能性がある。 2) 人間のアノテーションの一貫性率は一般的に60\%$から75\%$であり、トレーニングデータには多くのノイズが含まれている。 これら2つの課題に取り組むため,我々は初めてmixed-of-experts (moe) のアイデアをrmの分野に導入した。 二重層moe rm (dmoerm) を提案する。 外層MoEはスパースモデルである。 入力をタスクカテゴリに分類した後、対応する内部層タスク固有モデルにルーティングする。 内層moeは密集したモデルである。 特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。 その出力はMDPによって合成され、最終的な報酬を計算する。 コストを最小限に抑えるため、我々はパブリックLLM APIを呼び出し、機能優先ラベルを得る。 手動ラベル付きデータセットの検証は、我々のモデルが人間の好みとの整合性を向上し、先進的な生成アプローチを実現することを確認する。 一方, ボンサンプリングとrl実験により, 本モデルがrmの最先端アンサンブル法を上回り, 過最適化問題を緩和することを示す。 私たちのコードとデータセットは以下の通りです。

The performance of the reward model (RM) is a critical factor in improving the effectiveness of the large language model (LLM) during alignment fine-tuning. There remain two challenges in RM training: 1) training the same RM using various categories of data may cause its generalization performance to suffer from multi-task disturbance, and 2) the human annotation consistency rate is generally only $60\%$ to $75\%$, causing training data to contain a lot of noise. To tackle these two challenges, we introduced the idea of Mixture-of-Experts (MoE) into the field of RM for the first time. We propose the Double-Layer MoE RM (DMoERM). The outer layer MoE is a sparse model. After classifying an input into task categories, we route it to the corresponding inner layer task-specific model. The inner layer MoE is a dense model. We decompose the specific task into multiple capability dimensions and individually fine-tune a LoRA expert on each one. Their outputs are then synthesized by an MLP to compute the final rewards. To minimize costs, we call a public LLM API to obtain the capability preference labels. The validation on manually labeled datasets confirms that our model attains superior consistency with human preference and outstrips advanced generative approaches. Meanwhile, through BoN sampling and RL experiments, we demonstrate that our model outperforms state-of-the-art ensemble methods of RM and mitigates the overoptimization problem. Our code and dataset are available at: https://github.com/quanshr/DMoERM-v1.
翻訳日:2024-03-05 14:48:18 公開日:2024-03-02
# Covidドメインにおける機械翻訳:LoResMT 2021の英アイルランドケーススタディ

Machine Translation in the Covid domain: an English-Irish case study for LoResMT 2021 ( http://arxiv.org/abs/2403.01196v1 )

ライセンス: Link先を確認
S\'eamus Lankford, Haithem Afli and Andy Way(参考訳) 英語からアイルランド語に翻訳する特定の領域の翻訳モデルはLoResMT 2021の共有タスクのために開発された。 翻訳総局からのコビッド適応55kコーパスを用いたドメイン適応手法を適用した。 拡張したドメイン内データセットでトレーニングされたモデルと比較して,微調整,混合微調整,複合データセットアプローチを比較した。 この研究の一環として、保健・教育分野のcovid-19関連データの英語-アイルランド語データセットが開発された。 最高のパフォーマンスモデルは、拡張されたドメイン内のCovidデータセットでトレーニングされたTransformerアーキテクチャを使用した。 本研究では,わずか5k行で8kのドメイン内ベースラインデータセットを拡張することでBLEUスコアが27ポイント向上したことを示す。

Translation models for the specific domain of translating Covid data from English to Irish were developed for the LoResMT 2021 shared task. Domain adaptation techniques, using a Covid-adapted generic 55k corpus from the Directorate General of Translation, were applied. Fine-tuning, mixed fine-tuning and combined dataset approaches were compared with models trained on an extended in-domain dataset. As part of this study, an English-Irish dataset of Covid related data, from the Health and Education domains, was developed. The highest-performing model used a Transformer architecture trained with an extended in-domain Covid dataset. In the context of this study, we have demonstrated that extending an 8k in-domain baseline dataset by just 5k lines improved the BLEU score by 27 points.
翻訳日:2024-03-05 14:47:53 公開日:2024-03-02
# 量子ルービックキューブを用いたエネルギーレベル構造理解

Understanding Energy Level Structure Using Quantum Rubik's Cube ( http://arxiv.org/abs/2403.01195v1 )

ライセンス: Link先を確認
Yu Wang, Maolin Bo(参考訳) 本稿では、量子ルービックキューブ行列とbbhモデルを組み合わせて、畳み込みの逆過程に基づく行列アルゴリズムを定義し、量子ルービックキューブ行列とハミルトン行列の表現を構成する。 さらに、量子ルービックの立方体行列の演算過程をより明確にするために、ジョセフ環を用いてルービックの立方体展開の位相グラフを描画した。 この記事では、電子のエネルギー準位遷移を達成するために量子ルービックキューブを使用し、その演算は経路積分に対応し、バンド分散を得る。 この研究は、ハミルトニアンを計算し、エネルギー準位構造を研究するための新しいアイデアと方法を提供する。

This article combines the quantum Rubik's cube matrix with the BBH model, defines the matrix algorithm based on the reverse process of convolution, constructs the expression of quantum Rubik's cube matrix and Hamiltonian. Furthermore, in order to make the operation process of the quantum Rubik's cube matrix clearer, we used Joseph ring to draw a topology graph of the Rubik's cube expansion. This article uses a Quantum Rubik's cube to achieve energy level transitions of electrons, and its operation corresponds to path integration, obtaining the band dispersion. This work provides new ideas and methods for calculating Hamiltonian and studying energy level structure.
翻訳日:2024-03-05 14:47:39 公開日:2024-03-02
# RAGged Edges: 検索可能なチャットボットのダブルエッジソード

RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots ( http://arxiv.org/abs/2403.01193v1 )

ライセンス: Link先を確認
Philip Feldman. James R. Foulds, Shimei Pan(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人工知能の顕著な進歩を示している。 しかし、幻覚の傾向 ― もっともらしいが偽の情報を生み出す ― は重要な課題である。 この問題は、ChatGPTの使用が存在しない法的判決の引用に繋がった最近の裁判で見られるように、批判的である。 本稿では,外部知識とプロンプトを統合することで,検索型生成(rag)が幻覚にどのように対処できるかを検討する。 幻覚を誘発するプロンプトを用いて,標準LLMに対するRAGを実験的に評価した。 以上の結果から,RAGの精度は向上するが,事前学習されたモデル理解と直接矛盾する場合は,まだ誤解が残る可能性がある。 これらの知見は、幻覚の複雑な性質と、現実のアプリケーションにおいてLLMの信頼性を確保するためのより堅牢なソリューションの必要性を強調している。 我々は、RAGデプロイメントの実践的な推奨と、より信頼性の高いLCMの開発における影響について論じる。

Large language models (LLMs) like ChatGPT demonstrate the remarkable progress of artificial intelligence. However, their tendency to hallucinate -- generate plausible but false information -- poses a significant challenge. This issue is critical, as seen in recent court cases where ChatGPT's use led to citations of non-existent legal rulings. This paper explores how Retrieval-Augmented Generation (RAG) can counter hallucinations by integrating external knowledge with prompts. We empirically evaluate RAG against standard LLMs using prompts designed to induce hallucinations. Our results show that RAG increases accuracy in some cases, but can still be misled when prompts directly contradict the model's pre-trained understanding. These findings highlight the complex nature of hallucinations and the need for more robust solutions to ensure LLM reliability in real-world applications. We offer practical recommendations for RAG deployment and discuss implications for the development of more trustworthy LLMs.
翻訳日:2024-03-05 14:47:27 公開日:2024-03-02
# 大規模グローバル最適化のための複合分解法

A Composite Decomposition Method for Large-Scale Global Optimization ( http://arxiv.org/abs/2403.01192v1 )

ライセンス: Link先を確認
Maojiang Tian, Minyang Chen, Wei Du, Yang Tang, Yaochu Jin, Gary G. Yen(参考訳) 大規模グローバル最適化 (LSGO) 問題を解く主要なアプローチとして, 配当戦略に基づく協調的共進化 (CC) アルゴリズムが登場している。 グループ化の効率性と精度は最適化プロセスの性能に大きく影響した。 一般分離性グルーピング(GSG)法は、非加法的に分離可能な関数の分解を可能にすることで、従来の微分グルーピング(DG)法の限界を克服しているが、高い計算複雑性に悩まされている。 そこで本稿では,両手法の長所を利用する問題分解フレームワークにdgとgsgをシームレスに統合した複合分離性グループ化(csg)手法を提案する。 CSGは計算資源の少ない様々な問題を正確に分解するステップバイステップ分解フレームワークを導入している。 加法的、乗法的、そして一般に分離変数を逐次同定することにより、CSGは、各非分離変数と生成した非分離群の間の相互作用を再帰的に考慮して、非分離変数を段階的にグループ化する。 さらに,CSGの効率性と精度を向上させるために,乗法的分離変数検出法と非分離変数グループ化法という2つの革新的な手法を導入する。 これらの2つの方法は、乗法的に分離可能な変数を効果的に検出し、非分離変数を効率的にグループ化するように設計されている。 CSG は GSG や最先端DG シリーズよりも計算複雑性の低い,より正確な変数グループ化を実現している。

Cooperative co-evolution (CC) algorithms, based on the divide-and-conquer strategy, have emerged as the predominant approach to solving large-scale global optimization (LSGO) problems. The efficiency and accuracy of the grouping stage significantly impact the performance of the optimization process. While the general separability grouping (GSG) method has overcome the limitation of previous differential grouping (DG) methods by enabling the decomposition of non-additively separable functions, it suffers from high computational complexity. To address this challenge, this article proposes a composite separability grouping (CSG) method, seamlessly integrating DG and GSG into a problem decomposition framework to utilize the strengths of both approaches. CSG introduces a step-by-step decomposition framework that accurately decomposes various problem types using fewer computational resources. By sequentially identifying additively, multiplicatively and generally separable variables, CSG progressively groups non-separable variables by recursively considering the interactions between each non-separable variable and the formed non-separable groups. Furthermore, to enhance the efficiency and accuracy of CSG, we introduce two innovative methods: a multiplicatively separable variable detection method and a non-separable variable grouping method. These two methods are designed to effectively detect multiplicatively separable variables and efficiently group non-separable variables, respectively. Extensive experimental results demonstrate that CSG achieves more accurate variable grouping with lower computational complexity compared to GSG and state-of-the-art DG series designs.
翻訳日:2024-03-05 14:47:09 公開日:2024-03-02
# バイアスデータセットから非バイアス拡散モデルのトレーニング

Training Unbiased Diffusion Models From Biased Dataset ( http://arxiv.org/abs/2403.01189v1 )

ライセンス: Link先を確認
Yeongmin Kim, Byeonghu Na, Minsang Park, JoonHo Jang, Dongjun Kim, Wanmo Kang, Il-Chul Moon(参考訳) 拡散モデルの大幅な進歩により、データセットバイアスの潜在的なリスクに対処することがますます重要になる。 生成された出力はデータセットのバイアスに直接苦しむため、潜在バイアスの軽減はサンプルの品質と比率を改善する上で鍵となる。 本稿では,拡散モデルのバイアスを軽減するために,時間依存的重要度重み付けを提案する。 本研究では, 時間依存密度比が従来の手法よりも精度が向上し, 生成学習における誤差伝播を最小化することを示す。 スコアマッチングへの直接適用は難しかったが,再重み付けとスコア補正の両方に時間依存の密度比を用いることで,目的関数の抽出可能な形式につながり,偏りのないデータ密度を再生できることが判明した。 さらに,従来のスコアマッチングとの関係を理論的に確立し,偏りのない分布への収束を実証する。 提案手法は, CIFAR-10, CIFAR-100, FFHQ, CelebAにおける時間依存性の重要度再重み付けなどのベースラインを, 様々なバイアス設定で向上させる。 私たちのコードはhttps://github.com/alsdudrla10/TIW-DSMで利用可能です。

With significant advancements in diffusion models, addressing the potential risks of dataset bias becomes increasingly important. Since generated outputs directly suffer from dataset bias, mitigating latent bias becomes a key factor in improving sample quality and proportion. This paper proposes time-dependent importance reweighting to mitigate the bias for the diffusion models. We demonstrate that the time-dependent density ratio becomes more precise than previous approaches, thereby minimizing error propagation in generative learning. While directly applying it to score-matching is intractable, we discover that using the time-dependent density ratio both for reweighting and score correction can lead to a tractable form of the objective function to regenerate the unbiased data density. Furthermore, we theoretically establish a connection with traditional score-matching, and we demonstrate its convergence to an unbiased distribution. The experimental evidence supports the usefulness of the proposed method, which outperforms baselines including time-independent importance reweighting on CIFAR-10, CIFAR-100, FFHQ, and CelebA with various bias settings. Our code is available at https://github.com/alsdudrla10/TIW-DSM.
翻訳日:2024-03-05 14:46:42 公開日:2024-03-02
# 普遍依存のための構成型意味論

A Compositional Typed Semantics for Universal Dependencies ( http://arxiv.org/abs/2403.01187v1 )

ライセンス: Link先を確認
Laurestine Bradford, Timothy John O'Donnell, Siva Reddy(参考訳) 言語は異なる文構造を用いて類似の意味を符号化することができる。 これにより、多くの言語における文の意味を一度に導出できる形式的規則のセットを提供することが困難になる。 この課題を克服するために、意味と構文の言語一般接続を活用でき、言語間並列構文構造を構築できる。 本稿では,広く使用されている言語汎用の依存性構文フレームワーク上に構築された語彙項目に対する意味型と論理形式の構成的,原則的,言語に依存しないシステムであるUD Type Calculusを紹介する。 我々は、ud型計算の本質的な特徴を説明し、それら全ては単語のそれと全く同じように依存関係を記述できる。 これにより、UD-TCは依存ラベルを用いることで、幅広い構文構造を持つ文に対して正しい意味を導き出すことができる。 最後に,既存の文のコーパスとその論理形式について評価結果を提示し,UD-TCがベースラインに匹敵する意味を生み出すことを示す。

Languages may encode similar meanings using different sentence structures. This makes it a challenge to provide a single set of formal rules that can derive meanings from sentences in many languages at once. To overcome the challenge, we can take advantage of language-general connections between meaning and syntax, and build on cross-linguistically parallel syntactic structures. We introduce UD Type Calculus, a compositional, principled, and language-independent system of semantic types and logical forms for lexical items which builds on a widely-used language-general dependency syntax framework. We explain the essential features of UD Type Calculus, which all involve giving dependency relations denotations just like those of words. These allow UD-TC to derive correct meanings for sentences with a wide range of syntactic structures by making use of dependency labels. Finally, we present evaluation results on a large existing corpus of sentences and their logical forms, showing that UD-TC can produce meanings comparable with our baseline.
翻訳日:2024-03-05 14:46:20 公開日:2024-03-02
# 法定記録のevault

Evault for legal records ( http://arxiv.org/abs/2403.01186v1 )

ライセンス: Link先を確認
Anas S, Anuragav S, Abhishek R, Sachin K(参考訳) ブロックチェーンベースのeVaultプラットフォームを通じて、法律レコード管理システムの課題に対処するイノベーティブなソリューション。 私たちの目標は、弁護士、裁判官、クライアント、登録者を含むすべての利害関係者のニーズに応える、安全で透明でアクセス可能なエコシステムを作ることです。 まず第一に、私たちのソリューションは、アクセス、パーミッション、トランザクションを効果的に管理するためにスマートコントラクトのパワーを活用するethereumのような堅牢なブロックチェーンプラットフォーム上に構築されています。 これにより、システム内のすべてのインタラクションにおけるセキュリティと透明性が保証される。 eVaultシステムをユーザフレンドリにするために、すべての利害関係者に対して直感的なインターフェースを開発しました。 弁護士、裁判官、クライアント、さらには登録者さえも、法的文書のアップロードや検索、変更の追跡、およびプラットフォーム内での情報共有などを行うことができる。 ドキュメント作成と保存機能をアプリやWebサイトに組み込むことで、さらに一歩前進しました。 この機能により、ユーザは法的文書を生成、安全に保存でき、ドキュメント全体の合理化ができる。

Innovative solution for addressing the challenges in the legal records management system through a blockchain-based eVault platform. Our objective is to create a secure, transparent, and accessible ecosystem that caters to the needs of all stakeholders, including lawyers, judges, clients, and registrars. First and foremost, our solution is built on a robust blockchain platform like Ethereum harnessing the power of smart contracts to manage access, permissions, and transactions effectively. This ensures the utmost security and transparency in every interaction within the system. To make our eVault system user-friendly, we've developed intuitive interfaces for all stakeholders. Lawyers, judges, clients, and even registrars can effortlessly upload and retrieve legal documents, track changes, and share information within the platform. But that's not all; we've gone a step further by incorporating a document creation and saving feature within our app and website. This feature allows users to generate and securely store legal documents, streamlining the entire documentation process.
翻訳日:2024-03-05 14:46:03 公開日:2024-03-02
# AcME-AD: 異常検出のための加速モデル記述法

AcME-AD: Accelerated Model Explanations for Anomaly Detection ( http://arxiv.org/abs/2403.01245v1 )

ライセンス: Link先を確認
Valentina Zaccaria, David Dandolo, Chiara Masiero, Gian Antonio Susto(参考訳) 異常検出における高速かつ堅牢な解釈可能性の獲得は,特に実用化における意義から重要である。 従来の異常検出手法は、異常識別に優れているが、しばしばブラックボックスであり、意思決定プロセスに関する見識が乏しい。 この透明性の欠如は、信頼性を損なうと同時に、異常検出の背景にある理由を理解できないシナリオへの採用を妨げます。 同時に、説明を素早く得ることが、実用的なシナリオでは最重要となる。 このギャップを埋めるために、表データに対する異常検出モデルを明らかにするために設計された、説明可能な人工知能の原則に根ざした新しいアプローチであるAcME-ADを提案する。 AcME-ADは、相互運用性のためのモデルに依存しない効率的なソリューションを提供することによって、モデル固有またはリソース重大な説明可能性技術の制約を超越します。 ローカルな特徴重要度スコアとWhat-if分析ツールを提供し、各異常に寄与する要因に光を当て、根本原因分析と意思決定を支援する。 本稿では,AcME-ADの基礎とその既存手法に対する利点を解明し,合成データと実データの両方を用いて,その有効性を検証する。 AcME-ADの実装と実験用のレプリケーションコードは、パブリックリポジトリからアクセス可能である。

Pursuing fast and robust interpretability in Anomaly Detection is crucial, especially due to its significance in practical applications. Traditional Anomaly Detection methods excel in outlier identification but are often black-boxes, providing scant insights into their decision-making process. This lack of transparency compromises their reliability and hampers their adoption in scenarios where comprehending the reasons behind anomaly detection is vital. At the same time, getting explanations quickly is paramount in practical scenarios. To bridge this gap, we present AcME-AD, a novel approach rooted in Explainable Artificial Intelligence principles, designed to clarify Anomaly Detection models for tabular data. AcME-AD transcends the constraints of model-specific or resource-heavy explainability techniques by delivering a model-agnostic, efficient solution for interoperability. It offers local feature importance scores and a what-if analysis tool, shedding light on the factors contributing to each anomaly, thus aiding root cause analysis and decision-making. This paper elucidates AcME-AD's foundation, its benefits over existing methods, and validates its effectiveness with tests on both synthetic and real datasets. AcME-AD's implementation and experiment replication code is accessible in a public repository.
翻訳日:2024-03-05 14:42:18 公開日:2024-03-02
# 自己合成リハーサルによる大規模言語モデルにおける破滅的予測の緩和

Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal ( http://arxiv.org/abs/2403.01244v1 )

ライセンス: Link先を確認
Jianheng Huang, Leyang Cui, Ante Wang, Chengyi Yang, Xinting Liao, Linfeng Song, Junfeng Yao, Jinsong Su(参考訳) 大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。 従来のリハーサルベースの手法は、実際の応用では実現不可能なモデルの能力を維持するために、以前のトレーニングデータに依存している。 LLMチェックポイントに基づいて連続的な学習を行う場合、元のトレーニングデータの入手は不可能である。 この課題に対処するために,LLMを用いた自己合成リハーサル(Self-Synthesized Rehearsal, SSR)というフレームワークを提案する。 具体的には,まず,テキスト内学習に基本LLMを用いて合成インスタンスを生成する。 次に,最新のLCMを用いて,合成入力に基づいてインスタンスの出力を洗練し,その取得能力を保った。 最後に,今後のリハーサルのために,多種多様な高品質合成インスタンスを選択する。 実験結果から,SSRは従来のリハーサルベースの手法に比べ,データ効率が向上し,優れた性能を示した。 さらに、SSRはLLMの一般領域での一般化能力を効果的に維持する。

Large language models (LLMs) suffer from catastrophic forgetting during continual learning. Conventional rehearsal-based methods rely on previous training data to retain the model's ability, which may not be feasible in real-world applications. When conducting continual learning based on a publicly-released LLM checkpoint, the availability of the original training data may be non-existent. To address this challenge, we propose a framework called Self-Synthesized Rehearsal (SSR) that uses the LLM to generate synthetic instances for rehearsal. Concretely, we first employ the base LLM for in-context learning to generate synthetic instances. Subsequently, we utilize the latest LLM to refine the instance outputs based on the synthetic inputs, preserving its acquired ability. Finally, we select diverse high-quality synthetic instances for rehearsal in future stages. Experimental results demonstrate that SSR achieves superior or comparable performance compared to conventional rehearsal-based approaches while being more data-efficient. Besides, SSR effectively preserves the generalization capabilities of LLMs in general domains.
翻訳日:2024-03-05 14:41:57 公開日:2024-03-02
# Augmenting Automation: 機械学習によるインテントベースのユーザインストラクション分類

Augmenting Automation: Intent-Based User Instruction Classification with Machine Learning ( http://arxiv.org/abs/2403.01242v1 )

ライセンス: Link先を確認
Lochan Basyal, Bijay Gaudel(参考訳) 電気自動化システムは、電気回路やデバイスを制御するための利便性と効率を提供する。 従来、これらのシステムは制御のための事前定義されたコマンドに依存し、柔軟性と適応性を制限する。 本稿では,機械学習手法を用いたインテントに基づくユーザ命令分類の導入により,自動化を促進する新しい手法を提案する。 ユーザの指示をインテントとして表現し,事前に定義された命令に頼らずに電気回路の動的制御を可能にする。 ユーザ命令のラベル付きデータセットに基づいてトレーニングされた機械学習モデルを通じて,ユーザの入力から意図を分類し,より直感的で適応可能な制御方式を実現する。 本稿では、意図分類のための機械学習モデルの開発を詳述し、意図に基づく電気自動化システムの設計と実装について述べる。 実験の結果,本手法がユーザエクスペリエンスの向上と電気自動化システムの能力拡張に有効であることが示された。 私たちの仕事は、ユーザと環境間のよりシームレスなインタラクションを提供することによって、スマートテクノロジの進歩に貢献します。

Electric automation systems offer convenience and efficiency in controlling electrical circuits and devices. Traditionally, these systems rely on predefined commands for control, limiting flexibility and adaptability. In this paper, we propose a novel approach to augment automation by introducing intent-based user instruction classification using machine learning techniques. Our system represents user instructions as intents, allowing for dynamic control of electrical circuits without relying on predefined commands. Through a machine learning model trained on a labeled dataset of user instructions, our system classifies intents from user input, enabling a more intuitive and adaptable control scheme. We present the design and implementation of our intent-based electric automation system, detailing the development of the machine learning model for intent classification. Experimental results demonstrate the effectiveness of our approach in enhancing user experience and expanding the capabilities of electric automation systems. Our work contributes to the advancement of smart technologies by providing a more seamless interaction between users and their environments.
翻訳日:2024-03-05 14:41:40 公開日:2024-03-02
# IntactKV:Pivot Tokens Intactの維持による大規模言語モデル量子化の改善

IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact ( http://arxiv.org/abs/2403.01241v1 )

ライセンス: Link先を確認
Ruikang Liu, Haoli Bai, Haokun Lin, Yuening Li, Han Gao, Zhengzhuo Xu, Lu Hou, Jun Yao, Chun Yuan(参考訳) 大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。 これを軽減するため、様々な量子化手法が研究されているが、llmの性能を損なう。 本稿では,LLMにおける従来見過ごされていた外れ値について述べる。 このような異常値は、量子化LDMのパフォーマンスに不可欠であるピボットトークンと呼ばれる入力の初期トークンに注意点のほとんどを割り当てることが知られている。 そこで本研究では,全精度モデルからpivotトークンのkvキャッシュを生成するnakedkvを提案する。 このアプローチは単純で、既存の量子化ソリューションと組み合わせやすい。 さらに、IntactKV を LLM パラメータとしてキャリブレーションすることで、量子化 LLM をさらに高めることができる。 数学的解析により、IntactKVは量子化誤差の上限を効果的に減少させる。 実験結果から,altkvは様々な下流タスクにおいて一貫した改善をもたらし,ロスレスウェイトのみのint4量子化を実現し,llm量子化のための新たな最先端技術となった。

Large language models (LLMs) excel in natural language processing but demand intensive computation. To mitigate this, various quantization methods have been explored, yet they compromise LLM performance. This paper unveils a previously overlooked type of outlier in LLMs. Such outliers are found to allocate most of the attention scores on initial tokens of input, termed as pivot tokens, which is crucial to the performance of quantized LLMs. Given that, we propose IntactKV to generate the KV cache of pivot tokens losslessly from the full-precision model. The approach is simple and easy to combine with existing quantization solutions. Besides, IntactKV can be calibrated as additional LLM parameters to boost the quantized LLMs further. Mathematical analysis also proves that IntactKV effectively reduces the upper bound of quantization error. Empirical results show that IntactKV brings consistent improvement and achieves lossless weight-only INT4 quantization on various downstream tasks, leading to the new state-of-the-art for LLM quantization.
翻訳日:2024-03-05 14:41:26 公開日:2024-03-02
# 携帯性への道:自動運転のためのエンド・ツー・エンド運動プランナの圧縮

On the Road to Portability: Compressing End-to-End Motion Planner for Autonomous Driving ( http://arxiv.org/abs/2403.01238v1 )

ライセンス: Link先を確認
Kaituo Feng, Changsheng Li, Dongchun Ren, Ye Yuan, Guoren Wang(参考訳) ディープニューラルネットワークを備えたエンドツーエンドのモーションプランニングモデルは、完全な自動運転を可能にする大きな可能性を示している。 しかし、大きすぎるニューラルネットワークは、リソースに制約のあるシステムへの展開には実用的ではなく、参照中により多くの計算時間とリソースを必要とするため、これを扱うために、より小さな学生モデルでより大きな教師モデルから学習できるようにすることで、モデルを圧縮する有望なアプローチを提供する。 但し, 圧縮型運動プランナーに知識蒸留を適用する方法については, 未だ検討されていない。 本稿では,エンド・ツー・エンドの運動プランナーを圧縮するための最初の知識蒸留フレームワークであるplankdを提案する。 第1に、運転シーンが本質的に複雑で、しばしば計画にかかわらない情報や騒がしい情報を含んでいることを考えると、そのような情報伝達は学生プランナーにとって有益ではない。 そこで我々は,全ての情報を無差別に伝達するのではなく,計画関連情報のみを蒸留する情報ボトルネックに基づく戦略を設計する。 第二に、出力計画された軌道の異なる経路ポイントは、ある重要な経路ポイントのわずかなずれが衝突を引き起こすような運動計画において、様々な重要性を持つ。 そこで我々は,適応重量を異なるウェイポイントに割り当てる安全対応型ウェイポイント蒸留モジュールを考案し,より重要なウェイポイントを正確に模倣し,全体的な安全性を向上させる。 実験により、PlanKDはより小さなプランナの性能を大きなマージンで向上させ、参照時間を著しく短縮できることが示された。

End-to-end motion planning models equipped with deep neural networks have shown great potential for enabling full autonomous driving. However, the oversized neural networks render them impractical for deployment on resource-constrained systems, which unavoidably requires more computational time and resources during reference.To handle this, knowledge distillation offers a promising approach that compresses models by enabling a smaller student model to learn from a larger teacher model. Nevertheless, how to apply knowledge distillation to compress motion planners has not been explored so far. In this paper, we propose PlanKD, the first knowledge distillation framework tailored for compressing end-to-end motion planners. First, considering that driving scenes are inherently complex, often containing planning-irrelevant or even noisy information, transferring such information is not beneficial for the student planner. Thus, we design an information bottleneck based strategy to only distill planning-relevant information, rather than transfer all information indiscriminately. Second, different waypoints in an output planned trajectory may hold varying degrees of importance for motion planning, where a slight deviation in certain crucial waypoints might lead to a collision. Therefore, we devise a safety-aware waypoint-attentive distillation module that assigns adaptive weights to different waypoints based on the importance, to encourage the student to accurately mimic more crucial waypoints, thereby improving overall safety. Experiments demonstrate that our PlanKD can boost the performance of smaller planners by a large margin, and significantly reduce their reference time.
翻訳日:2024-03-05 14:41:09 公開日:2024-03-02
# 分子機能のアクティブディープカーネル学習:動的構造埋め込みの実現

Active Deep Kernel Learning of Molecular Functionalities: Realizing Dynamic Structural Embeddings ( http://arxiv.org/abs/2403.01234v1 )

ライセンス: Link先を確認
Ayana Ghosh, Maxim Ziatdinov and, Sergei V. Kalinin(参考訳) 分子空間の探索は、物質科学、医学、エネルギーの画期的な革新に繋がる、化学特性と反応の理解を前進させるのに不可欠である。 本稿では,古典的変分オートエンコーダ(VAE)の限界を超える新しいアプローチであるDeep Kernel Learning (DKL)を用いて,分子発見における能動的学習手法を提案する。 qm9データセットを用いて、類似性に基づく分子構造を分析する従来のvaesとdklを対比し、潜在空間における疎正規性による制限を明らかにする。 しかし、DKLは構造と性質を関連付けることによってより全体論的視点を提供し、分子的機能を優先する潜在空間を作り出す。 これは、埋め込みベクトルを反復的に再計算することで達成され、ターゲット特性の実験的な可用性に合致する。 結果として生じる潜伏空間は、よりよく整理されるだけでなく、分子機能を表す集中最大値や予測の不確かさと誤差の相関といった独特の特徴も示している。 さらに、特定の化合物を取り巻く排除領域の形成は、基盤となる機能を持つ未探索領域を示す。 この研究は、分子研究におけるDKLの可能性を強調し、古典的なVAE限界を超えた分子機能を理解し発見するための新たな道を提供する。

Exploring molecular spaces is crucial for advancing our understanding of chemical properties and reactions, leading to groundbreaking innovations in materials science, medicine, and energy. This paper explores an approach for active learning in molecular discovery using Deep Kernel Learning (DKL), a novel approach surpassing the limits of classical Variational Autoencoders (VAEs). Employing the QM9 dataset, we contrast DKL with traditional VAEs, which analyze molecular structures based on similarity, revealing limitations due to sparse regularities in latent spaces. DKL, however, offers a more holistic perspective by correlating structure with properties, creating latent spaces that prioritize molecular functionality. This is achieved by recalculating embedding vectors iteratively, aligning with the experimental availability of target properties. The resulting latent spaces are not only better organized but also exhibit unique characteristics such as concentrated maxima representing molecular functionalities and a correlation between predictive uncertainty and error. Additionally, the formation of exclusion regions around certain compounds indicates unexplored areas with potential for groundbreaking functionalities. This study underscores DKL's potential in molecular research, offering new avenues for understanding and discovering molecular functionalities beyond classical VAE limitations.
翻訳日:2024-03-05 14:40:41 公開日:2024-03-02
# Polynormer: 線形時間における多項式圧縮グラフ変換器

Polynormer: Polynomial-Expressive Graph Transformer in Linear Time ( http://arxiv.org/abs/2403.01232v1 )

ライセンス: Link先を確認
Chenhui Deng, Zichao Yue, Zhiru Zhang(参考訳) グラフトランスフォーマー(GT)は、メッセージパッシンググラフニューラルネットワーク(GNN)よりも理論的に表現力のある、有望なアーキテクチャとして登場した。 しかし、典型的なgtモデルは少なくとも二次複雑性を持ち、したがって大きなグラフにスケールできない。 最近提案された線形GTはいくつかあるが、GNNのグラフデータセットにはまだ遅れている。 GTの表現性とスケーラビリティのトレードオフのバランスをとるために,多項式表現型GTモデルであるPolynormerを提案する。 Polynormerは入力特徴の高次多項式を学習する新しいベースモデルの上に構築されている。 基本モデル置換同変を可能にするため、グラフトポロジーとノード特徴を別々に統合し、局所的および大域的等変アテンションモデルを作成する。 したがって、ポリノルマーは線形局所からグローバルへの注意スキームを採用し、注意スコアによって係数が制御される高次等変多項式を学習する。 ポリノーマーは、数百万のノードを持つ大きなグラフを含む、13$のホモフィルとヘテロフィルのデータセットで評価されている。 我々の広範な実験結果から,Polynormerは,非線形アクティベーション関数を使わずとも,ほとんどのデータセットにおいて,最先端のGNNおよびGTベースラインよりも優れていた。

Graph transformers (GTs) have emerged as a promising architecture that is theoretically more expressive than message-passing graph neural networks (GNNs). However, typical GT models have at least quadratic complexity and thus cannot scale to large graphs. While there are several linear GTs recently proposed, they still lag behind GNN counterparts on several popular graph datasets, which poses a critical concern on their practical expressivity. To balance the trade-off between expressivity and scalability of GTs, we propose Polynormer, a polynomial-expressive GT model with linear complexity. Polynormer is built upon a novel base model that learns a high-degree polynomial on input features. To enable the base model permutation equivariant, we integrate it with graph topology and node features separately, resulting in local and global equivariant attention models. Consequently, Polynormer adopts a linear local-to-global attention scheme to learn high-degree equivariant polynomials whose coefficients are controlled by attention scores. Polynormer has been evaluated on $13$ homophilic and heterophilic datasets, including large graphs with millions of nodes. Our extensive experiment results show that Polynormer outperforms state-of-the-art GNN and GT baselines on most datasets, even without the use of nonlinear activation functions.
翻訳日:2024-03-05 14:40:19 公開日:2024-03-02
# マスク保存属性編集によるセグメンテーションモデルのベンチマーク

Benchmarking Segmentation Models with Mask-Preserved Attribute Editing ( http://arxiv.org/abs/2403.01231v1 )

ライセンス: Link先を確認
Zijin Yin, Kongming Liang, Bing Li, Zhanyu Ma, Jun Guo(参考訳) セグメンテーションモデルを実際にデプロイする場合、様々な複雑なシーンで彼らの振る舞いを評価することが重要です。 従来の評価パラダイムとは異なり,グローバル属性の変動(例えば悪天候)を考慮した場合のみ,局所属性とグローバル属性の変動をロバスト性評価のために検討する。 そこで我々は,実際の画像の視覚的属性を正確な構造情報制御で編集するマスク保存属性編集パイプラインを構築した。 したがって、編集された画像に対して元のセグメンテーションラベルを再利用することができる。 パイプラインを使用して、オブジェクト属性とイメージ属性(色、材料、パターン、スタイルなど)の両方をカバーするベンチマークを構築します。 従来のクローズセットモデルから最近のオープン語彙大モデルにまたがる多種多様なセマンティックセマンティックセマンティクスモデルの評価を行った。 その結果,局所属性とグローバル属性の変動はセグメンテーション性能に影響を与え,モデルの感度は異なるタイプに分散することがわかった。 局所属性はグローバル属性と同じ重要性を持ち,セグメンテーションモデルのロバスト性評価において考慮すべきである。 コード:https://github.com/PRIS-CV/Pascal-EA

When deploying segmentation models in practice, it is critical to evaluate their behaviors in varied and complex scenes. Different from the previous evaluation paradigms only in consideration of global attribute variations (e.g. adverse weather), we investigate both local and global attribute variations for robustness evaluation. To achieve this, we construct a mask-preserved attribute editing pipeline to edit visual attributes of real images with precise control of structural information. Therefore, the original segmentation labels can be reused for the edited images. Using our pipeline, we construct a benchmark covering both object and image attributes (e.g. color, material, pattern, style). We evaluate a broad variety of semantic segmentation models, spanning from conventional close-set models to recent open-vocabulary large models on their robustness to different types of variations. We find that both local and global attribute variations affect segmentation performances, and the sensitivity of models diverges across different variation types. We argue that local attributes have the same importance as global attributes, and should be considered in the robustness evaluation of segmentation models. Code: https://github.com/PRIS-CV/Pascal-EA.
翻訳日:2024-03-05 14:39:53 公開日:2024-03-02
# rewind dataset: 野生のマルチモーダル・ボディ・ムーブメント信号からのプライバシー保護型発話状態セグメンテーション

REWIND Dataset: Privacy-preserving Speaking Status Segmentation from Multimodal Body Movement Signals in the Wild ( http://arxiv.org/abs/2403.01229v1 )

ライセンス: Link先を確認
Jose Vargas Quiros, Chirag Raman, Stephanie Tan, Ekin Gedik, Laura Cabrera-Quiros, Hayley Hung(参考訳) 人間で話すことを認識することは、社会的相互作用を理解するための中心的な課題である。 理想的には、ミーティングシナリオで以前行われたように、個々の音声録音から話すことが検出される。 しかし、個々の音声録音は、特にコスト、ロジスティクス、プライバシーの懸念による混成シナリオにおいて、野生では入手が困難である。 代替として、ビデオとウェアラブルセンサーのデータに基づいてトレーニングされた機械学習モデルは、その関連するジェスチャーを邪魔にならないプライバシー保護方法で検出することで、音声認識を可能にする。 これらのモデル自体は、音声信号から得られるラベルを使って理想的に訓練されるべきである。 しかし、既存のマイリングデータセットは高品質なオーディオ録音を含まない。 代わりに、現状のアノテーションは、音声ベースの真実に対するこのアプローチの検証なしに、ビデオから人間のアノテーションによってしばしば推測される。 本稿では,プロのネットワークイベントにおいて,33人の被験者による高品質な個人音声記録を備えたマルチモーダルデータセットを初めて公開することにより,音声による発話状況推定を再検討する。 音声のない発話状態セグメンテーションのための3つのベースラインを提示する。 a)ビデオから, b)体加速度(胸筋加速度計)から c) 身体的ポーズの軌跡から。 いずれの場合も、従来のデータセットでは利用できない時間分解能である音声から抽出した20Hzのバイナリ音声のステータス信号を予測する。 幅広い発話状態検出手法を評価するのに必要な信号と地上の真実を提供することに加えて、REWINDにおける音声の可用性は、以前のミキシングデータセットでは実現不可能なクロスモーダルな研究に適している。 最後に、当社のフレキシブルなデータ同意設定は、モダリティの欠如によるマルチモーダルシステムに新たな課題をもたらす。

Recognizing speaking in humans is a central task towards understanding social interactions. Ideally, speaking would be detected from individual voice recordings, as done previously for meeting scenarios. However, individual voice recordings are hard to obtain in the wild, especially in crowded mingling scenarios due to cost, logistics, and privacy concerns. As an alternative, machine learning models trained on video and wearable sensor data make it possible to recognize speech by detecting its related gestures in an unobtrusive, privacy-preserving way. These models themselves should ideally be trained using labels obtained from the speech signal. However, existing mingling datasets do not contain high quality audio recordings. Instead, speaking status annotations have often been inferred by human annotators from video, without validation of this approach against audio-based ground truth. In this paper we revisit no-audio speaking status estimation by presenting the first publicly available multimodal dataset with high-quality individual speech recordings of 33 subjects in a professional networking event. We present three baselines for no-audio speaking status segmentation: a) from video, b) from body acceleration (chest-worn accelerometer), c) from body pose tracks. In all cases we predict a 20Hz binary speaking status signal extracted from the audio, a time resolution not available in previous datasets. In addition to providing the signals and ground truth necessary to evaluate a wide range of speaking status detection methods, the availability of audio in REWIND makes it suitable for cross-modality studies not feasible with previous mingling datasets. Finally, our flexible data consent setup creates new challenges for multimodal systems under missing modalities.
翻訳日:2024-03-05 14:39:32 公開日:2024-03-02
# DiffSal:拡散残差予測のための共同音声とビデオ学習

DiffSal: Joint Audio and Video Learning for Diffusion Saliency Prediction ( http://arxiv.org/abs/2403.01226v1 )

ライセンス: Link先を確認
Junwen Xiong, Peng Zhang, Tao You, Chuanyue Li, Wei Huang, Yufei Zha(参考訳) オーディオ・ビジュアル・サリエンシ予測は様々なモダリティ補完からサポートを受けることができるが、カスタマイズされたアーキテクチャやタスク固有の損失関数によってさらなるパフォーマンス向上が課題となっている。 近年の研究では、一般化の本質的な能力により、拡散モデルがタスクフレームワークを統一する上でより有望であることが示されている。 このモチベーションに続いて、入力音声と映像を条件として、塩分マップの条件生成タスクとして予測問題を定式化する、一般化された視覚的塩分予測(DiffSal)のための新しい拡散アーキテクチャを提案する。 時空間音声-視覚的特徴に基づいて、高次ネットワークSaliency-UNetは、ノイズマップからの地中忠実度マップのプログレッシブ改善のためのマルチモーダルアテンション変調を行うように設計されている。 広範な実験により、提案手法は6つの難解なオーディオ・ビジュアルベンチマークにおいて優れた性能を達成できることが示され、従来の6つの指標による結果よりも平均して6.3\%向上した。

Audio-visual saliency prediction can draw support from diverse modality complements, but further performance enhancement is still challenged by customized architectures as well as task-specific loss functions. In recent studies, denoising diffusion models have shown more promising in unifying task frameworks owing to their inherent ability of generalization. Following this motivation, a novel Diffusion architecture for generalized audio-visual Saliency prediction (DiffSal) is proposed in this work, which formulates the prediction problem as a conditional generative task of the saliency map by utilizing input audio and video as the conditions. Based on the spatio-temporal audio-visual features, an extra network Saliency-UNet is designed to perform multi-modal attention modulation for progressive refinement of the ground-truth saliency map from the noisy map. Extensive experiments demonstrate that the proposed DiffSal can achieve excellent performance across six challenging audio-visual benchmarks, with an average relative improvement of 6.3\% over the previous state-of-the-art results by six metrics.
翻訳日:2024-03-05 14:39:07 公開日:2024-03-02
# NLPにおける感情分析:未来方向のトレンド, ギャップ, ロードマップ

Emotion Analysis in NLP: Trends, Gaps and Roadmap for Future Directions ( http://arxiv.org/abs/2403.01222v1 )

ライセンス: Link先を確認
Flor Miriam Plaza-del-Arco, Alba Curry, Amanda Cercas Curry, Dirk Hovy(参考訳) 感情はコミュニケーションの中心的な側面である。 その結果、感情分析(EA)は自然言語処理(NLP)において急速に成長している分野である。 ただし、スコープ、方向、メソッドに関するコンセンサスはない。 本稿では,過去10年間のNLP関連出版物154件について概観する。 このレビューに基づき、(1)EAタスクはNLPでどのように定義されているか? 2)最も顕著な感情の枠組みと、どの感情がモデル化されているか。 3)感情の主観性は,人口動態や文化的要因から考えるか? (4) eaのための主要なnlpアプリケーションは何ですか? EAやタスク、使用されている感情フレームワーク、既存のデータセット、メソッド、アプリケーションなど、さまざまなトレンドを抱えています。 We then discuss four lacunae: (1) the absence of demographic and cultural aspects does not account for the variation in how emotions are perceived, but instead assumes they are universally experienced in the same manner; (2) the poor fit of emotion categories from the two main emotion theories to the task; (3) the lack of standardized EA terminology hinders gap identification, comparison, and future goals; and (4) the absence of interdisciplinary research isolates EA from insights in other fields. 私たちの研究は、EAに関するより集中的な研究と、NLPの感情をモデリングするためのより包括的なアプローチを可能にします。

Emotions are a central aspect of communication. Consequently, emotion analysis (EA) is a rapidly growing field in natural language processing (NLP). However, there is no consensus on scope, direction, or methods. In this paper, we conduct a thorough review of 154 relevant NLP publications from the last decade. Based on this review, we address four different questions: (1) How are EA tasks defined in NLP? (2) What are the most prominent emotion frameworks and which emotions are modeled? (3) Is the subjectivity of emotions considered in terms of demographics and cultural factors? and (4) What are the primary NLP applications for EA? We take stock of trends in EA and tasks, emotion frameworks used, existing datasets, methods, and applications. We then discuss four lacunae: (1) the absence of demographic and cultural aspects does not account for the variation in how emotions are perceived, but instead assumes they are universally experienced in the same manner; (2) the poor fit of emotion categories from the two main emotion theories to the task; (3) the lack of standardized EA terminology hinders gap identification, comparison, and future goals; and (4) the absence of interdisciplinary research isolates EA from insights in other fields. Our work will enable more focused research into EA and a more holistic approach to modeling emotions in NLP.
翻訳日:2024-03-05 14:38:46 公開日:2024-03-02
# コスト効率の高い複数インスタンス反事実説明のための二段階アルゴリズム

A Two-Stage Algorithm for Cost-Efficient Multi-instance Counterfactual Explanations ( http://arxiv.org/abs/2403.01221v1 )

ライセンス: Link先を確認
Andr\'e Artelt and Andreas Gregoriades(参考訳) ブラックボックスシステムの予測を解析する最も一般的な手法は、望ましくないシステムの出力を望ましい出力に変換するために、コスト効率と動作可能な入力変更を推奨できるためである。 既存のカウンターファクトの手法のほとんどは単一のインスタンスを説明するが、顧客の満足度などいくつかの実世界のユースケースでは、複数のインスタンス(例えば顧客)を同時に満たすことのできる単一のカウンターファクトの識別が必要である。 本研究では,コスト効率のよいマルチインスタンス対実的説明とともに,インスタンス群を見つけるための柔軟な2段階アルゴリズムを提案する。 これは、以前のほとんどの作品ではそのような群を見つけるという側面が解決されていないという事実に動機づけられている。

Counterfactual explanations constitute among the most popular methods for analyzing the predictions of black-box systems since they can recommend cost-efficient and actionable changes to the input to turn an undesired system's output into a desired output. While most of the existing counterfactual methods explain a single instance, several real-world use cases, such as customer satisfaction, require the identification of a single counterfactual that can satisfy multiple instances (e.g. customers) simultaneously. In this work, we propose a flexible two-stage algorithm for finding groups of instances along with cost-efficient multi-instance counterfactual explanations. This is motivated by the fact that in most previous works the aspect of finding such groups is not addressed.
翻訳日:2024-03-05 14:38:31 公開日:2024-03-02
# プライバシの悪用を避けるには、もっと慎重な評価が必要だ

Inexact Unlearning Needs More Careful Evaluations to Avoid a False Sense of Privacy ( http://arxiv.org/abs/2403.01218v1 )

ライセンス: Link先を確認
Jamie Hayes, Ilia Shumailov, Eleni Triantafillou, Amr Khalifa, Nicolas Papernot(参考訳) モデルトレーニングのコストが高いため、アンラーニングのテクニックを開発することがますます望ましい。 これらのテクニックは、モデルをスクラッチから再トレーニングすることなく、トレーニング例の影響を取り除こうとしている。 直観的には、モデルが未学習になったら、モデルと相互作用する敵は、その未学習の例がモデルのトレーニングセットに含まれているかどうかを判断できなくなります。 プライバシーに関する文献では、これはメンバーシップ推論として知られている。 本研究では,メンバーシップ推論攻撃(MIA)の非学習環境への適応について論じる。 本稿では,既存のU-MIAsを,すべての例で同一の攻撃者がインスタンス化される 'population U-MIAs'' と,各例で専用の攻撃者がインスタンス化される '`per-example U-MIAs'' に分類する。 攻撃対象の各事例に対して,攻撃対象のメンバシップ予測を調整した後者のカテゴリは,極めて強いことを示す。 実際,本研究の結果から,未学習文学におけるU-MIAは,視覚モデルと言語モデルの両方において,既存の未学習技術がもたらすプライバシー保護を過大評価していることがわかった。 調査の結果,U-MIAのサンプルごとの脆弱性は多岐にわたることが明らかとなった。 実際、いくつかのアンラーニングアルゴリズムは、他の例のためにそれを増やすことを犠牲にして、学びたいと願うすべての例に対して、脆弱性を減らします。 特に、未学習の結果、残りのトレーニング例に対するプライバシー保護が悪化する可能性があることが分かりました。 また,既存のアンラーニング・スキームを用いて,サンプルを平等に保護することの根本的な難しさについて論じる。 非学習の停止条件を異なる例に合わせるためのナイーブな試みは、これらの問題を緩和することができないことを実証する。

The high cost of model training makes it increasingly desirable to develop techniques for unlearning. These techniques seek to remove the influence of a training example without having to retrain the model from scratch. Intuitively, once a model has unlearned, an adversary that interacts with the model should no longer be able to tell whether the unlearned example was included in the model's training set or not. In the privacy literature, this is known as membership inference. In this work, we discuss adaptations of Membership Inference Attacks (MIAs) to the setting of unlearning (leading to their ``U-MIA'' counterparts). We propose a categorization of existing U-MIAs into ``population U-MIAs'', where the same attacker is instantiated for all examples, and ``per-example U-MIAs'', where a dedicated attacker is instantiated for each example. We show that the latter category, wherein the attacker tailors its membership prediction to each example under attack, is significantly stronger. Indeed, our results show that the commonly used U-MIAs in the unlearning literature overestimate the privacy protection afforded by existing unlearning techniques on both vision and language models. Our investigation reveals a large variance in the vulnerability of different examples to per-example U-MIAs. In fact, several unlearning algorithms lead to a reduced vulnerability for some, but not all, examples that we wish to unlearn, at the expense of increasing it for other examples. Notably, we find that the privacy protection for the remaining training examples may worsen as a consequence of unlearning. We also discuss the fundamental difficulty of equally protecting all examples using existing unlearning schemes, due to the different rates at which examples are unlearned. We demonstrate that naive attempts at tailoring unlearning stopping criteria to different examples fail to alleviate these issues.
翻訳日:2024-03-05 14:38:17 公開日:2024-03-02
# APIが十分:ロジットアクセシブのない大規模言語モデルのコンフォーマル予測

API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access ( http://arxiv.org/abs/2403.01216v1 )

ライセンス: Link先を確認
Jiayuan Su, Jing Luo, Hongwei Wang, Lu Cheng(参考訳) 本研究では,ロジットアクセスを伴わない大規模言語モデル(LLM)における不確実性を定量化する,広範囲にわたる課題に対処することを目的とする。 Conformal Prediction (CP) はモデルに依存しない分布のない特徴で知られており、様々なLSMやデータ分布に望ましいアプローチである。 しかし、既存のLCMのCPメソッドは、APIのみのLCMでは利用できないロジットへのアクセスを前提としている。 さらに、ロジットの誤校正が知られており、CP性能の低下につながる可能性がある。 これらの課題に対処するために,(1)ロジットアクセスのないAPIのみのLCMに適したCP手法,(2)予測セットのサイズを最小化すること,(3)ユーザ定義カバレッジの統計的保証を確保することを提案する。 このアプローチの中核となる考え方は、粗粒度(サンプル周波数)と細粒度不確実性(セマンティック類似性など)の両方を用いて非整合測度を定式化することである。 クローズドとオープンエンドの両方の質問応答タスクの実験結果から,我々のアプローチはロジットベースのCPベースラインよりも優れていることがわかった。

This study aims to address the pervasive challenge of quantifying uncertainty in large language models (LLMs) without logit-access. Conformal Prediction (CP), known for its model-agnostic and distribution-free features, is a desired approach for various LLMs and data distributions. However, existing CP methods for LLMs typically assume access to the logits, which are unavailable for some API-only LLMs. In addition, logits are known to be miscalibrated, potentially leading to degraded CP performance. To tackle these challenges, we introduce a novel CP method that (1) is tailored for API-only LLMs without logit-access; (2) minimizes the size of prediction sets; and (3) ensures a statistical guarantee of the user-defined coverage. The core idea of this approach is to formulate nonconformity measures using both coarse-grained (i.e., sample frequency) and fine-grained uncertainty notions (e.g., semantic similarity). Experimental results on both close-ended and open-ended Question Answering tasks show our approach can mostly outperform the logit-based CP baselines.
翻訳日:2024-03-05 14:37:46 公開日:2024-03-02
# Pseudo Depthによるボックス管理インスタンスセグメンテーションの強化

Boosting Box-supervised Instance Segmentation with Pseudo Depth ( http://arxiv.org/abs/2403.01214v1 )

ライセンス: Link先を確認
Xinyi Yu, Ling Yan, Pengtao Jiang, Hao Chen, Bo Li, Lin Yuanbo Wu, Linlin Ou(参考訳) ボックス管理下のWSIS(Weakly Supervised Instance Segmentation)の領域は、近年顕著な進歩を見せている。 しかし,ボックス管理の限界は,特定のターゲットボックス内の背景から前景を識別する効果的な情報を提供することができないことにある。 本研究では,インスタンスセグメンテーションネットワークのトレーニングプロセスに擬似深層マップを導入することで,インスタンス間の深層差を捉えることにより,その性能向上を図る。 これらの擬似深度マップは、容易に利用可能な深度予測器を用いて生成され、推論段階では不要である。 マスク予測時にネットワークが深度特徴を識別できるようにするため,奥行き予測層をマスク予測ヘッドに統合する。 この革新的なアプローチにより、ネットワークはマスクと深さを同時に予測し、インスタンスセグメンテーションプロセス中にニュアンスドの深さ関連情報をキャプチャする能力を高めることができる。 さらに,前景と背景を区別するために,トレーニングプロセスで生成したマスクを監督として活用する。 ハンガリーのアルゴリズムで各箱のベストマスクを選択する際、深さ一貫性を1つの計算コスト項目として用いる。 提案手法はCityscapesとCOCOデータセットを大幅に改善する。

The realm of Weakly Supervised Instance Segmentation (WSIS) under box supervision has garnered substantial attention, showcasing remarkable advancements in recent years. However, the limitations of box supervision become apparent in its inability to furnish effective information for distinguishing foreground from background within the specified target box. This research addresses this challenge by introducing pseudo-depth maps into the training process of the instance segmentation network, thereby boosting its performance by capturing depth differences between instances. These pseudo-depth maps are generated using a readily available depth predictor and are not necessary during the inference stage. To enable the network to discern depth features when predicting masks, we integrate a depth prediction layer into the mask prediction head. This innovative approach empowers the network to simultaneously predict masks and depth, enhancing its ability to capture nuanced depth-related information during the instance segmentation process. We further utilize the mask generated in the training process as supervision to distinguish the foreground from the background. When selecting the best mask for each box through the Hungarian algorithm, we use depth consistency as one calculation cost item. The proposed method achieves significant improvements on Cityscapes and COCO dataset.
翻訳日:2024-03-05 14:37:13 公開日:2024-03-02
# 自律型知的システム--制御錯覚から不可避な想いへ

Autonomous Intelligent Systems: From Illusion of Control to Inescapable Delusion ( http://arxiv.org/abs/2403.01292v1 )

ライセンス: Link先を確認
St\'ephane Grumbach, Giorgio Resta, Riccardo Torlone(参考訳) 生成AIを含む自律システムは、以前のデジタルイノベーションよりも速く採用されている。 社会に対する彼らの影響は、知識経済の急激な再構築と社会的・制度的バランスの劇的な結果により、より深いものとなるかもしれない。 これらの制度を制御するための異なる態度は、古典的な法体系、プロプライエタリな権利、社会的責任に根ざしている。 制御の錯覚が政府や規制当局を導くのに対して、自律的なシステムは我々を逃れられない妄想に追い込んでいるかもしれない。

Autonomous systems, including generative AI, have been adopted faster than previous digital innovations. Their impact on society might as well be more profound, with a radical restructuring of the economy of knowledge and dramatic consequences for social and institutional balances. Different attitudes to control these systems have emerged rooted in the classical pillars of legal systems, proprietary rights, and social responsibility. We show how an illusion of control might be guiding governments and regulators, while autonomous systems might be driving us to inescapable delusion.
翻訳日:2024-03-05 14:31:07 公開日:2024-03-02
# greedは必要なすべてです:トークン化推論メソッドの評価

Greed is All You Need: An Evaluation of Tokenizer Inference Methods ( http://arxiv.org/abs/2403.01289v1 )

ライセンス: Link先を確認
Omri Uzan, Craig W. Schmidt, Chris Tanner, Yuval Pinter(参考訳) BPEやWordPieceのようなサブワードトークンーは一般的にNLPモデルの語彙を構築するのに使用されるが、これらの語彙からトークンの列にテキストを復号する手法は、しばしば未特定のまま残されるか、それらが構築された方法に不適である。 4つの異なるアルゴリズムと3つの語彙サイズにわたる7つのトークン化推論手法の制御分析を行い、形態学、認知学、情報理論に根ざした尺度を組み合わせることにより、英語で収集した新しい本質的評価スイートを用いた。 我々は,最もよく使われているトークン化剤に対して,グリーディ推論が驚くほどよく機能し,最近導入された文脈的にインフォームドされたトークン化剤であるSaGeが,形態的アライメントにおいて他の全てより優れていることを示す。

While subword tokenizers such as BPE and WordPiece are typically used to build vocabularies for NLP models, the method of decoding text into a sequence of tokens from these vocabularies is often left unspecified, or ill-suited to the method in which they were constructed. We provide a controlled analysis of seven tokenizer inference methods across four different algorithms and three vocabulary sizes, performed on a novel intrinsic evaluation suite we curated for English, combining measures rooted in morphology, cognition, and information theory. We show that for the most commonly used tokenizers, greedy inference performs surprisingly well; and that SaGe, a recently-introduced contextually-informed tokenizer, outperforms all others on morphological alignment.
翻訳日:2024-03-05 14:30:58 公開日:2024-03-02
# 概要報告:協調型安全な自律システム構築のためのユースケース-視覚障害者誘導ロボット

Summary Paper: Use Case on Building Collaborative Safe Autonomous Systems-A Robotdog for Guiding Visually Impaired People ( http://arxiv.org/abs/2403.01286v1 )

ライセンス: Link先を確認
Aman Malhotra and Selma Saidi(参考訳) これは、スマートな交差点のような複雑な環境で視覚障害者を誘導するロボットドッグのユースケースの概要である。 このようなシナリオでは、ロボットドッグは人間を誘導するために交差点を渡るのが安全かどうかを自律的に判断する必要がある。 私たちは、同じ環境で動作するrobotdogと他の自律システムとの間のデータ共有とコラボレーションを活用しています。 本稿では,協調的意思決定層を分離して自律システムのためのシステムアーキテクチャを提案し,ロボットの意思決定に関連する環境に関するデータと,他のシステムや環境に対する信頼性のエビデンスを共有することを可能にする。

This is a summary paper of a use case of a Robotdog dedicated to guide visually impaired people in complex environment like a smart intersection. In such scenarios, the Robotdog has to autonomously decide whether it is safe to cross the intersection or not in order to further guide the human. We leverage data sharing and collaboration between the Robotdog and other autonomous systems operating in the same environment. We propose a system architecture for autonomous systems through a separation of a collaborative decision layer, to enable collective decision making processes, where data about the environment, relevant to the Robotdog decision, together with evidences for trustworthiness about other systems and the environment are shared.
翻訳日:2024-03-05 14:30:42 公開日:2024-03-02
# 協調学習環境における高速低パラメータ映像活動の定位

Fast Low-parameter Video Activity Localization in Collaborative Learning Environments ( http://arxiv.org/abs/2403.01281v1 )

ライセンス: Link先を確認
Venkatesh Jatla, Sravani Teeparthi, Ugesh Egala, Sylvia Celedon Pattichis, Marios S. Patticis(参考訳) ビデオアクティビティ検出の研究は、主に短いビデオセグメントで明確に定義された人間のアクティビティを特定することに焦点を当てている。 ビデオアクティビティ認識の研究の大部分は、大規模ビデオデータセットのトレーニングを必要とする大規模パラメータシステムの開発に重点を置いている。 本稿では,大規模なパラメータシステムからの転送学習を必要とせずに,限られたデータセットで完全にトレーニング可能な,高速推論機能を備えた低パラメータモジュールシステムを開発した。 本システムは,実生活の教室ビデオにおける活動を行う学生と,特定の活動を正確に検出し,関連付けることができる。 さらに,実生活の教室ビデオ上で人間の活動マップを可視化するインタラクティブなwebアプリケーションを開発した。

Research on video activity detection has primarily focused on identifying well-defined human activities in short video segments. The majority of the research on video activity recognition is focused on the development of large parameter systems that require training on large video datasets. This paper develops a low-parameter, modular system with rapid inferencing capabilities that can be trained entirely on limited datasets without requiring transfer learning from large-parameter systems. The system can accurately detect and associate specific activities with the students who perform the activities in real-life classroom videos. Additionally, the paper develops an interactive web-based application to visualize human activity maps over long real-life classroom videos.
翻訳日:2024-03-05 14:30:30 公開日:2024-03-02
# 最適統合型タスク・パス計画とマルチロボットピックアップ・デリバリーへの応用

Optimal Integrated Task and Path Planning and Its Application to Multi-Robot Pickup and Delivery ( http://arxiv.org/abs/2403.01277v1 )

ライセンス: Link先を確認
Aman Aryan, Manan Modi, Indranil Saha, Rupak Majumdar and Swarup Mohalik(参考訳) 複雑なマルチロボット計画問題に対するスケーラブルなソリューションを提供するために,最適なタスクプランナと最適なパスプランナを組み合わせた汎用的なマルチロボット計画機構を提案する。 統合プランナーは、タスクプランナーとパスプランナーの相互作用を通じて、ロボットに対して最適な衝突のない軌道を生成する。 我々は,ロボット群が作業空間内のある場所から別の場所への移動を委託される倉庫シナリオにおいて,オブジェクトのピック・アンド・ドロップ計画問題に関する一般的なアルゴリズムについて説明する。 タスク計画問題をSMT解決問題に還元し、高度に高度なSMT解決器Z3を用いて解決する。 ロボットの衝突のない動きを生成するために,最先端アルゴリズムのコンフリクトに基づく探索を,いくつかのドメイン固有の制約を伴う優先制約で拡張する。 我々は,オブジェクトピック・アンド・ドロップ計画問題の様々な事例において,統合タスクとパスプランナーを広範囲に評価し,その性能を最先端のマルチロボット古典プランナーと比較した。 実験の結果,提案手法は複雑な計画問題に対処でき,計算時間と生成した計画の品質の両面で最先端の古典的計画立案者を上回ることがわかった。

We propose a generic multi-robot planning mechanism that combines an optimal task planner and an optimal path planner to provide a scalable solution for complex multi-robot planning problems. The Integrated planner, through the interaction of the task planner and the path planner, produces optimal collision-free trajectories for the robots. We illustrate our general algorithm on an object pick-and-drop planning problem in a warehouse scenario where a group of robots is entrusted with moving objects from one location to another in the workspace. We solve the task planning problem by reducing it into an SMT-solving problem and employing the highly advanced SMT solver Z3 to solve it. To generate collision-free movement of the robots, we extend the state-of-the-art algorithm Conflict Based Search with Precedence Constraints with several domain-specific constraints. We evaluate our integrated task and path planner extensively on various instances of the object pick-and-drop planning problem and compare its performance with a state-of-the-art multi-robot classical planner. Experimental results demonstrate that our planning mechanism can deal with complex planning problems and outperforms a state-of-the-art classical planner both in terms of computation time and the quality of the generated plan.
翻訳日:2024-03-05 14:30:19 公開日:2024-03-02
# NoMAD-Attention: Multiply-add-free Attention による CPU 上での効率的な LLM 推論

NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention ( http://arxiv.org/abs/2403.01273v1 )

ライセンス: Link先を確認
Tianyi Zhang, Jonah Wonkyu Yi, Bowen Yao, Zhaozhuo Xu, Anshumali Shrivastava(参考訳) 集中処理ユニット(CPU)における大規模言語モデル推論は、注意計算において大量の高価なマルチプライアドアドアド(MAD)行列演算のために困難である。 本稿では,最近のcpuにはsimd(single-instruction-multiple-data)レジスタがあり,バッチで超低遅延のルックアップを可能にする。 我々は、MAD操作を登録内ルックアップに置き換える効率的な注意アルゴリズムであるNoMAD-Attentionを提案する。 NoMAD-Attentionはハードウェアを意識したアルゴリズム設計を通じて,SIMDレジスタへの高速な繰り返しアクセスによるアテンションスコアの計算を実現する。 さらに、NoMAD-Attentionは、モデル微調整なしで、事前学習された注意に基づくLLMで動作する。 実証的な評価では、NoMAD-Attentionは元のLLMの品質をよく維持し、4ビット量子化LLaMA-7Bベースのモデルを最大2$\times$で16kコンテキスト長で高速化する。 結果はhttps://github.com/tonyzhang617/nomad-distで再現できます。

Large language model inference on Central Processing Units (CPU) is challenging due to the vast quantities of expensive Multiply-Add (MAD) matrix operations in the attention computations. In this paper, we argue that there is a rare gem in modern CPUs, Single-Instruction-Multiple-Data (SIMD) registers, which allow for ultra-low-latency lookups in batch. We leverage this unique capability of CPUs to propose NoMAD-Attention, an efficient attention algorithm that replaces MAD operations with in-register lookups. Through hardware-aware algorithmic designs, NoMAD-Attention achieves the computation of attention scores using repeated fast accesses to SIMD registers despite their highly limited sizes. Moreover, NoMAD-Attention works with pre-trained attention-based LLMs without model finetuning. Empirical evaluations demonstrate that NoMAD-Attention maintains the quality of the original LLMs well, and speeds up the 4-bit quantized LLaMA-7B-based model by up to 2$\times$ at 16k context length. Our results are reproducible at https://github.com/tonyzhang617/nomad-dist.
翻訳日:2024-03-05 14:29:55 公開日:2024-03-02
# 信頼できる人は冷えた後部を先取りできるか?

Can a Confident Prior Replace a Cold Posterior? ( http://arxiv.org/abs/2403.01272v1 )

ライセンス: Link先を確認
Martin Marek, Brooks Paige, Pavel Izmailov(参考訳) 画像分類に使用されるベンチマークデータセットは、ラベルノイズのレベルが非常に低い傾向にある。 ベイズニューラルネットワークがこれらのデータセットでトレーニングされる場合、しばしば不適合であり、データの照会的不確実性を誤って表現する。 一般的な解決策は後部を冷却することであり、トレーニングデータに適合するが、ベイズの観点から解釈することは困難である。 後方テンパリングが信頼誘導型事前分布に置き換えられるかどうかを検討する。 まず, 冷間後部の性能とほぼ一致した試料をサンプリングし, ほぼ一致させる「DirClip」を導入する。 第2に, 温度低下の限界において, 寒さを直接近似する「信頼先行」を導入するが, 容易にはサンプリングできない。 最後に、いつ分岐するか、微調整によって数値不安定が緩和されるかなど、信頼誘導前兆に関するいくつかの一般的な洞察を提供する。

Benchmark datasets used for image classification tend to have very low levels of label noise. When Bayesian neural networks are trained on these datasets, they often underfit, misrepresenting the aleatoric uncertainty of the data. A common solution is to cool the posterior, which improves fit to the training data but is challenging to interpret from a Bayesian perspective. We explore whether posterior tempering can be replaced by a confidence-inducing prior distribution. First, we introduce a "DirClip" prior that is practical to sample and nearly matches the performance of a cold posterior. Second, we introduce a "confidence prior" that directly approximates a cold likelihood in the limit of decreasing temperature but cannot be easily sampled. Lastly, we provide several general insights into confidence-inducing priors, such as when they might diverge and how fine-tuning can mitigate numerical instability.
翻訳日:2024-03-05 14:29:35 公開日:2024-03-02
# 感情分析による有害コンテンツ検出のための包括的クロス言語フレームワーク

A comprehensive cross-language framework for harmful content detection with the aid of sentiment analysis ( http://arxiv.org/abs/2403.01270v1 )

ライセンス: Link先を確認
Mohammad Dehghani(参考訳) 今日のデジタル世界では、ソーシャルメディアはコミュニケーションとコンテンツ共有の促進に重要な役割を果たしている。 しかし,ユーザ生成コンテンツの急速な増加は,オンライン環境を尊重する上での課題となっている。 ユーザ体験に悪影響を及ぼし、深刻な社会問題を引き起こす有害な言語を使用するために、匿名性を利用する場合もある。 手動モデレーションの限界を認識し,この問題に対処するために自動検出システムを開発した。 それでも、有害言語に対する普遍的な定義の欠如、言語間の不適切なデータセットの欠如、詳細なアノテーションガイドラインの必要性、そして最も重要なのは、包括的なフレームワークである。 この研究は、どんな言語にも適応可能な詳細なフレームワークを初めて導入することで、これらの課題に対処することを目的としている。 このフレームワークは有害な言語検出の様々な側面を含んでいる。 フレームワークの重要なコンポーネントは、一般的なアノテーションガイドラインと詳細なアノテーションガイドラインの開発である。 さらに感情分析の統合は、有害な言語検出を強化するための新しいアプローチである。 また、異なる概念のレビューに基づく有害言語の定義についても述べる。 提案手法の有効性を示すため,低リソース言語における実装について検討した。 ペルシャのデータセットを収集し,有害な検出と感情分析にアノテーションガイドラインを適用した。 次に,機械学習と深層学習によるベンチマーク設定のベースライン実験を行う。 その結果、攻撃的な言語検出では99.4%、感情分析では66.2%の精度でフレームワークのパフォーマンスが証明された。

In today's digital world, social media plays a significant role in facilitating communication and content sharing. However, the exponential rise in user-generated content has led to challenges in maintaining a respectful online environment. In some cases, users have taken advantage of anonymity in order to use harmful language, which can negatively affect the user experience and pose serious social problems. Recognizing the limitations of manual moderation, automatic detection systems have been developed to tackle this problem. Nevertheless, several obstacles persist, including the absence of a universal definition for harmful language, inadequate datasets across languages, the need for detailed annotation guideline, and most importantly, a comprehensive framework. This study aims to address these challenges by introducing, for the first time, a detailed framework adaptable to any language. This framework encompasses various aspects of harmful language detection. A key component of the framework is the development of a general and detailed annotation guideline. Additionally, the integration of sentiment analysis represents a novel approach to enhancing harmful language detection. Also, a definition of harmful language based on the review of different related concepts is presented. To demonstrate the effectiveness of the proposed framework, its implementation in a challenging low-resource language is conducted. We collected a Persian dataset and applied the annotation guideline for harmful detection and sentiment analysis. Next, we present baseline experiments utilizing machine and deep learning methods to set benchmarks. Results prove the framework's high performance, achieving an accuracy of 99.4% in offensive language detection and 66.2% in sentiment analysis.
翻訳日:2024-03-05 14:29:20 公開日:2024-03-02
# 連合学習におけるデータ再構成攻撃に対する防御--情報理論的アプローチ

Defending Against Data Reconstruction Attacks in Federated Learning: An Information Theory Approach ( http://arxiv.org/abs/2403.01268v1 )

ライセンス: Link先を確認
Qi Tan, Qi Li, Yi Zhao, Zhuotao Liu, Xiaobing Guo, Ke Xu(参考訳) Federated Learning (FL)は、直接データ共有の代わりにパラメータを交換することで、さまざまなクライアント間でブラックボックスと高次元モデルをトレーニングする。 しかし、FLは依然としてメンバーシップ推論攻撃(MIA)やデータ再構成攻撃(DRA)に悩まされている。 特に、攻撃者はdraを構築してローカルデータセットから情報を抽出することができるが、既存の技術、例えば差分プライバシー(dp)では効果的に絞り込めない。 本稿では,DRA下でのFLの強力なプライバシー保証を実現することを目的とする。 攻撃者が取得した情報により、DRAによる復元誤りが制約されることを証明し、送信された情報の制約がDRAを効果的に抑制できることを示す。 FLによって引き起こされる情報漏洩を定量化するため,局所的なデータセットと複数の送信パラメータ間の相互情報の上限に依存するチャネルモデルを構築した。 さらに, チャネルモデルでは, 送信した情報をデータ空間操作により拘束できることが示され, 訓練効率と制約情報によるモデルの精度を向上させることができる。 チャネルモデルにより,一ラウンドのローカルトレーニングで送信される情報を制約するアルゴリズムを提案する。 限られた訓練ラウンド数で、アルゴリズムは送信される情報の総量が制限されることを保証する。 さらに、DRAに対するプライバシー保証を強化するために、DPなどの様々なプライバシー強化技術にチャネルモデルを適用することができる。 実世界のデータセットを用いた大規模な実験により,本手法の有効性が検証された。

Federated Learning (FL) trains a black-box and high-dimensional model among different clients by exchanging parameters instead of direct data sharing, which mitigates the privacy leak incurred by machine learning. However, FL still suffers from membership inference attacks (MIA) or data reconstruction attacks (DRA). In particular, an attacker can extract the information from local datasets by constructing DRA, which cannot be effectively throttled by existing techniques, e.g., Differential Privacy (DP). In this paper, we aim to ensure a strong privacy guarantee for FL under DRA. We prove that reconstruction errors under DRA are constrained by the information acquired by an attacker, which means that constraining the transmitted information can effectively throttle DRA. To quantify the information leakage incurred by FL, we establish a channel model, which depends on the upper bound of joint mutual information between the local dataset and multiple transmitted parameters. Moreover, the channel model indicates that the transmitted information can be constrained through data space operation, which can improve training efficiency and the model accuracy under constrained information. According to the channel model, we propose algorithms to constrain the information transmitted in a single round of local training. With a limited number of training rounds, the algorithms ensure that the total amount of transmitted information is limited. Furthermore, our channel model can be applied to various privacy-enhancing techniques (such as DP) to enhance privacy guarantees against DRA. Extensive experiments with real-world datasets validate the effectiveness of our methods.
翻訳日:2024-03-05 14:28:59 公開日:2024-03-02
# 解剖言語モデル:選択的刈り取りによる機械学習

Dissecting Language Models: Machine Unlearning via Selective Pruning ( http://arxiv.org/abs/2403.01267v1 )

ライセンス: Link先を確認
Nicholas Pochinkov and Nandi Schoots(参考訳) アプリケーションがより強力で頻繁に採用されるようになるにつれて、大規模言語モデル(llm)の動作の理解と形成がますます重要になっている。 本稿では,LLMを対象とした機械学習手法を提案する。 我々は,LLMの選択的プルーニング法を導入し,ネットワーク全体の性能と比較して,標的能力に対するニューロンの重要性から神経細胞を除去する。 このアプローチは、特定の振る舞いを可能にするニューロンの識別と除去のための、計算とデータ効率の手法である。 LLMのフィードフォワードニューロンとアテンションニューロンはどちらも専門的であり、特定のタスクにおいては、特定のニューロンは他のニューロンよりも重要である。

Understanding and shaping the behaviour of Large Language Models (LLMs) is increasingly important as applications become more powerful and more frequently adopted. This paper introduces a machine unlearning method specifically designed for LLMs. We introduce a selective pruning method for LLMs that removes neurons based on their relative importance on a targeted capability compared to overall network performance. This approach is a compute- and data-efficient method for identifying and removing neurons that enable specific behaviours. Our findings reveal that both feed-forward and attention neurons in LLMs are specialized; that is, for specific tasks, certain neurons are more crucial than others.
翻訳日:2024-03-05 14:28:36 公開日:2024-03-02
# モデルフリー歪み補正による単眼カメラのキャリブレーション

Single-image camera calibration with model-free distortion correction ( http://arxiv.org/abs/2403.01263v1 )

ライセンス: Link先を確認
Katia Genovese(参考訳) カメラのキャリブレーションは、正確な定量的測定を必要とするコンピュータビジョン応用において最も重要なプロセスである。 zhang氏が考案した一般的な方法は、複数のポーズでキャプチャされたfiducial pointの平面グリッドの多数の画像を使用することだ。 柔軟で実装が容易だが、Zhangのメソッドにはいくつかの制限がある。 予め定義された歪みモデルの係数を含むパラメータ集合全体の同時最適化は、画像境界における歪み補正の低さや、合理的に小さな再射誤差であっても固有のパラメータの誤計算をもたらす可能性がある。 実際、画像ストレッチ(マルチカメラシステムなど)を含むアプリケーションは、画像の最も外側の領域まで正確な歪みのマッピングを必要とする。 さらに、本質的なパラメータは、ロボットナビゲーションにおける視覚サーボや自動組立などのアプリケーションの基本となるカメラポーズ推定の精度に影響する。 本稿では,センサ全体をカバーする平面スペックルパターンの単一画像から,キャリブレーションパラメータの完全な集合を推定する方法を提案する。 デジタル画像相関を用いて校正対象の画像点と物理点との対応を求める。 主点を予め評価した後、有効焦点長と外部パラメータを別々に算出する。 手順の最後には、画像全体にわたって、密集した一様モデルフリーな歪みマップが得られる。 ノイズレベルの異なる合成データを用いて,提案手法の有効性を検証し,その有効性を張の手法と比較した。 実世界のテストは、複数の画像の平均化によって隠れている画像形成の側面を明らかにするために開発された方法の可能性を実証する。

Camera calibration is a process of paramount importance in computer vision applications that require accurate quantitative measurements. The popular method developed by Zhang relies on the use of a large number of images of a planar grid of fiducial points captured in multiple poses. Although flexible and easy to implement, Zhang's method has some limitations. The simultaneous optimization of the entire parameter set, including the coefficients of a predefined distortion model, may result in poor distortion correction at the image boundaries or in miscalculation of the intrinsic parameters, even with a reasonably small reprojection error. Indeed, applications involving image stitching (e.g. multi-camera systems) require accurate mapping of distortion up to the outermost regions of the image. Moreover, intrinsic parameters affect the accuracy of camera pose estimation, which is fundamental for applications such as vision servoing in robot navigation and automated assembly. This paper proposes a method for estimating the complete set of calibration parameters from a single image of a planar speckle pattern covering the entire sensor. The correspondence between image points and physical points on the calibration target is obtained using Digital Image Correlation. The effective focal length and the extrinsic parameters are calculated separately after a prior evaluation of the principal point. At the end of the procedure, a dense and uniform model-free distortion map is obtained over the entire image. Synthetic data with different noise levels were used to test the feasibility of the proposed method and to compare its metrological performance with Zhang's method. Real-world tests demonstrate the potential of the developed method to reveal aspects of the image formation that are hidden by averaging over multiple images.
翻訳日:2024-03-05 14:28:26 公開日:2024-03-02
# 高度な深層学習手法を用いた音声認識:サーベイ

Automatic Speech Recognition using Advanced Deep Learning Approaches: A survey ( http://arxiv.org/abs/2403.01255v1 )

ライセンス: Link先を確認
Hamza Kheddar, Mustapha Hemis, Yassine Himeur(参考訳) 近年のディープラーニング(DL)の進歩は,自動音声認識(ASR)にとって大きな課題となっている。 ASRは機密データを含む広範なトレーニングデータセットに依存しており、相当な計算とストレージ資源を必要とする。 適応システムは動的環境におけるASR性能を向上させる。 DLテクニックは、トレーニングとテストのデータが同じドメインに由来すると仮定します。 ディープトランスファーラーニング(DTL)、フェデレーションラーニング(FL)、強化ラーニング(RL)といった高度なDL技術はこれらの問題に対処する。 DTLは、小さいが関連するデータセットを使用した高性能モデル、FLはデータセットを所有せずに機密データのトレーニングを可能にし、RLは動的環境における意思決定を最適化し、計算コストを削減します。 この調査は、DTL、FL、RLベースのASRフレームワークの包括的なレビューを提供し、最新の開発に関する洞察を提供することと、現在の課題を理解する研究者や専門家を支援することを目的としている。 さらに,提案するASRフレームワークで多用される高度なDL技術であるトランスフォーマーについて,入力ASRシーケンスの広範な依存関係をキャプチャする能力について検討した。 論文は、DTL、FL、RL、Transformersの背景を提示し、次に、最先端のアプローチを概説するために、よく設計された分類法を採用することから始まる。 その後、各フレームワークの強みと弱みを特定するために、批判的な分析が行われる。 さらに、既存の課題を強調するために比較研究が行われ、将来の研究機会への道を開く。

Recent advancements in deep learning (DL) have posed a significant challenge for automatic speech recognition (ASR). ASR relies on extensive training datasets, including confidential ones, and demands substantial computational and storage resources. Enabling adaptive systems improves ASR performance in dynamic environments. DL techniques assume training and testing data originate from the same domain, which is not always true. Advanced DL techniques like deep transfer learning (DTL), federated learning (FL), and reinforcement learning (RL) address these issues. DTL allows high-performance models using small yet related datasets, FL enables training on confidential data without dataset possession, and RL optimizes decision-making in dynamic environments, reducing computation costs. This survey offers a comprehensive review of DTL, FL, and RL-based ASR frameworks, aiming to provide insights into the latest developments and aid researchers and professionals in understanding the current challenges. Additionally, transformers, which are advanced DL techniques heavily used in proposed ASR frameworks, are considered in this survey for their ability to capture extensive dependencies in the input ASR sequence. The paper starts by presenting the background of DTL, FL, RL, and Transformers and then adopts a well-designed taxonomy to outline the state-of-the-art approaches. Subsequently, a critical analysis is conducted to identify the strengths and weaknesses of each framework. Additionally, a comparative study is presented to highlight the existing challenges, paving the way for future research opportunities.
翻訳日:2024-03-05 14:28:06 公開日:2024-03-02
# プローブサンプリングによるグレディ座標勾配の高速化

Accelerating Greedy Coordinate Gradient via Probe Sampling ( http://arxiv.org/abs/2403.01251v1 )

ライセンス: Link先を確認
Yiran Zhao, Wenyue Zheng, Tianle Cai, Xuan Long Do, Kenji Kawaguchi, Anirudh Goyal, Michael Shieh(参考訳) 大規模言語モデルの安全性(LLM)は、その急速な進歩と幅広い応用から、中心的な問題となっている。 グリーディ座標勾配 (gcg) は, 潜在的に安全な llm を壊すための逆接尾辞を含むプロンプトの構築に有効であることが示されているが, gcg の最適化には時間がかかり, 実用性に制限がある。 本稿では,GCGの時間コストを低減し,LCM安全性のより包括的な研究を可能にするため,GCGアルゴリズムを高速化するために,$\texttt{Probe sample}$という新しいアルゴリズムを提案する。 アルゴリズムの核心は、より小さなドラフトモデルの予測が、プロンプト候補に対するターゲットモデルの予測とどの程度類似しているかを動的に決定するメカニズムである。 対象モデルがドラフトモデルと類似している場合,多くの候補候補をフィルタリングして計算時間を短縮するために,ドラフトモデルに大きく依存する。 プローブサンプリングは、Llama2-7bを使用して最大5.6ドルのスピードアップを達成し、AdvBench上での攻撃成功率(ASR)を同等または改善する。

Safety of Large Language Models (LLMs) has become a central issue given their rapid progress and wide applications. Greedy Coordinate Gradient (GCG) is shown to be effective in constructing prompts containing adversarial suffixes to break the presumingly safe LLMs, but the optimization of GCG is time-consuming and limits its practicality. To reduce the time cost of GCG and enable more comprehensive studies of LLM safety, in this work, we study a new algorithm called $\texttt{Probe sampling}$ to accelerate the GCG algorithm. At the core of the algorithm is a mechanism that dynamically determines how similar a smaller draft model's predictions are to the target model's predictions for prompt candidates. When the target model is similar to the draft model, we rely heavily on the draft model to filter out a large number of potential prompt candidates to reduce the computation time. Probe sampling achieves up to $5.6$ times speedup using Llama2-7b and leads to equal or improved attack success rate (ASR) on the AdvBench.
翻訳日:2024-03-05 14:27:41 公開日:2024-03-02
# scenecraft: 3dシーンをブレンダーコードとして合成するllmエージェント

SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code ( http://arxiv.org/abs/2403.01248v1 )

ライセンス: Link先を確認
Ziniu Hu, Ahmet Iscen, Aashi Jain, Thomas Kipf, Yisong Yue, David A. Ross, Cordelia Schmid, Alireza Fathi(参考訳) 本稿では,Large Language Model (LLM) エージェントであるSceneCraftを紹介し,テキスト記述をBlender-executable Pythonスクリプトに変換し,100個の3Dアセットで複雑なシーンを描画する。 このプロセスは複雑な空間計画と配置を必要とする。 高度な抽象化、戦略的計画、およびライブラリ学習の組み合わせを通じて、これらの課題に取り組む。 SceneCraftはまず、シーングラフを青写真としてモデル化し、シーン内の資産間の空間的関係を詳述する。 SceneCraftはこのグラフに基づいてPythonスクリプトを書き、関係をアセットレイアウトの数値的な制約に変換する。 次に、SceneCraftは、GPT-Vのような視覚言語基盤モデルの知覚力を活用して、レンダリングされた画像を分析し、シーンを反復的に洗練する。 このプロセスに加えて、SceneCraftは、共通スクリプト機能を再利用可能なライブラリにコンパイルするライブラリ学習機構を備えており、高価なLLMパラメータチューニングなしで継続的自己改善を容易にする。 以上の結果から,シーンクラフトは複雑なシーンのレンダリングにおいて既存のllmベースのエージェントを上回っており,制約への順守や好適な人間評価が示される。 また,sintel映画から詳細な3dシーンを再構成し,生成シーンを中間制御信号として映像生成モデルを誘導することで,シーンクラフトの幅広い応用可能性を示す。

This paper introduces SceneCraft, a Large Language Model (LLM) Agent converting text descriptions into Blender-executable Python scripts which render complex scenes with up to a hundred 3D assets. This process requires complex spatial planning and arrangement. We tackle these challenges through a combination of advanced abstraction, strategic planning, and library learning. SceneCraft first models a scene graph as a blueprint, detailing the spatial relationships among assets in the scene. SceneCraft then writes Python scripts based on this graph, translating relationships into numerical constraints for asset layout. Next, SceneCraft leverages the perceptual strengths of vision-language foundation models like GPT-V to analyze rendered images and iteratively refine the scene. On top of this process, SceneCraft features a library learning mechanism that compiles common script functions into a reusable library, facilitating continuous self-improvement without expensive LLM parameter tuning. Our evaluation demonstrates that SceneCraft surpasses existing LLM-based agents in rendering complex scenes, as shown by its adherence to constraints and favorable human assessments. We also showcase the broader application potential of SceneCraft by reconstructing detailed 3D scenes from the Sintel movie and guiding a video generative model with generated scenes as intermediary control signal.
翻訳日:2024-03-05 14:27:19 公開日:2024-03-02
# 双対グラフアテンションに基づく脳年齢推定のための複数インスタンス学習

Dual Graph Attention based Disentanglement Multiple Instance Learning for Brain Age Estimation ( http://arxiv.org/abs/2403.01246v1 )

ライセンス: Link先を確認
Fanzhe Yan, Gang Yang, Yu Li, Aiping Liu, Xun Chen(参考訳) 深層学習技術は、健康な人のMRIデータを分析して、脳年齢を正確に推定する大きな可能性を示している。 しかし、現在の脳年齢推定法は、入力画像全体を直接利用することが多い。 1) 異なる脳領域が異なる速度で縮退しうる脳老化の異種性 2)脳構造における加齢非依存冗長性の存在。 これらの制限を克服するため、脳年齢推定を改善するためのDGA-DMIL(Dual Graph Attention based Disentanglement Multi-instance Learning)フレームワークを提案する。 具体的には、インスタンスの袋として扱われた3D MRIデータは、2D畳み込みニューラルネットワークのバックボーンに入力され、MRIのユニークな老化パターンをキャプチャする。 次に,双対グラフ注意アグリゲータを提案し,instance内およびinter-instance間関係を利用してバックボーンの特徴を学習する。 さらに、年齢非依存構造表現から年齢関連特徴を分離し、年齢予測における冗長情報の干渉を改善するために、異角分枝を導入する。 提案手法の有効性を検証するため,英国バイオバンクとADNIの2つのデータセットを用いて,35,388人の健常者を対象に評価を行った。 提案モデルでは,脳年齢推定における異常な精度を示し,英国バイオバンクで2.12年間の絶対誤差を達成した。 その結果、他の競合脳年齢推定モデルと比較して、最先端のアプローチが確立された。 さらに、インスタンス貢献スコアは、老化予測のための脳領域のさまざまな重要性を識別し、脳老化の理解に関する深い洞察を提供する。

Deep learning techniques have demonstrated great potential for accurately estimating brain age by analyzing Magnetic Resonance Imaging (MRI) data from healthy individuals. However, current methods for brain age estimation often directly utilize whole input images, overlooking two important considerations: 1) the heterogeneous nature of brain aging, where different brain regions may degenerate at different rates, and 2) the existence of age-independent redundancies in brain structure. To overcome these limitations, we propose a Dual Graph Attention based Disentanglement Multi-instance Learning (DGA-DMIL) framework for improving brain age estimation. Specifically, the 3D MRI data, treated as a bag of instances, is fed into a 2D convolutional neural network backbone, to capture the unique aging patterns in MRI. A dual graph attention aggregator is then proposed to learn the backbone features by exploiting the intra- and inter-instance relationships. Furthermore, a disentanglement branch is introduced to separate age-related features from age-independent structural representations to ameliorate the interference of redundant information on age prediction. To verify the effectiveness of the proposed framework, we evaluate it on two datasets, UK Biobank and ADNI, containing a total of 35,388 healthy individuals. Our proposed model demonstrates exceptional accuracy in estimating brain age, achieving a remarkable mean absolute error of 2.12 years in the UK Biobank. The results establish our approach as state-of-the-art compared to other competing brain age estimation models. In addition, the instance contribution scores identify the varied importance of brain areas for aging prediction, which provides deeper insights into the understanding of brain aging.
翻訳日:2024-03-05 14:26:56 公開日:2024-03-02
# DNAファミリー:重量共有NASをブロックワイズで強化

DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions ( http://arxiv.org/abs/2403.01326v1 )

ライセンス: Link先を確認
Guangrun Wang, Changlin Li, Liuchun Yuan, Jiefeng Peng, Xiaoyu Xian, Xiaodan Liang, Xiaojun Chang, and Liang Lin(参考訳) 機械によるニューラルネットワークの自動設計を目的としたニューラルアーキテクチャサーチ(NAS)は、自動機械学習への重要なステップと考えられている。 注目すべきNASブランチは、検索効率を大幅に改善し、NASアルゴリズムを通常のコンピュータ上で実行可能にする重み共有NASである。 期待が高いにもかかわらず、この分類は検索効率の低下に苦しむ。 一般化有界性ツールを用いることで、この欠点の裏側にあるデビルが、可能なアーキテクチャの検索空間が大きすぎる信頼できないアーキテクチャ評価であることを示す。 この問題に対処するため,我々は大きな探索空間を小さな探索空間でブロックにモジュール化し,蒸留ニューラル・アーキテクチャ(dna)技術を用いたモデル群を開発する。 これらのモデル、すなわちdnaファミリーは、スケーラビリティ、効率性、マルチモーダル互換性など、重量共有nasの複数のジレンマを解決することができる。 提案したDNAモデルは、ヒューリスティックアルゴリズムを用いてサブサーチ空間にしかアクセスできない以前の研究とは対照的に、全てのアーキテクチャ候補を評価できる。 さらに,ある計算複雑性制約の下では,異なる深さと幅のアーキテクチャを求めることができる。 広範な実験結果から,モバイル畳み込みネットワークと小型視覚トランスフォーマのimagenetにおける最先端top-1精度は78.9%,83.6%であった。 さらに、神経アーキテクチャの評価に関する詳細な経験的分析と洞察を提供する。 コード: \url{https://github.com/changlin31/DNA}。

Neural Architecture Search (NAS), aiming at automatically designing neural architectures by machines, has been considered a key step toward automatic machine learning. One notable NAS branch is the weight-sharing NAS, which significantly improves search efficiency and allows NAS algorithms to run on ordinary computers. Despite receiving high expectations, this category of methods suffers from low search effectiveness. By employing a generalization boundedness tool, we demonstrate that the devil behind this drawback is the untrustworthy architecture rating with the oversized search space of the possible architectures. Addressing this problem, we modularize a large search space into blocks with small search spaces and develop a family of models with the distilling neural architecture (DNA) techniques. These proposed models, namely a DNA family, are capable of resolving multiple dilemmas of the weight-sharing NAS, such as scalability, efficiency, and multi-modal compatibility. Our proposed DNA models can rate all architecture candidates, as opposed to previous works that can only access a sub- search space using heuristic algorithms. Moreover, under a certain computational complexity constraint, our method can seek architectures with different depths and widths. Extensive experimental evaluations show that our models achieve state-of-the-art top-1 accuracy of 78.9% and 83.6% on ImageNet for a mobile convolutional network and a small vision transformer, respectively. Additionally, we provide in-depth empirical analysis and insights into neural architecture ratings. Codes available: \url{https://github.com/changlin31/DNA}.
翻訳日:2024-03-05 14:21:58 公開日:2024-03-02
# NeRF-VPT:ビュープロンプトチューニングによるニューラルラジアンスフィールドを用いた新しいビュー表現の学習

NeRF-VPT: Learning Novel View Representations with Neural Radiance Fields via View Prompt Tuning ( http://arxiv.org/abs/2403.01325v1 )

ライセンス: Link先を確認
Linsheng Chen, Guangrun Wang, Liuchun Yuan, Keze Wang, Ken Deng, Philip H.S. Torr(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しいビュー合成において顕著な成功を収めた。 それでも、斬新なビューのために高品質な画像を生成する作業は、重要な課題である。 既存の取り組みは、賞賛すべき進歩を示し、複雑な詳細を捉え、テクスチャを強化し、より優れたピーク信号対雑音比(PSNR)測定を達成し、さらなる注意と進歩を保証している。 本研究では,これらの課題に対処するための新しいビュー合成手法であるNeRF-VPTを提案する。 提案したNeRF-VPTは,先行レンダリング結果から得られたRGB情報を,その後のレンダリング段階のインストラクティブな視覚的プロンプトとして機能するカスケーディング・ビュー・プロンプト・チューニング・パラダイムを用いており,プロンプトに埋め込まれた事前知識がレンダリング画像品質の段階的向上を促進することを期待している。 NeRF-VPTは、追加のガイダンスや複雑なテクニックに頼ることなく、トレーニングステージ毎に前のステージレンダリングからRGBデータをサンプリングするだけである。 したがって、NeRF-VPTはプラグアンドプレイであり、既存のメソッドに簡単に統合できる。 リアルな合成360度,リアルなフォワード,レプリカデータセット,ユーザキャプチャデータセットといった,実際のベンチマークを要求する複数のnerf-vpt手法との比較分析を行い,本手法がベースライン性能を著しく向上させ,比較した最先端手法よりも高品質なノベルビュー画像を生成することを実証した。 さらに、NeRF-VPTのカスケード学習は、スパース入力を伴うシナリオへの適応性を導入し、スパースビュー新規ビュー合成の精度を大幅に向上させる。 ソースコードとデータセットは \url{https://github.com/freedomcls/nerf-vpt} で入手できる。

Neural Radiance Fields (NeRF) have garnered remarkable success in novel view synthesis. Nonetheless, the task of generating high-quality images for novel views persists as a critical challenge. While the existing efforts have exhibited commendable progress, capturing intricate details, enhancing textures, and achieving superior Peak Signal-to-Noise Ratio (PSNR) metrics warrant further focused attention and advancement. In this work, we propose NeRF-VPT, an innovative method for novel view synthesis to address these challenges. Our proposed NeRF-VPT employs a cascading view prompt tuning paradigm, wherein RGB information gained from preceding rendering outcomes serves as instructive visual prompts for subsequent rendering stages, with the aspiration that the prior knowledge embedded in the prompts can facilitate the gradual enhancement of rendered image quality. NeRF-VPT only requires sampling RGB data from previous stage renderings as priors at each training stage, without relying on extra guidance or complex techniques. Thus, our NeRF-VPT is plug-and-play and can be readily integrated into existing methods. By conducting comparative analyses of our NeRF-VPT against several NeRF-based approaches on demanding real-scene benchmarks, such as Realistic Synthetic 360, Real Forward-Facing, Replica dataset, and a user-captured dataset, we substantiate that our NeRF-VPT significantly elevates baseline performance and proficiently generates more high-quality novel view images than all the compared state-of-the-art methods. Furthermore, the cascading learning of NeRF-VPT introduces adaptability to scenarios with sparse inputs, resulting in a significant enhancement of accuracy for sparse-view novel view synthesis. The source code and dataset are available at \url{https://github.com/Freedomcls/NeRF-VPT}.
翻訳日:2024-03-05 14:21:33 公開日:2024-03-02
# 高次元土壌指数回帰 : ソーシャルメディアにおけるウイルスポストのテキスト解析への応用

High-Dimensional Tail Index Regression: with An Application to Text Analyses of Viral Posts in Social Media ( http://arxiv.org/abs/2403.01318v1 )

ライセンス: Link先を確認
Yuya Sasaki, Jing Tao, Yulong Wang(参考訳) ソーシャルメディアにおけるバイラルポストのクレジット(例えば「いいね」の数)の分布に関する経験的パワー法則に動機づけられ,高次元末尾指数回帰とそのパラメータの推定と推定の方法を紹介する。 正規化推定器を提案し,その一貫性を確立し,収束率を導出する。 そこで本研究では,正規化推定を脱バイアス化し,脱バイアス推定器の漸近正規性を確立することを提案する。 シミュレーション研究は私たちの理論を支持します。 これらの方法は、LGBTQ+に関するX(旧Twitter)のバイラルポストのテキスト解析に適用される。

Motivated by the empirical power law of the distributions of credits (e.g., the number of "likes") of viral posts in social media, we introduce the high-dimensional tail index regression and methods of estimation and inference for its parameters. We propose a regularized estimator, establish its consistency, and derive its convergence rate. To conduct inference, we propose to debias the regularized estimate, and establish the asymptotic normality of the debiased estimator. Simulation studies support our theory. These methods are applied to text analyses of viral posts in X (formerly Twitter) concerning LGBTQ+.
翻訳日:2024-03-05 14:21:00 公開日:2024-03-02
# 回路上のスケーラブルで一般化可能な学習のためのHop-Wise Graph Attention

Less is More: Hop-Wise Graph Attention for Scalable and Generalizable Learning on Circuits ( http://arxiv.org/abs/2403.01317v1 )

ライセンス: Link先を確認
Chenhui Deng, Zichao Yue, Cunxi Yu, Gokce Sarar, Ryan Carey, Rajeev Jain, Zhiru Zhang(参考訳) グラフニューラルネットワーク(GNN)は、様々な電子設計自動化(EDA)タスクにおける回路表現の学習に人気があるが、大きなグラフに適用するとスケーラビリティの課題に直面し、新しい設計に限定的な一般化性を示す。 これらの制限は、大規模で複雑な回路問題に対処する上で実用的でない。 本研究では,回路表現をスケーラブルで一般化可能な方法で学習するための新しい注意モデルHOGAを提案する。 HOGAはまず、モデルトレーニングの前にノード毎のホップワイズ機能を計算します。 その後、ホップワイズ機能は、グラフトポロジを伴わずに異なるホップ間の重要な特徴を適応的に学習するゲート自己アテンションモジュールを通じてノード表現を生成するためにのみ使用される。 その結果、HOGAは様々な回路の様々な構造に適応し、分散的に効率的に訓練することができる。 HOGAの有効性を示すために,結果の質(QoR)予測と機能的推論の2つのEDAタスクを検討する。 実験結果は,1)論理合成後のQoR予測における従来のGNNに対する推定誤差を46.76%削減し,2)複雑な技術マッピング後のゲートレベルネットリスト上の機能ブロックを特定するため,GNNに対する推論精度を10.0%改善し,(3)計算資源の増加に伴い,HOGAのトレーニング時間はほぼ直線的に減少することを示した。

While graph neural networks (GNNs) have gained popularity for learning circuit representations in various electronic design automation (EDA) tasks, they face challenges in scalability when applied to large graphs and exhibit limited generalizability to new designs. These limitations make them less practical for addressing large-scale, complex circuit problems. In this work we propose HOGA, a novel attention-based model for learning circuit representations in a scalable and generalizable manner. HOGA first computes hop-wise features per node prior to model training. Subsequently, the hop-wise features are solely used to produce node representations through a gated self-attention module, which adaptively learns important features among different hops without involving the graph topology. As a result, HOGA is adaptive to various structures across different circuits and can be efficiently trained in a distributed manner. To demonstrate the efficacy of HOGA, we consider two representative EDA tasks: quality of results (QoR) prediction and functional reasoning. Our experimental results indicate that (1) HOGA reduces estimation error over conventional GNNs by 46.76% for predicting QoR after logic synthesis; (2) HOGA improves 10.0% reasoning accuracy over GNNs for identifying functional blocks on unseen gate-level netlists after complex technology mapping; (3) The training time for HOGA almost linearly decreases with an increase in computing resources.
翻訳日:2024-03-05 14:20:49 公開日:2024-03-02
# TUMTraf V2X協調知覚データセット

TUMTraf V2X Cooperative Perception Dataset ( http://arxiv.org/abs/2403.01316v1 )

ライセンス: Link先を確認
Walter Zimmer, Gerhard Arya Wardana, Suren Sritharan, Xingcheng Zhou, Rui Song, Alois C. Knoll(参考訳) 協力的な認識は、自動運転車の能力の向上と道路安全性の改善にいくつかの利点をもたらす。 路面センサーとオンボードセンサーは信頼性を高め、センサー範囲を広げる。 外部センサーは、自動車両の状況認識を高め、閉塞を防ぐ。 本稿では,協調型マルチモーダル融合モデルであるcoopdet3dと,知覚データセットであるtumtraf-v2xを提案する。 私たちのデータセットには2,000のラベル付き点雲と5000のラベル付き画像が含まれています。 トラックIDと正確なGPSとIMUデータを備えた30kの3Dボックスがある。 8つのカテゴリをラベル付けし、交通違反、近距離イベント、超過、uターンなど、運転操作に挑戦する閉塞シナリオをカバーしました。 複数の実験を通して、我々のCoopDet3Dカメラ-LiDAR融合モデルが、車載カメラ-LiDAR融合モデルと比較して+14.363D mAPの増加を達成することを示す。 最後に、データセット、モデル、ラベリングツール、dev-kitをウェブサイトで公開しています。

Cooperative perception offers several benefits for enhancing the capabilities of autonomous vehicles and improving road safety. Using roadside sensors in addition to onboard sensors increases reliability and extends the sensor range. External sensors offer higher situational awareness for automated vehicles and prevent occlusions. We propose CoopDet3D, a cooperative multi-modal fusion model, and TUMTraf-V2X, a perception dataset, for the cooperative 3D object detection and tracking task. Our dataset contains 2,000 labeled point clouds and 5,000 labeled images from five roadside and four onboard sensors. It includes 30k 3D boxes with track IDs and precise GPS and IMU data. We labeled eight categories and covered occlusion scenarios with challenging driving maneuvers, like traffic violations, near-miss events, overtaking, and U-turns. Through multiple experiments, we show that our CoopDet3D camera-LiDAR fusion model achieves an increase of +14.36 3D mAP compared to a vehicle camera-LiDAR fusion model. Finally, we make our dataset, model, labeling tool, and dev-kit publicly available on our website: https://tum-traffic-dataset.github.io/tumtraf-v2x.
翻訳日:2024-03-05 14:20:21 公開日:2024-03-02
# 睡眠帯域に対する近接最適パーアクションレグレクト境界

Near-optimal Per-Action Regret Bounds for Sleeping Bandits ( http://arxiv.org/abs/2403.01315v1 )

ライセンス: Link先を確認
Quan Nguyen, Nishant A. Mehta(参考訳) 我々は、利用可能な腕のセットと各ラウンドの損失の両方が敵によって選択される睡眠用バンディットに対して、最適に近い行動毎の後悔の限界を導出する。 合計で$K$、各ラウンドで$A$の武器が$T$以上の場合、最もよく知られている上限は$O(K\sqrt{TA\ln{K}})$で、内部の睡眠不足を最小化することで間接的に得られる。 ミニマックス $\Omega(\sqrt{TA})$ 下界と比較して、この上界は$K\ln{K}$の余剰乗算因子を含む。 このギャップは EXP3, EXP3-IX および FTRL の一般化版を Tsallis entropy を用いて直接最小化し、従って位数 $O(\sqrt{TA\ln{K}})$ と $O(\sqrt{T\sqrt{AK}})$ の準最適境界を得る。 本研究は睡眠専門家のアドバイスで盗賊の設定まで拡張し,その過程でEXP4を一般化する。 これは、標準的な非スリーピング帯域に対する多くの既存の適応的および追跡的後悔境界に対する新しい証明につながる。 彼らの自信を報告する専門家の活気あるバージョンに結果を拡張することは、主に専門家の自信の総和に依存する信頼の後悔に対する新たな限界をもたらす。 我々は、任意のミニマックス最適アルゴリズムに対して、後悔が$T$のサブ線形であるが、その活性ラウンドの数に線形な作用が存在することを示す。

We derive near-optimal per-action regret bounds for sleeping bandits, in which both the sets of available arms and their losses in every round are chosen by an adversary. In a setting with $K$ total arms and at most $A$ available arms in each round over $T$ rounds, the best known upper bound is $O(K\sqrt{TA\ln{K}})$, obtained indirectly via minimizing internal sleeping regrets. Compared to the minimax $\Omega(\sqrt{TA})$ lower bound, this upper bound contains an extra multiplicative factor of $K\ln{K}$. We address this gap by directly minimizing the per-action regret using generalized versions of EXP3, EXP3-IX and FTRL with Tsallis entropy, thereby obtaining near-optimal bounds of order $O(\sqrt{TA\ln{K}})$ and $O(\sqrt{T\sqrt{AK}})$. We extend our results to the setting of bandits with advice from sleeping experts, generalizing EXP4 along the way. This leads to new proofs for a number of existing adaptive and tracking regret bounds for standard non-sleeping bandits. Extending our results to the bandit version of experts that report their confidences leads to new bounds for the confidence regret that depends primarily on the sum of experts' confidences. We prove a lower bound, showing that for any minimax optimal algorithms, there exists an action whose regret is sublinear in $T$ but linear in the number of its active rounds.
翻訳日:2024-03-05 14:20:03 公開日:2024-03-02
# 産業標準・先進半導体製造を用いた高コヒーレンス超伝導量子ビット

High-coherence superconducting qubits made using industry-standard, advanced semiconductor manufacturing ( http://arxiv.org/abs/2403.01312v1 )

ライセンス: Link先を確認
Jacques Van Damme, Shana Massar, Rohith Acharya, Tsvetan Ivanov, Daniel Perez Lozano, Yann Canvel, Mael Demarets, Diziana Vangoidsenhoven, Yannick Hermans, Ju-Geng Lai, Vadiraj Rao, Massimo Mongillo, Danny Wan, Jo De Boeck, Anton Potocnik, Kristiaan De Greve(参考訳) 超伝導量子ビット技術の発展は、実用的な量子コンピュータの構築に大きな可能性を秘めている。 量子プロセッサの複雑さが増大し続ければ、厳密な製造耐性の必要性はますます重要になる。 先進的な工業的製造プロセスを利用することで、量子プロセッサの継続的なスケーリングをサポートするために必要な製造制御が容易になる。 しかし、これらの産業プロセスは現在、高コヒーレンスデバイスを製造するために最適化されていないし、超伝導量子ビットを作るために一般的に使用されるアプローチと互換性がない。 本研究では,300mmCMOSパイロットラインで製造されたトランスモン量子ビットを産業的製造法を用いて初めて超伝導し,100マイクロ秒を超える緩和時間とコヒーレンス時間を実証する。 我々は,コヒーレンス,収量,変動性,老化など,我々のアプローチの妥当性を検証した大規模統計研究について述べる。 光リソグラフィーと反応性イオンエッチングのみを用いた産業規模の製造プロセスでは, 金属リフトオフ, 角度蒸発, 電子ビーム書き込みを用いた従来の実験室方式技術と同等の性能と収率を示した。 さらに、高度なメトロロジーを用いた3次元統合とプロセス最適化の追加、および処理パラメータとスプリットの公平な選択を含む、さらなるスケールアップの可能性も提供する。 この結果により、超伝導量子コンピューティングプロセッサのより信頼性が高く、大規模で、真のCMOS互換な製造が誕生した。

The development of superconducting qubit technology has shown great potential for the construction of practical quantum computers. As the complexity of quantum processors continues to grow, the need for stringent fabrication tolerances becomes increasingly critical. Utilizing advanced industrial fabrication processes could facilitate the necessary level of fabrication control to support the continued scaling of quantum processors. However, these industrial processes are currently not optimized to produce high coherence devices, nor are they a priori compatible with the commonly used approaches to make superconducting qubits. In this work, we demonstrate for the first time superconducting transmon qubits manufactured in a 300 mm CMOS pilot line, using industrial fabrication methods, with resulting relaxation and coherence times already exceeding 100 microseconds. We show across-wafer, large-scale statistics studies of coherence, yield, variability, and aging that confirm the validity of our approach. The presented industry-scale fabrication process, using exclusively optical lithography and reactive ion etching, shows performance and yield similar to the conventional laboratory-style techniques utilizing metal lift-off, angled evaporation, and electron-beam writing. Moreover, it offers potential for further upscaling by including three-dimensional integration and additional process optimization using advanced metrology and judicious choice of processing parameters and splits. This result marks the advent of more reliable, large-scale, truly CMOS-compatible fabrication of superconducting quantum computing processors.
翻訳日:2024-03-05 14:19:29 公開日:2024-03-02
# 画像に基づく食事評価:健康食板推定システム

Image-Based Dietary Assessment: A Healthy Eating Plate Estimation System ( http://arxiv.org/abs/2403.01310v1 )

ライセンス: Link先を確認
Assylzhan Izbassar and Pakizar Shamoi(参考訳) 食生活の栄養質は過去20年から30年の間に著しく悪化し、人々はしばしば低下を過小評価している。 この劣化とヘキティックなライフスタイルが組み合わさって、健康上の懸念がエスカレートした。 ハーバード大学の研究者たちは、健康を促進するためのバランスのとれた栄養プレートモデルを提案した。 本研究は,画像分析による食事の健康度評価を目的とした,革新的なイメージベース食事アセスメントシステムを提案する。 本システムでは,高度な画像分割と分類技術を用いて,プレート上の食品を分析し,その比率を評価し,ハーバード大学の健康な食事推奨に対する食事の付着度を算出している。 このアプローチは、機械学習と栄養科学を活用して、より健康的な食事選択のための行動可能な洞察を個人に与える。 4段階のフレームワークは、画像を分割し、アイテムを分類し、ハーバード健康食プレートの研究に基づいて栄養評価を行い、カスタマイズされた推奨を提供する。 プロトタイプシステムは,食事アセスメントのためのアクセス可能なエビデンスベースのツールを提供することにより,より健康的な食事習慣を促進する有望な結果を示している。

The nutritional quality of diets has significantly deteriorated over the past two to three decades, a decline often underestimated by the people. This deterioration, coupled with a hectic lifestyle, has contributed to escalating health concerns. Recognizing this issue, researchers at Harvard have advocated for a balanced nutritional plate model to promote health. Inspired by this research, our paper introduces an innovative Image-Based Dietary Assessment system aimed at evaluating the healthiness of meals through image analysis. Our system employs advanced image segmentation and classification techniques to analyze food items on a plate, assess their proportions, and calculate meal adherence to Harvard's healthy eating recommendations. This approach leverages machine learning and nutritional science to empower individuals with actionable insights for healthier eating choices. Our four-step framework involves segmenting the image, classifying the items, conducting a nutritional assessment based on the Harvard Healthy Eating Plate research, and offering tailored recommendations. The prototype system has shown promising results in promoting healthier eating habits by providing an accessible, evidence-based tool for dietary assessment.
翻訳日:2024-03-05 14:19:07 公開日:2024-03-02
# VNLP:トルコのNLPパッケージ

VNLP: Turkish NLP Package ( http://arxiv.org/abs/2403.01309v1 )

ライセンス: Link先を確認
Meliksah Turker, Mehmet Erdi Ari, Aydin Han(参考訳) 本研究では、トルコ語のための最初の専用、完全、オープンソース、文書化、軽量、プロダクション対応、最先端の自然言語処理(NLP)パッケージを提示する。 テキスト分割やテキスト正規化といった最も単純なタスクから、テキストやトークン分類モデルといったより高度なタスクまで、さまざまなツールが含まれている。 そのトークン分類モデルは、エンコーダと自己回帰モデルの両方である新しいアーキテクチャである"context model"に基づいている。 VNLPモデルによって解決されたNLPタスクには、感性分析、名前付きエンティティ認識、形態的分析 \& Disambiguation 、音声タグの一部に限られる。 さらに、事前訓練された単語埋め込みと対応するSentencePiece Unigramトークンが付属している。 vnlpにはオープンソースのgithubリポジトリ、readthedocsドキュメント、便利なインストールのためのpypiパッケージ、pythonとコマンドラインapi、すべての機能をテストするためのデモページがある。 その結果,トルコ語用の完全かつコンパクトで,インストールが容易で,使いやすいnlpパッケージが提供されました。

In this work, we present VNLP: the first dedicated, complete, open-source, well-documented, lightweight, production-ready, state-of-the-art Natural Language Processing (NLP) package for the Turkish language. It contains a wide variety of tools, ranging from the simplest tasks, such as sentence splitting and text normalization, to the more advanced ones, such as text and token classification models. Its token classification models are based on "Context Model", a novel architecture that is both an encoder and an auto-regressive model. NLP tasks solved by VNLP models include but are not limited to Sentiment Analysis, Named Entity Recognition, Morphological Analysis \& Disambiguation and Part-of-Speech Tagging. Moreover, it comes with pre-trained word embeddings and corresponding SentencePiece Unigram tokenizers. VNLP has an open-source GitHub repository, ReadtheDocs documentation, PyPi package for convenient installation, Python and command-line API and a demo page to test all the functionality. Consequently, our main contribution is a complete, compact, easy-to-install and easy-to-use NLP package for Turkish.
翻訳日:2024-03-05 14:18:46 公開日:2024-03-02
# VBART - トルコの映画。

VBART: The Turkish LLM ( http://arxiv.org/abs/2403.01308v1 )

ライセンス: Link先を確認
Meliksah Turker, Mehmet Erdi Ari, Aydin Han(参考訳) 本稿では,大規模なコーパスをゼロから事前訓練した最初のトルコ語列列列列大言語モデルであるVBARTについて述べる。 VBARTは、BARTモデルとmBARTモデルを基にしたコンパクトなLLMであり、LargeとXLargeの2種類がある。 微調整されたVBARTモデルは、抽象的なテキスト要約、タイトル生成、テキストパラフレーズ化、質問応答、質問生成タスクにおいて、従来の最先端結果を上回る。 将来のテキスト生成タスクとデータセットの微調整を可能にし、トルコ自然言語処理(NLP)研究の新しい道のりを刻む。 我々の研究は、トルコ語のための事前学習 LLM が最大3倍の多言語モデルに優れ、既存の結果を改善し、トレーニングと推論のための効率的なモデルを提供することを示す。 さらに, 単言語トークン化はOpenAIの多言語トークン化よりも7倍効率が高いことを示す。 最後に,既存の学習済みLLMを拡大する手法を導入し,Chinchilla Scaling Lawとシークエンス・ツー・シークエンス・マスキング言語モデルとの関連性に疑問を呈する。 当社の微調整されたモデル、トークン化および135gbのクリーンウェブコーパスは、hughingface.co/vngrs-aiで公開されている。

We present VBART, the first Turkish sequence-to-sequence Large Language Models (LLMs) pre-trained on a large corpus from scratch. VBART are compact LLMs based on good ideas leveraged from BART and mBART models and come in two sizes, Large and XLarge. Fine-tuned VBART models surpass the prior state-of-the-art results in abstractive text summarization, title generation, text paraphrasing, question answering and question generation tasks. They allow fine-tuning for future text generation tasks and datasets, carving a new path for Turkish Natural Language Processing (NLP) research. Our work shows that having a pre-trained LLM for Turkish outperforms up to 3x multilingual models, improving existing results and providing efficient models for training and inference. Moreover, we show that our monolingual tokenizer is 7x more efficient than OpenAI's multilingual tokenizer. Last but not least, we introduce a method to enlarge an existing pre-trained LLM and question the relevancy of Chinchilla Scaling Law to sequence-to-sequence masked language models. Our fine-tuned models, tokenizer and cleaned web corpus of 135 GB are publicly available at huggingface.co/vngrs-ai.
翻訳日:2024-03-05 14:18:25 公開日:2024-03-02
# ICC:マルチモーダルデータセットキュレーションのための画像キャプションコンクリートの定量化

ICC: Quantifying Image Caption Concreteness for Multimodal Dataset Curation ( http://arxiv.org/abs/2403.01306v1 )

ライセンス: Link先を確認
Moran Yanuka, Morris Alper, Hadar Averbuch-Elor and Raja Giryes(参考訳) ペアのテキストイメージデータに対するwebスケールのトレーニングは、マルチモーダル学習の中心になりつつあるが、野生のデータセットの非常に騒がしい性質に挑戦されている。 標準的なデータフィルタリングアプローチは、ミスマッチしたテキストイメージペアを削除することに成功しているが、セマンティックな関連性はあるものの、非常に抽象的で主観的なテキストを許可する。 これらのアプローチには、ノイズの多いデータセットで学習するための最も強力な信号を提供する最も具体的なサンプルを分離する機能がない。 そこで本研究では,画像参照のない字幕テキストを評価可能な新しい指標である画像キャプション具体性を提案し,その具体性や関連性をマルチモーダル学習に用いた。 提案手法は,マルチモーダル表現における視覚的セマンティック情報損失の測定に強力な基礎モデルを利用する。 本研究は, 単語・文レベルの両文の具体性評価に強く関連していることを示す。 さらに,iccを用いたキュレーションが既存のアプローチを補完することを示す。マルチモーダルなwebスケールデータセットから最高の品質のサンプルを選択することに成功し,リソース制約のある設定での効率的なトレーニングを可能にしている。

Web-scale training on paired text-image data is becoming increasingly central to multimodal learning, but is challenged by the highly noisy nature of datasets in the wild. Standard data filtering approaches succeed in removing mismatched text-image pairs, but permit semantically related but highly abstract or subjective text. These approaches lack the fine-grained ability to isolate the most concrete samples that provide the strongest signal for learning in a noisy dataset. In this work, we propose a new metric, image caption concreteness, that evaluates caption text without an image reference to measure its concreteness and relevancy for use in multimodal learning. Our approach leverages strong foundation models for measuring visual-semantic information loss in multimodal representations. We demonstrate that this strongly correlates with human evaluation of concreteness in both single-word and sentence-level texts. Moreover, we show that curation using ICC complements existing approaches: It succeeds in selecting the highest quality samples from multimodal web-scale datasets to allow for efficient training in resource-constrained settings.
翻訳日:2024-03-05 14:18:01 公開日:2024-03-02
# 強化学習による自動生成フィードバックの有効性向上

Improving the Validity of Automatically Generated Feedback via Reinforcement Learning ( http://arxiv.org/abs/2403.01304v1 )

ライセンス: Link先を確認
Alexander Scarlatos, Digory Smith, Simon Woodhead, Andrew Lan(参考訳) 知的学習システムやオンライン学習プラットフォームにおける大規模言語モデル(LLM)によるフィードバックの自動生成は、多くの学生の学習結果を改善する可能性がある。 フィードバックコンテンツは特に数学のような主題において有効でなければならず、問題や解決策、学生の誤りがどこにあるのかをモデルが理解する必要がある。 フィードバックはまた、考えられる誤解の説明や学生の励ましなど、効果的な教育戦略を反映するために教育的に有効である必要がある。 本研究では,正当性と整合性を考慮したフィードバックの自動生成と評価の両問題に対処する。 まず,GPT-4 が人間の記述や LLM 生成のフィードバックに効果的に利用できることを示す。 第2に,強化学習(rl)を用いた正確性とアライメントを最適化したフィードバック生成フレームワークを提案する。 具体的には、GPT-4のアノテーションを使用して、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、フィードバックペアよりも好みを生成する。 提案手法は,Llama 2 を用いて生成したフィードバックの正当性とアライメントを著しく向上させ,ケーススタディを用いて定性的に生成・評価システムを解析し,今後の課題について概説する。

Automatically generating feedback via large language models (LLMs) in intelligent tutoring systems and online learning platforms has the potential to improve the learning outcomes of many students. However, both feedback generation and evaluation are challenging: feedback content has to be valid especially in subjects like math, which requires models to understand the problem, the solution, and where the student's error lies. Feedback also has to be pedagogically valid to reflect effective tutoring strategies, such as explaining possible misconceptions and encouraging the student, among other desirable features. In this work, we address both problems of automatically generating and evaluating feedback while considering both correctness and alignment. First, we propose a rubric for evaluating math feedback and show that GPT-4 is able to effectively use it to annotate human-written and LLM-generated feedback. Second, we propose a framework for feedback generation that optimizes both correctness and alignment using reinforcement learning (RL). Specifically, we use GPT-4's annotations to create preferences over feedback pairs in an augmented dataset for training via direct preference optimization (DPO). We show that our methods significantly increase the correctness and alignment of generated feedback with Llama 2, an open-source LLM, qualitatively analyze our generation and evaluation systems using case studies, and outline several areas for future work.
翻訳日:2024-03-05 14:17:42 公開日:2024-03-02
# オンライン調達におけるサプライヤー勧告

Supplier Recommendation in Online Procurement ( http://arxiv.org/abs/2403.01301v1 )

ライセンス: Link先を確認
Victor Coscrato and Derek Bridge(参考訳) サプライチェーン最適化は健全で利益の出るビジネスの鍵だ。 多くの企業は、サプライヤとの契約にオンライン調達システムを使用している。 もっとも競争力のあるサプライヤーがこのような契約に入札することが不可欠である。 本研究では,道路貨物オンライン調達におけるサプライヤーの発見を支援するレコメンデーションシステムを提案する。 当社のシステムは、顧客ニーズや好みを考慮して、パーソナライズされたサプライヤレコメンデーションを提供することができる。 これはレコメンダシステムの新しい応用であり、オンライン調達のユニークな要件に合致した設計選択を求める。 実世界のデータを用いた予備的な結果が期待できる。

Supply chain optimization is key to a healthy and profitable business. Many companies use online procurement systems to agree contracts with suppliers. It is vital that the most competitive suppliers are invited to bid for such contracts. In this work, we propose a recommender system to assist with supplier discovery in road freight online procurement. Our system is able to provide personalized supplier recommendations, taking into account customer needs and preferences. This is a novel application of recommender systems, calling for design choices that fit the unique requirements of online procurement. Our preliminary results, using real-world data, are promising.
翻訳日:2024-03-05 14:17:18 公開日:2024-03-02
# Causal Mode Multiplexer: 異常なマルチスペクトルペデストリアン検出のための新しいフレームワーク

Causal Mode Multiplexer: A Novel Framework for Unbiased Multispectral Pedestrian Detection ( http://arxiv.org/abs/2403.01300v1 )

ライセンス: Link先を確認
Taeheon Kim, Sebin Shin, Youngjoon Yu, Hak Gu Kim, and Yong Man Ro(参考訳) RGBTマルチスペクトル歩行者検出は、昼夜操作を必要とする安全クリティカルなアプリケーションのための有望なソリューションとして登場した。 しかし、多スペクトル歩行者検出器がデータセットの統計的バイアスを学ぶため、モダリティバイアス問題は未解決のままである。 特に、マルチスペクトル歩行者検出のデータセットは、主にroto(日)とrxto(夜)のデータに分散しており、歩行者ラベルの大部分は、その熱的特徴を統計的に共生している。 結果として、マルチスペクトル歩行者検出器は、rotxデータのようなこの統計的な相関以上の例で一般化能力が低い。 この問題に対処するために,マルチスペクトル入力と予測の因果関係を効果的に学習する新しい因果モード多重化(CMM)フレームワークを提案する。 さらに,マルチスペクトル歩行者検出におけるモダリティバイアスを評価するために,新しいデータセット(ROTX-MP)を構築した。 ROTX-MPは主に、以前のデータセットに表示されていないROTXの例を含んでいる。 提案するCMMフレームワークは,既存のデータセット(KAIST, CVC-14, FLIR)と新しいROTX-MPによく適用可能であることを示す。 今後の研究のために、新しいデータセットを一般公開します。

RGBT multispectral pedestrian detection has emerged as a promising solution for safety-critical applications that require day/night operations. However, the modality bias problem remains unsolved as multispectral pedestrian detectors learn the statistical bias in datasets. Specifically, datasets in multispectral pedestrian detection mainly distribute between ROTO (day) and RXTO (night) data; the majority of the pedestrian labels statistically co-occur with their thermal features. As a result, multispectral pedestrian detectors show poor generalization ability on examples beyond this statistical correlation, such as ROTX data. To address this problem, we propose a novel Causal Mode Multiplexer (CMM) framework that effectively learns the causalities between multispectral inputs and predictions. Moreover, we construct a new dataset (ROTX-MP) to evaluate modality bias in multispectral pedestrian detection. ROTX-MP mainly includes ROTX examples not presented in previous datasets. Extensive experiments demonstrate that our proposed CMM framework generalizes well on existing datasets (KAIST, CVC-14, FLIR) and the new ROTX-MP. We will release our new dataset to the public for future research.
翻訳日:2024-03-05 14:17:08 公開日:2024-03-02
# 多値機械学習攻撃に対するフォトニックな物理的に不可避な関数のレジリエンス

A Photonic Physically Unclonable Function's Resilience to Multiple-Valued Machine Learning Attacks ( http://arxiv.org/abs/2403.01299v1 )

ライセンス: Link先を確認
Jessie M. Henderson, Elena R. Henderson, Clayton A. Harper, Hiva Shahoei, William V. Oxford, Eric C. Larson, Duncan L. MacFarlane, and Mitchell A. Thornton(参考訳) 物理的に拘束不能な関数 (PUF) は非線形に関連するチャレンジ応答対 (CRP) を用いて集積回路を識別する。 理想的には、CRPのサブセットが知られているとしても、課題と対応する応答の関係は予測できない。 以前の研究は、非光学プフに比べてセキュリティが改善されたフォトニックプフを開発した。 本稿では,このPUFの多値論理に基づく機械学習攻撃に対する感受性について検討する。 ランダムな確率よりも応答ビットを予測できるモデルをトレーニングするには,約1000個のCRPが必要である。 フォトニックPUFから大量のCRPを取得するという大きな課題を考えると,この攻撃に対するフォトニックPUFのレジリエンスを実証する。

Physically unclonable functions (PUFs) identify integrated circuits using nonlinearly-related challenge-response pairs (CRPs). Ideally, the relationship between challenges and corresponding responses is unpredictable, even if a subset of CRPs is known. Previous work developed a photonic PUF offering improved security compared to non-optical counterparts. Here, we investigate this PUF's susceptibility to Multiple-Valued-Logic-based machine learning attacks. We find that approximately 1,000 CRPs are necessary to train models that predict response bits better than random chance. Given the significant challenge of acquiring a vast number of CRPs from a photonic PUF, our results demonstrate photonic PUF resilience against such attacks.
翻訳日:2024-03-05 14:16:48 公開日:2024-03-02
# ノイズデータセットによる能動学習のコスト効率向上

Improve Cost Efficiency of Active Learning over Noisy Dataset ( http://arxiv.org/abs/2403.01346v1 )

ライセンス: Link先を確認
Zan-Kai Chong, Hiroyuki Ohsaki, and Bryan Ng(参考訳) アクティブな学習は、機械学習アルゴリズムがデータポイントを積極的に識別し、ラベル付けして学習を最適化する学習戦略である。 この戦略は、ラベルのないデータが多数存在するドメインでは特に有効であるが、これらのデータポイントをラベル付けするコストは違法に高価である。 本稿では,正のインスタンスを取得すると負のインスタンスに比べてかなり高いコストがかかる二分分類の事例について考察する。 例えば、金融業界、例えば貸金業のような金融業界では、デフォルトローンは、実質的な金融損失につながるポジティブな出来事である。 そこで本研究では,従来の不確実性サンプリングよりも広い範囲からサンプルを抽出できるシフト正規分布サンプリング関数を提案する。 提案手法では,提案するサンプリング関数は雑音と正のラベル選択を制限し,異なるテストデータセットに対するコスト効率が20%から32%向上することを示す。

Active learning is a learning strategy whereby the machine learning algorithm actively identifies and labels data points to optimize its learning. This strategy is particularly effective in domains where an abundance of unlabeled data exists, but the cost of labeling these data points is prohibitively expensive. In this paper, we consider cases of binary classification, where acquiring a positive instance incurs a significantly higher cost compared to that of negative instances. For example, in the financial industry, such as in money-lending businesses, a defaulted loan constitutes a positive event leading to substantial financial loss. To address this issue, we propose a shifted normal distribution sampling function that samples from a wider range than typical uncertainty sampling. Our simulation underscores that our proposed sampling function limits both noisy and positive label selection, delivering between 20% and 32% improved cost efficiency over different test datasets.
翻訳日:2024-03-05 14:09:41 公開日:2024-03-02
# ShapeBoost: 部分的パラメータ化と衣服保存強化による人体形状推定

ShapeBoost: Boosting Human Shape Estimation with Part-Based Parameterization and Clothing-Preserving Augmentation ( http://arxiv.org/abs/2403.01345v1 )

ライセンス: Link先を確認
Siyuan Bian, Jiefeng Li, Jiasheng Tang, Cewu Lu(参考訳) モノクロのrgb画像からの正確な人間の形状復元は、人間が異なる形状と大きさを持ち、異なる服を着ているため、難しい課題である。 本稿では,レアな体型でもピクセルレベルアライメントを実現し,異なる服装を身に着ける人にとって高精度な形状復元フレームワークであるshapeboostを提案する。 従来のpcaに基づく形状係数を用いたアプローチとは異なり,ヒトの形状を骨長と各部分スライスの平均幅に分解する新しい形状パラメータ化を採用する。 本手法は,半解析的形状再構成アルゴリズムを用いて,柔軟性と妥当性のバランスを実現する。 この新たなパラメータ化に基づいて,多様なボディ形状と正確なアノテーションを持つリアルな画像を生成するために,衣料保存データ拡張モジュールを提案する。 実験結果から,本手法は,多様な体型状況や多様な衣服状況において,他の最先端手法よりも優れていた。

Accurate human shape recovery from a monocular RGB image is a challenging task because humans come in different shapes and sizes and wear different clothes. In this paper, we propose ShapeBoost, a new human shape recovery framework that achieves pixel-level alignment even for rare body shapes and high accuracy for people wearing different types of clothes. Unlike previous approaches that rely on the use of PCA-based shape coefficients, we adopt a new human shape parameterization that decomposes the human shape into bone lengths and the mean width of each part slice. This part-based parameterization technique achieves a balance between flexibility and validity using a semi-analytical shape reconstruction algorithm. Based on this new parameterization, a clothing-preserving data augmentation module is proposed to generate realistic images with diverse body shapes and accurate annotations. Experimental results show that our method outperforms other state-of-the-art methods in diverse body shape situations as well as in varied clothing situations.
翻訳日:2024-03-05 14:09:23 公開日:2024-03-02
# 連続的なテスト時間適応モデルにおけるバイアスの緩和

Mitigating the Bias in the Model for Continual Test-Time Adaptation ( http://arxiv.org/abs/2403.01344v1 )

ライセンス: Link先を確認
Inseop Chung, Kyomin Hwang, Jayeon Yoo, Nojun Kwak(参考訳) 連続的テスト時間適応(Continuous Test-Time Adaptation, CTA)は、ソース事前トレーニングされたモデルを目標ドメインの継続的な変更に適応させることを目的とした課題である。 CTA設定では、ターゲットドメインがいつ変化するかをモデルが知らないため、テスト時間中にストリーミング入力の分布が大きく変化する。 重要な課題は、継続的に変化するターゲットドメインにモデルをオンライン的に適応させることです。 対象データの連鎖分布に常に適応するため,モデルは非常に偏りのある予測を示すことがわかった。 特定のクラスを他のクラスよりも頻繁に予測し、不正確な過信予測を行う。 本稿では,CTAシナリオの性能向上のためにこの問題を緩和する。 バイアス問題を緩和するため,クラスワイドな移動平均目標プロトタイプを信頼性の高いターゲットサンプルで作成し,それらを活用してクラスワイズな特徴をクラスタリングする。 さらに,対象の分布をソース分布に合わせることを目的として,対象の特徴を対応するソースプロトタイプに固定する。 提案手法は,既存のCTA法に適用した場合,大幅な適応時間オーバーヘッドを伴わず,顕著な性能向上を実現する。

Continual Test-Time Adaptation (CTA) is a challenging task that aims to adapt a source pre-trained model to continually changing target domains. In the CTA setting, a model does not know when the target domain changes, thus facing a drastic change in the distribution of streaming inputs during the test-time. The key challenge is to keep adapting the model to the continually changing target domains in an online manner. We find that a model shows highly biased predictions as it constantly adapts to the chaining distribution of the target data. It predicts certain classes more often than other classes, making inaccurate over-confident predictions. This paper mitigates this issue to improve performance in the CTA scenario. To alleviate the bias issue, we make class-wise exponential moving average target prototypes with reliable target samples and exploit them to cluster the target features class-wisely. Moreover, we aim to align the target distributions to the source distribution by anchoring the target feature to its corresponding source prototype. With extensive experiments, our proposed method achieves noteworthy performance gain when applied on top of existing CTA methods without substantial adaptation time overhead.
翻訳日:2024-03-05 14:09:08 公開日:2024-03-02
# LM4OPT:数学最適化問題の定式化における大規模言語モデルの可能性

LM4OPT: Unveiling the Potential of Large Language Models in Formulating Mathematical Optimization Problems ( http://arxiv.org/abs/2403.01342v1 )

ライセンス: Link先を確認
Tasnim Ahmed, Salimur Choudhury(参考訳) 自然言語処理の急速に発展する分野において、言語記述の数学的定式化への変換は、大規模言語モデル(LLM)から複雑な理解と処理能力を要求する、非常に困難な課題である。 本研究は, GPT-3.5, GPT-4, Llama-2-7bなどの顕著なLCMをゼロショットおよびワンショット設定で比較した。 以上の結果から,GPT-4は特にワンショットシナリオにおいて優れた性能を示した。 この研究の中心的な部分は、ノイズの多い埋め込みと特殊なデータセットを利用するLlama-2-7bのプログレッシブな微調整フレームワークであるLM4OPTの導入である。 しかし,本研究では,Llama-2-7bのような小型モデルのコンテキスト理解能力において,特に処理長と複雑な入力コンテキストにおいて,大きなモデルに比べて顕著なギャップが浮かび上がっている。 nl4optデータセットを用いた経験的調査により、gpt-4は、以前の研究で確立されたベースライン性能を上回っており、自然言語における問題記述のみに基づいて、さらに名前付きエンティティ情報に頼ることなく、f1-scoreを 0.63 で達成していることが明らかとなった。 GPT-3.5は、どちらも微調整されたLlama-2-7bより優れている。 これらの結果は、新しい応用領域におけるLLMの現在の能力をベンチマークするだけでなく、自然言語入力による最適化問題の数学的定式化における今後の改善の基礎となる。

In the rapidly evolving field of natural language processing, the translation of linguistic descriptions into mathematical formulation of optimization problems presents a formidable challenge, demanding intricate understanding and processing capabilities from Large Language Models (LLMs). This study compares prominent LLMs, including GPT-3.5, GPT-4, and Llama-2-7b, in zero-shot and one-shot settings for this task. Our findings show GPT-4's superior performance, particularly in the one-shot scenario. A central part of this research is the introduction of `LM4OPT,' a progressive fine-tuning framework for Llama-2-7b that utilizes noisy embeddings and specialized datasets. However, this research highlights a notable gap in the contextual understanding capabilities of smaller models such as Llama-2-7b compared to larger counterparts, especially in processing lengthy and complex input contexts. Our empirical investigation, utilizing the NL4Opt dataset, unveils that GPT-4 surpasses the baseline performance established by previous research, achieving an F1-score of 0.63, solely based on the problem description in natural language, and without relying on any additional named entity information. GPT-3.5 follows closely, both outperforming the fine-tuned Llama-2-7b. These findings not only benchmark the current capabilities of LLMs in a novel application area but also lay the groundwork for future improvements in mathematical formulation of optimization problems from natural language input.
翻訳日:2024-03-05 14:08:50 公開日:2024-03-02
# 一様 $\mathcal{C}^k$$$G$-不変および反対称関数の近似、埋め込み次元、および多項式表現

Uniform $\mathcal{C}^k$ Approximation of $G$-Invariant and Antisymmetric Functions, Embedding Dimensions, and Polynomial Representations ( http://arxiv.org/abs/2403.01339v1 )

ライセンス: Link先を確認
Soumya Ganguly, Khoa Tran, Rahul Sarkar(参考訳) 対称群 $\mathcal{s}_n$ on $n$ symbols の任意の部分群 $g$ に対して、一様 $\mathcal{c}^k$ に対して、$g$ 不変多項式による $g$ 不変関数の近似結果を示す。 完全対称函数(G = \mathcal{S}_n$)の場合、このことはザヘールら (2018) の和分解Deep Sets ansatz(英語版)を生じさせる。 特に、必要となる埋め込み次元は、対象関数の正則性、所望の近似の精度、および$k$ とは独立であることを示す。 次に、類似の手順により、各項が滑らかな完全対称関数と、最大$\binom{n}{2}$で次数の滑らかな反対称斉次多項式の積である、k$項の和として反対称関数の均一な$\mathcal{c}^k$近似が得られることを示す。 また、$K$の上と下の境界も提供し、$K$が対象関数の正則性、所望の近似精度、および$k$とは独立であることを示す。

For any subgroup $G$ of the symmetric group $\mathcal{S}_n$ on $n$ symbols, we present results for the uniform $\mathcal{C}^k$ approximation of $G$-invariant functions by $G$-invariant polynomials. For the case of totally symmetric functions ($G = \mathcal{S}_n$), we show that this gives rise to the sum-decomposition Deep Sets ansatz of Zaheer et al. (2018), where both the inner and outer functions can be chosen to be smooth, and moreover, the inner function can be chosen to be independent of the target function being approximated. In particular, we show that the embedding dimension required is independent of the regularity of the target function, the accuracy of the desired approximation, as well as $k$. Next, we show that a similar procedure allows us to obtain a uniform $\mathcal{C}^k$ approximation of antisymmetric functions as a sum of $K$ terms, where each term is a product of a smooth totally symmetric function and a smooth antisymmetric homogeneous polynomial of degree at most $\binom{n}{2}$. We also provide upper and lower bounds on $K$ and show that $K$ is independent of the regularity of the target function, the desired approximation accuracy, and $k$.
翻訳日:2024-03-05 14:08:23 公開日:2024-03-02
# DNA構造生理学を学ぶための連鎖思考とLLM

Chaining thoughts and LLMs to learn DNA structural biophysics ( http://arxiv.org/abs/2403.01332v1 )

ライセンス: Link先を確認
Tyler D. Ross, Ashwin Gopinath(参考訳) さまざまな実験データを統合し、テスト可能な仮説を生成することができるai科学者の将来の開発は、大きな可能性を秘めている。 これまでのところ、特異な科学的タスクに特化した機械学習モデルが作られてきたが、それ以外は汎用モデルの柔軟性が欠落している。 ここでは,汎用大規模言語モデルであるchatgpt 3.5-turboを用いて,dnaの構造生理学を学ぶことができることを示す。 サブタスク用に微調整されたモデルが結合することで、dna配列とその構造を解析および設計する能力が強化されることがわかりました。

The future development of an AI scientist, a tool that is capable of integrating a variety of experimental data and generating testable hypotheses, holds immense potential. So far, bespoke machine learning models have been created to specialize in singular scientific tasks, but otherwise lack the flexibility of a general purpose model. Here, we show that a general purpose large language model, chatGPT 3.5-turbo, can be fine-tuned to learn the structural biophysics of DNA. We find that both fine-tuning models to return chain-of-thought responses and chaining together models fine-tuned for subtasks have an enhanced ability to analyze and design DNA sequences and their structures.
翻訳日:2024-03-05 14:07:52 公開日:2024-03-02
# 拡散・流れモデルの高速サンプリングのための非定常解法

Bespoke Non-Stationary Solvers for Fast Sampling of Diffusion and Flow Models ( http://arxiv.org/abs/2403.01329v1 )

ライセンス: Link先を確認
Neta Shaul, Uriel Singer, Ricky T. Q. Chen, Matthew Le, Ali Thabet, Albert Pumarola, Yaron Lipman(参考訳) 本稿では,拡散流モデルの試料効率を向上させるための蒸留法であるBespoke Non-Stationary (BNS) Solversを紹介する。 BNSソルバは、既存の数値ODEソルバを確実に仮定し、その結果、これらのベースラインに対するサンプル近似(PSNR)を大幅に改善するノン定常ソルバのファミリーに基づいている。 モデル蒸留と比較して、BNSソルバは小さなパラメータ空間($200のパラメータ)、高速な最適化(桁違いの速さ)、サンプルの多様性の維持、そして従来のソルバ蒸留法とは対照的に、低ナトリウムNFE系におけるプログレッシブ蒸留のような標準的な蒸留方法とのギャップをほぼ埋める。 例えば、BNSソルバは、クラス条件の ImageNet-64 で 16 NFE を用いて 45 PSNR / 1.76 FID を達成する。 我々は,条件付き画像生成,テキスト・ツー・イメージ生成,テキスト2-オーディオ生成のためのBNSソルバを用いて実験を行った。

This paper introduces Bespoke Non-Stationary (BNS) Solvers, a solver distillation approach to improve sample efficiency of Diffusion and Flow models. BNS solvers are based on a family of non-stationary solvers that provably subsumes existing numerical ODE solvers and consequently demonstrate considerable improvement in sample approximation (PSNR) over these baselines. Compared to model distillation, BNS solvers benefit from a tiny parameter space ($<$200 parameters), fast optimization (two orders of magnitude faster), maintain diversity of samples, and in contrast to previous solver distillation approaches nearly close the gap from standard distillation methods such as Progressive Distillation in the low-medium NFE regime. For example, BNS solver achieves 45 PSNR / 1.76 FID using 16 NFE in class-conditional ImageNet-64. We experimented with BNS solvers for conditional image generation, text-to-image generation, and text-2-audio generation showing significant improvement in sample approximation (PSNR) in all.
翻訳日:2024-03-05 14:07:38 公開日:2024-03-02
# LLMが最新の挑戦に挑戦する! 中国の動的質問応答ベンチマーク

Let LLMs Take on the Latest Challenges! A Chinese Dynamic Question Answering Benchmark ( http://arxiv.org/abs/2402.19248v2 )

ライセンス: Link先を確認
Zhikun Xu, Yinghui Li, Ruixue Ding, Xinyu Wang, Boli Chen, Yong Jiang, Hai-Tao Zheng, Wenlian Lu, Pengjun Xie, Fei Huang(参考訳) LLM(Large Language Models)の能力をどう評価するかは、現在のLLM研究の焦点とホットトピックである。 これまでの研究によると、LLMの反復的な更新のコストが非常に高いため、最新の動的問題にうまく答えられないことが多い。 本稿では,中国のLLMが動的質問に答える能力を向上させるために,中国における最新のニュースに関連する質問対を含む中国の動的QAベンチマークCDQAを紹介する。 我々は,人間とモデルを組み合わせたパイプラインを通して高品質なデータを取得し,回答変化の頻度に応じてサンプルを慎重に分類し,llmsの能力をより詳細に観察する。 また,CDQA上での中国LLMの評価と分析を行った。 大規模な実験と貴重な洞察は、提案したCDQAが困難であり、さらなる研究に値することを示唆している。 我々は,我々の提供するベンチマークが,今後の中国の質問応答能力向上の鍵となるデータ資源の1つになると信じている。

How to better evaluate the capabilities of Large Language Models (LLMs) is the focal point and hot topic in current LLMs research. Previous work has noted that due to the extremely high cost of iterative updates of LLMs, they are often unable to answer the latest dynamic questions well. To promote the improvement of Chinese LLMs' ability to answer dynamic questions, in this paper, we introduce CDQA, a Chinese Dynamic QA benchmark containing question-answer pairs related to the latest news on the Chinese Internet. We obtain high-quality data through a pipeline that combines humans and models, and carefully classify the samples according to the frequency of answer changes to facilitate a more fine-grained observation of LLMs' capabilities. We have also evaluated and analyzed mainstream and advanced Chinese LLMs on CDQA. Extensive experiments and valuable insights suggest that our proposed CDQA is challenging and worthy of more further study. We believe that the benchmark we provide will become one of the key data resources for improving LLMs' Chinese question-answering ability in the future.
翻訳日:2024-03-05 12:20:41 公開日:2024-03-02
# Decompose-and-Compose:Spurious相関の緩和のための構成的アプローチ

Decompose-and-Compose: A Compositional Approach to Mitigating Spurious Correlation ( http://arxiv.org/abs/2402.18919v2 )

ライセンス: Link先を確認
Fahimeh Hosseini Noohdani, Parsa Hosseini, Aryan Yazdan Parast, Hamidreza Yaghoubi Araghi, Mahdieh Soleymani Baghshah(参考訳) 標準的な経験的リスク最小化(ERM)トレーニングは、分布内データのイメージ分類に有効であるが、分布外サンプルではうまく機能しない。 画像分類における分布シフトの主な原因の1つは、画像の構成的性質である。 具体的には、ラベルを決定するメインオブジェクトやコンポーネントに加えて、他のイメージコンポーネントも存在するため、列車とテスト環境間の入力分布のシフトにつながる可能性がある。 さらに重要なのは、これらのコンポーネントがラベルと相関する可能性があることだ。 この問題に対処するために,画像の要素の組み合わせに基づく構成的アプローチにより相関シフトに対する頑健性を向上させるDEC(Decompose-and-Compose)を提案する。 私たちの観測に基づいて、ermでトレーニングされたモデルは、通常、因果成分またはラベル(特にモデルが高い信頼度を持つデータポイント)に高い相関関係を持つコンポーネントのいずれかに非常によく参加します。 実際、素早い相関の量と因果成分や非因果成分に基づく分類の容易さにより、モデルは通常、より(高い信頼度を持つサンプルにおいて)これらの1つに付随する。 次に、まず、ERMで訓練されたモデルのクラスアクティベーションマップを用いて、画像の因果成分を同定する。 その後、画像に介入し、それらを組み合わせて、偽データを含む拡張データ上でモデルを再トレーニングする。 本研究は,高い解釈可能性とともに,グループラベルや訓練中の刺激的特徴に関する情報を必要とせず,画像に介入するグループバランス手法を提案する。 本手法は, 相関シフトにおけるグループラベルの監督量と同じである従来の手法と比較して, 全体として最悪のグループ精度を有する。

While standard Empirical Risk Minimization (ERM) training is proven effective for image classification on in-distribution data, it fails to perform well on out-of-distribution samples. One of the main sources of distribution shift for image classification is the compositional nature of images. Specifically, in addition to the main object or component(s) determining the label, some other image components usually exist, which may lead to the shift of input distribution between train and test environments. More importantly, these components may have spurious correlations with the label. To address this issue, we propose Decompose-and-Compose (DaC), which improves robustness to correlation shift by a compositional approach based on combining elements of images. Based on our observations, models trained with ERM usually highly attend to either the causal components or the components having a high spurious correlation with the label (especially in datapoints on which models have a high confidence). In fact, according to the amount of spurious correlation and the easiness of classification based on the causal or non-causal components, the model usually attends to one of these more (on samples with high confidence). Following this, we first try to identify the causal components of images using class activation maps of models trained with ERM. Afterward, we intervene on images by combining them and retraining the model on the augmented data, including the counterfactual ones. Along with its high interpretability, this work proposes a group-balancing method by intervening on images without requiring group labels or information regarding the spurious features during training. The method has an overall better worst group accuracy compared to previous methods with the same amount of supervision on the group labels in correlation shift.
翻訳日:2024-03-05 12:20:25 公開日:2024-03-02
# BLO-SAM: SAMのオーバーフィッティングによる最適化

BLO-SAM: Bi-level Optimization Based Overfitting-Preventing Finetuning of SAM ( http://arxiv.org/abs/2402.16338v3 )

ライセンス: Link先を確認
Li Zhang, Youwei Liang, Ruiyi Zhang, Pengtao Xie(参考訳) 数百万の画像とセグメンテーションマスクに事前訓練された基礎モデルであるSegment Anything Model (SAM)は、コンピュータビジョンの基本的なタスクであるセグメンテーションを著しく進歩させた。 その強みにもかかわらず、SAMは2つの大きな課題に直面している。 まず、特定のオブジェクトを自律的にセグメント化するのに苦労する。それは、ユーザーが手動でポイントやバウンディングボックスなどのプロンプトを入力して対象オブジェクトを識別するからだ。 第二に、samは、一般的にドメインイメージで構成されるプリトレーニングデータの分布と、ダウンストリームタスクで使用されるデータとの差があるため、医療画像などの特定の下流タスクに優れているという課題に直面している。 SAMを微調整するこれらの問題に対する現在の解決策は、しばしば過度に適合し、医療画像のような非常に限られたデータを持つシナリオにおいて顕著な問題となる。 これらの制限を克服するため,二段階最適化(BLO)に基づいてSAMを微調整するBLO-SAMを導入する。 提案手法では,手動のプロンプトを必要とせず,学習可能なプロンプト埋め込みを最適化することにより,自動画像セグメンテーションを可能にする。 さらに、モデルの重みパラメータをトレーニングし、トレーニングデータセットの2つの別々のサブセットにプロンプトを埋め込むことで、オーバーフィッティングのリスクを大幅に低減する。 BLO-SAMを一般分野および医療分野における多様なセマンティックセグメンテーションタスクに適用する。 その結果、BLO-SAMは様々な最先端画像セマンティックセグメンテーション法よりも優れた性能を示した。

The Segment Anything Model (SAM), a foundation model pretrained on millions of images and segmentation masks, has significantly advanced semantic segmentation, a fundamental task in computer vision. Despite its strengths, SAM encounters two major challenges. Firstly, it struggles with segmenting specific objects autonomously, as it relies on users to manually input prompts like points or bounding boxes to identify targeted objects. Secondly, SAM faces challenges in excelling at specific downstream tasks, like medical imaging, due to a disparity between the distribution of its pretraining data, which predominantly consists of general-domain images, and the data used in downstream tasks. Current solutions to these problems, which involve finetuning SAM, often lead to overfitting, a notable issue in scenarios with very limited data, like in medical imaging. To overcome these limitations, we introduce BLO-SAM, which finetunes SAM based on bi-level optimization (BLO). Our approach allows for automatic image segmentation without the need for manual prompts, by optimizing a learnable prompt embedding. Furthermore, it significantly reduces the risk of overfitting by training the model's weight parameters and the prompt embedding on two separate subsets of the training dataset, each at a different level of optimization. We apply BLO-SAM to diverse semantic segmentation tasks in general and medical domains. The results demonstrate BLO-SAM's superior performance over various state-of-the-art image semantic segmentation methods.
翻訳日:2024-03-05 12:19:56 公開日:2024-03-02
# 物体操作のための画像強化の活用:物体中心学習における解釈可能な制御性を目指して

Leveraging Image Augmentation for Object Manipulation: Towards Interpretable Controllability in Object-Centric Learning ( http://arxiv.org/abs/2310.08929v4 )

ライセンス: Link先を確認
Jinwoo Kim, Janghyuk Choi, Jaehyun Kang, Changyeon Lee, Ho-Jin Choi, Seon Joo Kim(参考訳) 人工ニューラルネットワークにおける結合問題は,シンボル的実体の観点から世界の理解を通じて人間レベルの認識能力を達成することを目的として,積極的に研究されている。 特にコンピュータビジョンの分野では、オブジェクト中心学習(OCL)は、オブジェクト表現やスロットを取得することで複雑なシーンをよりよく理解するために広く研究されている。 OCLの最近の研究は複雑な画像やビデオで進歩してきたが、オブジェクト表現に対する解釈可能性と相互作用性は、OCLの分野ではまだ約束を保っている。 本稿では,画像拡張戦略を利用して,スロット上での解釈可能な制御性学習の可能性を検討するために,画像拡張によるスロット注意(Slot Attention with Image Aug)を提案する。 また,スロットに対して反復的かつ可逆的な制御を導入することで,制御可能なスロットにおける持続可能性の概念を考案する。 広範な実証研究と理論的検証により,提案手法の有効性を確認し,オブジェクト表現の解釈可能かつ持続可能な制御を可能にする。

The binding problem in artificial neural networks is actively explored with the goal of achieving human-level recognition skills through the comprehension of the world in terms of symbol-like entities. Especially in the field of computer vision, object-centric learning (OCL) is extensively researched to better understand complex scenes by acquiring object representations or slots. While recent studies in OCL have made strides with complex images or videos, the interpretability and interactivity over object representation remain largely uncharted, still holding promise in the field of OCL. In this paper, we introduce a novel method, Slot Attention with Image Augmentation (SlotAug), to explore the possibility of learning interpretable controllability over slots in a self-supervised manner by utilizing an image augmentation strategy. We also devise the concept of sustainability in controllable slots by introducing iterative and reversible controls over slots with two proposed submethods: Auxiliary Identity Manipulation and Slot Consistency Loss. Extensive empirical studies and theoretical validation confirm the effectiveness of our approach, offering a novel capability for interpretable and sustainable control of object representations.
翻訳日:2024-03-05 12:19:29 公開日:2024-03-02